
LSKBは、ゲノム、化合物、疾患、組織に関する20箇所以上の公共、または供給されているデータソースを利用し、
それらを一定のアルゴリズムで収集、クリーンアップし、遺伝子、タンパク質や化合物構造や文献情報と
それらのアノテーションを網羅的に提供します。
特に4000万超の化合物は構造を基に可能な限り重複を取り除き、アノテーションと共に収録されています。
さまざまな検索や分析機能でタンパク質や化合物の機能推定、先行文献の調査、さらには化学構造式からの機能推定など、
多くの分析を可能としました。
キーワードで管理されたデータベースはBio Knowledgeで、構造式で管理された化合物はChem Knowledgeで使い分け
キーワード管理されたデータベース、Bio Knowledge
遺伝子、タンパク質、疾患、組織、化合物、オントロジー、オルソログ遺伝子、アッセイデータやPDB複合体化合物で 構成されており、これらの辞書と、これらの辞書を利用したPubMedの検索結果が含まれます。 このPubMedのテキスト検索結果はパスウエイやネットワーク解析では発見できない先行文献の調査や研究要素の調査に役立ちます。
化学構造式で管理されたデータベース、Chem Knolwege
Chem Knowledgeのデータベースは、公共化合物データベースに登録されている化合物を取りまとめ、
構造を基に可能な限り重複を取り除いた4000万超の化合物データに多くのアノテーションを付け纏め上げられています。
化学構造式からの文献検索や、結合タンパク質の検索、さらには高活性タンパク質の検索など行えることが
特徴的なナレッジデータベースとなっています。
データソースである、全PubChem、 ZINC、 DrugBank、PDB複合体リガンドの構造を、一時的にデータベース化し、 この集約された構造データから一定のアルゴリズムで塩やニュートラライズなどの前処理フィルタリングを実施した後、 構造を基に規定アルゴリズムで可能な限り重複を取り除き作成したものが、この巨大な化合物構造データベースとなっています。
この纏め上げられた辞書を利用して、PubMedのタイトル、アブストラクト、MeSHに対してキーワード検索を実施し、 文献との対応付けを行うことで、今まで不可能であった化合物構造からの文献検索情報の取得を可能にしました。
Knowledge利用による解析の可能性
遺伝子シノニム用語データベース(遺伝子情報の辞書化)>>機能から遺伝子を検索
EntrezGeneを基準に独自で収集した10万以上の遺伝子シノニムキーワードは、遺伝子のキーワード検索において広い範囲での 検索を実現します。断片的な機能用語から任意の遺伝子を抽出可能とするほか、変更、 削除された遺伝子も網羅されているので、遺伝子を見失うといったことが無くなります。
遺伝子情報の一括管理(遺伝子に紐づくデータ)>>遺伝子から紐づく様々な情報を効率的に取得
遺伝子からタンパク質やドメイン、さらには立体構造の関係が取得でき、逆に、同一ドメインを持つ遺伝子を 逆引きできる機能が付属しています。 その中でも特徴的なのは、公知のバイオアッセイ対象化合物や、 タンパク質が標的となっている既存治療薬の情報(データソース:DrugBank)、PDB複合体リガンド情報とその化合物構造、 などを簡単な操作で取得可能なことです。 これらの情報の抽出は、データベース化されている化合物アノテーション情報と 併せ創薬探索に必要な有意情報を提供し、短時間で分析可能となります。 さらには、文献の共記情報を利用した分析も 有意な情報といえます。
疾患データベース(辞書化された疾患データ)>>辞書としての活用と疾患オントロジー分析が可能
疾患は、炎症性疾患、循環器系疾患、代謝性疾患、脳・神経・精神疾患、感染症、免疫疾患、腫瘍、
内分泌疾患( Inflammatory disease, Cardiovascular disease, Metabolic Disease,
Brain and Neuron disease/ Mental disease, infectious disease, Immunological disease,
neoplasm, endocrine disease )とその他にカテゴライズされた用語約7900件を網羅しており、
CD10やMeSH、その他の情報と関連付けられ整理されています。
主に、マイクロアレイ標的遺伝子やアッセイ標的遺伝子、または化合物と文献の共記情報を利用した分析も有意であり、
疾患分析に利用されています。
4000万超の化合物データベース(辞書化された化合物データ)>>構造とキーワードがリガンド探索を支援する
Chem Knowledgeの主も特徴的な機能のひとつである化学構造式からの検索機能を利用します。PubChem、 ZINC、 DrugBank、FDA承認薬、PDB複合体リガンドなどのデータベースから精査した4000万超の化合物情報を利用することが 可能となっています。
同じ構造式を持った化合物の情報は、PubChem、 ZINC、 DrugBank、FDA承認薬、PDB複合体リガンドの情報および、
バイオアッセイやPharmacological Actionとともに同一画面で一覧表示されます。
構造の類似検索などを利用し、おじような構造式を持つ化合物、バイオアッセイ情報、文献情報など研究に役立つ情報を
網羅的に収集することが可能です。
オルソログデータベース(オルソログ遺伝子)>>機能解析で重要なヒト、と主モデル動物の情報取得
多くの生物の遺伝子IDリストやマイクロアレイプローブを利用して、ヒトとモデル動物としてマウス、ラット、
ゼブラフィッシュ間、もしくはこれら以外の生物種からヒトとモデル動物への遺伝子の変換が可能となっています。
遺伝子情報や機能情報が制限されている任意の生物種においては、機能情報の多いヒト遺伝子に置き換え解析することが
可能となります。LSKBに未登録の生物種のヒト、マウスなどとのオルソログ情報やマイクロアレイプローブの遺伝子情報は随時登録でき、機能解析に有効利用できるように設計されています。
各種キーワードによる文献検索結果を収録(文献検索結果、共記情報)>>文献検索結果と共記情の利用
LSKBにはPubMedをLSKBの遺伝子、化合物、疾患、組織それぞれの辞書をキーワードとして検索した結果が収録されています。
検索は辞書内のひとつひとつ全てののキーワードで行い、それぞれのキーワードに紐づく文献を独自のアルゴリズムで正確に
取得したたもののみをデータとして収録しています。
これらのキーワードを組み合わせることで思い通りの文献情報の取得ができ、先行文献調査にはかかせない定量的な情報が
提供されています。
さらに、各キーワードを組み合わせた共記情報のデータも取得し収録されています。
遺伝子、疾患、化合物、組織の辞書情報のキーワード検索の結果を2項関係の組み合わせで分析し、
文献数でランキングした情報が搭載されています。これは、同一文献上に共出現する2項関係分析データベースであり、
遺伝子と疾患の関係、遺伝子と化合物の関係などの情報は文献数でランキングし、それぞれの関係を共記文献の数によって
重み付けられた関連性の強さで定量的にかつ客観的に研究課題の多さ、少なさを評価するものとなっています。
マイクロアレイ解析などで求めた遺伝子リストを検索クエリーとし、それぞれの遺伝子とどのような化合物や疾患グループが 有意であるかを分析したり、高活性の化合物クラスターの機能的意味を遺伝子機能や疾患からなどの多方面から分析することが、 同一プラットフォームで実現できます。
PDBやアッセイからの抽出データ(バイオアッセイやPDBリガンド)>>タンパク質と化合物の直接の活性関係予測
タンパク質と化合物のリレーション機能を利用した活性関係予測です。PDB複合体リガンドの情報や、
NCBI PubChem BioAssayで活性のある化合物データをマイニングした情報を利用し、化合物とタンパク質の活性の情報や
ドッキングのパターンを推測可能とした機能となります。
これらのデータはLSKBからエクスポート機能で、Pathway解析ツールにインポートするなどし、
バイオロジカルなメカニズム解析をあらゆる角度から分析することも可能です。

