
NCBIがPubChemを公開して以来、多くの公共化合物データベースが誰にでも利用できるようになりました。しかし、その重複やノイズなどを評価すると、決して使い勝手が良いものではありません。
そこで、PubChemを含め多くの化合物データベースの重複をなくし、ひとつのシステムに集約することで、目的に合わせた構造検索ができるデータベースを構築しました。
今回搭載したデータは、既存薬、PDBに登録されているリガンド、購入可能な化合物、PubChemと、論文上に登録されている化合物といった5つの化合物サブセットを構築し、目的に合わせて検索対象を選択できるようになっています。
初回リリース版で準備されている化合物データは、既存薬としては、FDAやDrugBankから収集した約5,000; PDBからリガンドを抜き出したデータが約185,000; 購入可能な化合物としてはZINCに登録している約5,620,000; 一般の化合物データベースとして、PubChemを整理した化合物が約18,500,000; そして文献データベースであるMEDLINEに連結可能な化合物が約100,000です。
特にLSKB Chemical Extensiionでは文献に登録している化合物データベースに特徴があり、文献を分析することで、タンパク質や疾患などの情報に直接展開できるようになっています。
つまり、アップデートが面倒な公共化合物データベースを一極化し、目的別に構造検索ができるのと、化合物に関連する文献のさまざまな角度からの分析が一度にできるシステムなのです。
LSKB Chemical Extensionは、当社商品である基本LSKBに重複をなくした化合物情報と構造データを追加し、構造表示部分として、Tripos社のBenchware 3D Explorerを、構造検索エンジンには、同社のAuspyxを利用したFingerprintによる類似性検索システムをインテグレーションしたシステムです。
基本LSKBとは、化合物、タンパク質、遺伝子、ゲノム疾患、組織、などのアノテーションをまとめて搭載したデータベースで、マイクロアレイのプローブアノテーション、GO分析などの機能や、各種辞書の機能を持っていて、辞書を利用しての文献データ検索結果をあらかじめデータベース化しており、遺伝子、疾患、化合物、組織の関係を文献より分析した結果や、どの遺伝子と化合物の組み合わせでの研究が行われているとかの研究傾向を同時に分析できるシステムです。
ここでいう関連性とは相互作用ではなく文献の数によって重み付けられた関連性の強さ、もしくは新しい文献での出現頻度を元に計算された値で構成された指標である。もちろん関連性の詳細情報の相互作用への展開は、パスウエイソフトである、Pathway Studio Enterpriseで実現可能となっています。
化学構造からの検索のイメージは、図に示すように、未知の構造をISIS/DRAWや ChemDrawなどのスケッチャーで構造を作成し、LSKB Chemical Extensionのビュアーとして利用しているBenchware 3D Explorerにコピー& ペーストします。 文献情報とリンクした化合物データベースに対してSimilarity Search やExact Match検索を実行することで、形状が類似した化合物の記載がある複数の文献を得ることができます。
これらの文献を元に、遺伝子や疾患、症状、副作用などの分析や、化合物とタンパク質、タンパク質とタンパク質の相互作用の分析を行うことができます。
また、遺伝子を出発としてキーワード検索を行うことで遺伝子に関係する化合物ランキングを求めることが可能です。 リード的(興味のある)化合物を選択し、形状類似で関連のある化合物を並び替えや、化合物全体、もしくは既存薬だけ、もしくは購入可能な化合物だけを類似検索し、似たような活性の化合物を検索することも可能となっています。

