Web Service Hackathon 開催趣旨

背景

ライフサイエンスにおけるデータベースは、多様かつ巨大になりつつあり、これらを統合したデータベースを構築するにあたり、実際に既存のデータベースをミラーして利用するだけでなく、ウェブサービスにより分散環境のまま利用可能な形で統合するシステムを構築する必要に迫られている。

このため、バイオインフォマティクスの様々なデータベースやツールが日本では、DDBJ XML や KEGG API, PDBj, CBRC など、海外では EBI や NCBI などを中心として、SOAP/WSDL によるウェブサービスとして公開されるようになってきている。

また、myGrid プロジェクトや、BioMOBY プロジェクトなどにより、世界中で公開されている数十のウェブサービスを統合的に利用するためのインフラ整備が行われてきており、この分野の統合はウェブサービスで推進するのが現実的である。

この際に問題となってきているのが、サービスプロバイダごとの仕様や命名規則のバラツキと、受け渡しされるデータ構造が標準化されていないことである。 さらに、サービスが一時的に利用不可能だったり処理に失敗した場合などの挙動もサーバ依存である他、これら多くの仕様は十分にドキュメント化されていない。 また、ウェブサービスは本来プログラミング言語に依存しないものであるが、 実際には言語により利用できないサービスも散見される。

これらのサービス毎に異なる使い方の違いや、データ型変換、例外処理を利用するユーザが個々人で対応することは非効率であり、ウェブサービス化されているデータベースやツールがまだ少ないこともあって、各サービスを組み合わせたワークフローの構築は現状では非常に困難となっている。

DBCSLの取り組み

このため、統合データベースセンターにおいて、既存のウェブサービスの使い方とデータ型を調査し、命名規則や使い方が統一されたプロキシー的なサーバを構築することを予定している。この際に、

  • ドキュメントを十分に整備する
  • エラー処理については極力サーバ側で面倒を見る
  • できるだけ多くの主要な言語 Perl, Ruby, Python, Java で定期的な動作確認を行う
  • それぞれのサービス間での連携ができるよう、データ型の変換は極力サーバ側で行う
  • 複数ステップにわたるパイプライン処理をサーバ側で済ませることで効率化を図る

といった点を考慮したいと考えている。

すでに BioMOBY がウェブサービスのレポジトリとして同様な試みを行っているが、一次データベースである GenBank? に対して二次データベース RefSeq? が必要なように、一次的にウェブサービスを収集したあと、使えるサービスに整理し直すウェブサービスの二次データベース化が求められているといえる。

これらを実現することにより、多くの研究者に使いやすい環境を提供できるだけなく、ワークフロー構築のためのインフラとして機能することができ、結果的に、統合DBセンターと国内外の様々なウェブサービスプロバイダ、それぞれのアクセス数が飛躍的に向上することが見込まれる。

一方で、サービスの種類や質の増加も課題であり、統合DBセンターで開発される様々な統合データベースやサービスに対するウェブサービスの提供も並行して進めていくのが良いと思われる。

Hackathon の目的

サービスプロバイダごとの

  • メソッドの命名規則のバラツキ
  • 受け渡しされるデータ構造が標準化
  • ジョブ管理方法

などの統一を図る。

このため、各ウェブサービスの開発者、BioMOBY の開発者、各 Open Bio*ライブラリの開発者など、国内外の主要なメンバーを集めた開発会議を、1月か2月に1週間程度開催する。

現在、オープンバイオ(BioPerl?, BioPython?, BioJava?, BioRuby)の各プロジェクトで、バイオインフォのデータ型(クラス設計)はそれぞれバラバラに作られているが、ウェブサービスの型を基本として標準的なオブジェクト仕様を定義し、各言語でそれに準拠すれば、相互運用性の高いワークフローやサービスを構築するための基盤を作ることができる。

また、分散データベースの統合だけでなく、バイオインフォマティクスの解析を行うにあたって障壁となる、解析に必要なツールのインストールなど環境の構築も、ウェブサービスを利用する事により容易に行える。すぐに利用できるリモートのウェブサービスと、高速に利用可能なローカルの計算機資源をシームレスに利用できるクライアントの開発や、大規模処理が実行可能なサーバ側のグリッド環境の整備も課題である。