7/19/2008

テキストーム?:生物学のテキスト・マイニング

日々、膨大な量の論文が発表される。

すべての情報をフォローするのは、限りなく不可能に近い。ヒトの脳のキャパを超えている。今のGoogleや、wikipediaの力を借りてもやはり限界がある。

AIの手を借りて、もっとスマートに情報収集できれば、と多くの人が願っているはず。そんなAIの開発につながるテキスト・マイニングの記事がCellに載っていて面白かった。

テキスト・マイニングとは、テキスト化(自然言語化)された膨大な情報から、隠れたルールを見つけ出すこと、とでも言ったら良いだろうか。データ・マイニングのテキスト版。このテキスト・マイニングの方法を開発する研究分野は、natural language processing自然言語処理、略してNLP)という研究分野の一部で、それはさらにAI研究分野の一部でもあるらしい。

生物学(今回の文脈に限れば、神経科学も含めて良いか)でのテキスト・マイニングは、論文などテキスト化された膨大な情報を効率的に集約して、新しい研究につなげよう、というのがその目的だと思われる。

ようは、テキスト・マイニングしてくれるAIにお知恵拝借、というわけである。

---
この記事の構成は以下の通り:

1.テキスト・マイニングの各ステップの解説(以下参照)
2.テキスト・マイニングの評価法(コンペティションの紹介もアリ)
3.科学雑誌とデータベースの目的・性質の違いが生む問題点
4.セマンティック・ウェブの紹介
5.テキスト・マイニングの応用例4つ

---
以下では、テキスト・マイニングの5つのプロセスを、今回の記事に基づいて書いてみる。(*括弧内の日本語は、自分で勝手に訳したので、対応する日本語があるかと思います。調べてません、すみません。。。)

1.IR (information retrieve)(情報収集・検索)
2.NER (named entity recognition) (キーワード・単語の定義)
3.IE (information extraction)(情報抽出)
4.QA (question/answer) (質問・回答形式での情報利用)
5.TS (text summarization) (情報要約)

IRはgoogleやpubmedgoogle scholarがやってくれているのをイメージすれば良い。

NERIEはおそらく同時並行的に行われるステップなのだろう。NERはキーワード、オブジェクトの認識で、IEはそのオブジェクト間の関係を調べマッピングすることだと理解した。

オブジェクトを認識、定義するには、他のオブジェクトとの関係を理解しないといけない。例えば、新しい遺伝子Xが見つかって、それを定義したい場合、その遺伝子Xが組織Aで働いていて、遺伝子Yと相互作用する、あるいは、遺伝子XXと似ている、といったことを調べないといけない。そういうのに近い。

IEというのは、「遺伝子Xは組織Aで働いている」ことをコンピューター・AIに見つけさせることで、NERは遺伝子Xや組織Aを定義する、というのがとりあえずの目的なのだろう。だから、この二つのプロセスは切り離せそうにない。

記事では、このNERとIEをさらに詳しく解説されている。

次のQAというのは、IR、NER、IEの応用例、と考えたら良いか。調べたいことを尋ねて、教えてもらうわけである。その例として、MITの研究者が開発しているSTARTが紹介されていた。

試しに、意識とは何ぞや?と聞いてみた。


Consciousness is regarded to comprise qualities such as subjectivity, self-awareness, sentience, and the ability to perceive the relationship between oneself and one's environment. It is a subject of much research in philosophy of mind, psychology, neuroscience, and cognitive science.

と教えてくれた。簡潔で、下手な科学者より良い回答、とも言えそうか。

ついでに、どうやったらノーベル賞が取れる?とアホな質問を投げかけてみた。

昨年のノーベル賞受賞者の情報を教えてくれた。

俺は知らんが、こいつらに聞け。

ということなのだろう。たらいまわし戦略をとるくらい、このAIは賢いようである。。。

さらに、君はノーベル賞取れる?と聞いた。

同じ回答が来た。。。
こいつはノーベル賞取れんな。。。

脱線。

最後のTSに関しては、それほどスペースはさかれてなかったが、おそらくNERやIRやQAと明確に区別されるものではないのだろう。

新しい研究のモチベーションとなる仮説を教えてくれたりしたら、科学のテキスト・マイニングは大成功、と言って良いのかもしれない。

---
ついでに、この記事で表として紹介されていたテキストマイニングのページは以下の通り:

BLIMP
BioNLP Resources(Alexander Morganさんの個人ページ)
Dietrich Rebholz-Schuhmann(リンク集?Text Mining Tools集というのもアリ)
BIONLP.org
Literature mining for the biologist
From information retrieval to biological discovery
(各プロセスのリンク集)
What Is Text Mining? (Marti Hearstさんというプロの方がNYタイムズの記事にインスパイアされて書いたエッセイ。text miningでググるとwikipediaの次に出てくるくらい高ランクのエッセイ)

以上のリンクは、この分野に興味がある場合、良い情報源になる気がする。

ちなみに、Pubmedでtext miningで検索したら、342件ヒットした。面白そうなタイトルの論文も並んでいる。

---
最後に、この記事を読みながら思ったことを3点。

まず、この分野のポテンシャル。
この分野、ウェブを中心とした情報管理・活用方法をさらに変える気がする。ライフサイエンスだけでなく、検索サイトからウェブ広告のあり方もガラッと変えるポテンシャルがあるのだろう。きっとGoogleも開発に取り組んでいるのだろうけど、そのGoogleを過去の遺物にしてしまうくらいのポテンシャルが、この分野に眠っている気がした。

確かに、これが実現すると、まさにAIだし、科学の分野で限って言えば、例えば数十年後、論文の著者はAIのAさんみたいになるのだろうか。さらなる就職難のウェーブが来るな。。。

第二に、英語と日本語コンテンツ格差のさらなる拡大。

日本語は単語同士がつながっているから、AIにしたら、名詞や動詞の認識すら難しそう。基本的な部分での壁がたくさんある。

けど一方で、一旦その壁をクリアできれば、メタなレベルは同じアルゴリズムが適用できそうな気もする。

ということは、日本語から英語の翻訳モジュールを作りさえすれば良さそうだから、本質的なテキストマイニングの研究・開発は英語ベースでやれば十分、という気もする。テキストマイニングそのものは、英語ベース。それに、日本語―英語翻訳モジュールをアドオン的に追加する、という戦略が良いか?

第三に、カスタマイズ化について。
万人ウケするだけでなく、如何にマニアックなリクエストに応えられるか、というのも大事な気がする。

例えば、QA。かゆいところに手が届くような回答をQAにさせないといけない。質問者の「意図」を理解する必要があるから、質問の表面的な理解だけでは、まずい。質問者ごとにカスタマイズされたQAができないと、いけない気がする。人によっては、回りくどい質問をすることもあるから、その意味・意図をしっかり理解しないといけない。自然言語を超えた部分の処理が要求される。(BMIや脳活動のディコーディングでもしないとだめ?逆に言えば、この分野と脳科学の融合は超魅力的。)

カスタマイズする方法として、すぐに思いつく方法は、例えば、個人個人の検索ワード、その後の参照サイト、滞在時間などの膨大な「行動情報」を集めて、それに基づいて「好み」を設定して回答を考えたり、好みの似ているAさんとBさんを詳しく比較して(pairwise correlation?)、Bさんは知っているけど、Aさんは知らない情報をAさんに教えたり、、、そんなことができれば、IRのレベルでも随分と変わる。いろんな遊びができそうな気もする。

とにもかくにも、非常に面白い研究分野である。

---
紹介した文献
Cell. 2008 Jul 11;134(1):9-13.
Seeking a new biology through text mining.
Rzhetsky A, Seringhaus M, Gerstein M.

2 comments:

阿頼王 said...

Shuzoさんへ
昔、AIを使った、
“自己構築するデーター・ベース”
(当然、インター・ネットを使ってAIが構築して行く)ってのを考えた事があるんですけど、“テキスト・マイニング”ってそれに似ています。
ただ、わたしが考えていたのは、もちろん、アイデアとしてだけで、“How to”はもちろん解りません。
でも、そんな事が“現実に研究”されつつ有るのですね。
やっぱ、問題は、

「ユーザーがどんなデーター・ベースを構築したいのか」

ってことですよね。もちろん、AIに予め

「○○に関係したDB」

って指示していれば、良い訳ですけど、個人の検索傾向・時間をAIが自動解析して、

「おっ、こんなDB欲しかったんだ」

ってのも有りなんですね。
AI自体が元々、そう言う“ニューラル・ネットワーク”を構築するモノなんでしょうから、相性は良いでしょうね。

と、言いつつ、わたしは“ニューラル・ネットワーク”自体、良く解っていないのですけど、こういう“認識”“分析”“判断”等の非常に人間的な“精神活動”が、単なる電子版神経ネットワークによって可能になるのか不思議です(“脳”でも同様に、ニューロンのネットワークによってそう言う機能を獲得しているわけですけど)。

ここは世界的AIの権威である『天馬博士』(アトム=アストロ・ボーイ)の産みの親)にでも登場をお願いしたいところです^^

と、まあ冗談はこれくらいにしておいて、

「そう言う“機能”は、実際の“脳”のどの部位で処理されているのか」
         &
AIにおいて、あたかも“存在しているかの如き“自我”ですが、そもそも、『自分』と認識している“自我”の成り立ち。

を逆にAIの側から「一石を投じて」居るようで、非常に興味深いです。
“自我”は“心”は、果たして実在するや否やデス。

最近、熱帯夜続きで、体調も“脳”機能も著しく低下しており、ボ~ッとした頭でコメントを書いておりますので、ピントボケボケでも御容赦下さい。

Shuzo said...

阿瀬王さん、こんにちは。

ここでいうテキスト・マイニングは、処理目的というレベルでは、確かに私たちの脳がやっていることに似ている部分もありそうですけど、実装する場合は、必ずしも脳がやっている処理を真似る必要はないかもしれないですね。

一方で、脳が実際にやっていることから学んだり、テキスト・マイニングの進展から、アナロジーとして逆に脳・神経科学が学ぶこともあるかもしれないですね。

それから話は変わりますが、AIではなく、人がそのまま登場するのがwikiですね。

wikipediaやこれにインスパイアされた高品質の情報源が次々と現れつつありますから、AIvsヒト、という頭脳戦争がウェブ上で繰り広げられようとしているようにも思えなくもないです。

この戦争はユーザーサイドからしたら大歓迎ですね。