ここでは,簡単に私の研究テーマについて説明します。
1.研究について ------- 情報の立場から見た生命 -------
私の研究室では,大きく分けて3つの研究テーマを取り扱っています。1つは,「学習理論」であり,残りの2つは,「バイオインフォマティクス」と「DNAコンピューティング」と呼ばれるものです。バイオとかDNAなど、情報系ではあまり耳にしないキーワードが出てきて,それぞれの研究テーマは大きく異なるように思われるかも知れませんが,「情報やコンピュータに関わる研究者の立場から見た生命」という観点から研究を進めています。
まず,私が学生時代から研究している最初の研究テーマは「学習理論」です。その中でも,特に興味があるのは,与えられたデータからその中に潜む規則性を知識として取り出すという問題です。専門用語では「例からの学習」と呼ばれています。これは,クイズ番組などでしばしば出題される Yes – No クイズと本質的には同じです。例えば,以下の表を見ながら,Yes の例に共通し,No の例には現れない規則を見つけてみてください。
Yes | No |
---|---|
学生の命令 | 教師の命令 |
新星の命名 | 新星の発見 |
正解者数名 | 正解者多数 |
精巧な名刀 | 精巧な時計 |
姓名判断 | 状況判断 |
生命現象 | 社会現象 |
(ヒント:それぞれの言葉をひらがなに直してみてください) (→答え)
荒っぽい言い方をすると,このような Yes-No クイズをコンピュータに解かせようとするのが「例からの学習」という研究テーマです。このような問題をコンピュータによって解くことができるようになると何が嬉しいのでしょうか?
それは,さまざまなデータの中に潜む規則性を自動的に抽出できるようになるということです。高度情報化社会の進展に伴い,世の中にはたくさんの情報やデータが氾濫しています。そのような大量のデータの中から有用な情報を抽出することは,とても重要なことです。最近は,このような大量データから有用な情報を高速に抽出することを「データマイニング」という新しいキーワードで呼んでいますが,その原型は「例からの学習」にあると言ってよいと思います。
このような大量の情報が存在する他の対象として興味深いのは,「生命」です。生物を習った人ならご存知と思いますが,生物の遺伝情報は DNA と呼ばれる生体高分子にあたかも A(アデニン), T(チミン), G(グアニン), C(シトシン)という記号のテキストのように書き込まれています。そして,それらの情報は個体差があり,個々人の微妙な遺伝情報の差が個々人の形態の差として現れていると理解されています。心疾患や癌にかかりやすい家系があることは,その家系の遺伝情報に起因していると思われているわけです。
荒っぽい言い方をすると,このような遺伝情報(テキスト情報)と形態の間の因果関係をコンピュータを用いて解析しようとするのが,「バイオインフォマティクス」という研究分野です。私は,生命に対する理解を深める研究に少しでも情報の立場から貢献できればという気持ちから,15年ほど前から遺伝情報を学習理論などを用いて解析する研究に着手しました。同じ時期に,やはり,情報工学や人工知能の分野で,アルゴリズム理論,データベース理論,形式言語理論,音声認識,自然言語処理,並列計算,学習理論,進化計算などを研究していた研究者たちが「バイオインフォマティクス」の分野に参入しているのを記憶しています。これらの人たちは,自分たちの理論やバックグラウンドを「生命現象を解析する」ことに「応用」しようという気持ちを持っていたと思います。つまり,生命を理解するために,情報工学を「道具」として用いる立場です。
一方,生命現象を情報工学を道具として解析しようという「バイオインフォマティクス」とは逆に,生命の維持に必要な生体高分子,特に DNA 分子,を道具としてコンピュータを作ろうという考えが 1994 年に生まれました。これは,理論計算機科学の重鎮の一人で RSA 公開鍵暗号の開発者としても名高い Leonard Adleman が Science 誌に発表した論文がきっかけでした。
上に説明したように DNA 分子は生物の遺伝情報を保持しています。その情報は親から子に継承されます。これは,DNA 分子に蓄えられているテキスト情報(遺伝情報)がコピーされて子供に与えられることを意味しています。つまり,生体の中には,情報をコピーするという「情報処理」を行う機能(具体的には酵素)が備わっているのです。そして,実際に,Adleman は そのような生体が持っている機能を利用しながらDNA 分子に,ハミルトンパス問題と呼ばれる計算問題を解かせることに成功しました。
これは,とても衝撃的な研究でした。そして,この研究をきっかけにDNA分子に計算をさせようという「DNAコンピューティング」の分野が生まれたのです。
私の研究の興味は,このように,情報工学に足場をおきながら,生命現象や遺伝情報を高速にコンピュータを道具として解析したり,逆に,生体高分子を道具として情報処理を行うことを理論的に考えることを研究しています。「学習理論」は情報工学の中の重要な足場の1つに相当します。
2.著書や翻訳書
以下のような著書や翻訳書の執筆にも携わっています。これらの研究の雰囲気がわかるのに役立てて頂ければ幸いです。
- 計算論的学習(榊原・小林・横森,培風館)
学習という問題を理論的に取り扱った教科書です。 - DNA コンピュータ(萩谷・横森編,培風館)
DNA コンピュータの理論と実験を解説した専門書です。
- DNA コンピューティング --- 新しい計算パラダイム ---
G. Paun, G. Rozenberg, A. Salomaa 著(横森・榊原・小林訳)
DNA コンピュータの理論を詳しく紹介した専門書です。
- 基礎・情報数学
横森 貴, 小林 聡 著(サイエンス社)
情報工学で必要な数学の基礎を扱った教科書です。
3.問題の解答
Yes | No |
---|---|
がくせいのめいれい | きょうしのめいれい |
しんせいのめいめい | しんせいのはっけん |
せいかいしゃすうめい | せいかいしゃたすう |
せいこうなめいとう | せいこうなとけい |
せいめいはんだん | じょうきょうはんだん |
せいめいげんしょう | しゃかいげんしょう |
上記のように,Yes の例にはすべて,せいめい(生命)というパターンが隠れています。