Top 学科紹介教職員一覧 > 個人ページ
photo

柳井 啓司 准教授

YANAI, Keiji

コンピュータ学講座

e-mail

1.はじめに

 私たち人間はライオンをみれば,ライオンだと分かるし,ゾウもサルもペンギンも分かります.もちろん動物だけでなくて,ラーメンも自転車も携帯電話も,世の中にある物は何でも,それが何であるか見れば瞬時に分かります.

 では,コンピュータはどうでしょう? コンピュータにライオンの写真を与えたらコンピュータはライオンと答えてくれるでしょうか? 答えはnoです.コンピュータは何でもできて,一見大変賢そうですが,コンピュータにとっては世の中の物を見分けることは大変難しいのです.

 動物園の檻の中のライオン,サファリパークの放し飼いのライオン,アフリカのサバンナのライオン,寝ているライオン,走っているライオン,餌を食べているライオンなどいろいろな状況があります.しかも,正面から,斜め横から,真横から,後方からと,いろいろな角度から見る場合もあります.こうした多様なライオンの写真に対して,人間は容易にライオンであると認識することができますが,コンピュータにとっては大変難しいことです.

いろいろな「ライオン」画像 いろいろな「ライオン」画像の例 (クリックで大きな画像へ)

 ライオンを見分けるコンピュータを作るには,どうやってライオンを見分けるかというライオンの認識に関する方法(アルゴリズム)と,ライオンとはどういうものであるかという明確な定義(知識)を人間がコンピュータに教えてあげないといけません.人間にとっては当たり前のことですが,我々は自分自身がどうやって認識できているのか分かりません.そのため,一般に人間が無意識で行っている知覚機能を,明確な方法と認識対象の定義が必要なコンピュータで実現しようとすると大変難しい問題となります.そのための方法を研究するのが,我々の研究です.「画像認識・理解(image recognition/understanding)」や「コンピュータビジョン(computer vision)」と呼ばれる研究分野です.

 すでにデジタルカメラに搭載されて実用化されている顔画像検出機能は,こうした研究の成果の一つであります.ただし,デジタルカメラの顔画像検出機能は,人間の顔専用の方法を使っていて,そのままでは世の中の様々な対象に用いることはできません.

 世の中に様々な物体がありますが,人間は数千,数万種類の物体を瞬時に認識できるといわれています.コンピュータは,1種類だけであっても難しい問題で,数千,数万という膨大な種類の物体を認識できる「何でも認識できるコンピュータ」の実現は,さらに難しい問題です.我々は,「何でも認識できるコンピュータ」の実現を究極の目標として,日夜研究を行っています.

 こうした「何でも認識できるコンピュータ」の実現を目指した研究をより細かい研究分野で言うと「一般物体認識」といいます.デジタルカメラの普及によって誰もが手軽に大量の写真を撮ることができるようになり,さらに,ネット上の写真共有サービスによって,様々な人が撮影した膨大な写真データベースにもアクセスできるようになった今日,コンピュータで写真を自動的に解析して,その中に写っている内容を何でも認識・理解する技術の研究は,コンピュータサイエンスにおいて重要な研究課題の1つになっています.

2.研究について

 当研究室では,「どんな画像でも認識できるコンピュータ」の実現のために,Webからそのための知識を自動的に収集する研究を行っています.これを「Web画像マイニング」と呼んでいます。

 Web上には,現在,多種多様な画像が存在します.Web上の画像は通常のキャプションなどの文字情報も付いていて,大量に画像とそれに付随するテキスト情報を集めて,統計的に処理することによって,例えば,様々なライオンの画像を自動的に収集することが可能となります.同様のことは,GoogleなどのWeb画像検索エンジンでも行うことができますが,我々の研究では画像認識技術を用いてそれよりもはるかに高い精度で様々な物体の画像を自動収集することが可能となっています.例えば,「ラーメン」画像を画像認識を用いてWebから収集すると,以下の図の様にラーメンの画像だけを収集することが可能となります.その他の結果の例はこちらのページで見ることができます.

「ラーメン」画像の例
Webから自動収集した「ラーメン」画像の例

 自動収集した画像は一般物体認識のための知識として利用します.人手で作った画像知識データベースは,例えば,ライオンなら,すべてライオンの写った画像ということになります.しかし,Webから自動収集した画像データは,精度が100%ということはなく,10%から50%程度の割合で,誤りの画像,つまりライオン以外のトラやネコ,場合によっては全く無関係な画像も入ってしまっています.こうしたノイズのある不完全な知識から正しく学習することは,我々の重要な研究課題の一つです.

 また,Web上の画像とテキスト情報を用いることによって,言語と画像との関係についても分析することができます.例えば,「赤い」「楽しい」「豪華な」などの形容詞や形容動詞のうち,どれが視覚的な概念(特徴的な画像が連想される概念)であるかを評価する方法を研究しています.また,名詞や動詞についても,Web上の画像や動画像を用いて,単語概念の視覚性について研究を行っています.この研究は,画像認識に用いる概念として適切なものを選び出す際に活用できます.

 他には,最近,Web上に多く存在するようになった撮影位置情報付き画像の分類・認識,テレビ映像,ビデオ映像など一般的な画像・映像に対する認識・自動要約の研究を行っています.

 研究成果は,積極的に「英語」で発表します.研究室では,4年生から英語の最新の論文を読んで勉強し,常に最先端の研究成果を意識して,研究を行います.ですので,自分たちの研究成果も世界に向けて発信します.最近は,卒業研究の成果を国際会議で発表する学生も毎年数名いて,頑張ると「出張」として海外旅行に行くことができます!

3.学生の皆さんへ

 研究には,基礎学力と,専門分野の知識,そして発想力が必要です.さらにそれに加えて,重要なのは健康と体力です.当研究室では,卒業研究配属後の4年生前期に画像認識に関する基礎知識を学び,多くのプログラミング課題をこなし,さらに英語の最新論文を読むトレーニングを行います.そして,さらに毎年夏休みには体力作りを兼ねて研究室のメンバーで富士山に登っています.

 実は,私は学生のころ夏休みのアルバイトで富士登山ガイドをしていましたので,富士山には40~50回くらいは登っていて,今でも,5月の雪がまだ多く残っている時期にスキーを担いで登って山頂から滑ったりしています.そのため,体力作りを兼ねて,普段は往復20kmを自転車で通勤しています.個人的には,ロッククライミングやバックカントリースキーも(最近はたまにですが)やっているので,そうしたことに興味ある学生さんは気軽に研究室を訪ねて下さい.