saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  
Image-gathering & recognition (申し訳ありませんが,このページは2004年作成の古い内容のページです.近日中に最新研究成果と差し替える予定です.)

WWW からの自動画像収集 と 収集画像を用いた画像認識

WWWからの自動画像収集

 WWW(World-Wide Web)上には画像データが大量に存在しているが,WWWを画像デー タベースとして使うための手法は現状では確立していない.そこで,本研究で は,ユーザが入力したキーワードに対応する画像を大量にWWWから自動的に収 集するシステム Image Collector を実現する.

 Image Collector では,既存のテキスト検索エンジンを利用してキーワードに 関係するwebページに多数アクセスし,そのHTML文書からキーワードとの関係 の評価が高い画像のURLを抽出し,画像収集を行う.さらに,収集した画像を キーワード評価によって,A群,B群に分類し,評価の高いA群に対してはノイ ズ画像の除去を行い,それを一般の画像検索における質問画像であると見なし て,B群およびA群で除去された画像から画像特徴に基づく類似画像の選択を行 う.そして,A群, B群の両方からの選択画像を合わせて最終結果として出力す る.実験では,最初にキーワードを与えるだけで,5分程度の処理時間で100枚 以上の画像を収集することが出来る.

(クリックすると新しいwindowを開きます)


-->

関連文献

  • 新藤雅也, 柳井啓司, 野下浩平: PCクラスタを用いたWWWからの高速画像収集システム, 電子情報通信学会パターン認識・メディア理解研究会報告, PRUM2000-237 (2001/3).
  • Keiji Yanai: Image Collector: An Image-Gathering System from the World-Wide Web Employing Keyword-based Search Engines, Proc. of IEEE International Conference on Multimedia and Expo, pp.704-707 (2001/8).
  • Keiji Yanai, Masaya Shindo, Kohei Noshita: A Fast Image-Gathering System on the World-Wide Web Using a PC Cluster, Proc. of the 2001 International Conference on Web Intelligence (Springer LNAI no.2198), pp.324-334 (2001/10). (PDF file)
  • 柳井啓司: キーワードと画像特徴を利用したWWWからの画像収集システム, 情報処理学会論文誌:データベース, Vol.42, No.SIG10 (TOD11), pp.79-91 (2001/10). (PDF file) (注1)
  • 柳井啓司: Web画像収集における単語ベクトルの導入と画像特徴の改良, 電子情報通信学会パターン認識・メディア理解研究会報告, PRUM2002 (2003/1).
  • Keiji Yanai: Image collector II: A system gathering more than one thousand images about one keyword from the Web, Proc. of IEEE International Conference on Multimedia and Expo, (2003/7).
(注1)の著作物の利用に関する注意: 本著作物の著作権は(社)情報処理学会に帰属します.本著作物は著作権者である情報処理学会の許可のもとに掲載するものです.ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします.


WWW収集画像を用いた画像認識 (Web Image Mining)

 高速収集システムによって収集された画像を利用して,類似画像検索による画 像認識を試みる.具体的には,数種類のキーワードに関する画像を収集し,そ れらを学習画像とテスト画像に分ける.そして,それぞれの画像から抽出した 画像特徴量を比較することによって,テスト画像を学習画像の各クラスのうち 最も類似しているクラスに分類することによって認識を行う.

 6種類の画像を合計1200枚収集し,そのうち120枚(各クラス20枚)をテスト画像,残りを学習画像として実験をした結果を次の表に示す.

 今度は,20種類合計5694枚収集し,そのうち400枚(各クラス20枚)をテスト 画像,残りを学習画像として実験をした結果を次の表に示す.「ラーメン」 「金閣寺」は,それぞれ,「どんぶりを真上から写した画像」,「池の反対側 から撮った画像」という典型的な画像というのが存在するために認識率が5割 を越えている.一方,「イチロー」は,人物の画像で,様々な洋服を着ていて, さまざな場所での画像が含まれているので,まったくうまく分類出来なかった.

 このことから,世の中の画像には,バリエーションが少なくて比較的簡単な 方法で分類可能なクラスと,バリエーションがとても多くて分類が難しいクラ スが存在することがわかる.後者の方は,画像とモデルのマッチングという単 純な方法で解決不可能で,例えば「イチロー」の背番号51が画像中に写って いる場合,「マリナーズの51番=イチロー」という知識を利用することで認 識が可能となる.このように,クラスによっては認識する対象物に関するあら ゆる知識を統合して認識を行う必要がある.人間が普段何気なく行っている 「認識」をコンピュータに行わせることは非常に困難なことである.

 人間の様に認識するには様々な知識が必要であるが,その知識をコンピュー タにどうやって与えるかということは大きな問題である.これは従来の人工知 能研究の最も大きな問題であり,これを解決するために膨大な情報が存在する WWWから有用な知識を自動獲得するというウェブマイニングの研究が最近注目 を集めている.さらにウェブマイニングを容易にするために,Semantic Web が提案されている.ところがウェブマイニングの研究もSemantic Webもテキス ト情報のみに注目して行われており,ライオンはどういう姿をしているか? とか エア─ズロックはどんな形の岩? などと言った画像による表現が適切な 知識についてのWWWからの獲得の研究はほとんど行われていない.

 本研究では,分類クラスを表すキーワードに基づいてWWWから自動的に画像 を収集し,それを用いて一般画像の自動分類を実現を目指している.これは WWWからの画像分類(認識)のための画像に関する知識の自動獲得,つまりウェ ブ画像マイニングという新しい研究の提案であり,現在困難とされている 一般画像に対する自動認識の実現のための新しいアプローチである.

関連文献

  • Keiji Yanai: Generic Image Classification Using Visual Knowledge on the Web, Proc. of ACM Multimedia 2003, Berkely USA, pp.67-76 (2003/11). (ACM Digital Library) (PDF file)
  • 柳井啓司: 一般画像自動分類の実現へ向けた World Wide Webからの画像知識の獲得, 人工知能学会論文誌, Vol.19, No.5, pp.429-439 (2004/10). (PDF file)