On Off and Beyond: Web Fountain[Protected by-ps.anonymizer.com]

新しいサイト↓に引っ越しました。コメント書き込みは、新しいサイトでお願いします。宜しくお願いします。
http://www.chikawatanabe.com

January 14, 2004
Web Fountain

IEEE Spectrum1月号Winner-Loser-Holy Grail。通信、電力、半導体、交通、コンピューティング、バイオエンジニアリング、の6分野で、2004年を予測して、「勝者」「敗者」「難しいんじゃないの(Holy Grail)」の3つを選んでいる。

(Holy Grailは「達成不可能に近い、非常に困難なゴール」という意味でよく使われる。イギリスのKing Arthur伝説に基づく。King Arthur伝説を全く知らない私には、なんのことやら、なのであるが、Holy Grailの一言だけ理解しておけば、困ることはない(ようだ)。Holy Grailは、キリストが、最後の晩餐で使った杯とのこと。)

コンピューティングの勝者は、IBMのWeb Fountain。去年の9月4日号のEconomistでもFountain of truth?として紹介されていたが、IBMが1億ドル以上の予算を投入、120人がかりで構築するウェブ発掘インフラ。シリコンバレーのはずれのAlmadenの研究所で開発されている。

Web Fountainはインターネット上のぐちゃぐちゃなデータの形式を整えて、さらに適当な単語の属性(XMLタグ)を付加して、より意味のあるサーチや分析ができるようにする、というもの。例えば、"Mount Fuji"という単語が出てきたら、「地理的言及」、「緯度XX」「経度XX」といったタグを足したりする。
(詳しくは、IBMのサイトへ)

ものすごく壮大なプロジェクトである。IBMのサーバ上のデータ量は160テラバイトととてつもなく超巨大。

なお、spectrumの紙媒体のほうの記事によれば、この過程を通じてIBMが発見したことは・・

  • ウェブの30%はポルノ

  • ウェブの30%は他の繰り返し

  • 一日に新たに変更されるのは5千万ページ

  • ウェブの65%は英語

  • なんだそうだ。なるほど・・・。

    さて、インターネット上の情報に、意味を付加しよう、というのはずっと言われてきたことで、90年代半ばからは、「XMLを使った意味付加」について喧々諤々の討論と、いろいろなトライ・エラーが行われてきたが、いつまでたってもたいしたことはできていない。

    それなら、ということで、全世界のウェブサイト(当然形式はみんな滅茶苦茶)を巡回して、力技で整理整頓してしまおうというIBMの力技。もしかして、120人のサイエンティストの裏に10万人くらいインドで雇っていて、人力でタグ付けしてたりしたら笑えるのだが、そういうことでもないようだ。大企業しかできないことを、大企業的にしっかりとやった、という中々見上げたプロジェクト。自分の持ち味を生かして、きっちりとした仕事をしている人や会社を見ると心が洗われるが、Web Fountainはまさにそれ。

    知り合いが、IBMで120人の一人としてプロジェクトに参画しているのだが、去年会ったときは、仕事は結構楽しいと、嬉しそうにしていた。ちなみに、Fortuneでは、Web Fountainのことを取り上げてHow Big Blue Is Turning Geeks Into Goldと去年特集していた。うーむ、私の知り合いはgeekしかいないんだろうか。。。。

    Posted by chika at January 14, 2004 11:21 PM | TrackBack
    Comments
    Post a comment
    Name:


    Email Address:


    URL:


    Comments:


    Remember info?