10億円あれば全体に公開
2008年03月01日23:56
ある政府系大型予算の話を聞いて、当時、考えたこと:

「僕に 10億円くれれば、(例えばGoogleに行ったような) 腕のあるエンジニアをスカウトして、Google + αの基盤ソフトを開発して、処理システムを組み上げて、ウェブのコンテンツなり何なりを集めて、それをみんな (誰?) でシェアする。これで、日本の研究開発をものすごく底上げできる。」

 Ansible Two - 星暁雄の雑記帳
 「情報共有(P2P)研究会」のこと
 http://d.hatena.ne.jp/HoshiAkio/20080301/1204358378

中国人とか、Microsoft Research とか、Yahoo! とかは、臆面もなく Google から出てくる限られた情報に基づいて、クローンの開発とか再現から始める。日本人だって、臆面なく、そこから始めたっていいじゃないか。大企業や funding agency にはそのくらいのお金や人的資源はあるのだから。

(ただ、今日では、Google File System, MapReduce, BigTable のクローンがすでに入手可能なので、やり方は少し違ってくる。)

コメント

arai2008年03月02日 03:33
地球シミュレータみたいな感じで一個日本に検索エンジンがあってもいいですね。
データだけみっちりあって、皆で好きなクエリを投げて実験できるようなやつ。
10億円もあればものすごいのができますね。

きのちゃん2008年03月02日 08:13
> 基盤ソフトを開発して、...それをみんな (誰?) でシェアする

昔、日本でUNIXのクローンを作ろうという通産プロジェクトがありました...結末はご存じのとおり。
問題はいくらお金をかけるかではなく誰がどういう志で行うか、ということなのです。

だから、「一個日本に検索エンジンがあっても」いいのですが、それに何十億かけても志とやり方が間違っていたら成果が出ません。正しいやり方を導ける志がある人がいれば、そのための資金を用意する道はたぶんあります。
まる2008年03月02日 11:18
首藤さん、十億円貰ったら、僕にも声かけて。
僕が貰ったら、首藤さんにも、声かけるから。
でも、宝くじ当たったら、誰にもいいません。
shinji2008年03月02日 12:30
http://www.igvpj.jp/index.php 情報大航海プロジェクト

のこと? 3年で150億円らしいですけど。懲りてないよな〜
ko12008年03月02日 15:13
入手できるGFSってどれのことでしょうか?
tekusuke2008年03月02日 15:54
んー、やっぱり誤解されやすいところなんですが、あのプロジェクトって「研究開発」じゃないんですよね。これは首藤さんのせいじゃなくて、プロジェクト自身がちゃんと外部とコミュニケーションできていないという100%プロジェクト側の責任なんですけど。

すごく有り体に言ってしまうと、たとえGoogleと同じ研究開発予算を使って、民間企業が、Googleと同じかそれよりチョイ上の技術を開発しても、今の日本じゃGoogleのような企業は絶対生まれないんですね。それは技術以前のところ(制度や企業風土、さらに言えば消費者や開発者のマインドセット)で足かせが大きすぎるから。

で、その大前提のところを、せめてちょっと変えましょうよ、というのが、あのプロジェクトなんですね。なので制度改正とかが実は大きなアウトプットになると思っています。
シュドウ2008年03月02日 16:53
> 今の日本じゃGoogleのような企業は絶対生まれない

エンジニアでもコンサルでもなく、起業家の立場でベイエリアで活動を始めているので、実体験として知り始めるはめになってます。
シュドウ2008年03月02日 17:37
> 地球シミュレータみたいな感じで一個日本に検索エンジンがあってもいいですね。

当時考えていたのは、次のどのレイヤを共有するのでもいいな、と。
・基盤ソフト
・処理システム
・検索システム

何をするにしても、大量のデータを扱うのなら、RAID でディスク並べて...なんてことをやってたらお金がいくらあっても足りない。安価なマシンとディスクを並べてやる必要があるのは明らか。また、ファイルシステムだからといって、POSIX だ階層ディレクトリだ、なんてことを言ってしまうと、メタデータアクセスの集中を避けられずに scale-out させられない。どうあれ GFS みたいなものが必要。
(同僚がやっていた産総研の gfarm も、当時の実装を調べたところ、アクセス集中を避けられない構造が残ってました。)

と、ここまではほとんど自明なのだから、GFS 的なものから作り始める必要があるのでは、と考えてました。
情報大航海のようなプロジェクトであればなおのこと。

ウェブのデータを使う研究をしてる人たちは、長年独力でウェブコンテンツを集めて、それを使って研究してます。(もしくは、Google に query を投げることで Google のデータを間接的に使う。) ウェブコンテンツを集めるところまで、機材、労力、ソフトについて協力できれば、その上にのっかる研究がずいぶんと促進されるんじゃ?と思うわけです。
ということを大学の方に言うと、集めたコンテンツを利用するところで著作権がほげほげ...なんていう話になってしまうのですが。。

どこで見たのか忘れましたが、Google の人のスライドで考えさせられたことがあります。
事例ベースの自然言語翻訳を Google の中の人がやっていて、事例データ量が 10倍、100倍となると、翻訳の精度が 40%, 60%, 80% という感じで上がっていく、というグラフがありました。この種の取り組みって、Google を含めた数社しかできないわけです。
(それを言ったら、プロセッサについて本当に現実的な取り組みは今や Intel, AMD しか...だったり、昔僕自身も、Javaのランタイムについて、現実的な取り組みは IBM と Sun しかできない状況を痛感したりしました。)
シュドウ2008年03月02日 17:43
...なんて、僕自身が評論家よろしく口ばっかりになってます。
でも本当にすごい人は、こういうことをぶちぶち言う前に動いてます。
先日お会いしたある方は、さらっと「GFS のパチモンを作った」とおっしゃってました。
お茶犬2008年03月02日 18:48
「入手できるGFS」とは、Hadoop Distributed File System、ではないでしょうか?
http://hadoop.apache.org/core/docs/current/hdfs_design.html
Makoto2008年03月03日 08:45
私にとっては、GFS(GoogleFileSystemのほう)の興味深いところは、
彼らが、自分たちのアプリケーションにとって必要なストレージの機能は何かというのをよくわかったうえで、それに特化したものを自分たちで作った(見方を変えれば、自分たちには何が不要で、何を自製しないかをよく考えた)、というところです。
例えば100MBクラスの大きなチャンクサイズやガベージコレクタによるリソース回収などは、個々に見れば技術的には新しい話題ではないですが、アプリをわかっているからこそ採用できた大胆な設計だという感想を持っています。

つまり、アプリからプラットフォームまでみたうえで全体の設計をして、個々の設計に落とし込む、こういうことができるような連携・体制ができると、既存の概念に捕われない面白い発想・ものができると。
自分の専門をもちながら、周りのことによく気をつけて、自分になにができるか考えて、みんなでワクワクニコニコきるものを提案してみる。
そういうことまでちゃんと考えられる技術者になりたいです :)
シュドウ2008年03月03日 09:07
Makotoさん
> 興味深いところは、
> 特化したものを自分たちで作った(見方を変えれば、自分たちには何が不要で、何を自製しないかをよく考えた)、というところです。

いつだったかは、お話できてよかったです。
(飲んだ後の立ち話だったけど。)

多分、大手メーカで分散ストレージを作ろう!ということになると、このアプリで使えないと、あのアプリで使えないと → POSIX 必須だよね、ってことになって (以下略)

一方で、Gmail も GFS を使って作られているそうで、とっても興味深いです。
GFS は、(もうかなり古い) 論文に書かれている限りは、けっこう大きな粒度 (数十MB) で扱い得る類のデータをターゲットに作られているわけで、これをメールの扱いとどうやって整合させているかは、公開されてないですよね。
整合させる術はあるとは思うのですが、どうやって整合させているか? と、もともと Gmail を狙って作られたわけではない GFS を使うという選択、判断の過程に興味があります。
安定稼動、実稼動の実績が大きく効いたのかな、とか。
2008年03月03日 09:24
>> 今の日本じゃGoogleのような企業は絶対生まれない
> エンジニアでもコンサルでもなく、起業家の立場でベイエリアで活動を始めているので、実体験として知り始めるはめになってます。

うーん。僕も、「何で日本にいるの?馬鹿じゃないの?」と言われ続ける生活を終わりにしないと…
kibayos2008年03月04日 01:05
http://www.nii.ac.jp/news_jp/2008/03/yahoo.shtml
なことになってますよ。首藤さん。

今日、このセッション聞いてたんですが、
提供される情報は、インデックス情報だけじゃなく、ユーザがアクセスした検索語情報も、だそうです。
で、「情報爆発」の研究者は、Web検索の弱点を研究していて、いろいろ面白いサービスの事例を挙げていました。
なかなか面白かったです。
じゅんじゅん2008年03月04日 05:14
> エンジニアでもコンサルでもなく、起業家の立場でベイエリアで活動を始めているので、実体験として知り始めるはめになってます。

こちらにいらした時に都合が合えば是非また食事でも:-)。