Twitterでたまたま見かけたサイト。Webのページを蓄積してあって、検索できる。それも過去のページを。Google検索のキャッシュページみたいなもんだな。
試しに、CNETジャパンの読者ブログを検索してみた。2009年6月のが出てきましたよ。
http://replay.waybackmachine.org/20090630045641/http://japan.cnet.com/blog/
懐かしいね。
インターネットはハイパーリンクの分散型データベースなんで、リンクでつながったページであれば追いかけることができる。あとはそれをコピーしてリンク構成ごと保存しておけばアーカイブができる。技術的にはWeb検索で普通にやられていることなんで、不思議でもなんでもない。
ネタとしても新しいネタではありません。ここのサイトのTerms of Use の日付が2001年3月10日になっているのでおそらくその頃から存在しているのだと思われ。ざっくりみたところでは、Internet Archive という非営利団体が運営する調査、学術目的のライブラリーというものらしい。
日々、保存している訳ではなく、月に2~3回の保存であるようだ。ストレージ容量の問題なんだろうな。非営利だし。
Webサイトというものは、デザインが変わったり、コンテンツが変わったりと、移り変わるものではある。データベースだと考えれば、データはどんどん上書きされて古いデータは消されていく。古いデータを参照する必要があるならば、保存する処理を別のプロセスとして走らせなければならない。ある意味では当たり前のことだ。
例えば、100年前の新聞は歴史を研究する上では役にたつだろう。その意味では100年後の人々にとっては興味深い研究対象になるのだろうね。歴史研究以上に、言語の研究において重要な研究対象になるのではないだろうかと思う。言語を解析するソフトウエアがもっともっと進化した時に、通時的・共時的に分析する対象として、デジタルテキストとしてのWebのアーカイブは貴重な研究資料になることだろう。なにしろ膨大な量だ。人間の思考ツールとしての言語の研究は、人間とは何かを知る上で、そして人工知能を研究する上で大きな意味をもつものだろう。
このサイトで、自分の過去のブログのアーカイブも検索してみた。
http://replay.waybackmachine.org/20090604125937/http://japan.cnet.com/blog/denkiami/
当時の記事自体は、ここのブロガーズネットワーク翼のブログにコピーしているので、過去のアーカイブにはノスタルジー以上の意味はない。けれども、当時の記事のコメントやトラックバックまではコピーしていないので、その点についてはこのアーカイブでしか見られないことになる。(コメントについては著作権上の扱いについてよくわからない点があったから。そんなにたくさんコメがあった訳でもないので重要性も低いと思ったのもある。)
私のブログに寄せられたコメントの中で、とても強く印象に残っていたものを、このアーカイブの中で見つけました。
http://replay.waybackmachine.org/20090318052414/http://japan.cnet.com/blog/denkiami/2009/03/15/entry_27021105/
自分の倍ほどの年齢の方からこのように共感していただけるということに、その思いも寄らぬつながりかたに、ブログというものの不思議を感じたのでありました。
投稿情報: 鍛冶 哲也 | 2011/01/23 08:38
これはかなり昔に教えてもらって、ときどき使っています。具体的な例では、数年前、ある顧客から依頼を受けたのですが、どうもその件の前後関係が不明で釈然としないことがありました。その顧客について検索をかけると、ホームページへのリンクがけっこう出てきたのですが、それは旧バージョンのホームページで、既に閉鎖されています。そこでこのWaybackMachineを使って調べると、出てきました。数年前にこの顧客がどういう活動をしていたのかが判明して、それで依頼内容がよく理解できました。このことはその顧客に対しては秘密ですが、よい仕事をするためにはこのぐらいのことはしなければならないのだと、自分で自分に言い訳をしています。
それでも都合が悪ければ、このアーカイブの情報を削除するよう申請もできるようです。別の顧客で、そういう削除を実行した人もいます。著作物なんかの場合、過去にWebで公開していたものを有料販売に切り替えることがあるわけですが、そんなときにこういう対策をとるようです。
投稿情報: Account Deleted | 2011/01/23 08:41
このようなサービスは、Googleがやればはるかにいいものができそうですけどね。まあ儲かるかどうかでいうとわかりませんが。
古いサイトについては、内容を訂正したり、ある理由があって削除したりといったケースもあって、見せたくないという場合も時にはあるのでしょうね。
新聞社のサイトなんかは、当日のニュースしか見せなかったりするし。過去のニュースを見たかったら有料で、ってね。
投稿情報: 鍛冶 哲也 | 2011/01/23 08:55
鍛冶さん
おおっ、これって意中の元読者ブロガーさんを探すのに参考になりますよ。
深掘り、有り難うございます!
投稿情報: Account Deleted | 2011/01/23 12:28
度々です。
ブロガーズ・ネットワーク 翼 へのリクルート
実は、
http://replay.waybackmachine.org/20060626030029/http://rblog-sec.japan.cnet.com/causu/
まきさんとかも誘ってます。
投稿情報: Account Deleted | 2011/01/23 14:49
↑なるほど。このアーカイブ、こんな使い方があるんですね。とてもわかりやすい利用例です。(^^)b
投稿情報: 鍛冶 哲也 | 2011/01/23 16:47