「ビッグデータ」というのが今、IT関係での流行語である。
いわゆるバズワード。定義が曖昧でその時点での流行をなんとなく説明する用語だったりして、トレンドを語るには便利だしそれを使うとなんとなく賢そうだったり専門家っぽさを醸し出したりするし、それでいて概念そのものは以前からある概念の言い換えに過ぎなかったりすることも往々にあるのが流行語というものだ。
しかし、「ビッグデータ」という言葉はその含みの大きさから様々な解釈を許す。拡大解釈が可能だということだ。今日はちょっと大風呂敷を広げてみたい。
そのきっかけはビッグデータをテーマにした興味深いブログを読んだこと。わかりやすく、そしてインスピレーションを受けた。
「ビッグデータ」のビッグ(Big)は「ビッグマック」のビッグとは違う。でも、やっぱり、数(量)は力なり・・なのだ。 ~明日のマーケティング by ルディー和子
2001年に発表されたIT調査会社ガートナーのレポートで、ビッグデータの3要素が明確にされ、その後、多少言葉がちがっていても、この3要素でビッグデータが定義されるようになっています。① 大容量(Volume) ② さまざまの種類のデータ(Variety) ③ 速さ/リアルタイム性(Velocity)の3つのVです。
TwitterやFacebookなどのソーシャルメディアに日々蓄積される膨大な情報。ケータイやスマホ、カーナビなどの持つGPSによって提供されるタイムスタンプをともなった位置データ。ログインにより個人を特定した状態で蓄積されていくネット上での購買履歴。リアルワールドにおいても同様な購買ログが残るSuicaやEdyといった電子マネー。ネットのアクセスログ。データとして蓄積される様々な行動履歴。
パソコン、ケータイ、スマホ、タブレット、ゲーム機、テレビ、HDDレコーダ、カーナビ、ICカード、携帯音楽プレーヤー、体重計、血圧計。様々な機器がCPUやLSIといった頭脳とデータを交換するための無線通信機能を持っている。人間の意図にあわせて機能を制御するための頭脳。今では機械は賢くなり外部環境にあわせてその機能を微妙に調整し最適化することを覚えつつある。その過程で様々なデータを処理するプログラム=頭脳。そのデータ処理を様々なケースとの比較やシミュレーションによって更に最適化するためのサーバーとのデータ交換。データ通信機能。そのことによって蓄積されていく膨大なデータ。
パターン化され形式化された構造化されたデータとは異なる非・構造化データ。非・形式的な、非・定型的なデータ。そうしたこれまではコンピュータが処理するのは苦手だったデータを対象としたデータ分析のトレンドがビッグデータという流行語が表している動きだ。
「ライフログ」という言葉も、人の日常行動に関連したデータに限定しているが、ほぼ、同じようなトレンドを指す言葉だ。今日、人の行動は様々なログをコンピュータの中に残す。そうした傾向はますます拡大している。量的にも、広がり(範囲・スコープ)的にも。
コンピュータ能力の拡大が、こうした非定型的な大量のデータ処理を経済的に可能にした(コストパフォーマンスの意味で)。一部の企業は、データ分析によりこれらのデータの変化とその主体である人間の行動の変化の相関関係を見つけ出そうとしている。購買行動などの人の行動の先行指標を見つけようとする動きだ。ある行動パターンから購買行動の変化を予測しようとする。
それは、原因と結果を結びつける因果関係の探求とは少し意味が違う。データ分析は説明理論を求めない。なぜある行動が購買に結びついたのかを説明するロジックは必要ない。ただそこに相関関係があるという事実だけがあればよい。理由はいらない。事実。そう、それは統計的な事実。必ずそうなるというものではない。そうなる確率が他のケースに比べて高いという確率論。
理屈ではなく、そうした統計的事実に基づいて意志決定を行う。そういう考え方だ。正解というものが存在しない世界。もしかしたらその購買は、データ分析には含まれなかった全く別の原因によって引き起こされたものかもしれない。例えば喫茶店でたまたま隣に座っていたかわいい子がそれをかわいらしく使っていたとか。
しかし扱うデータの量が大きくなると、統計的事実というものの重さは増す。一定の確率で事実の予想が可能になるといってよい。(関連付けるデータが正しく選ばれていれば、の前提だが。例えば血液型と購買行動の間の相関関係を分析することが有意だとは思われない。)
ビッグデータという定型、非定型を含めた大量のデータ分析を通じて企業がその活動を調整・制御・コントロールしていく。経済的な意味での最適化を目指す。経済環境への適合を通じて利益の最大化を図る。生産量や流通量、或いはプロモーションを調整する。個々の購買行動というミクロと、集計し統計処理されトレンドとして抽出されたマクロ。経済行動におけるミクロとマクロ。
そういう視点からみると、我々の行動はまさにデータの一要素となる。我々の存在はデータなのだ。そして我々はそういう時代を生きている。コンピュータネットワークの中での我々の存在はデータであり、データ処理の対象である。そうしたデータの一つ一つには今はまだ共通のIDが振られている訳ではない。その意味で現在の我々はまだアノニマスな存在だ。ネットワークの中に分散して存在しているデータ。だが遅かれ早かれそれらのデータには共通のIDが振られ、統合化されたデータとして処理されるようになるだろう。様々なデータベースに分散して蓄積されたデータが共通のIDにより統合され、一貫した対象として処理されるようになる。データレベルにおける個人の識別。Identify。コンピュータの内部で私という存在が再構成されるようなものだ。コンピュータによって私という存在が再定義される。そうした方向性は既に確定しており、変えられない流れであるように私には思われる。
ところで話は変わるが上で紹介したブログに書かれているGoogleの分散処理コンピュータの話は興味深い。90万台のコンピュータによって分散的に処理されるデータ。その目的は世界中の情報の統合と整理、関連付け。まるで人間の脳の情報処理の話しのようだ。人の脳内の神経細胞(ニューロン)の数は億単位に及ぶはずだ。そして脳の内部には中心はない。神経細胞は相互にリンクされて分散的に情報処理を行っている。脳内の1個の神経細胞の情報処理能力は、Googleの1台のコンピュータよりは劣っているだろう。おそらく。Googleのコンピュータ群の中には相互にリンクされた大量なドキュメントとしての言語体系が存在している。PageRankという関係性と共に。それは情報体系としての人間存在のあり方と極めて相似しているように私には思えるのだ。
Googleのコンピュータ群は、いまだそれをドキュメント単位で管理している。はずだ。そのマネジメント単位がワード(単語)単位にまで細分化されれば、それは更に脳に近づくことになるのではないだろうか。概念といってもいい。ドキュメント単位ではまだ粗いのだ。けれどもそれは情報処理におけるボリュームの問題なのかもしれない。
言葉をターゲットとしたコンピュータネットワークは人間の脳の言語処理に近づく。言葉は差異の体系であり連想の体系であり、リンクの体系であるからだ。言葉とは実体のともなわない相関関係であり、つながりの体系であることから、理論的にはその複製を創ることは可能であろうと思うのだ。
私は触ったことがないのだが、AppleのSiriというエージェント・プログラムは会話を返す仮想人格としておもしろい存在であるようだ。想像だが、コンテキストを解釈(理解)している訳ではなく、ワードレベルで反応しているだけだろう。カタコトを理解する外国人程度のコミュニケーションを擬似的に再生しているといったところだろうか。なんだかシーマンとか、脳内メーカーみたいなプログラムを私は連想するのだが、アプローチは様々だが、会話という手段(インターフェース)によるある種の人格シミュレーションの試みだという気がする。まだまだかなり不完全だが、トレンドの流れはつながっているように思われる。
そしてGoogleによる言語翻訳のアプローチも大変興味深い。文法とかそういうのを無視して得意の統計処理的に異なる言語間を結びつける。確かに一見、乱暴な方法論のように見えるがしかし。我々が幼児の頃に言葉を獲得するプロセスとは正にそのような試行錯誤の連続ではないだろうか。言葉の獲得は真似から始まる。決して文法から入る訳ではない。たくさんのたくさんの経験から学んでいくのだ。ニューロコンピュータ的アプローチといったらよいだろうか。
データの統計処理とは極めて帰納法的な方法だ。ひたすらにデータを集める。理論、理屈からは入らない。データは事実であるから。理論や理屈は事実ではない。人の頭がこしらえあげた抽象的なロジックでありフレームであり仮説だ。便利ではあるが事実ではない。言葉と同様に虚構であり仮想的で恣意的なものだ。外界を理解するための説明論でしかない。それは原理的に神話と同じものなのだ。人間はずっと神話的時代を生きているのだ。信じる神話が時代によって入れ替わっているだけだ。
話しがあっちこっちにとっちらかっているが、まあ仕方がない。紹介したブログがとてもわかりやすく、いろいろな連想がはたらいたということ。とっちらかっているのは私の頭の中だし。それにしても私はこのブログの中で繰り返し、今は変化の時代、ターニングポイント、革命の途中であると書いてきた。その主眼はインターネットというコンピュータネットワークが人間のコミュニケーションのあり方を変え、そのことを通じて情報体系であり言語体系である人間存在そのもののあり方も変わってゆくだろうというものだ。その変化はニュータイプという言葉を使ってよいくらいに画期的な、エポックメイキングな変化だと考えている。しかし、コンピュータネットワークのもたらす革新は、コミュニケーションの変化のみならず、今回このブログで考察したようなデータ処理によって、人間社会の行動決定もしくは意志決定のあり方も変えてゆくだろう。集団としての人間のあり方を変えてゆくだろう。データ主義という方法論のもつ変革のチカラもまた、極めて大きなものだ。これから先の10年は、本当に大きな変化の時代だろう。経済も、政治も、個々の人間のあり方も大きく変る転換期だろう。
その変化を生み出すのは地球を覆うコンピュータのネットワークなのだ。
コメント
コメントフィードを購読すればディスカッションを追いかけることができます。