朝一で、大学へ。仕事を済ませて、大学近くの喫茶店で朝食(モーニング・セット)。雲は、なにやら、初秋のような気配だったけれど、今日も、たっぷり汗をかいた。
契約切れになるiPadの更新については、結局、Apple StoreでiPad mini 128GB SIMフリー版を購入して、MVNOと契約。この2年間は毎月5500円を某キャリアに払い続けてきたが、これからは毎月1000円弱。良い時代になったものだなぁと一瞬思いかけたんだけど、よくよく考えると、端末料金も加味して2年間でたかだか2万円ほどの差(たとえば au の新プラン「データシェア」のほうが明らかにトクだと思うが^^)。あとで気づいたんだけど、Apple Store の教育機関割引もたかだか数千円(たとえば au は14000円引きのキャンペーン中、でも端末の在庫がないでは仕方なかった、残念^^)。
図書館でたまたま手にした雑誌に、「ビッグデータ時代の統計解析法」(数学セミナー8月号)という記事。「ビッグデータ」の分析について、要点がコンパクトにまとめられている。
- 数千の大規模標本の場合、仮説検定はわずかな差でも帰無仮説を棄却する。検定は不向き。
- 与えられたデータが無作為標本かどうか、母集団が何であるかが、あいまい。
- 対象数(レコード数)の大きさは計算上はさほど問題にならないが、対象の識別、視覚化が困難。意味を持たない大量の個体を、何らかの共通概念を用いて、意味を持つ少数の「コンセプト」にまとめる等の工夫が必要(シンボリックデータ解析)。
- 一般的な多変量解析手法では、変量数の増加に伴って指数関数的に計算量が増える。変量数(フィールド数)が大規模の場合には、計算量について一定の吟味が必要(スパースモデリング)。
- 強引に多変量解析を行っても、「予測」という目的については多少は有効になりうるとしても、「説明」という目的に関してはほとんど解釈不可能。たとえば、主成分分析で10000の変量を3つの変量に縮約すると寄与率は極小となり、重要な情報はほとんど消えてしまう。寄与率をある程度大きくするために変量数を数百としてしまうと、次元の解釈はまず不可能。
帰路に、大阪市立中央図書館へ寄って、↓「写真家井上青龍の時代」の著者、太田順一さんの写真集をいくつか眺めた。「群集のまち」は、大阪市内の住宅や町並みを撮影して、各区ごとに整理したもの(熟知している場所も出てくるんだけれど、住所をまちがえているような・・・)。よく見ると、すべての写真に人間がまったく現れない(超長秒露光?)。
その図書館のなかに、あたりかまわず、のべつまくなしに、大きな声で雑談をしている3人組の年配の女性たちがいて、まわりの人たちが迷惑そうに睨み付けているのに、まったくおかまいなし。で、「ったくも〜、うるっせ〜な〜」と独り言を叫んでしまった。直後から、フロアじゅうがシーンと静まりかえった^^。あとで思うに、逆ギレされてかえって面倒なことになるケースもあろうから、こんなマネは次からはぜったいにやめておこうと反省。