同僚の先生が購入した某社の某データファイル。うまく読めないようだということで、わたしも拝見。拡張子こそ一応 CSV なんだけど、中身はどうやら、LRECL(170) RECFM(F/FB) という感じの旧式固定長ファイルを CD に焼いただけの様子、レコード数35万、漢字はJISコード(ただし漢字イン・アウトの制御コードなし)。いまどきこんなのを「商品」として売るかな~と、ちょっとあきれる。10年前にわたしが思ってたようなことは未だ有効?(「どんなデータにも対応しうるという意味で、データ処理にかかわる研究者にはプログラム言語が必須」)。というわけで、チョコチョコと3つのファイルに分割(正規化)して、とりあえず、マイクロソフト・アクセスに入れてみる。これもなんだか使いにくそうだけどしかたない(実ははじめて使ってみた^^;)。Postgres や MySQL を使うわけにはいかないし、さらに、ネットワークで共有してはいけないという条件がついているから。
ところで、このウェブログのRSS機能、漢字が化けていたようなので修正(こちらは、誰にとっても、何の意味もなし^^;)。