不親切なデータ

同僚の先生が購入した某社の某データファイル。うまく読めないようだということで、わたしも拝見。拡張子こそ一応 CSV なんだけど、中身はどうやら、LRECL(170) RECFM(F/FB) という感じの旧式固定長ファイルを CD に焼いただけの様子、レコード数35万、漢字はJISコード(ただし漢字イン・アウトの制御コードなし)。いまどきこんなのを「商品」として売るかな~と、ちょっとあきれる。10年前にわたしが思ってたようなことは未だ有効?(「どんなデータにも対応しうるという意味で、データ処理にかかわる研究者にはプログラム言語が必須」)。というわけで、チョコチョコと3つのファイルに分割(正規化)して、とりあえず、マイクロソフト・アクセスに入れてみる。これもなんだか使いにくそうだけどしかたない(実ははじめて使ってみた^^;)。Postgres や MySQL を使うわけにはいかないし、さらに、ネットワークで共有してはいけないという条件がついているから。

ところで、このウェブログのRSS機能、漢字が化けていたようなので修正(こちらは、誰にとっても、何の意味もなし^^;)。

このブログ記事について

このページは、eiichiが2005年12月23日 15:41に書いたブログ記事です。

ひとつ前のブログ記事は「CiNII, OCU Biblio」です。

次のブログ記事は「少子化」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

月別 アーカイブ

ウェブページ

Powered by Movable Type 5.13-ja