2006-11-12  クラスター分析ことはじめ

いま某新製品の準備をしています。詳しい日程は決まっていませんが,来春から来夏あたりに投入できればよいなと思っています。今回のお題の中心(いちばん難しいところ)は「クラスター分析」です。

クラスター分析の正確な定義は知りませんが,「複数の個体から似たもの同士を発見する学問」のようです。その手の業界に足を突っ込んでいる人なら「ああ,あれね」(by 桜庭あつ子←知らない人いるかも)と思ったはずです(ふめい)。

具体的には,数千から数万の個体を階層化したいのです。階層を作るときにクラスター分析が必要というわけです。さて「個体,個体」ってたびたび言いましたが,個体って何のことなのか気になった人がいるかもしれません。扱う個体の正体はヒミツです。

いつものことですが,大学時代の研究とはまったく関係がありません。身近に相談できるような人もいません。大苦戦が予想されるのです。でも既存の技術を丁寧に調べて,実用化にこぎつけられればそれでよいので,道を踏み外さなければ大丈夫な気がします。

これからやることと「思っていること」を少々。

  • 個体間の距離を定める方法を考える。いくつか試してみて適応するものを採用
  • シミュレーション環境の構築。R言語を使うと便利らしい
  • シミュレーションによって,何らかの定数を発見する必要があるような気がする
  • シミュレーションが済んだらクラスター分析をモジュール化する
  • モジュール化できたらDB,UIをくっつける
  • 専門書を何冊か読んでいるので,そのうち感想文のようなものを(私の言う「そのうち」はまるで当てになりません←なぞ)