2007-05-21  スキャンティ・システム

「スキャンティ・システム」とは,某掲示板の投稿文を統計分析するツールの開発名です。2007年5月の連休中に軽く作ってみました。

スキャンティ・システム

<画像の説明>スキャンティ・システムの実行画面です。

このシステムはWebクローラ(データ収集),データベース,データベース・クライアントのみっつのサブシステムから成り立っています。現在のデータベース・クライアントは,投稿文の全文検索ならびに検索結果から度数分布表(ヒストグラム)を作成することができます。

技術的な話はこの程度にして,スキャンティ・システムによる分析結果の例をご紹介することにしましょう。一体,何が分かるのでしょうか。

市内日焼けスポット

日焼けスポットの時刻解析 日焼けスポットの曜日解析

<説明>時刻と曜日の度数分布表から,市内日焼けスポットの動向を調べることにしました。

11時頃から盛り上がってきて,14時台がもっともおさかんになるようです。お昼ご飯を食べた後,「なんか暇だな」と思って日焼けスポットに出掛けているのでしょう。

15時以降にぴたりと静かになっている理由は,標本数が足りないのと日照時間がまだ短いからだと思います。6月,7月になれば山の時刻は変わることが予想されます。

某映画館

某映画館の時刻解析 某映画館の曜日解析

<説明>土曜日の夕方がおさかんのようです。平日は脈なしであり,行くだけ無駄みたいです。

A公園とB公園の比較

A公園

<画像の説明>A公園の分布。

B公園

<画像の説明>B公園の分布。

<説明>A公園は土曜日がおさかんです。木曜日も活発に見えますが,5月の大型連休の影響であり連休以降は挙動が違います。

B公園は土曜日曜平日の差はあまりなさそうです。なぜでしょうか。たぶん年齢層が関係しているのだと思います。B公園の周辺地域は若年層の住宅地でもあるのです。お若いと平日の深夜でも出掛けられるのでしょう。

どちらの公園も月曜日は弱いようですね。

今後の展開

「スキャンティ・システム」は,私ひとりでこっそり使っています。クライアントはいわゆるCGIスクリプトですので,一般公開することも技術的には可能です。しかし,こんなものを公開されたら傍迷惑にもほどがあるのです。

今後の機能拡張の予定を少々。

  • 伏せ字キャンセラ ― 投稿文に存在する伏せ字を解読する機能。検索精度を上げるために使います。たとえば本来,「ヨドバシ」と書くべきところを「ヨ○バシ」と書いたり「ヨド●シ」と書いたりする人がいます。伏せ字を元に戻して,投稿文を整形しておきます。検索するときは原文ではなくて,整形した文を検索対象にします
  • エージェントサービス ― サーバ内で定期的にキーワード検索を実行して,ヒットしたら携帯メールで通知してくれるサービス。気になるキーワードの投稿状況を監視することができます。この機能はまだ構想の段階です。仕様も決まっていませんし,仮の実装物もありません