2007-05-21 スキャンティ・システム
「スキャンティ・システム」とは,某掲示板の投稿文を統計分析するツールの開発名です。2007年5月の連休中に軽く作ってみました。
<画像の説明>スキャンティ・システムの実行画面です。
このシステムはWebクローラ(データ収集),データベース,データベース・クライアントのみっつのサブシステムから成り立っています。現在のデータベース・クライアントは,投稿文の全文検索ならびに検索結果から度数分布表(ヒストグラム)を作成することができます。
技術的な話はこの程度にして,スキャンティ・システムによる分析結果の例をご紹介することにしましょう。一体,何が分かるのでしょうか。
市内日焼けスポット
<説明>時刻と曜日の度数分布表から,市内日焼けスポットの動向を調べることにしました。
11時頃から盛り上がってきて,14時台がもっともおさかんになるようです。お昼ご飯を食べた後,「なんか暇だな」と思って日焼けスポットに出掛けているのでしょう。
15時以降にぴたりと静かになっている理由は,標本数が足りないのと日照時間がまだ短いからだと思います。6月,7月になれば山の時刻は変わることが予想されます。
某映画館
<説明>土曜日の夕方がおさかんのようです。平日は脈なしであり,行くだけ無駄みたいです。
A公園とB公園の比較
<画像の説明>A公園の分布。
<画像の説明>B公園の分布。
<説明>A公園は土曜日がおさかんです。木曜日も活発に見えますが,5月の大型連休の影響であり連休以降は挙動が違います。
B公園は土曜日曜平日の差はあまりなさそうです。なぜでしょうか。たぶん年齢層が関係しているのだと思います。B公園の周辺地域は若年層の住宅地でもあるのです。お若いと平日の深夜でも出掛けられるのでしょう。
どちらの公園も月曜日は弱いようですね。
今後の展開
「スキャンティ・システム」は,私ひとりでこっそり使っています。クライアントはいわゆるCGIスクリプトですので,一般公開することも技術的には可能です。しかし,こんなものを公開されたら傍迷惑にもほどがあるのです。
今後の機能拡張の予定を少々。
- 伏せ字キャンセラ ― 投稿文に存在する伏せ字を解読する機能。検索精度を上げるために使います。たとえば本来,「ヨドバシ」と書くべきところを「ヨ○バシ」と書いたり「ヨド●シ」と書いたりする人がいます。伏せ字を元に戻して,投稿文を整形しておきます。検索するときは原文ではなくて,整形した文を検索対象にします
- エージェントサービス ― サーバ内で定期的にキーワード検索を実行して,ヒットしたら携帯メールで通知してくれるサービス。気になるキーワードの投稿状況を監視することができます。この機能はまだ構想の段階です。仕様も決まっていませんし,仮の実装物もありません