2022-06-21  単純ベイズ分類器との戦い

先週から機械学習を調査しています。

第一弾として,業界関係者ならおなじみの「単純ベイズ分類器」によるクラス分類機能を自前で実装してみることにしました。計算式自体は,高校数学で習う条件付き確率の親玉みたいなものです。(「袋の中に赤い球と白い球が入っています‥‥」みたいな設問だったと言えば,思い出す人もいるはず。)

さて,この単純ベイズ分類器なのですが,最初に手続き型言語で実装してみることにしました。こちらは,資料が豊富にあるので作業はさほど難しくなかった。

しかしこの後,関係データベース上に単純ベイズ分類器を実装するという暴挙を試みたがために悲劇が起こりました。業界関係者ならおなじみのSQLのクエリで条件付き確率を計算することになるのですが,これがなんとも言えないもどかしさ。

それでも作業開始から5日目で,試作品の試作品の試作品みたいな品質(出来損ないという意味)のクエリが仕上がりました。現状では例題を解かせるのが精いっぱいで,さらなる汎用性を持たせるのは至難の業。

作業にはMicrosoft Accessを使っています。可搬性を持たせたいのでなるべく標準のSQLの範疇から逸脱しないことを目指していますが,とにかくやっていることがおかしいので(ふめい)この戦い,結末がどうなるかまったく予想がつきません。