2008-01-20 yumi-ii/tools“N gramデータに分解する”を公開
yumi-ii/toolsとは「オンラインで使える『お道具』の配布ページ」と称して,私が普段よく使うお道具を公開しているページです。新ネタとして「N gramデータに分解する」を公開しました。
「何に使うの?」と思った人がいるかもしれません。掲示板やブログコメントに投稿されるスパム文のマッチ候補を機械的に作り出すために使います。ほとんどの人には利用価値がないのかもしれません。
例

<画像の説明>投稿規制したいスパムを見つけたら,スパム文の特徴となる単語をフォームに入力して,N gramデータに分解します。分割数は3から4が適切だと思います。なお例は実在するスパムとは関係あるのかもしれませんし,ないのかもしれません(ふめい)。

<画像の説明>N gramデータに分解された文字列が出力されます。語長が短すぎる語やよく見かける語を省いて,NGワード集に取り入れます。