スパム
スパム、ごみメールのことだが、いつからか受け取るメールのほとんどがこのスパムメールになってしまった。何とかしたいな、と思っていたときに出会ったのが、POPFile というフリーのソフトウェア。受け取ったメールをベイズ推定という統計的な手法を使って、これはごみメール、これは大事なメール、というように自動的に振り分けてくれる。「ベイズ推定」なんて難しいことをやっていそうなのだが、要はメールに使われている言葉からごみメールか大事なメールかをソフトウェアが推測して振り分けるのだ。「今すぐ」とか「体験できます」なんてあったら、いかにも宣伝でごみメールっぽいと人間が思うようにこのソフトウェアも推測する。POPFile がすごいのは、いろいろ面倒なルールを人間が設定する必要がなく、代わりに「トレーニングして育てる」という作業で賢くなっていくというところだ。最初は大事なメールをごみメールに分類したり、逆にごみメールを大事なメールに分類したりと間違えることもあるのだが、「これはごみメールだよ。これは大事なメール」と間違いを指摘していくうちに、だんだんと正確に分類するようになる。最初100通ほど分類すれば、90% あるいはそれ以上の正確さで分類できるようになる。
こんなに便利な POPFile だが、残念ながらオリジナルは日本語には対応していない。そこで、日本語対応のパッチを作った。今、POPFile の最新版は v0.19.0 が出たばかりで、それに対応したパッチをここで公開している。まだベータ版といったところだが、それでも私のマシン上ではそん色なく動いていて、現在 98% という正確さでごみメールと普通のメールとをより分けてくれている。
このパッチは POPFile の作者に送ってあり、うまくすれば次の正式版にとりこまれるかもしれない。しかしあくまでもまだベータ版なので、このパッチと POPFile を日本語環境の上で試してみて、フィードバックをくれる人がいたら大歓迎だ。
- POPFile:http://popfile.sourceforge.net
- 日本語化に関する説明とパッチ:http://popfile.sourceforge.jp
2003/06/20 09:00:00