僕は発展途上技術者

スパム


スパム、ごみメールのことだが、いつからか受け取るメールのほとんどがこのスパムメールになってしまった。何とかしたいな、と思っていたときに出会ったのが、POPFile というフリーのソフトウェア。受け取ったメールをベイズ推定という統計的な手法を使って、これはごみメール、これは大事なメール、というように自動的に振り分けてくれる。「ベイズ推定」なんて難しいことをやっていそうなのだが、要はメールに使われている言葉からごみメールか大事なメールかをソフトウェアが推測して振り分けるのだ。「今すぐ」とか「体験できます」なんてあったら、いかにも宣伝でごみメールっぽいと人間が思うようにこのソフトウェアも推測する。POPFile がすごいのは、いろいろ面倒なルールを人間が設定する必要がなく、代わりに「トレーニングして育てる」という作業で賢くなっていくというところだ。最初は大事なメールをごみメールに分類したり、逆にごみメールを大事なメールに分類したりと間違えることもあるのだが、「これはごみメールだよ。これは大事なメール」と間違いを指摘していくうちに、だんだんと正確に分類するようになる。最初100通ほど分類すれば、90% あるいはそれ以上の正確さで分類できるようになる。


こんなに便利な POPFile だが、残念ながらオリジナルは日本語には対応していない。そこで、日本語対応のパッチを作った。今、POPFile の最新版は v0.19.0 が出たばかりで、それに対応したパッチをここで公開している。まだベータ版といったところだが、それでも私のマシン上ではそん色なく動いていて、現在 98% という正確さでごみメールと普通のメールとをより分けてくれている。


このパッチは POPFile の作者に送ってあり、うまくすれば次の正式版にとりこまれるかもしれない。しかしあくまでもまだベータ版なので、このパッチPOPFile を日本語環境の上で試してみて、フィードバックをくれる人がいたら大歓迎だ。



プロフィール

株式会社まちクエスト代表、つくる社LLC代表。

Scratchで楽しく学ぶ アート&サイエンスRaspberry Piではじめる どきどきプログラミングを書きました。

オンラインコンテンツ: 大人のためのScratch

Amazonから図書館検索 Libron、iPhoneアプリ ひらがなゲーム かなぶん を作っています。

Email: webmaster at champierre dot com

Twitter @jishiha

最近のエントリー

アーカイブ