スパムメールはどこまで排除できるか
スパムメールはどこまで排除できるか(検証3 日本語への対応度)
(記事を読むには無料のアカウント登録が必要です)
へべれけ日記で何日か前に知ったのだが、Nikkei BP へのログインのしかたで相当てこずり今まで読めなかった。アカウントは以前とったはずだったのにログインできない。悪戦苦闘の末にようやく既存のアカウントに上記の記事が載っている ITPro の登録を追加しなければいけないということが判明。記事を読みたいと思った人のうち相当数の人が途中で脱落すること請け合いの相当わかりにくいシステムだ。
まあ愚痴はこのくらいにして、記事自体は僕は好きだ。この記事は以前見本誌を送っていただいた日経バイトに載ったものなのだが、僕はこれが今まで雑誌に載った POPFile 関連の記事の中で一番気に入っている。
ただし,少量の学習でも有効に働いたソフトが一つだけ存在した。POPFileである。初期状態ではMozillaと同じく何のフィルタリングもしないが,学習すると他のどのソフトよりも高い判定率を示した。これは,POPFileの学習の仕組みが他とは違うことに起因する。
一方日本語の判定性能を見ると,正当なメールとスパムメールの両方をすべて正しく判定できた製品はなかった(図7[拡大表示])。どちらもそれなりに正しい結果を出せたのは,Norton AntiSpam ,ウイルスバスター,POPFile の3 製品。あとはほとんどスパムと判定したり,その逆の結果となるものばかりだった。たとえばOutlook やMozilla は,スパムメールをスパムと判断できたものは一つもなかった。
このように、POPFile について好意的に書かれているってのもあるが、スパムフィルタリングについて結構つっこんで書かれていて興味深い。
掲げられた課題に対しては、自分なりの考えを編集部あてにメールしたのだが、課題の二つ目「日本語に即した処理を充実させる必要がある」については、「insert.pl の日本語対応」「iso-2022-jp 以外のメールへの対応」「件名の分かち書き」といった機能追加で、記事が出版されたときからは少し進歩していると思う。
2004/06/11 09:00:00