スパム対策

カテゴリーアイコン ベイジアンフィルタはもう古い?
スパムメールを遮断する方法の1つに、フィルタによるアプローチがある。これには、(1)ブラックリストやホワイトリストを使って通信セッションやトラフィックを分析することで、スパムメールを遮断する方法(ケースベース)、(2)メール内容を判別してフィルタリングする方法(コンテンツベース)の2つがある。今回は特にコンテンツベースの代表ともいえる「ベイジアンフィルタ」を中心としたフィルタ技術について解説する。

スパムの存在は方程式で説明できる

最近の話題

「ベイジアンフィルタ」とは、「ベイズの定理」を使ったフィルタである。「ベイズの定理」の名称にもなっているトーマス・ベイズ(1702-1761)はイギリスの長老派(キリスト教のプロテスタントの一派)の牧師だった。彼はニュートンが会長を務めたこともある王立協会の特別研究員でもあり、アマチュア数学者として周囲に知られていた。彼の死後、1763年、タンブリッジウェルズというイギリスの温泉保養地で彼の遺稿が発見された。それが「Essay Toword Solving a Problem in the Doctrine of Chances」(確率論の問題を解く)である。ただし、彼自身が自らの確率論に「ベイズの定理」と名付けたわけではなく、実際に理論を体系化したのは、『確率の解析的理論』や『確率の哲学的試論』を著したラプラス(1749-1727)と言われている。また、「ベイズの定理」は、1930年代に勃興する確率論の主観的解釈に関する研究が進む過程において、注目されるようになった。

ベイズの定理

「ベイズの定理」はベイズ主義に基づく確率論の一手法である。サイコロの出る目や、コインの裏表などを例にして学校で習う「確率」は、どの目やどの面も出る可能性は等しいという前提に基づいており、「数学的確率」と呼ばれている。しかし、これはあくまで数学的な対称性による理想論であり、現実はもう少し歪んでいる。そこで、実際にサイコロを振ってみたり、コインを投げてみたりして、データを集計し、より正しさを計測しようとする。こうした統計に基づく確率論を「頻度主義」という。頻度主義は物理学において効力を発揮し、数々の法則を発見する手助けをしたが、「環境は不変である」という合理性を前提にしているため、人間社会での適用には限界があった。

「ベイズ主義」は「数学的確率」や「頻度主義」と異なり、人間の主観性に基づく。いわゆる、「おおよそ」とか「だいたい」とか、イメージとしてはそうした形容詞が使われるであろう。今年流行した言葉を使えば「どんだけー」である。「ベイズ主義」の特徴は、データが無くても、環境が変化しても使うことができる。これは一方で、「いいかげん」だという印象を与えかねない。しかし、人間の心理や日常生活、あるいはビジネスなど不確実な状況下において、何かしらの判断をする場合、「数学的確率」も「頻度主義」も役に立たないのだから、同じことである。逆に、こうした状況で威力を発揮するのが、人間の感性を積極的に取り入れ評価しようとする「ベイズ主義」なのである。ただし、これは万人において必ずしも「正しい」というわけではない。

ポール・グレアムによる「スパムへの対策」

「ベイズの定理」を一言で説明すると、「未来にある事象が起きる確率は、それが過去に起きた頻度を計算することで求めることができる」ということだ。トーマス・ベイズは聖職者でありながら、神の存在を方程式で説明できると信じていたといわれている。それが可能であるかどうかは置いといて、21世紀を生きる私たちにとって、彼の信念は、半ば的中していると言えないこともない。私たちは、彼の遺した方法を使って、日々送られてくるメールがスパムか正規メールかを見分けているのだから……。つまり、「ベイズの定理」とは、未知の物体が何であるかを言い当てるための理論だとも言える。これなら、スパムだけでなく、神の存在すら説明できるのかもしれない。

「ベイズの定理」をスパムメールのフィルタリングに応用したのは、ポール・グレアムである。2002年に彼が発表した「A Plan for Spam」(スパムへの対策)を契機として、「ベイジアンフィルタ」の研究、導入が進んだ。(翌年、彼が発表した「Better Bayesian Filtering」(ベイジアンフィルタの改善)によると、ベイズ確率を用いた最初の論文は、1998年に発表された2本の論文で、そのうち1本はマイクロソフトリサーチのグループのものだそうだ)。この論文を読むと、彼がどのようにベイジアンフィルタの開発に取り組んだかが良く分かる。彼は、スパマーの送ってくるメールのメッセージに注目し、メッセージをフィルタリングすることで、スパムメールを遮断できると考えた。それまでにも、メッセージによるフィルタリング手法がなかったわけではない。しかし、その多くは、禁止ワードをチェックするとか、スパムと正規メールを判別する規則を作るといった固定化された静的な手法であったために、新たなスパムに対応することが難しかった。しかし、グレアムが試した統計的な手法は予想以上の効果があった。特にメールを受け取れば受け取るだけ、より効果を発揮するという学習機能もあった。その反面、グレアム達の工夫は、ベイズ理論をスパムのようい意図的に変化し続けるものに適用するには、大きな問題があることを物語っており、今では、その有効性の限界も指摘されるようになっている。ベイジアンフィルタにおける限界は、単純にベイズ理論を適用することによって生じる。つまり、アプリオリで意図的な操作を施さないと、特定の単語が頻繁にスパム度100%になったり、0%になってしまい、それらの単語が1つ含まれるだけで、メールのスパム度が100%や0%になってしまう。また、双方が混入すると計算不能となる。こうした状況を回避するために、グレアムは単語スパム度p(w)に対して、0.01 < p(w) < 0.99という奇妙なルールを課した。

1 | 2 | 3 | 4  次のページ>

監修者プロフィール

小島氏 センドメール株式会社
日本法人社長 小島 國照
日本タンデムコンピューターズ(現:日本HP)、ストラタスコンピュータ(現:日本ストラタステクノロジー)においてマーケティングおよび技術部門の責任者を勤めた後、サイベース、シャイア ンソフトウェア、オブジェクト・デザイン・ジャパンなど、ソフトウェア業界において、マーケティング、製品開発、経営などに携わる。2003年より現職。センドメール入社以前は、ターボリナッ クスジャパン社長として、日本のビジネス市場における本格的なLinux導入に尽力した。

※本稿は2007年8月1日(水)ベルサール九段にて開催されました「メールアブユース対策技術セミナー」の講演をもとに、ソースポッド編集部が作成しました。

-PR-

  • Email Security Expo & Conference 2008 連動企画特集
  • 誤送信防止特集
  • Webメール製品検証レポート概要
  • スパム対策製品検証レポート概要
  • メールコンプライアンス特集