学部・学科・大学院

情報工学科

天満 誠也(てんま せいや)

職 名 助教
学 位 修士(理学)
専門分野 知能情報学,統計科学
担当科目 情報化社会と職業
メッセージ 情報技術の発展により、人間では扱いきれないほどに情報が増大しています。コンピュータを用いてデータ解析を行うことで、膨大なデータから、有用な特徴や傾向を見つけ出すことができます。また、見つけた特徴を機械学習に利用することで、データの検出や分類、予測などの性能を向上させることに貢献できます。

スパム送信者による辞書にない語を用いたフィルタすり抜けの手口

機械学習に基づくメールフィルタリング手法は、過去に受信したメール群から単語の出現傾向を学習し、その特徴を、新たに受信したメールに当てはめることで分類します。その分類性能は完全なものに近づいていますが、スパム送信者はこれをすり抜けるため、様々な手口を使っています。その一つに、悪意を持った単語の改変により、辞書にない新しい語を作成し、それをスパムメールに用いる行為があります。既存フィルタリングシステムの残りわずかな検出漏れを防ぐため、辞書にない語の利用という新しい観点に基づく研究に取り組んでいます。

単語の改変によってフィルタをすり抜ける手口

辞書にない語の特性を解析し、その結果をメール分類に役立てる

スパム送信者が新たに作成した辞書にない語は、過去に受信したメールに出現しないため、学習できておらず、分類に利用することができません。このような語に着目した特性解析を行った結果、スパムメールに多い傾向にあることがわかりました。この傾向を分類に利用するため、スパム確率を一律に設定して分類に用いる実験を行った結果、スパムメールのスパム確率を高くすることができ、分類性能が向上することが確認できました。このように、テキストデータの扱い方を改善することで、その後に行う機械学習の性能の向上に貢献できます。

新しく出現した辞書にない語にスパム確率を一律に設定した効果