2003-12-20(Sat) [長年日記]

_1 [bsfilter] dump_mozdat

えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、

  • 連続したひらがな、カタカナは1token
  • 漢字は1文字で1token

となっている模様。

NAME
        dump_mozdat
SYNOPSIS
        dump_mozdat [--export-clean|--export-spam] training.dat
DESCRIPTION
        dump training.dat by mozilla junk mail control
OPTIONS
        --export-clean
                export clean tokens in bsfilter format
        --export-spam
                export spam tokens in bsfilter format
  • デフォルトでは、utf-8でダンプする
  • --export-*により、bsfilterでインポートできる形式で出力する

_2 [spam] spam for SPAM

Hormel Foodsの缶詰に関するUCEはあるのだろうか。

[]

トップ «前の日記(2003-12-19(Fri)) 最新 次の日記(2003-12-21(Sun))»