えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、
となっている模様。
NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump training.dat by mozilla junk mail control OPTIONS --export-clean export clean tokens in bsfilter format --export-spam export spam tokens in bsfilter format