[SIMILAR] WITH 7371 用マ WITH 6633 tokenize WITH 3033 bsfilter WITH 2542 文中 WITH 2390 revision WITH 2127 単語 WITH 1806 改行 WITH 1395 引用 WITH 1346 誤解 WITH 1299 unix WITH 1293 更。 WITH 1123 本文 WITH 931 努力 WITH 743 変更 WITH 709 語の WITH 699 削除 WITH 656 マー WITH 585 from WITH 496 指定 WITH 482 本語 WITH 478 ーク WITH 428 に変 WITH 355 更新 WITH 314 途中 WITH 248 ケー WITH 183 日本 WITH 140 ース WITH 1 [ WITH 1 ] WITH 1 1 WITH 1 . WITH 1 28 の検索結果 229 件中 71 - 80 件目 (0.170397037 秒)
C社からutf-8 + base64なメイルが来るので対応検討中。 日本語のメイルかどうか、super ad-hocに判定しているルーチンはどうするか? iconvの引数のcode setは、OS非依存か? eucJPに変換できないutf-8が来たら、どうするか? utf-8 + quoted-printableもありそう subjectが、utf-8 mime b or q encodingなのにも対 ...
mundomicro.comからsourceforge.jpのアカウントに来ているメールがフィッシングっぽい。 www.nicos.co.jpのイメージを使いつつ、http://nicos.concourse.jp:443/へ誘っている感じ。 charset=windows-1252なので、bsfilterが日本語と思わず、数値参照をiconvしてくれない。が、spam判定。 ...
_ (スコア:2564)
以下のような方針でbsfilterを作ってみた。 基本的には、ベイジアンフィルタの改善 --- Better Bayesian Filteringに従う。 単語の定義として1から5まで挙げられているが、4は面倒なので無視。 5については、 subject to from unix-from, return-path url, mail addressっぽい奴 という分類をする。 還元はしな ...
_ (スコア:2563)
普通にインストール出来る。 perl-5.8, p5-Text-Kakasiをportsからmake install マルチプラットホーム版POPFileをget、展開 日本語化パッチ(popfile_jpn_src.zip)をget、展開 日本語化パッチのClassifier, UI, languages, manual, stopwordsで、マルチプラットホーム版を上書き perl5.8.0 -I /usr/local/lib/pe ...
_ (スコア:2563)
言語の判定はcharsetを見ない方針で show-processの表示フォーマットを拡張 bdb, qdbmのサポート追加 win9xでFile::LOCK_SH出来ないのに対応 ...
_ (スコア:2561)
先行するテストがlockしたところでエラー終了し、後続がblockされて止まってしまうケースがある。teardownでunlockしまくるのかなぁ。 ...
_ (スコア:2561)
word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...
_ (スコア:2560)
spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...
_ (スコア:2560)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:2560)
% bsfilter --show-db-status db C 18545 3683 126378 9828 137071 db ja 60810 8881 47113 1075 96385 (18545 + 9828) / 137071 = 1.06 (60810 + 47113) / 96385 = 1.12 spamとcleanの語彙が根本的に異なっているように見える。重なっているのは6%/12%のみ % bsfilter --export-spam s.txt % bsfilter --expor ...
_ (スコア:2560)
_ (スコア:2565)