トップ 最新

迷彩記憶 [全文検索]

検索方法

並べ替え: 表示件数: 検索条件の書式:

[SIMILAR] WITH 7371 用マ WITH 6633 tokenize WITH 3033 bsfilter WITH 2542 文中 WITH 2390 revision WITH 2127 単語 WITH 1806 改行 WITH 1395 引用 WITH 1346 誤解 WITH 1299 unix WITH 1293 更。 WITH 1123 本文 WITH 931 努力 WITH 743 変更 WITH 709 語の WITH 699 削除 WITH 656 マー WITH 585 from WITH 496 指定 WITH 482 本語 WITH 478 ーク WITH 428 に変 WITH 355 更新 WITH 314 途中 WITH 248 ケー WITH 183 日本 WITH 140 ース WITH 1 [ WITH 1 ] WITH 1 1 WITH 1 . WITH 1 28 の検索結果 229 件中 71 - 80 件目 (0.170397037 秒)

前へ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ... 次へ

2003-11-11(Tue) [類似検索]

_[bsfilter] unicode対応

C社からutf-8 + base64なメイルが来るので対応検討中。 日本語のメイルかどうか、super ad-hocに判定しているルーチンはどうするか? iconvの引数のcode setは、OS非依存か? eucJPに変換できないutf-8が来たら、どうするか? utf-8 + quoted-printableもありそう subjectが、utf-8 mime b or q encodingなのにも対 ...

_  (スコア:2565)

2005-05-05(Thu) [類似検索]

_[net] フィッシング

mundomicro.comからsourceforge.jpのアカウントに来ているメールがフィッシングっぽい。 www.nicos.co.jpのイメージを使いつつ、http://nicos.concourse.jp:443/へ誘っている感じ。 charset=windows-1252なので、bsfilterが日本語と思わず、数値参照をiconvしてくれない。が、spam判定。 ...

_  (スコア:2564)

2003-03-08(Sat) [類似検索]

_bsfilter - bayesian spam filter

以下のような方針でbsfilterを作ってみた。 基本的には、ベイジアンフィルタの改善 --- Better Bayesian Filteringに従う。 単語の定義として1から5まで挙げられているが、4は面倒なので無視。 5については、 subject to from unix-from, return-path url, mail addressっぽい奴 という分類をする。 還元はしな ...

_  (スコア:2563)

2003-09-13(Sat) [類似検索]

_[FreeBSD][spam] POPFile + 日本語化パッチ インストール

普通にインストール出来る。 perl-5.8, p5-Text-Kakasiをportsからmake install マルチプラットホーム版POPFileをget、展開 日本語化パッチ(popfile_jpn_src.zip)をget、展開 日本語化パッチのClassifier, UI, languages, manual, stopwordsで、マルチプラットホーム版を上書き perl5.8.0 -I /usr/local/lib/pe ...

_  (スコア:2563)

2005-07-18(Mon) [類似検索]

_[bsfilter] release-1.0.8

語の判定はcharsetを見ない方針で show-processの表示フォーマットを拡張 bdb, qdbmのサポート追加 win9xでFile::LOCK_SH出来ないのに対応 ...

_  (スコア:2561)

2005-08-14(Sun) [類似検索]

_[bsfilter] testディレクトリをcommit

先行するテストがlockしたところでエラー終了し、後続がblockされて止まってしまうケースがある。teardownでunlockしまくるのかなぁ。 ...

_  (スコア:2561)

2004-03-13(Sat) [類似検索]

_ツッコミ!! (やまぐち)

word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...

_  (スコア:2560)

2004-03-13(Sat) [類似検索]

_[bsfilter] --ignore系オプションベンチマー

spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...

_  (スコア:2560)

2003-12-20(Sat) [類似検索]

_[bsfilter] dump_mozdat

えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...

_  (スコア:2560)

2005-06-18(Sat) [類似検索]

_[bsfilter] tokenの使用状況

% bsfilter --show-db-status db C 18545 3683 126378 9828 137071 db ja 60810 8881 47113 1075 96385 (18545 + 9828) / 137071 = 1.06 (60810 + 47113) / 96385 = 1.12 spamとcleanの語彙が根本的に異なっているように見える。重なっているのは6%/12%のみ % bsfilter --export-spam s.txt % bsfilter --expor ...

_  (スコア:2560)

前へ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ... 次へ