[SIMILAR] WITH 10268 ト値 WITH 7748 更単 WITH 7748 効デ WITH 7748 新me WITH 7748 更mv WITH 6858 number WITH 6066 bsfilter WITH 5991 tokenizer WITH 5545 全プ WITH 5440 ズ制 WITH 4672 数制 WITH 4405 行数 WITH 3931 を微 WITH 3667 ル全 WITH 3049 限な WITH 2446 、判 WITH 2399 ン名 WITH 2393 。0 WITH 2390 revision WITH 2385 学習 WITH 2288 味す WITH 2261 イパ WITH 2218 習の WITH 2132 判定 WITH 2046 先頭 WITH 1821 line WITH 1688 制限 WITH 1675 デフ WITH 1613 pop WITH 1480 ル( WITH 1450 定、 WITH 1440 ロト の検索結果 201 件中 31 - 40 件目 (0.073857474 秒)
spam token databaseのサンプルを作った。疲れた。 --add-spam等でdatabaseを読み込めるようにした。素直に、TokenDBをMarshal::dump/loadすべきだったか? ToeknDB classの定義が、dumpした時点とloadした時点で異ると嫌なことがおきそうな気がして、それを避けたのだが。 ...
しつこく更新。 本文中の"From"を"unix from"だと誤解するケースがあるので、--mboxが指定されない限り、"unix from"を探さないように変更。 日本語のtokenizeに入る前に、">>"等の引用マークを削除するように変更。単語の途中で改行され、引用マークが入っても、単語として切り出すように努力する。 ...
_ (スコア:2401)
--add-clean/spamで行われるのはtoken databaseの学習で、確率databaseへの反映には--updateが必要、という設計は失敗だったのかもしれない。 ...
_ (スコア:2401)
bsfilterはspamフィルターとしてもうほとんど完成していると思うので拡張のアイディアを出すのが難しそうですね。 ifileというbayesianベースのspamフィルタリングソフトがあるのですが、こいつはspamだけでなくcleanなメールの内容についても学習し、内容ごとに自動的に振り分けしてくれるという妙な進化をして ...
_ (スコア:2401)
RETRではなくてTOPでメールを参照されると、pop-max-sizeでのバイパスが効かないコードっぽい。マズー。 EdMaxがTOPを使うけど... 他にもあると思うけど... バイパスが効いていても遅い、という可能性も十分にあるが、それも困ったものだ。 ...
_ (スコア:2390)
いろいろあったのでRC1。TOPでバイパスしない件は保留。 ...
_ (スコア:2390)
SPAM判定する際にSEENフラグがセットされてしまうというのは、やっぱり問題だった。 ...
_ (スコア:2380)
言語の判定はcharsetを見ない方針で show-processの表示フォーマットを拡張 bdb, qdbmのサポート追加 win9xでFile::LOCK_SH出来ないのに対応 ...
_ (スコア:2380)
mundomicro.comからsourceforge.jpのアカウントに来ているメールがフィッシングっぽい。 www.nicos.co.jpのイメージを使いつつ、http://nicos.concourse.jp:443/へ誘っている感じ。 charset=windows-1252なので、bsfilterが日本語と思わず、数値参照をiconvしてくれない。が、spam判定。 ...
_ (スコア:2380)
C社からutf-8 + base64なメイルが来るので対応検討中。 日本語のメイルかどうか、super ad-hocに判定しているルーチンはどうするか? iconvの引数のcode setは、OS非依存か? eucJPに変換できないutf-8が来たら、どうするか? utf-8 + quoted-printableもありそう subjectが、utf-8 mime b or q encodingなのにも対 ...
_ (スコア:2380)
_ (スコア:2401)