[SIMILAR] WITH 16967 robinson WITH 7323 式導 WITH 5781 方式 WITH 5365 gary WITH 5246 graham WITH 5134 答率 WITH 4813 正答 WITH 3974 paul WITH 3033 bsfilter WITH 2390 revision WITH 1877 近辺 WITH 1271 確率 WITH 1194 式で WITH 1152 断念 WITH 962 率が WITH 945 spam WITH 739 導入 WITH 507 プル WITH 344 ンプ WITH 323 サン WITH 298 結構 WITH 267 場合 WITH 1 [ WITH 1 ] WITH 1 1 WITH 1 . WITH 1 20 WITH 1 入。 WITH 1 。サ WITH 1 ルが WITH 1 が少 WITH 1 少な の検索結果 223 件中 61 - 70 件目 (0.029834981 秒)
release-1.0.13になる予定。 --refer-headerオプション追加 複数行のContent-Transfer-Encodingがbase64, 8bitと言っている場合に、base64 decodeする uuencodeしたのを本文に貼り付けてあるっぽいのをスキップする shift-jisなMIME B-encodingをnkfがデコードしてくれないので、iso-2022-jpと書き換えてからnk ...
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:1593)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:1593)
category + "*" + tokenという文字列がハッシュのキーで目覚めが悪かったので、hash[category][token]のように修正 unix from, from, to, cc, subject, received, reply-to, return-path, content-transfer-encoding, content-type以外のヘッダを捨てるように変更 相変わらずMIMEの解釈はしないが、base64、quo ...
_ (スコア:1593)
長官も何度か止まると言っているので、gdbmをサポートしてみる。 以下で移行可能。 bsfilter --db sdbm --export-clean | bsfilter --db gdbm --import-clean bsfilter --db sdbm --export-spam | bsfilter --db gdbm --import-spam bsfilter --db gdbm -u データベースを縮小するとき(デフォルトでは10000通を ...
_ (スコア:1582)
以下のような方針でbsfilterを作ってみた。 基本的には、ベイジアンフィルタの改善 --- Better Bayesian Filteringに従う。 単語の定義として1から5まで挙げられているが、4は面倒なので無視。 5については、 subject to from unix-from, return-path url, mail addressっぽい奴 という分類をする。 還元はしな ...
_ (スコア:1485)
KAKASI+NetBSDで障害報告。怪しいのは以下の近辺。 拡張ライブラリの問題で、私には障害再現/デバッグ出来ない予感。とりあえず、MeCabでなくKAKASIで生活してみよう。 Kakasi::kakasi("-oeuc -w", str).scan(/\S+/).each do |token| token.gsub!(Reg_not_kanji_katakana, '') ...
_ (スコア:1472)
word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...
_ (スコア:1418)
LIST nのときでも、".CRLF"を待っていたのをデバッグして、revision 1.35.4.11。 UIDL nのときでも、".CRLF"を待っていたのをデバッグして、revision 1.35.4.12。なんで一発で直せないかなぁ。 ...
_ (スコア:1397)
現在は以下のようなサポート状況。 rubyについてくるsdbm やっぱりGNUなgdbm FreeBSDだと、ふつーportupgradeでbdb1 marshalだった時代もあった bdb revision 1のみだと寂しいかなぁ。revision 2が使えると嬉しい環境があるのかな? 本当は、valueとしてhashを持てるデータベースを使いたい。 ...
_ (スコア:1397)
_ (スコア:1593)