[SIMILAR] WITH 11368 字目 WITH 7748 力文 WITH 7748 語判 WITH 7748 整us WITH 6859 、nk WITH 6633 tokenize WITH 5991 字一 WITH 5894 き別 WITH 4434 procmail WITH 4279 ト単 WITH 4150 nkf WITH 3613 改行 WITH 2437 字コ WITH 2390 revision WITH 2168 ト内 WITH 2127 単語 WITH 2054 一文 WITH 1928 本語 WITH 1771 文字 WITH 1516 bsfilter WITH 1293 更。 WITH 1272 単位 WITH 1267 コメ WITH 1226 推測 WITH 1185 漢字 WITH 1176 デバ WITH 1066 判定 WITH 965 語が WITH 896 言語 WITH 890 シピ WITH 858 で生 WITH 829 別れ の検索結果 215 件中 21 - 30 件目 (0.050876882 秒)
--mark-spam-subjectで改行コードがおかしくなるバグ を修正してリリース。 改行コードのテストケースで、--mark-spam-subjectが指定されていなかった(テスト仕様バグ) 指定されていたとしても、バグを検出出来ないコードだった(テストコードバグ) ...
_ (スコア:1616)
漢字にマッチしなくなってたのをデバッグ メイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てる それっぽいのは、base64 decodeする でも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...
_ (スコア:1440)
YAML関連調査。 仕様はどうであれ、文字コードに関係なく日本語のファイルも読める utf-8であっても日本語をdumpするとbinary扱いにされてしまう 文字列へのアンカー、エイリアスはdumpされない (1..2)のRangeは以下のようにdumpされる --- !ruby/range begin: 1 end: 2 excl: false ...
_ (スコア:1396)
utf-8サポート iconvが使えれば、utf-8をeucJPに変換しようとする 本文についてはcharsetを信用しない。signatureがマッチしたらiconvする ヘッダについてはcharsetを信用する。 utf-8なメイルは日本語と判定する。 pop proxy時にlistenするインターフェイスを指定可能 例えば、--pop-proxy-port 127.0.0.1:101 ...
_ (スコア:1357)
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:1356)
リンクを更新した。 Solaris での bsfilterで SPAMなトークンをテキストファイルにエキスポートしたもの が公開されているが、日本語としてはありえない単語(漢字)が含まれている。 おそらく、非日本語を日本語と誤判定してnkfに通してしまう、という既知の弱点の結果だ。 ...
_ (スコア:1299)
全てのreceivedヘッダを見ていたのを止めて、送り手に一番近いものだけを見るように変更。特にML経由の場合、後半のreceivedは見るだけ無駄なので。-Hを付けた方が判定精度が高いという話も、これが影響していたのかもしれない。 html中のnumeric character referenceを無視するように変更。FreeBSD-users-jp 7 ...
_ (スコア:1285)
Invalid Text に従い、ruby-1.8でも動くように修正したつもり htmlのコメントは捨てるようになっていたが、 コメントの開始と終了が別の行だと捨てない plain textのパートでも、<! >を捨てる というように、いまいち。 MIMEに対応すればいいのだが ネストしてると面倒な気がする robustに作っておく必要があり ...
_ (スコア:1268)
デバッグ2件。バグを入れることによりBBSへの投稿が増えるというビジネスモデル(超誤用)を確立。 ...
_ (スコア:1264)
_ (スコア:1687)