[SIMILAR] WITH 7380 非un WITH 7323 モ参 WITH 4550 bsfilter WITH 3139 wakatono WITH 2758 様変 WITH 2390 revision WITH 1040 ヤバ WITH 1025 オプ WITH 830 プシ WITH 719 仕様 WITH 666 示板 WITH 646 掲示 WITH 635 参考 WITH 328 マー WITH 302 メモ WITH 178 ョン WITH 160 ショ WITH 155 ージ WITH 1 [ WITH 1 ] WITH 1 . WITH 1 rb WITH 1 のよ WITH 1 よう WITH 1 うな WITH 1 なも WITH 1 もの WITH 1 lens WITH 1 板で WITH 1 で出 WITH 1 出て WITH 1 てい の検索結果 228 件中 151 - 160 件目 (0.073983994 秒)
Invalid Text に従い、ruby-1.8でも動くように修正したつもり htmlのコメントは捨てるようになっていたが、 コメントの開始と終了が別の行だと捨てない plain textのパートでも、<! >を捨てる というように、いまいち。 MIMEに対応すればいいのだが ネストしてると面倒な気がする robustに作っておく必要があり ...
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:3557)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:3557)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:3557)
Windowsのtasktrayに格納した際のアイコンを、OS標準のものでなく、独自のものにするように言われていたのだが、やり方が分からなくて困っていた。 pdumpfsの GUI版のソースが公開されたら、参考にしよう。 ...
_ (スコア:3546)
--mark-spam-subjectで改行コードがおかしくなるバグ を修正してリリース。 改行コードのテストケースで、--mark-spam-subjectが指定されていなかった(テスト仕様バグ) 指定されていたとしても、バグを検出出来ないコードだった(テストコードバグ) ...
_ (スコア:3528)
写真3のキャプションが間違っている。 ...
_ (スコア:3498)
どうしようかしら? 激しくツッコミ希望。 ChaSenあたりを使ってみる。 -u高速化。--incrementalオプションを付けて、"-u -c --incremental"とすると、メイルに出てきたtokenについてのみ、確率テーブルを計算し直す。-aも早くなる。 いっそのこと、確率テーブル廃止? SPAM判定のときに、その場でtoken database ...
_ (スコア:3432)
bogofilterは、Paul Graham -> Robinson -> Robinson-Fisherと、アルゴリズムを変えつつある。Robinson-Fisherを実装する? オプションとかをbogofilterに合わせておくべきだったか? でも、参考にせずに作っても、-sでspam追加なら、-Sで削除、というのは一緒。 ...
_ (スコア:3425)
_ (スコア:3557)