[SIMILAR] WITH 5655 回指 WITH 4550 bsfilter WITH 2390 revision WITH 1739 数回 WITH 738 複数 WITH 496 指定 WITH 433 windows WITH 226 問題 WITH 1 [ WITH 1 ] WITH 1 1 WITH 1 . WITH 1 36 WITH 1 4 WITH 1 5 WITH 1 sighup WITH 1 だと WITH 1 とwi WITH 1 で問 WITH 1 題が WITH 1 があ WITH 1 ある WITH 1 るそ WITH 1 そう WITH 1 うな WITH 1 なの WITH 1 ので WITH 1 で、 WITH 1 、si WITH 1 sigint WITH 1 を待 WITH 1 待つ の検索結果 260 件中 151 - 160 件目 (0.224132752 秒)
Invalid Text-u -c、-u -s、-a等のときに、メイルに出て来てたtokenについてのみ、確率データベースを更新するように変更。-c等と一緒ではなく、-u単独の場合は、従来通り、全tokenについて再計算する。 の、1、2は終了したつもり。 ...
漢字にマッチしなくなってたのをデバッグ メイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てる それっぽいのは、base64 decodeする でも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...
_ (スコア:5638)
revision 1.69.2.1でパッチを取り込んだ。コンパイル条件不明でのパフォーマンスはざっくり、sdbm > gdbm = bdb1 > qdbm > bdb な感じ。 cdbはインターフェースが気持ち悪いので、今のところ見送り。 OS / エンディアンが違ってもDBが共通に使えると嬉しい。sdbmかgdbmかはダメだった記憶がある。 ...
_ (スコア:5638)
ツッコミの"オプションを付けるとセット"は"リセット"の誤り。 revision 1.35.4.6では IMAPでアクセスした時、デフォルトではSEENフラグを変更しない --imap-reset-seen-flagをつけると、ヘッダを変更したとき、もしくは、メイルを違うフォルダに移動したとき、SEENをリセットする という仕様。 ...
_ (スコア:5638)
Invalid Text に従い、ruby-1.8でも動くように修正したつもり htmlのコメントは捨てるようになっていたが、 コメントの開始と終了が別の行だと捨てない plain textのパートでも、<! >を捨てる というように、いまいち。 MIMEに対応すればいいのだが ネストしてると面倒な気がする robustに作っておく必要があり ...
_ (スコア:5638)
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:5638)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:5638)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:5638)
-aが実用的でないので改造。 -aの場合、exitしてspamか否かをstatus codeで返す直前に、子プロセスをfork。親がexitしたあとに、子がデータベースの更新を行なう。子の処理時間は一見、見えない。 --synchronous-auto-updateは、旧-aに相当。forkせずに、データベースの更新をしてからexit。 tokenizerも少し変 ...
_ (スコア:5638)
--mark-spam-subjectで改行コードがおかしくなるバグ を修正してリリース。 改行コードのテストケースで、--mark-spam-subjectが指定されていなかった(テスト仕様バグ) 指定されていたとしても、バグを検出出来ないコードだった(テストコードバグ) ...
_ (スコア:5160)
_ (スコア:5638)