[SIMILAR] WITH 7748 30kbytes WITH 7748 35kbytes WITH 2390 revision WITH 1753 release WITH 1516 bsfilter WITH 367 イズ WITH 170 サイ WITH 1 [ WITH 1 ] WITH 1 1 WITH 1 . WITH 1 0 WITH 1 51 WITH 1 で出 WITH 1 出し WITH 1 した WITH 1 た。 WITH 1 。ne WITH 1 netsky WITH 1 のサ WITH 1 ズが WITH 1 が30 WITH 1 強ら WITH 1 らし WITH 1 しい WITH 1 いの WITH 1 ので WITH 1 で、 WITH 1 、po WITH 1 pop WITH 1 - WITH 1 max の検索結果 260 件中 31 - 40 件目 (0.172875334 秒)
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:2469)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:2469)
category + "*" + tokenという文字列がハッシュのキーで目覚めが悪かったので、hash[category][token]のように修正 unix from, from, to, cc, subject, received, reply-to, return-path, content-transfer-encoding, content-type以外のヘッダを捨てるように変更 相変わらずMIMEの解釈はしないが、base64、quo ...
_ (スコア:2469)
-aが実用的でないので改造。 -aの場合、exitしてspamか否かをstatus codeで返す直前に、子プロセスをfork。親がexitしたあとに、子がデータベースの更新を行なう。子の処理時間は一見、見えない。 --synchronous-auto-updateは、旧-aに相当。forkせずに、データベースの更新をしてからexit。 tokenizerも少し変 ...
_ (スコア:2469)
LIST nのときでも、".CRLF"を待っていたのをデバッグして、revision 1.35.4.11。 UIDL nのときでも、".CRLF"を待っていたのをデバッグして、revision 1.35.4.12。なんで一発で直せないかなぁ。 ...
_ (スコア:2388)
現在は以下のようなサポート状況。 rubyについてくるsdbm やっぱりGNUなgdbm FreeBSDだと、ふつーportupgradeでbdb1 marshalだった時代もあった bdb revision 1のみだと寂しいかなぁ。revision 2が使えると嬉しい環境があるのかな? 本当は、valueとしてhashを持てるデータベースを使いたい。 ...
_ (スコア:2388)
bsfilter -uでフォルダ名が必要なのはバグなので修正。確認していないけど。 ...
_ (スコア:2330)
完成したことにする。なにかアイディアが浮かぶまでは、ほそぼそとした改良のみの予定。 bsfilter mew front-endのページも作った。 ...
_ (スコア:2330)
--homedir追加 標準入力からを除いて、mbox形式サポート javascript必須で、MS Pゴシックをフォントに指定するDION掲示板抹殺 ...
_ (スコア:2330)
_ (スコア:2469)