[SIMILAR] WITH 24024 options WITH 20030 mailbox WITH 14426 authenticate WITH 14044 imap WITH 12619 preference WITH 8640 000000000 WITH 8246 teranisi WITH 6892 auth WITH 6506 2235 WITH 5655 password WITH 3033 bsfilter WITH 2455 auto WITH 1388 user WITH 1309 0900 WITH 438 以下 WITH 134 ミ!! WITH 122 ツッ WITH 117 ッコ WITH 115 コミ WITH 1 !! WITH 1 ( WITH 1 ) WITH 1 こん WITH 1 んな WITH 1 なと WITH 1 とこ WITH 1 ころ WITH 1 ろに WITH 1 にす WITH 1 すみ WITH 1 みま WITH 1 ませ の検索結果 196 件中 161 - 170 件目 (0.278122257 秒)
しばしば日記等で遅いと書かれている。 googleで検索 しても、それなりに引っかかる風味。 "遅い"で思いだすジョブズの話。 MacOSを開発したが起動が遅い。最適化してもやっぱり遅い。で、ジョブズが檄を飛ばす。「多くの人が、多くの回数起動するのだ。その時間を合計すれば、人の寿命に匹敵するのだ。人の命を ...
C社からutf-8 + base64なメイルが来るので対応検討中。 日本語のメイルかどうか、super ad-hocに判定しているルーチンはどうするか? iconvの引数のcode setは、OS非依存か? eucJPに変換できないutf-8が来たら、どうするか? utf-8 + quoted-printableもありそう subjectが、utf-8 mime b or q encodingなのにも対 ...
_ (スコア:709)
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:709)
どうしようかしら? 激しくツッコミ希望。 ChaSenあたりを使ってみる。 -u高速化。--incrementalオプションを付けて、"-u -c --incremental"とすると、メイルに出てきたtokenについてのみ、確率テーブルを計算し直す。-aも早くなる。 いっそのこと、確率テーブル廃止? SPAM判定のときに、その場でtoken database ...
_ (スコア:709)
現在、自宅ではmewがPOP/SMTPを喋ってプロバイダとメイルをやりとりしているため、デーモンの類が一切、走っていない。 途中でbsfilter + 何かに、SPAMだというマークを付けさせる。 POPで新着メイルをチェックするbiff系ツールを使いたい。 本文中の"From"が、"> From"になるのは許さない。 という条件では、何 ...
_ (スコア:709)
release-1.0.13になる予定。 --refer-headerオプション追加 複数行のContent-Transfer-Encodingがbase64, 8bitと言っている場合に、base64 decodeする uuencodeしたのを本文に貼り付けてあるっぽいのをスキップする shift-jisなMIME B-encodingをnkfがデコードしてくれないので、iso-2022-jpと書き換えてからnk ...
_ (スコア:709)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
_ (スコア:709)
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM確率が表示される。その値が妥当なものか、表示されたtokenがメイルヘッダばかりだったりしないか、確認。 メイルヘッダばかりの場合は、-H付きで実行。 - ...
_ (スコア:709)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:709)
SourceForge.jp 経由で bsfilter-1.0.14.rc1.tgz を入手しようとしたところ、 avast! Antivirus により、当該ファイルにはトロイの木馬「Win32:Ruby [Trj]」 が含まれているとの警告を受けました。 avast! version 4.7 Professional Build: May 2006 4.7.827 VPS ファイル (ウイルス・データベース) 編集日 : 2 ...
_ (スコア:709)
_ (スコア:709)