[SIMILAR] WITH 6955 図入 WITH 4589 モ( WITH 3524 編) WITH 3033 bsfilter WITH 2682 定メ WITH 803 解説 WITH 433 windows WITH 334 設定 WITH 302 メモ WITH 1 [ WITH 1 ] WITH 1 ( WITH 1 ) WITH 1 入り WITH 1 りで WITH 1 での WITH 1 の解 WITH 1 説は WITH 1 は初 WITH 1 初め WITH 1 めて WITH 1 てか WITH 1 かも WITH 1 も。 の検索結果 235 件中 151 - 160 件目 (0.145466033 秒)
C社からutf-8 + base64なメイルが来るので対応検討中。 日本語のメイルかどうか、super ad-hocに判定しているルーチンはどうするか? iconvの引数のcode setは、OS非依存か? eucJPに変換できないutf-8が来たら、どうするか? utf-8 + quoted-printableもありそう subjectが、utf-8 mime b or q encodingなのにも対 ...
IMAPサーバにもよって、普通にprocmailを使えるようなのもありますし、sieveのようなIMAPサーバ上で実行されるスクリプトを使う必要のあるものもあります。 あと、imapfilterというプログラムはIMAPでアクセスすることによって振り分けることができるようです。 (個人的にはimapfilterのようなものをRubyで作っ ...
_ (スコア:3044)
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:3044)
どうしようかしら? 激しくツッコミ希望。 ChaSenあたりを使ってみる。 -u高速化。--incrementalオプションを付けて、"-u -c --incremental"とすると、メイルに出てきたtokenについてのみ、確率テーブルを計算し直す。-aも早くなる。 いっそのこと、確率テーブル廃止? SPAM判定のときに、その場でtoken database ...
_ (スコア:3044)
現在、自宅ではmewがPOP/SMTPを喋ってプロバイダとメイルをやりとりしているため、デーモンの類が一切、走っていない。 途中でbsfilter + 何かに、SPAMだというマークを付けさせる。 POPで新着メイルをチェックするbiff系ツールを使いたい。 本文中の"From"が、"> From"になるのは許さない。 という条件では、何 ...
_ (スコア:3044)
release-1.0.13になる予定。 --refer-headerオプション追加 複数行のContent-Transfer-Encodingがbase64, 8bitと言っている場合に、base64 decodeする uuencodeしたのを本文に貼り付けてあるっぽいのをスキップする shift-jisなMIME B-encodingをnkfがデコードしてくれないので、iso-2022-jpと書き換えてからnk ...
_ (スコア:3044)
動作は以下のようになる。 --add-spam spam中のtokenの出現回数を、データベースに加算する。 --update データベースに入っている全tokenについて、今までの出現回数からspam確率を計算する。 --add-spam --update spam中のtokenの出現回数を、データベースに加算し、そのspam中のtokenについてのみ、spam確率を ...
_ (スコア:3044)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
_ (スコア:3044)
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM確率が表示される。その値が妥当なものか、表示されたtokenがメイルヘッダばかりだったりしないか、確認。 メイルヘッダばかりの場合は、-H付きで実行。 - ...
_ (スコア:3044)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:3044)
_ (スコア:3044)