[SIMILAR] WITH 6272 graphicwizardslair WITH 3330 文献 WITH 2452 void WITH 1675 デフ WITH 1516 bsfilter WITH 1114 ォル WITH 923 スロ WITH 878 傾向 WITH 860 大切 WITH 721 ルト WITH 552 フォ WITH 432 ルス WITH 420 フル WITH 369 ロッ WITH 296 トル WITH 232 見た WITH 229 使っ WITH 158 思う WITH 144 自分 WITH 118 ット WITH 1 [ WITH 1 ] WITH 1 ( WITH 1 ); WITH 1 // WITH 1 を見 WITH 1 たり WITH 1 りす WITH 1 する WITH 1 ると WITH 1 と、 WITH 1 、デ の検索結果 233 件中 171 - 180 件目 (0.219673677 秒)
現在、自宅ではmewがPOP/SMTPを喋ってプロバイダとメイルをやりとりしているため、デーモンの類が一切、走っていない。 途中でbsfilter + 何かに、SPAMだというマークを付けさせる。 POPで新着メイルをチェックするbiff系ツールを使いたい。 本文中の"From"が、"> From"になるのは許さない。 という条件では、何 ...
release-1.0.13になる予定。 --refer-headerオプション追加 複数行のContent-Transfer-Encodingがbase64, 8bitと言っている場合に、base64 decodeする uuencodeしたのを本文に貼り付けてあるっぽいのをスキップする shift-jisなMIME B-encodingをnkfがデコードしてくれないので、iso-2022-jpと書き換えてからnk ...
_ (スコア:1855)
動作は以下のようになる。 --add-spam spam中のtokenの出現回数を、データベースに加算する。 --update データベースに入っている全tokenについて、今までの出現回数からspam確率を計算する。 --add-spam --update spam中のtokenの出現回数を、データベースに加算し、そのspam中のtokenについてのみ、spam確率を ...
_ (スコア:1855)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
_ (スコア:1855)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:1855)
SourceForge.jp 経由で bsfilter-1.0.14.rc1.tgz を入手しようとしたところ、 avast! Antivirus により、当該ファイルにはトロイの木馬「Win32:Ruby [Trj]」 が含まれているとの警告を受けました。 avast! version 4.7 Professional Build: May 2006 4.7.827 VPS ファイル (ウイルス・データベース) 編集日 : 2 ...
_ (スコア:1855)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:1855)
日本語化関連のToDoが投稿されている。 ISO-2022-JP 以外の文字コードへの対応(パッチとしてすでに公開していますが本家にマージする作業が残っています) base64、Quoted Printable への対応 途中で改行されてしまった日本語の単語への対応 Subject の分かち書き insert.pl の日本語化(本家にマージする作業が ...
_ (スコア:1855)
category + "*" + tokenという文字列がハッシュのキーで目覚めが悪かったので、hash[category][token]のように修正 unix from, from, to, cc, subject, received, reply-to, return-path, content-transfer-encoding, content-type以外のヘッダを捨てるように変更 相変わらずMIMEの解釈はしないが、base64、quo ...
_ (スコア:1855)
-aが実用的でないので改造。 -aの場合、exitしてspamか否かをstatus codeで返す直前に、子プロセスをfork。親がexitしたあとに、子がデータベースの更新を行なう。子の処理時間は一見、見えない。 --synchronous-auto-updateは、旧-aに相当。forkせずに、データベースの更新をしてからexit。 tokenizerも少し変 ...
_ (スコア:1855)
_ (スコア:1855)