[SIMILAR] WITH 7748 化連 WITH 7748 字(= WITH 7748 prozacc WITH 7748 系方 WITH 7380 築側 WITH 5655 robinson WITH 4334 動詞 WITH 3556 回出 WITH 3198 判定 WITH 2477 更点 WITH 2399 名詞 WITH 2371 漢字 WITH 2351 速化 WITH 1523 ペル WITH 1516 bsfilter WITH 1445 方式 WITH 1417 分解 WITH 1271 確率 WITH 1263 タベ WITH 1176 デバ WITH 1134 構築 WITH 1107 不要 WITH 994 カナ WITH 953 定に WITH 942 タカ WITH 907 使用 WITH 885 文字 WITH 873 高速 WITH 853 ヒッ WITH 764 カタ WITH 725 計算 WITH 719 連続 の検索結果 209 件中 41 - 50 件目 (0.069485245 秒)
どうも設定が決まらない。要件は以下。 漢字の幅:英字の幅 = 2:1 高さを合わせる 英字のみの行に漢字を足すとき、漢字のみの行に英字を足すときに、上下にピョコと動くのを避ける 漢字と英字のアンダーラインを一直線に合わせる ことえり、mew、navi2chとか、アンダーラインを使う機会はそれなり 要件は満たして ...
以前から、ちょっとイヤな点がある。誰のせいか調査中。 text/plainな日本語ファイルを添付すると、漢字コードがiso-2022-jpになる。 text/plainな日本語ファイルを添付し、'C'でoutput message charsetを 例えばeuc-jpに指定すると、改行コードが0x0d 0x0aになる。 本文なしでtext/plainなファイルを添付すると ...
_ (スコア:1164)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:1146)
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM確率が表示される。その値が妥当なものか、表示されたtokenがメイルヘッダばかりだったりしないか、確認。 メイルヘッダばかりの場合は、-H付きで実行。 - ...
_ (スコア:1135)
本論とは関係ないところだが、viagraのミススペルが例として使われている。bsfilter -u -dで確認したが、viagraaと1文字追加したのでは満足しなかったのか、viagraalというのも記録されていた。 ...
_ (スコア:1121)
動作は以下のようになる。 --add-spam spam中のtokenの出現回数を、データベースに加算する。 --update データベースに入っている全tokenについて、今までの出現回数からspam確率を計算する。 --add-spam --update spam中のtokenの出現回数を、データベースに加算し、そのspam中のtokenについてのみ、spam確率を ...
_ (スコア:1111)
やまだあきらさんのパッチに対応できてない。 未読管理とかの状態の保持 "Seen"のチェック、設定のみ? RFC822.HEADERを書き換えてappend? bsfilterの判定結果がヘッダに入っていると嬉しい? IMAPMessage class メイル1通に対応するclassを作るべきか 複数メイルのsequence number/UIDを一気に渡して、戻り値を配 ...
_ (スコア:1083)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:1001)
word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...
_ (スコア:971)
--add-clean/spamで行われるのはtoken databaseの学習で、確率databaseへの反映には--updateが必要、という設計は失敗だったのかもしれない。 ...
_ (スコア:971)
_ (スコア:1164)