[SIMILAR] WITH 7380 率デ WITH 7107 全to WITH 6676 再計 WITH 4831 来通 WITH 3540 token WITH 2709 、- WITH 2390 revision WITH 1805 単独 WITH 1516 bsfilter WITH 1271 確率 WITH 1263 タベ WITH 1260 従来 WITH 725 計算 WITH 413 ベー WITH 386 メイ WITH 377 invalid WITH 371 変更 WITH 355 更新 WITH 332 デー WITH 332 一緒 WITH 310 終了 WITH 267 場合 WITH 236 イル WITH 222 ータ WITH 140 ース WITH 1 [ WITH 1 ] WITH 1 1 WITH 1 . WITH 1 31 WITH 1 4 WITH 1 5 の検索結果 217 件中 11 - 20 件目 (0.048237136 秒)
Invalid Text-cはファイルを1個だけ引数に取るオプションであるという仕様は、ヰさんにとっても、たださんにとっても、普通ではないようなので仕様を変更。revision 1.26以降ではたださんの記述通りに使える。 -c、-sは、オプションとしては引数を取らない。コマンドラインとして引数を取る。 -c、-sを指定する ...
KAKASI+NetBSDで障害報告。怪しいのは以下の近辺。 拡張ライブラリの問題で、私には障害再現/デバッグ出来ない予感。とりあえず、MeCabでなくKAKASIで生活してみよう。 Kakasi::kakasi("-oeuc -w", str).scan(/\S+/).each do |token| token.gsub!(Reg_not_kanji_katakana, '') ...
_ (スコア:2653)
Invalid Text --show-new-token追加。新たに登録されたtokenが表示される。 Content-Type: Message/Rfc822なパートのヘッダ部分が、本文扱いだったのをいい加減に修正。ソースが0.2procmailくらいになったので、なんとかしたい。 ...
_ (スコア:2546)
0.2.10が出ているが、相変わらず、疑問なコードがbayespam.rbにある。 def token_freq_dir(directory) hash = {} Dir.open(directory) do |dir| dir.each do |file| next if file =~ /^\./ File.open(directory + '/' + file) do |f| hash.update(tokenizer(f)) 複数ファイル中のtokenの出現回数の合計を求めて ...
_ (スコア:2444)
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM確率が表示される。その値が妥当なものか、表示されたtokenがメイルヘッダばかりだったりしないか、確認。 メイルヘッダばかりの場合は、-H付きで実行。 - ...
_ (スコア:2220)
--pipe, --insert-flag, --insert-probability追加 デフォルトのデータベース形式をsdbmに変更 デフォルトのspam判定方式をRobinsoh-Fisherに変更 ...
_ (スコア:2174)
1.31.4.7を数日、使って問題なかったら、これを1.32とする。 1.32.4系列では、データベースの無限膨張を抑える仕組みを入れる。 3ヶ月間、楽しく作って来たけど、そろそろ終わりかしら。 ...
_ (スコア:2174)
bogofilterは、Paul Graham -> Robinson -> Robinson-Fisherと、アルゴリズムを変えつつある。Robinson-Fisherを実装する? オプションとかをbogofilterに合わせておくべきだったか? でも、参考にせずに作っても、-sでspam追加なら、-Sで削除、というのは一緒。 ...
_ (スコア:2151)
現在は以下のようなサポート状況。 rubyについてくるsdbm やっぱりGNUなgdbm FreeBSDだと、ふつーportupgradeでbdb1 marshalだった時代もあった bdb revision 1のみだと寂しいかなぁ。revision 2が使えると嬉しい環境があるのかな? 本当は、valueとしてhashを持てるデータベースを使いたい。 ...
_ (スコア:2074)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:2048)
_ (スコア:2723)