トップ 最新

迷彩記憶 [全文検索]

検索方法

並べ替え: 表示件数: 検索条件の書式:

[SIMILAR] WITH 20721 現回 WITH 7335 加算 WITH 7323 率) WITH 7107 全to WITH 7080 token WITH 6235 装上 WITH 5027 度( WITH 4245 回数 WITH 3862 出現 WITH 3791 タベ WITH 3782 spam WITH 2542 確率 WITH 2373 率を WITH 2283 算す WITH 2079 add WITH 1995 のto WITH 1625 を計 WITH 1571 。-- WITH 1516 bsfilter WITH 1450 計算 WITH 1314 update WITH 1259 効率 WITH 1240 ベー WITH 997 デー WITH 936 は以 WITH 925 に加 WITH 902 都合 WITH 897 数を WITH 876 以下 WITH 853 速度 WITH 837 実装 WITH 773 メイ の検索結果 227 件中 1 - 10 件目 (0.089569805 秒)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ... 次へ

2004-02-26(Thu) [類似検索]

_Invalid Text[bsfilter]

動作は以下のようになる。 --add-spam spam中のtokenの出現回数をデータベースに加算する。 --update データベースに入っている全tokenについて、今までの出現回数からspam確率を計算する。 --add-spam --update spam中のtokenの出現回数をデータベースに加算し、そのspam中のtokenについてのみ、spam確率を ...

_  (スコア:10000)

2003-05-02(Fri) [類似検索]

_[spam] bsproc

0.2.10が出ているが、相変わらず、疑問なコードがbayespam.rbにある。 def token_freq_dir(directory) hash = {} Dir.open(directory) do |dir| dir.each do |file| next if file =~ /^\./ File.open(directory + '/' + file) do |f| hash.update(tokenizer(f)) 複数ファイル中のtokenの出現回数の合計を求めて ...

_  (スコア:7873)

2003-03-08(Sat) [類似検索]

_bsfilter - bayesian spam filter

以下のような方針でbsfilterを作ってみた。 基本的には、ベイジアンフィルタの改善 --- Better Bayesian Filteringに従う。 単語の定義として1から5まで挙げられているが、4は面倒なので無視。 5については、 subject to from unix-from, return-path url, mail addressっぽい奴 という分類をする。 還元はしな ...

_  (スコア:6718)

2003-05-30(Fri) [類似検索]

_[bsfilter] 次の拡張

どうしようかしら? 激しくツッコミ希望。 ChaSenあたりを使ってみる。 -u高速化。--incrementalオプションを付けて、"-u -c --incremental"とすると、メイルに出てきたtokenについてのみ、確率テーブルを計算し直す。-aも早くなる。 いっそのこと、確率テーブル廃止? SPAM判定のときに、その場でtoken database ...

_  (スコア:3782)

2003-06-01(Sun) [類似検索]

_[bsfilter] revision 1.31.4.5

Invalid Text-u -c、-u -s、-a等のときに、メイルに出て来てたtokenについてのみ、確率データベースを更新するように変更。-c等と一緒ではなく、-u単独の場合は、従来通り、全tokenについて再計算する。 の、1、2は終了したつもり。 ...

_  (スコア:3711)

2004-02-21(Sat) [類似検索]

_ツッコミ!! (kose)

bsfilter --add-spam --update と逐次 update するのと、最後に bsfilter --update と単独で実行するのでは結果に違いはありますか? 速度(率)はどちらが良いですか。 ...

_  (スコア:3203)

2003-11-26(Wed) [類似検索]

_ツッコミ!! (nabeken)

はい。先代若乃花の優勝回数加算するなよ、って感じです。 ...

_  (スコア:2941)

2003-03-10(Mon) [類似検索]

_bsfilter revision 1.5

漢字にマッチしなくなってたのをデバッグ メイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てる それっぽいのは、base64 decodeする でも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...

_  (スコア:2552)

2003-08-24(Sun) [類似検索]

_[bsfilter] KAKASIでBus Error

KAKASI+NetBSDで障害報告。怪しいのは以下の近辺。 拡張ライブラリの問題で、私には障害再現/デバッグ出来ない予感。とりあえず、MeCabでなくKAKASIで生活してみよう。 Kakasi::kakasi("-oeuc -w", str).scan(/\S+/).each do |token| token.gsub!(Reg_not_kanji_katakana, '') ...

_  (スコア:2514)

2003-05-31(Sat) [類似検索]

_[bsfilter] revision 1.31.4.2

MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...

_  (スコア:2496)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ... 次へ