[SIMILAR] WITH 7748 試期 WITH 5991 tokenizer WITH 4741 追試 WITH 2985 nabeken WITH 461 影響 WITH 392 期待 WITH 134 ミ!! WITH 122 ツッ WITH 117 ッコ WITH 115 コミ WITH 1 !! WITH 1 ( WITH 1 ) WITH 1 待し WITH 1 して WITH 1 てま WITH 1 ます WITH 1 す。 WITH 1 。to WITH 1 の影 WITH 1 響は WITH 1 は小 WITH 1 小さ WITH 1 さい WITH 1 い、 WITH 1 、と WITH 1 と思 WITH 1 思っ WITH 1 って WITH 1 てい WITH 1 いた WITH 1 たの の検索結果 273 件中 1 - 10 件目 (0.581997 秒)
最近はデフォルトが"--method rf"なので、tokenizerが拾ってきたtokenを全部使って判定してます。 "--method g"については、15token固定なので、これを可変にという提案がありました。どうしよう... ...
_ (スコア:5926)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:5300)
漢字にマッチしなくなってたのをデバッグ メイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てる それっぽいのは、base64 decodeする でも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...
_ (スコア:5300)
0.2.10が出ているが、相変わらず、疑問なコードがbayespam.rbにある。 def token_freq_dir(directory) hash = {} Dir.open(directory) do |dir| dir.each do |file| next if file =~ /^\./ File.open(directory + '/' + file) do |f| hash.update(tokenizer(f)) 複数ファイル中のtokenの出現回数の合計を求めて ...
_ (スコア:5300)
--pop-max-size number numberより大きなメイルは、判定、学習の対象にしない。単にバイパスする オプション名を微妙に変更 単位をバイトに戻した バイパスする際は、pop daemonからMUAへパイプラインで渡す。今までは、メイル全体をbsfilterが受け取った後、MUAに渡していた デフォルト値は30000(byte)。0はサ ...
_ (スコア:5300)
買ってはいけない本だという情報も流れていたので。当時、USにいたことも影響してるかも。 ...
_ (スコア:2681)
カミソリから電磁波が出ている、電磁波はガンになる、と書いてあって、カミソリでガンになるのか否か、よく分からない書き方になってます、実は。期待通り、誤読?してみました。 ...
_ (スコア:2672)
ツッコミありがとうございます。その通り、私の記憶違いでした。 http://nabeken.tdiary.net/20021007.html "極大射程"は良かったですね。近いうちに"狩りのとき"も読もうと思っています。 ...
_ (スコア:2649)
_ (スコア:10000)