[SIMILAR] WITH 30483 00100 WITH 15241 連騰 WITH 11145 終値 WITH 7748 続伸 WITH 7748 率(% WITH 7748 率43 WITH 7748 率52 WITH 7519 日終 WITH 7323 敗率 WITH 7055 続落 WITH 6907 資] WITH 4966 勝率 WITH 4337 連勝 WITH 3049 行目 WITH 2864 番上 WITH 2758 目以 WITH 2542 確率 WITH 1727 00 WITH 1666 投資 WITH 1651 52 WITH 1535 48 WITH 1448 n WITH 1361 33 WITH 1003 前日 WITH 841 当日 WITH 737 2005 WITH 672 同様 WITH 655 2002 WITH 610 以降 WITH 598 2004 WITH 574 。20 WITH 568 50 の検索結果 64 件中 11 - 20 件目 (5.936714172 秒)
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:713)
どうしようかしら? 激しくツッコミ希望。 ChaSenあたりを使ってみる。 -u高速化。--incrementalオプションを付けて、"-u -c --incremental"とすると、メイルに出てきたtokenについてのみ、
_ (スコア:594)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
_ (スコア:594)
読んだのは、増補改訂される前の版。インセンティブが現れるデータを元にした社会学の本。 7勝7敗の力士が8勝6敗の力士に勝つ期待
_ (スコア:594)
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM
_ (スコア:594)
動作は以下のようになる。 --add-spam spam中のtokenの出現回数を、データベースに加算する。 --update データベースに入っている全tokenについて、今までの出現回数からspam
_ (スコア:594)
word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...
_ (スコア:594)
以下のような方針でbsfilterを作ってみた。 基本的には、ベイジアンフィルタの改善 --- Better Bayesian Filteringに従う。 単語の定義として1から5まで挙げられているが、4は面倒なので無視。 5については、 subject to from unix-from, return-path url, mail addressっぽい奴 という分類をする。 還元はしな ...
_ (スコア:594)
spamcからspamdに聞くのか。やっぱ、そう作るよなぁ。tokenごとのspam
_ (スコア:594)
_ (スコア:713)