[SIMILAR] WITH 19277 bogofilter WITH 7055 語sp WITH 5027 語メ WITH 4376 mecab WITH 3181 い遅 WITH 3033 bsfilter WITH 2864 倍く WITH 1422 測定 WITH 1107 不要 WITH 853 速度 WITH 784 加減 WITH 764 遅い WITH 735 と比 WITH 558 英語 WITH 505 比べ WITH 482 本語 WITH 386 メイ WITH 236 イル WITH 183 日本 WITH 1 [ WITH 1 ] WITH 1 vs WITH 1 いい WITH 1 い加 WITH 1 減に WITH 1 に速 WITH 1 度の WITH 1 の測 WITH 1 定。 WITH 1 。cl WITH 1 clean WITH 1 な日 の検索結果 226 件中 161 - 170 件目 (0.09860765 秒)
現在、自宅ではmewがPOP/SMTPを喋ってプロバイダとメイルをやりとりしているため、デーモンの類が一切、走っていない。 途中でbsfilter + 何かに、SPAMだというマークを付けさせる。 POPで新着メイルをチェックするbiff系ツールを使いたい。 本文中の"From"が、"> From"になるのは許さない。 という条件では、何 ...
普通にインストール出来る。 perl-5.8, p5-Text-Kakasiをportsからmake install マルチプラットホーム版POPFileをget、展開 日本語化パッチ(popfile_jpn_src.zip)をget、展開 日本語化パッチのClassifier, UI, languages, manual, stopwordsで、マルチプラットホーム版を上書き perl5.8.0 -I /usr/local/lib/pe ...
_ (スコア:1134)
libtoolsに"-lstdc++ -lc_r"を渡したのに、c++には"-lstdc++"しか渡っていないという現象。Makefileの LIBS = -lstdc++ -lc_r を LIBS = "-lstdc++ -lc_r" にしたらmake出来た。誰が食べちゃったのかなぁ? ...
_ (スコア:1130)
「この問題以外」を解析させると、以下のようになってしまう。苦手なパターンがあるらしい。 この 連体詞 問 名詞 題 名詞 以外 名詞 ...
_ (スコア:1130)
以下のような方針でbsfilterを作ってみた。 基本的には、ベイジアンフィルタの改善 --- Better Bayesian Filteringに従う。 単語の定義として1から5まで挙げられているが、4は面倒なので無視。 5については、 subject to from unix-from, return-path url, mail addressっぽい奴 という分類をする。 還元はしな ...
_ (スコア:1121)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:1007)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:942)
spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...
_ (スコア:829)
日本語化関連のToDoが投稿されている。 ISO-2022-JP 以外の文字コードへの対応(パッチとしてすでに公開していますが本家にマージする作業が残っています) base64、Quoted Printable への対応 途中で改行されてしまった日本語の単語への対応 Subject の分かち書き insert.pl の日本語化(本家にマージする作業が ...
_ (スコア:737)
_ (スコア:1145)