[SIMILAR] WITH 5317 上続 WITH 4125 字以 WITH 2659 威力 WITH 2125 scratch WITH 1185 漢字 WITH 528 決定 WITH 510 週末 WITH 507 プル WITH 493 定。 WITH 482 本語 WITH 442 文字 WITH 377 invalid WITH 344 ンプ WITH 323 サン WITH 269 予定 WITH 251 以上 WITH 197 コー WITH 183 日本 WITH 147 ード WITH 144 自分 WITH 1 bsproc WITH 1 text WITH 1 ひど WITH 1 どい WITH 1 いコ WITH 1 ドな WITH 1 なの WITH 1 ので WITH 1 で、 WITH 1 、週 WITH 1 末、 WITH 1 、sc の検索結果 93 件中 1 - 10 件目 (0.145063188 秒)
Invalid Textひどいコードなので、週末、scratchから書き直すことに決定。日本語の切り分けは、漢字が2文字以上続いたら、の予定。spamで困っていないので自分で使うつもりはないけど、どのくらいの威力か見たい。sapmのサンプル、欲しいな。 ...
漢字にマッチしなくなってたのをデバッグ メイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てる それっぽいのは、base64 decodeする でも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...
_ (スコア:5571)
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:5562)
利害関係者の誘導による無意味な数字以外のなにものでもない。 ...
_ (スコア:5319)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
_ (スコア:1627)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:1525)
どうも設定が決まらない。要件は以下。 漢字の幅:英字の幅 = 2:1 高さを合わせる 英字のみの行に漢字を足すとき、漢字のみの行に英字を足すときに、上下にピョコと動くのを避ける 漢字と英字のアンダーラインを一直線に合わせる ことえり、mew、navi2chとか、アンダーラインを使う機会はそれなり 要件は満たして ...
_ (スコア:1525)
リンクを更新した。 Solaris での bsfilterで SPAMなトークンをテキストファイルにエキスポートしたもの が公開されているが、日本語としてはありえない単語(漢字)が含まれている。 おそらく、非日本語を日本語と誤判定してnkfに通してしまう、という既知の弱点の結果だ。 ...
_ (スコア:1454)
以前から、ちょっとイヤな点がある。誰のせいか調査中。 text/plainな日本語ファイルを添付すると、漢字コードがiso-2022-jpになる。 text/plainな日本語ファイルを添付し、'C'でoutput message charsetを 例えばeuc-jpに指定すると、改行コードが0x0d 0x0aになる。 本文なしでtext/plainなファイルを添付すると ...
_ (スコア:1411)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:1395)
_ (スコア:10000)