[SIMILAR] WITH 41443 fontset WITH 21971 carbon WITH 21662 英字 WITH 14214 iso10646 WITH 8246 hiramaru WITH 8246 quickdraw WITH 7748 幅: WITH 7748 幅= WITH 7596 要件 WITH 7005 不格 WITH 6676 katakana WITH 6553 ト設 WITH 6235 jisx0201 WITH 6056 default WITH 5771 jisx0208 WITH 5572 望通 WITH 5293 navi2ch WITH 5077 require WITH 4742 漢字 WITH 4464 行間 WITH 4464 attribute WITH 3645 font WITH 3524 fixed WITH 3372 一直 WITH 3354 emacs WITH 3330 ピョ WITH 2505 字の WITH 2480 width WITH 2107 足す WITH 2091 ォン WITH 1997 の幅 WITH 1948 japanese の検索結果 78 件中 21 - 30 件目 (0.057124156 秒)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
リンクを更新した。 Solaris での bsfilterで SPAMなトークンをテキストファイルにエキスポートしたもの が公開されているが、日本語としてはありえない単語(漢字)が含まれている。 おそらく、非日本語を日本語と誤判定してnkfに通してしまう、という既知の弱点の結果だ。 ...
_ (スコア:783)
漢字にマッチしなくなってたのをデバッグ メイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てる それっぽいのは、base64 decodeする でも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...
_ (スコア:783)
Invalid Textひどいコードなので、週末、scratchから書き直すことに決定。日本語の切り分けは、漢字が2文字以上続いたら、の予定。spamで困っていないので自分で使うつもりはないけど、どのくらいの威力か見たい。sapmのサンプル、欲しいな。 ...
_ (スコア:783)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:783)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:783)
以前から、ちょっとイヤな点がある。誰のせいか調査中。 text/plainな日本語ファイルを添付すると、漢字コードがiso-2022-jpになる。 text/plainな日本語ファイルを添付し、'C'でoutput message charsetを 例えばeuc-jpに指定すると、改行コードが0x0d 0x0aになる。 本文なしでtext/plainなファイルを添付すると ...
_ (スコア:783)
_ (スコア:783)