迷彩記憶 [全文検索]

[SIMILAR] WITH 41443 fontset WITH 21971 carbon WITH 21662 英字 WITH 14214 iso10646 WITH 8246 hiramaru WITH 8246 quickdraw WITH 7748 幅: WITH 7748 幅= WITH 7596 要件 WITH 7005 不格 WITH 6676 katakana WITH 6553 ト設 WITH 6235 jisx0201 WITH 6056 default WITH 5771 jisx0208 WITH 5572 望通 WITH 5293 navi2ch WITH 5077 require WITH 4742 漢字 WITH 4464 行間 WITH 4464 attribute WITH 3645 font WITH 3524 fixed WITH 3372 一直 WITH 3354 emacs WITH 3330 ピョ WITH 2505 字の WITH 2480 width WITH 2107 足す WITH 2091 ォン WITH 1997 の幅 WITH 1948 japanese の検索結果 78 件中 21 - 30 件目 (0.057124156 秒)

前へ 1 2 3 4 5 6 7 8 次へ

2003-07-28(Mon) [類似検索]

_[bsfilter] 1.33.4系の変更点

Invalid Text ほんの少し高速化連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...

_ (スコア:783)

2004-04-10(Sat) [類似検索]

_[bsfilter] サイトメンテ

リンクを更新した。 Solaris での bsfilterで SPAMなトークンをテキストファイルにエキスポートしたものが公開されているが、日本語としてはありえない単語(漢字)が含まれている。おそらく、非日本語を日本語と誤判定してnkfに通してしまう、という既知の弱点の結果だ。 ...

_ (スコア:783)

2003-03-10(Mon) [類似検索]

_bsfilter revision 1.5

漢字にマッチしなくなってたのをデバッグメイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てるそれっぽいのは、base64 decodeするでも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...

_ (スコア:783)

2003-03-05(Wed) [類似検索]

_bsproc

Invalid Textひどいコードなので、週末、scratchから書き直すことに決定。日本語の切り分けは、漢字が2文字以上続いたら、の予定。spamで困っていないので自分で使うつもりはないけど、どのくらいの威力か見たい。sapmのサンプル、欲しいな。 ...

_ (スコア:783)

2003-12-20(Sat) [類似検索]

_[bsfilter] dump_mozdat

えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...

_ (スコア:783)

2003-04-20(Sun) [類似検索]

_bsfilter revision 1.13

だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。日本語の単語の1文字目と2文字目が、改行で生き別れ日本語がbase64されていてると、漢字一文字が生き別れ JISの場合、nkfがかからなかったかも日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...

_ (スコア:783)

2002-12-09(Mon) [類似検索]

_Mew

以前から、ちょっとイヤな点がある。誰のせいか調査中。 text/plainな日本語ファイルを添付すると、漢字コードがiso-2022-jpになる。 text/plainな日本語ファイルを添付し、'C'でoutput message charsetを例えばeuc-jpに指定すると、改行コードが0x0d 0x0aになる。本文なしでtext/plainなファイルを添付すると ...

_ (スコア:783)

2003-05-14(Wed) [類似検索]

_[net] 2ch AA for proportional and fixed-width fonts

2こ追加。 ...

_ (スコア:701)

2003-03-15(Sat) [類似検索]

_2ch AA for proportional and fixed-width fonts

ワケワカラン追加。 ...

_ (スコア:701)

2003-01-28(Tue) [類似検索]

_2ch AA for proportional and fixed-width fonts

"もうだめぽ……"追加。 ...

_ (スコア:701)

前へ 1 2 3 4 5 6 7 8 次へ