トップ 最新

迷彩記憶 [全文検索]

検索方法

並べ替え: 表示件数: 検索条件の書式:

[SIMILAR] WITH 5317 上続 WITH 4125 字以 WITH 2659 威力 WITH 2125 scratch WITH 1185 漢字 WITH 528 決定 WITH 510 週末 WITH 507 プル WITH 493 定。 WITH 482 本語 WITH 442 文字 WITH 377 invalid WITH 344 ンプ WITH 323 サン WITH 269 予定 WITH 251 以上 WITH 197 コー WITH 183 日本 WITH 147 ード WITH 144 自分 WITH 1 bsproc WITH 1 text WITH 1 ひど WITH 1 どい WITH 1 いコ WITH 1 ドな WITH 1 なの WITH 1 ので WITH 1 で、 WITH 1 、週 WITH 1 末、 WITH 1 、sc の検索結果 93 件中 1 - 10 件目 (0.145063188 秒)

1 2 3 4 5 6 7 8 9 10 次へ

2003-03-05(Wed) [類似検索]

_bsproc

Invalid Textひどコードなので週末scratchから書き直すことに決定。日本語の切り分けは、漢字が2文字以上続いたら、の予定。spamで困っていないので自分で使うつもりはないけど、どのくらいの威力か見たい。sapmのサンプル、欲しいな。 ...

_  (スコア:10000)

2003-03-10(Mon) [類似検索]

_bsfilter revision 1.5

漢字にマッチしなくなってたのをデバッグ メイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てる それっぽいのは、base64 decodeする でも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...

_  (スコア:5571)

2003-05-31(Sat) [類似検索]

_[bsfilter] revision 1.31.4.2

MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...

_  (スコア:5562)

2003-11-17(Mon) [類似検索]

_[TV] 「地上デジタルを見たい」は「9割以上」 TBSなど調査

利害関係者の誘導による無意味な数字以外のなにものでもない。 ...

_  (スコア:5319)

2003-07-28(Mon) [類似検索]

_[bsfilter] 1.33.4系の変更点

Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...

_  (スコア:1627)

2003-12-20(Sat) [類似検索]

_[bsfilter] dump_mozdat

えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字1文字1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...

_  (スコア:1525)

2009-06-21(Sun) [類似検索]

_[Mac] Carbon Emacs 22のフォント設定

どうも設定が決まらない。要件は以下。 漢字の幅:英字の幅 = 2:1 高さを合わせる 英字のみの行に漢字を足すとき、漢字のみの行に英字を足すときに、上下にピョコと動くのを避ける 漢字と英字のアンダーラインを一直線に合わせる ことえり、mew、navi2chとか、アンダーラインを使う機会はそれなり 要件は満たして ...

_  (スコア:1525)

2004-04-10(Sat) [類似検索]

_[bsfilter] サイトメンテ

リンクを更新した。 Solaris での bsfilterで SPAMなトークンをテキストファイルにエキスポートしたもの が公開されているが、日本語としてはありえない単語(漢字)が含まれている。 おそらく、非日本語を日本語と誤判定してnkfに通してしまう、という既知の弱点の結果だ。 ...

_  (スコア:1454)

2002-12-09(Mon) [類似検索]

_Mew

以前から、ちょっとイヤな点がある。誰のせいか調査中。 text/plainな日本語ファイルを添付すると、漢字コードがiso-2022-jpになる。 text/plainな日本語ファイルを添付し、'C'でoutput message charsetを 例えばeuc-jpに指定すると、改行コードが0x0d 0x0aになる。 本文なしでtext/plainなファイルを添付すると ...

_  (スコア:1411)

2003-04-20(Sun) [類似検索]

_bsfilter revision 1.13

だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...

_  (スコア:1395)

1 2 3 4 5 6 7 8 9 10 次へ