[SIMILAR] WITH 7380 語多 WITH 1063 単語 WITH 265 面白 WITH 134 ミ!! WITH 122 ツッ WITH 117 ッコ WITH 115 コミ WITH 1 !! WITH 1 ( WITH 1 joe WITH 1 ) WITH 1 変な WITH 1 な単 WITH 1 多か WITH 1 かっ WITH 1 った WITH 1 たか WITH 1 から WITH 1 らと WITH 1 とか WITH 1 か? WITH 1 ? WITH 1 白か WITH 1 たけ WITH 1 けど WITH 1 ど。 の検索結果 67 件中 1 - 10 件目 (0.674482896 秒)
サーチエンジンは、どんな検索語が使用されたか履歴を取っているはず。 この単語で検索した人は、あの単語でも検索しています この単語で検索した人は、あの単語も同時に指定しています とか出せないのだろうか? 出しても無意味? 誰かの特許? ...
_ (スコア:1424)
ツールを作っているとSPAMの傾向を知る必要があるため、以前よりしっかり見ている。皮肉だ。[FreeBSD-users-jp 74700]では、</ cryptanalyze >というようなend tagモドキに出会った。無罪そうな単語を増やす作戦らしい。 ...
_ (スコア:1424)
しつこく更新。 本文中の"From"を"unix from"だと誤解するケースがあるので、--mboxが指定されない限り、"unix from"を探さないように変更。 日本語のtokenizeに入る前に、">>"等の引用マークを削除するように変更。単語の途中で改行され、引用マークが入っても、単語として切り出すように努力する。 ...
_ (スコア:1424)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:1424)
無関係な単語を大量に含むspamが増えてきた。人間の目には入らないように、という工夫も無い。それは、spam filter対策として反則だろう。もともとspamは反則なのだが。 ...
_ (スコア:873)
_ (スコア:10000)