[SIMILAR] WITH 8246 数(? WITH 7107 語数 WITH 1225 解析 WITH 1063 単語 WITH 134 ミ!! WITH 122 ツッ WITH 117 ッコ WITH 115 コミ WITH 1 !! WITH 1 ( WITH 1 ただ WITH 1 だた WITH 1 だし WITH 1 し) WITH 1 ) WITH 1 そう WITH 1 うい WITH 1 いえ WITH 1 えば WITH 1 ば、 WITH 1 、解 WITH 1 析に WITH 1 に使 WITH 1 使う WITH 1 う単 WITH 1 (?) WITH 1 を増 WITH 1 増や WITH 1 やす WITH 1 すな WITH 1 なん WITH 1 んて の検索結果 65 件中 1 - 10 件目 (0.481532675 秒)
やることはChaSenと同じですがMeCab(のrubyインターフェース) http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/bindings.html で形態素解析して頂けたら嬉しいです。 ...
_ (スコア:1134)
「この問題以外」を解析させると、以下のようになってしまう。苦手なパターンがあるらしい。 この 連体詞 問 名詞 題 名詞 以外 名詞 ...
_ (スコア:1112)
保障期間後だったが、ネットの情報通り、代替機の貸し出しも含めて一週間で無償修理。返却商品修理解析報告書には液晶パネル交換とある。 ちょっと青っぽくなったが、昔が黄色かったのかもしれない。修理は2回目だが、対応には満足。 石川なまりのお姉さんと話せなかったのが心残り。 行きは近鉄、帰りはヤマト ...
_ (スコア:1112)
サーチエンジンは、どんな検索語が使用されたか履歴を取っているはず。 この単語で検索した人は、あの単語でも検索しています この単語で検索した人は、あの単語も同時に指定しています とか出せないのだろうか? 出しても無意味? 誰かの特許? ...
_ (スコア:965)
無関係な単語を大量に含むspamが増えてきた。人間の目には入らないように、という工夫も無い。それは、spam filter対策として反則だろう。もともとspamは反則なのだが。 ...
_ (スコア:965)
しつこく更新。 本文中の"From"を"unix from"だと誤解するケースがあるので、--mboxが指定されない限り、"unix from"を探さないように変更。 日本語のtokenizeに入る前に、">>"等の引用マークを削除するように変更。単語の途中で改行され、引用マークが入っても、単語として切り出すように努力する。 ...
_ (スコア:965)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:965)
_ (スコア:10000)