2003-07-28(Mon) [長年日記]

_ [bsfilter] 1.33.4系の変更点

  • ほんの少し高速化
  • 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い
  • MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた*1
  • Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すようにした。2回目からは間違ったスペルでヒットするので、不要な気もするけど
  • robinson系方式での判定の際に、あるtokenがn回出てきたら、確率をn乗して計算するようにデバッグ。データベースの構築側は問題ないはず

*1 サラ金問題