迷彩記憶(2003-07-28)

2003-07-28(Mon) [長年日記]

_ [bsfilter] 1.33.4系の変更点

ほんの少し高速化
連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い
MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた*1
Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すようにした。2回目からは間違ったスペルでヒットするので、不要な気もするけど
robinson系方式での判定の際に、あるtokenがn回出てきたら、確率をn乗して計算するようにデバッグ。データベースの構築側は問題ないはず

*1 サラ金問題

[ツッコミを入れる]