0.2.10が出ているが、相変わらず、疑問なコードがbayespam.rbにある。
def token_freq_dir(directory)
hash = {}
Dir.open(directory) do |dir|
dir.each do |file|
next if file =~ /^\./
File.open(directory + '/' + file) do |f|
hash.update(tokenizer(f))
複数ファイル中のtokenの出現回数の合計を求めているのではなく、あるtokenが最後に現れたファイルのみでの出現回数を求めているように見える。いいのかなぁ? 致命的な気がするけど。