2005-06-18(Sat) [長年日記]

_1 [net] 個人情報:マスター・VISAなどカード4000万枚分、ウイルス侵入で流出か

ウイルスというのが、よく分からない。US発行のATMカードに付いているMasterMoneyは大丈夫かな。漏洩しているかチェックするのでカード番号と名前を入れて、という嘘サイトが出て来たりして。

_2 [芸術] 歌川広重のすべて 第三部 @ 太田記念美術館

名所江戸百景を全部という企画。目の前に障害物が置かれている構図が格好いい。

  • 水辺の絵
  • 軒先、川岸の線が画面左の消失点に向かう構図
  • Z字型の線が画面中央奥に向かう構図

が多い。

_3 [bsfilter] tokenの使用状況

% bsfilter --show-db-status
db C 18545 3683 126378 9828 137071
db ja 60810 8881 47113 1075 96385
(18545 + 9828) / 137071 = 1.06
(60810 + 47113) / 96385 = 1.12

spamとcleanの語彙が根本的に異なっているように見える。重なっているのは6%/12%のみ

% bsfilter --export-spam s.txt
% bsfilter --export-clean c.txt
% grep '[0-9][0-9][0-9]$' c.txt | wc
3732   14928   66112
% grep '[0-9][0-9][0-9]$' s.txt | wc
4398   17592   77442

100回以上、使われたのは4000tokenくらい。

% grep '[0-9][0-9][0-9]$' s.txt > a
% grep '[0-9][0-9][0-9]$' c.txt >> a
% sed -e 's/[0123456789]*$//' < a | sort | uniq | wc
7358   22074  107552
(3732 + 4398) / 7358 = 1.11

山はだいたい重なっていて裾野が違っている、というレベルではないような。

[]