[SIMILAR] WITH 6766 連調 WITH 5572 yaml WITH 4557 range WITH 3394 dump WITH 2437 字コ WITH 1499 字列 WITH 964 本語 WITH 885 文字 WITH 776 エイ WITH 719 仕様 WITH 710 アス WITH 668 イリ WITH 615 ンカ WITH 531 ruby WITH 477 調査 WITH 438 以下 WITH 367 日本 WITH 324 ァイ WITH 276 関連 WITH 272 関係 WITH 262 リア WITH 236 イル WITH 201 アン WITH 199 カー WITH 197 コー WITH 193 ファ WITH 147 ード WITH 1 [ WITH 1 ] WITH 1 査。 WITH 1 。仕 WITH 1 様は の検索結果 134 件中 1 - 10 件目 (0.146993932 秒)
YAML関連調査。 仕様はどうであれ、文字コードに関係なく日本語のファイルも読める utf-8であっても日本語をdumpするとbinary扱いにされてしまう 文字列へのアンカー、エイリアスはdumpされない (1..2)のRangeは以下のようにdumpされる --- !ruby/range begin: 1 end: 2 excl: false ...
ダウ安値更新記念で各インデックスのmin/maxを取ってみた。dj 75%, nasdaq 62%, russell1000 69%, S&P500 69%, nikkei225 78%。S&P500とrussell1000はチャート自体そっくり。 ...
_ (スコア:4111)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:3113)
このコードを実行すると require 'sdbm' def dump(d) d.each do |c, v| p [c, v] end end dbm = SDBM::open("/tmp/hoge", 0644) ["a", "b", "c"].each do |c| dbm[c] = c end p "dump1" dump(dbm) dbm.each do |c, v| dbm[c] = v + "#" end p "dump2" dump(dbm) こうなる。 "dump1" ["a", "a"] ["b", "b"] ["c" ...
_ (スコア:3070)
spam token databaseのサンプルを作った。疲れた。 --add-spam等でdatabaseを読み込めるようにした。素直に、TokenDBをMarshal::dump/loadすべきだったか? ToeknDB classの定義が、dumpした時点とloadした時点で異ると嫌なことがおきそうな気がして、それを避けたのだが。 ...
_ (スコア:3062)
全社共通メイルサーバは、メイルのFrom:やTo:のMIME encodedな文字列を括っている「"」を削除してから、中継している模様。RFCに合わせるためだけにしているとは思えないので、合法なMIME encodingか検査したついでとか、そのへん? 本文の文字コードとかも調べているのかな? ...
_ (スコア:2711)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:2362)
hangukのことは韓国語というのが南限定で考えればいいのでは。 NHKみたいに「ハングル語講座」という苦肉の策の表現もありますが。 北の文字コードは南と違うという話をみたことも。 ...
_ (スコア:2316)
ああ、やっぱりみんな気がついてはいるんですね。 tcshは6.14から、multibyte文字やnlsメッセージの扱いが大幅に変わっています。(独自実装から、OSの標準機能を使うようになった) ところが、FreeBSDの実装が中途半端なため、おかしな動きをします。 (1) nls(メッセージの日本語化など)は、文字コード変換にico ...
_ (スコア:2312)
日本語化関連のToDoが投稿されている。 ISO-2022-JP 以外の文字コードへの対応(パッチとしてすでに公開していますが本家にマージする作業が残っています) base64、Quoted Printable への対応 途中で改行されてしまった日本語の単語への対応 Subject の分かち書き insert.pl の日本語化(本家にマージする作業が ...
_ (スコア:2001)
_ (スコア:10000)