漢字全部の正規表現の感じ
みんなやること同じなのね
2008-04-24 - エンジニアの低脳っぷりを晒す戦記
404 Blog Not Found:javascript - yet another regexp tester
ここで気になったのが例文にあがってる
[一-龠]+
この正規表現
これはユニコードの4E00〜9FA0をあらわしている。ここを参照したところ・・・
Unicode一覧 4000-4FFF - Wikipedia
Unicode一覧 9000-9FFF - Wikipedia
漢字っぽいものをマッチさせようというわけだ。
でもこれより前にも漢字はあるし、後ろにも少しある。それを考えると、漢字全部マッチというのは
[㐀-龻]+
なるんじゃないんだろうか・・・
って書いてエントリーしようと思ったら、はてながこの文字をハンドリングできないw
HTMLの実体参照になってしまうw本当は→[㐀-龻]+ こう
って書いたら・・・Vistaでは見れるけどXPで見れないwww
うーん
[一-龠]+
こいつが正しく出ているということは処理系によって限界があるのか・・・わからんが、漢字を選択する正規表現として覚えとこ