漢字全部の正規表現の感じ - エンジニアの低脳っぷりを晒す戦記

ここで気になったのが例文にあがってる

[一-龠]+

この正規表現
これはユニコードの4E00〜9FA0をあらわしている。ここを参照したところ・・・
Unicode一覧 4000-4FFF - Wikipedia
Unicode一覧 9000-9FFF - Wikipedia
漢字っぽいものをマッチさせようというわけだ。

でもこれより前にも漢字はあるし、後ろにも少しある。それを考えると、漢字全部マッチというのは

[&#13312;-&#40891;]+

なるんじゃないんだろうか・・・

って書いてエントリーしようと思ったら、はてながこの文字をハンドリングできないｗ
HTMLの実体参照になってしまうｗ本当は→[㐀-龻]+　こう

って書いたら・・・Vistaでは見れるけどXPで見れないｗｗｗ

うーん

[一-龠]+

こいつが正しく出ているということは処理系によって限界があるのか・・・わからんが、漢字を選択する正規表現として覚えとこ