Unicode変換

テキストをUnicodeエスケープシーケンスに変換、またはその逆を行います。

Unicodeとは何ですか?

Unicodeは、テキストのエンコード、表現、処理に関する国際標準です。すべての書記体系の文字、記号、絵文字、制御文字に固有の番号(コードポイント)を割り当てます。Unicodeは普遍的な文字セットを目指しており、現在161の文字体系をカバーする149,000以上の文字を含んでいます。

Unicodeエンコーディング

Unicodeコードポイントはさまざまな形式でエンコードできます:UTF-8(可変1〜4バイト、ASCII互換)、UTF-16(2または4バイト、JavaScript/Windowsで使用)、およびUTF-32(固定4バイト)。UTF-8はウェブ上で支配的なエンコーディングとなり、ASCIIテキストでの効率性を維持しながらすべての言語を処理します。

主な使用例
  • テキストのエンコーディング問題のデバッグ
  • 特殊文字のコードポイントの検索
  • エスケープされたUnicodeシーケンスの変換
  • Analyzing character composition
  • 国際化(i18n)の作業
表記形式
U+XXXX 標準Unicode表記(例:'A'はU+0041)
\uXXXX JavaScript/JSONエスケープシーケンス
&#DDDD; HTML 10進エンティティ
&#xHHHH; HTML 16進エンティティ
よくある質問

UTF-8とUnicodeの違いは何ですか?

Unicodeは文字セット(文字から数字へのマッピング)です。UTF-8はそれらの数字をバイトとしてエンコードする方法の1つです。他のエンコーディングにはUTF-16やUTF-32があります。

一部の文字が四角や疑問符で表示されるのはなぜですか?

これは、システムにその文字を含むフォントがない場合、またはエンコーディングが誤って検出された場合に発生します。文字は存在しますが、表示できません。