文字数、バイト数(UTF-8/ASCII)、単語数、行数を計算します。
文字列の長さはさまざまな方法で測定できます:文字数(視覚的単位)、バイト数(ストレージサイズ)、コードポイント数(Unicode単位)、または書記素数(ユーザーが認識する文字)。これらの区別を理解することは、国際的なテキスト、サイズ制限のあるデータベース、または文字制限のあるAPIを扱う際に重要です。
文字数はエンコーディングによって異なります。絵文字は視覚的には1文字ですが、UTF-8では4バイトです。単語数は通常空白で分割されます。行数は改行文字に依存します。バイト数は実際のストレージサイズを反映し、エンコーディング(UTF-8、UTF-16など)によって異なります。
絵文字は複数のUnicodeコードポイントで構成されることがあります。家族の絵文字は、ゼロ幅接合子で結合された複数の文字かもしれません。異なるシステムはこれらを異なる方法でカウントします。
このツールは、最も一般的なウェブエンコーディングであるUTF-8を使用しています。UTF-8は1文字あたり1〜4バイトを使用します:ASCIIは1バイト、他のほとんどの言語は2〜3バイト、絵文字は4バイトを使用します。