UTF-8 - Wikipedia
UTF-16 では サロゲートペア で表されるような、 基本多言語面 外の符号位置をUTF-8で表す時は、変換元がUTF-16でサロゲートペアの時には U+D800–U+DBFF, U+DC00–U+DFFF を表すUTF-8にそのまま変換したりはせず、U+10000–U+10FFFF の符号位置にデコードしてから変換する。そのままUTF-8で符号化したような列は不正なUTF-8とされる。 サロゲートペアのままUTF-8と同等の符号化を行う符号化は、CESU-8 (Compatibility Encoding Scheme for UTF-16: 8-Bit) として別途定義されている。実用に...
ja.wikipedia.org