Что такое UTF-8 и UTF-16? Работа с кодировками Unicode

UTF-8 и UTF-16 — две наиболее распространённые кодировки символов Unicode. Unicode определяет большой репертуар символов (теоретически 1,1 миллиона, из которых 145 тысяч определены в Unicode 14.0), что ставит вопрос о кодировании всех этих символов. UTF-8 и UTF-16 — две из кодировок Unicode, наиболее распространённые на сегодняшний день. UTF-8 — это кодировка переменной длины, которая кодирует каждый символ от 1 до 4 байтов, тогда как стандартный репертуар ASCII кодируется одним байтом на символ. Такая кодировка делает UTF-8 компактной, но при этом она является относительно сложной. UTF-16 менее сложна и кодирует большинство символов Unicode (и практически все используемые сегодня на практике) двумя байтами, а некоторые другие — четырьмя. Это означает, что UTF-16 занимает больше места в большинстве случаев, но её проще кодировать и декодировать. Сейчас Unicode очень популярен, поэтому многие инструменты имеют встроенную поддержку Unicode и некоторых его кодировок. Кроме того, существуют отдельные инструменты для исследования файлов и их преобразования. Мы продемонстрируем два таких инструмента на примере команд Unix «od» и «iconv», которые позволяют нам внимательно изучить демонстрационный файл и преобразовать его между двумя кодировками. Дополнительные ресурсы: 🎥 Что такое Unicode? Как он работает и как его использовать? -    • What is Unicode? How does it work and how ...   👉 Википедия: UTF-8 -
👉 Википедия: UTF-16 -
👉 Википедия: Unicode -
👉 Консорциум Unicode -
00:00 Введение 00:23 UTF-8 и UTF-16 — это текстовые кодировки 00:55 Наборы символов 01:26 Unicode как универсальный набор символов 02:27 UTF-8 03:25 UTF-16 04:09 Демонстрация: Начало работы с демонстрационным файлом 04:50 od как инструмент для дампа Файлы 05:46 Iconv для конвертации файлов 07:24 Краткое содержание 08:50 Подведение итогов

Смотрите также