В данном разделе мы постарались описать все термины, относящиеся к созданию сайтов в нашей системе. Если Вы заметили, что какого-то понятия не хватает - пишите нам на [email protected]
Кодировка (англ. character encoding) — система, в которой каждому символу из заданной последовательности соответствуют другие условные обозначения, представленные в виде последовательностей битов, натуральных чисел или электрических импульсов.
Кодировка используется для передачи данных (обычно чисел или текста) посредством сетей связи либо для хранения информации. На сегодняшний день более авторитетным понятием, согласно интернет-стандарту RFC 2278, является «набор символов» (character set, charset). Кодировка часто употребляется как синоним в некоторых языках программирования.
В качестве примеров использования кодировки можно привести азбуку Морзе, код Бодо, Американский национальный стандартный код для обмена информацией (ASCII) и Юникод.
Вскоре начали проявляться недостатки таких кодировок, были предприняты попытки по их улучшению и расширению. Необходимость поддержки возрастающего количества систем записи, включая восточные языки, требовала поддержки большего числа символов, надо было выработать новый подход к разработке систем кодирования информации.
Символы в компьютере обычно представлены последовательностью битов. Сейчас используются три типа кодировок: совместимые с ASCII, c EBCDIC и Юникод.
Раньше в каждой операционной системе использовалась какая-либо одна конкретная кодировка. Теперь они не находятся в жесткой зависимости от ОС.
Существует множество кодировок, разработанных для поддержки конкретных языков. Однако всегда существовала необходимость создания универсальной кодировки, которая была бы способна корректно отображать символы любого алфавита. Такая кодировка была разработана в 1991 году. Она носит название Юникод (Unicode), в ней для отображения любого символа используется 6 байтов информации. В реальности не всегда есть необходимость использования всех шести байтов, отведенных для хранения данных. Также Юникод должен был быть совмещен с уже существующими однобайтовыми текстами на английском, поэтому у него есть так называемые "представления" (способы записи), самым распространенным способом записи является UTF-8.
Символ, имеющий соответствие в таблице ASCII, кодируется одним байтом. Остальные символы представлены в виде последовательностей от 2 до 6 байтов, первые биты которых зарезервированы (во избежание путаницы с ASCII-символами).