- Чистый 8-бит
-
Подмножество октетов со старшим битом 1 включает те значения октета, у которых старший бит равен единице (установлен). Содержит коды 10000000..11111111 в двоичном представлении, 0x80..0xFF в шестнадцатеричном, 0200..0377 в восьмеричном, 128..255 в десятичном беззнаковом. В дополнительном коде октеты со старшим битом 1 являются отрицательными числами от -128 до -1.
Содержание
Использование для кодирования символов
Причина использования
Причина особого рассмотрения данного подмножества связана с компьютерным представлением текста, в контексте которого оно называется также второй, или верхней половиной кодовой таблицы. Общеупотребительная кодовая страница кодирования символов, не входящих в ASCII, то есть для расширения набора символов. Поэтому 8-битную кодовую таблицу называют также расширенной таблицей ASCII, а варианты её второй половины — расширениями ASCII.
Набор символов ASCII явно недостаточен для представления текста на большинстве языков. В результате появились 8-битные кодовые страницы, совместимые с ASCII, но несовместимые между собой (см. Крокозябры). Ныне малоизвестная кодировка
Иной подход использует азиатских языков. Дополнительные символы кодируются последовательностями двух или более октетов со старшим битом 1.
Примеры использования второй половины кодовой таблицы
тип кодировки 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. A. B. C. D. E. F. печатные символы
ASCIIсимволы Псевдографика символы ASCII упр. симв. не используются Обычная 8-битная кодовая страница печатные символы кодовая страница упр. симв. печатные символы UTF-8 представление младшей части кода начало 2-байтной кодовой последова- тельности начало 3-байтной (и более) кодовой последова- тельности ISO 8859
В 1992 году международная организация ISO-8859-5 не нашла применения, однако другие страницы ISO 8859 послужили основой для создания проприетарных расширений, заменяющих управляющие символы ISO 8859 печатными символами. Наиболее известным таким расширением является страница Windows-1252, сделанная на основе ISO-8859-1.
КОИ-8
Кодовые страницы кириллицы семейства КОИ-8 специально разработаны с учётом возможных проблем со старшим битом — при сбросе старшего бита русские буквы (кроме Ё) превращаются в ASCII-символы так, что читаемость текста сохраняется.
Проблемы с хранением и передачей
Октеты со старшим битом 1 вызывают проблемы в некоторых традиционных протоколах передачи информации, например:
Связанные проблемы
Во многих реализациях языка C тип данных
char
по умолчанию является октетом со знаком, что приводит к расположению символов из второй половины кодовой таблицы перед ASCII-символами при лексикографической сортировке.При использовании кодировки quoted-printable или при текст, закодированный октетами со старшим битом 1, выглядит нечитаемо.
Wikimedia Foundation. 2010.