<<
>>

Кодировка

Кодировка — это таблица символов, где каждой букве алфавита, цифре и служебному символу присвоен свой уникальный номер — код символа. Это необходимо для представления информации в компьютере.

Если, к примеру, в русском языке 33 буквы, то в машинном языке таких букв всего две — О и 1, но об этом мы уже говорили ранее.

Стандартом оговорен ASCII-код — буквы латинского алфавита записаны первыми 128 символами из 256 символов всей таблицы. Цифра 256 не случайна — это количество состояний, которое может принять один байт. Остальные 128 символов второй половины таблицы занимают различные национальные символы и для каждого языка эта часть различна. Для русского языка придумано 5 разных кодировок плюс еще одна нового поколения, не основанная на ASCII. Это значит, что одной и той же букве соответствуют разные цифровые коды. И если неправильно определена кодировка текста, то письмо невозможно будет прочитать.

Кодировки появились не просто так. Это отдельная история. КОІ-8 — первая, широко используемая русская кодировка. Она была придумана в семидесятых годах XX века, когда систему UNIX адаптировали к русскому языку. До сих пор в ней эта кодировка считается основной. По умолчанию такую кодировку используют почтовые программы для работы с русскоязычной почтой.

С появлением персональных компьютеров и операционной системы DOS была придумана DOS-кодировка. Microsoft вместо того, чтобы применить уже готовую кодировку, решила сделать свою, ни с чем не совместимую. Так появилась DOS-кодировка (или 866-кодовая страница). В ней впервые были введены спецсимволы для рисования рамок, что широко использовалось в текстовом редакторе Лексикон для отображения таблиц.

Параллельный IBM-совместимым компьютерам мир Macintosh тоже требовал русификации, несмотря на очень малую долю их в бывшем СССР. Так появилась еще одна кодировка — MAC.

Пришел 1990 год и Microsoft начала внедрение Windows 3.0—3.11.

Эта версия требовала поддержки национальных языков. И опять, вместо использования КОІ-8 или DOS-кодировки, Microsoft насаждает новую — Win- кодировку (или кодовая страница 1251). На сегодняшний день она стала самой распространенной для русскоязычных программ.

Кстати, IBM при создании OS/2 приняла за стандарт DOS-кодировку.

Попытки стандартизации на общемировом уровне международной организацией по стандартам (ISO) привели к созданию еще одной кодировки — ISO-8859-5. Вместо того, чтобы принять за стандартную одну из существующих кодировок, они придумывают новую.

Создание новых кодировок не стоит на месте. Сейчас существует кодировка UNICODE, которая описывает каждый символ не одним, а двумя байтами. И максимальное количество знаков в таблице увеличилось с 256 до 65 535. Таким образом, поместив в эту таблицу символы всех алфавитов, проблему кодировок планируют решить раз и навсегда. Но еще не все программы поддерживают ее, хотя в электронной почте Unicode можно использовать уже сейчас.

На практике чаще всего вы встретитесь с двумя кодировками: КОІ-8 и Win- 1251. Если ваш адресат использует русифицированную версию Windows, а не старое ПО для работы с электронной почтой, то проблем с прочтением письма в любой кодировке у него не будет. Если же у него установлена английская версия, то письмо он прочитать не сможет. Для этого надо специально настраивать компьютер, устанавливать шрифты и т. д.

С кодировкой КОІ-8 могут возникнуть проблемы у людей, использующих старые версии Windows. В принципе, ситуация поправима — для этого существует масса программ-перекодировщиков. Если время терпит, то можно повторно запросить письмо, объяснив, какой кодировкой предпочтительней пользоваться.

Еще несколько лет назад были проблемы с пересылкой русскоязычных писем через серверы, находящиеся в других странах. В результате получался абсолютно невосстанавливаемый текст. В настоящее время такие проблемы уже фактически не встречаются.

<< | >>
Источник: Герасевич В. А.. Самоучитель. Компьютер для врача. — СПб.: БХВ-Петербург,2002. — 640 с.. 2002

Еще по теме Кодировка: