Статистика:

 

 

 

Подпись: ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ В ЭВМ

 

Навигация:

<<<       оглавление        >>>

 

Главная

Информация

Проекты

 

Gamezone

 

Downloads

 

e-m@il

 

 

 

 

 

§1 Общие вопросы представления информации в ЭВМ.. 1

§2 Представление числовой информации в ЭВМ.. 8

§3 Представление символьной  информации в ЭВМ.. 12

Кодировка ASCII 12

Кодировка Unicode  16

 

§1 Общие вопросы представления информации в ЭВМ

 

Информатика - это наука и техника, связанные с машинной обработкой, хранением и передачей информации. Она занимается схематичным "формализованным" представлением информации, ее обработкой, равно как и предписаниями по ее обработке, и машинами, обрабатывающими информацию. Это включает в себя вопросы анализа и моделирования взаимосвязей и структур в самых различных областях применения. Цель состоит в разработке способов решения задач информационной обработки на вычислительных машинах, а также в разработке, организации и эксплуатации вычислительных систем.

Формирование моделей информатики нацелено на представление определенных структур, взаимодействий и процессов в какой-либо области применения (предметной области) с помощью формальных средств - таких, как структуры данных, языки программирования или логические формулы.

Понятие информации при этом является центральным для информатики. Точное выяснение понятия "информация" существенно необходимо для глубокого понимания систем обработки информации. Понятие "информация" используется, вообще говоря, в различных смыслах. Так говорят об информации в смысле соответствия высказываний действительности относительно определенных связей, событий или состояний нашего реального мира. В информатике, напротив, мы хотим более абстрактно определить понятие информации, которое становится не зависящим от реального мира. Мы будем понимать информацию как абстрактное значение выражений, графических изображений, указаний (операторов) и высказываний.

В связи с информационной обработкой, будем делать четкое различие между информацией, то есть абстрактным содержанием значения, и ее представлением (внешней формой). В связи с выяснением понятия информации особенно выявляется своеобразие представления информации: без соответствующего соглашения об установлении значения все представления информации не имеют определенного смысла, то есть содержания. Только предписывание определенного значения переводит представление в информацию. Это становится особенно понятным при рассмотрении древних надписей и рисунков, смысл которых пока неизвестен.

Многие формы представления информации допускают различное толкование. Так, слово "red", рассматриваемое как последовательность литер, является последовательностью трех литер: "r", "e", "d". Литеры мы можем интерпретировать акустически и тем самым заменить эту последовательность литер произнесенным словом. Это возможно, если мы знаем фонетическое значение букв - даже в том случае, когда значение самого слова нам неизвестно. В английском языке со словом "red" в качестве его значения связывают цвет. Если это слово связывается со светофором, то оно сразу получает новое толкование, а в других обстоятельствах - совсем другое. Как показывает этот пример, с одной и той же последовательностью литер люди в зависимости от обстоятельств связывают различные значения. И наоборот, одно и то же смысловое содержание может быть представлено различными способами.

Понятийное разделение внешней формы и абстрактного информационного содержания какого-либо высказывания или сообщения является фундаментальным для информатики. Итак, мы различаем в связи с информацией:

*    Ее представление или изображение (внешняя форма);

*    Ее значение (собственно "абстрактная" информация);

*    Ее отношение к реальному миру (связь абстрактной информации с действительностью).

Информатика включает в себя науку о машинной обработке информации. Это охватывает вопросы:

Схематизированного представления (изображения информационной структуры объектов и данных, а также их взаимосвязи;

 Правил и предписаний для обработки информации (алгоритмы, вычислительные предписания) и их представления, включая описание протекания работы (процессы, взаимодействующие системы).

Оба эти пункта тесно связаны между собой. Программа, например, в качестве своей внешней формы имеет текстовую (или графическую) структуру. Текстовая структура, в свою очередь, представляет собой объект для информационной обработки. Но программа представляет также предписание для обработки. При ее выполнении в компьютере протекает процесс действий, который преобразует определенные исходные данные в определенные выходные данные (результаты). Таким образом, программа описывает и реализует некоторую функцию. При разработке программных систем перед информатикой стоит задача представления, моделирования и использования самых различных видов информации. Так как машинная, "схематичная" обработка информации, соответственно ее представления, требует точно установленных форм представления и преобразования, информатика пользуется формальными методами. Этим она обнаруживает связь с математикой, особенно с математической логикой. Но поскольку методы информатики должны вести к практически применимым продуктам ("программам", "системам"), которые должны решать поставленные задачи на имеющихся вычислительных машинах, то есть на физических объектах, при дополнительных экономических условиях, то информатика имеет и сильно выраженные инженерно-научные черты.

 Информацией называют абстрактное содержание ("содержательное значение", "семантика") какого-либо высказывания, описания, указания, сообщения или известия. Внешнюю форму изображения называют представлением (конкретная форма сообщения) [1].

 Для машинной обработки информации всегда необходимы формы ее представления. Это представление может принимать разнообразные виды. От условных знаков ("сигнал"), от произносимых слов ("акустическое представление") до рисунков (графическое представление, "пиктограмма", "иконки") или последовательностей символов (написанного "слова", "текста") находится большое число возможностей для выбора способа представления. Однако всегда важно установление способа выявления значения представления. Представление интерпретируется, чтобы получить информацию. Переход (часто только воображаемый, мысленный) от представления к абстрактной информации, то есть к значению представления, называют интерпретацией.

 Информация, находящаяся в какой-либо информационной системе, воспринимается как некоторая математическая структура. Переход от представления к элементам этой математической структуры называется интерпретацией. Установление отношений к реальному миру, то есть толкование значения информации в смысле окружающего нас мира, мы называем пониманием. Существует тонкая разница между интерпретацией и пониманием. Отдельно от этого ставится вопрос о том, соответствует ли информация действительности, передает ли она реальные обстоятельства. Об этом можно судить в лучшем случае субъективно.

 Различные системы представления информации по-разному эффективны. Если должна представляться сложная информация, то должна выбираться подходящая система ее представления. В применениях информатики обычно рассматривается точно описанное множество R представлений с интерпретацией I в множестве A элементов (информаций). Интерпретация I данному представлению r (сообщению) ставит в соответствие некоторое абстрактное информационное содержание I[r]. Таким образом, интерпретации соответствует отображение

I: R      A

 Через (A, R, I) мы будем обозначать информационную систему. Таким образом, информационная система соответствует понятию отображения из математики. Впрочем, к системе представления R обычно предъявляют прагматические требования - например, чтобы все представления были конечны. R называют также системой представления, а A - семантической моделью.

Пример (система представления для натуральных чисел).  Пусть N - множество натуральных чисел (включая и число "нуль"), представляемых числом штрихов, то есть с помощью последовательностей штрихов:

e, |, ||, |||, …

где через e обозначена пустая последовательность. Обычным представлением натуральных чисел являются десятичные числа, то есть последовательности с символами из множества цифр {0, 1, …, 9}. Интерпретацией I здесь является отображение десятичного представления в последовательность штрихов (здесь запись {0, 1, …, 9}+ обозначает множество непустых конечных последовательностей десятичных цифр)

I: {0, 1, …, 9}+        N

с  I[0]= e, I[1]= |, I[2]=||, …

Этот пример проясняет фундаментальную проблему информационной обработки: информация в ее абстрактном виде не может быть записана непосредственно,  а потому всегда может быть только как-то изображена. Представление натуральных чисел с помощью штрихов снова является только их изображением. Понятие же числа в математике есть абстракция, которая понимается совершенно независимо от конкретного изображения. Законы математики справедливы для чисел в их римской записи так же, как и при их представлении с помощью штрихов, в двоичной или десятичной записи. Впрочем, различные способы представления чисел существенно различаются с точки зрения удобства их использования для определенных процессов обработки. Достаточно лишь попытаться выполнить сложение, а тем более умножение чисел в их римской записи.

 Часто в какой-либо системе представления имеется много различных изображений для той же самой информации. Эти изображения называются тогда эквивалентными. Точнее говоря, в информационной системе (A, R, I) справедливо: два изображения r1, r2  R называются семантически эквивалентными, если они несут одинаковую информацию, то есть если справедливо

I[r1] = I[r2].

Информация - сведения, которыми  располагает активная система (общество, человек, компьютер и т.п.) о том или ином объекте, которые могут храниться, передаваться и подвергаться  преобразованиям.

Информация всегда представляется в виде сообщения. Совокупность сообщений составляет данные об объекте.

Единица количества информации - бит -  информация, которую может нести сообщение,   состоящее из одного двоичного знака. Информационное сообщение может быть  представлено в виде функции x(t), характеризующей  изменение во времени какой - либо величины, описывающей состояние приемника.

Непрерывная (аналоговая) информация - функция x(t) может принимать любые вещественные значения в диапазоне изменения аргумента t.

Дискретная информация - функция x(t) может принимать набор фиксированных дискретных   значений в заданные моменты времени [17].

 

 Аналоговая и дискретная информация.

Рис. 1.

   Информация - это сведения об окружающем мире и протекающих в нем процессах, воспринимаемые человеком или специализированным устройством, например ЭВМ, для обеспечения целенаправленной деятельности.

Информация может быть по своей физической природе: числовой, текстовой, графической, звуковой, видео и др. Она также может быть постоянной (неменяющейся), переменной, случайной, вероятностной. Наибольший интерес представляет переменная информация, так как она позволяет выявлять причинно-следственные связи в процессах и явлениях. Существуют различные способы оценки количества информации. Классическим является подход, использующий формулу К. Шеннона. Применительно к двоичной системе она имеет вид:

H=log2N,

где H – количество информации, несущей представление о состоянии, в котором находится объект; N – количество равновероятных альтернативных состояний объекта.

Любая информация, обрабатываемая в ЭВМ, должна быть представлена двоичными цифрами {0,1}, т.е. должна быть закодирована комбинацией этих цифр. Различные виды информации (числа, тексты, графика, звук) имеют свой правила кодирования. Коды отдельных значений, относящиеся к различным видам информации, могут совпадать. Поэтому расшифровка кодированных данных осуществляется по контексту при выполнении команд программы [17].

 

 

 

 

 

 

 

 

 

§2 Представление числовой информации в ЭВМ

 

Компьютер может обрабатывать данные, которые представлены в специальном виде - только с помощью нулей и единиц. Каждый 0 или 1 называют битом. Один бит - это минимальная единица информации, описывающая только 2 возможных состояния. Восемь битов объединяются в байт: 00101011, 00000000, 11111111, 10101010. Байт - основная единица представления информации в компьютере. В итоге вся информация в компьютере представляется как набор огромного (сотни тысяч и миллионы) числа нулей и единиц, разбитых на отдельные байты. Такое представление информации называют цифровым или двоичным. Обработка двоичных данных выполняется с помощью специальных правил, определяемых так называемой двоичной арифметикой.

В зависимости от решаемой задачи байт может содержать закодированное представление различных типов данных.

Простейшим и исторически первым является кодирование целых чисел. Целые числа представляются в двоичном виде следующим образом:

000000002 = 010         000000012 = 110         . . . . . . . . . .    111111112 = 25510

 Диапазон целых чисел, кодируемых одним байтом, определяется числом возможных комбинаций из восьми нулей и единиц. Это число равно 28, т.е.  256. Если надо закодировать число больше 255, то два байта объединяются вместе и используется 16 битов. Это дает 216, т.е. 65536 комбинаций. Еще большие целые числа можно представить с помощью 4 байтов или 32 битов. Для представления чисел со знаком один бит отводится под знак.

Более сложное представление существует для вещественных (не целых) чисел, и обработка таких чисел значительно сложнее для компьютера.

В ЭВМ используются три вида чисел: с фиксированной точкой (запятой), с плавающей точкой (запятой) и двоично-десятичное представление. Точка (запятая) - это подразумеваемая граница целой и дробной частей числа.

У чисел с фиксированной точкой в двоичном формате предполагается строго определенное место точки (запятой). Обычно это место определяется или перед первой значащей цифрой числа, или после последней значащей цифрой числа. Если точка фиксируется перед первой значащей цифрой, то это означает, что число по модулю меньше единицы. Диапазон изменения значений чисел определяется неравенством

.

Если точка фиксируется после последней значащей цифры, то это означает, что п- разрядные двоичные числа являются целыми. Диапазон изменения их значений составляет:

Перед самым старшим из возможных разрядов двоичного числа фиксируется его знак. Положительные числа имеют нулевое значение знакового разряда, отрицательные - единичные.

Другой формой представления чисел является представление их в виде чисел с плавающей точкой (запятой). Числа с плавающей точкой представляются в виде мантиссы тa и порядка рa , иногда это представление называют полулогарифмической формой числа. Например, число A10= 373 можно представить в виде 0.373 • 103, при этом т = 0.373, р = 3, основание системы счисления подразумевается фиксированным и равным десяти. Для двоичных чисел А2 в этом представлении также формируется тa и порядок рa при основании системы счисления равным двум.

что соответствует записи

Порядок числа рa определяет положение точки (запятой) в двоичном числе. Значение порядка лежит в диапазоне amax <=рa<=рamax , где величина pamах определяется числом разрядов к, отведенных для представления порядка

Положительные и отрицательные значения порядка значительно усложняют обработку вещественных чисел. Поэтому во многих современных ЭВМ используют не прямое значение рa, а модифицированное р'a приведенное к интервалу

Значение р'a носит название «характеристика числа». Обычно под порядок (модифицированный порядок - характеристику) выделяют один байт. Старший разряд характеристики отводится под знак числа, а семь оставшихся разрядов обеспечивают изменение порядка в диапазоне

Модифицированный порядок р'a вычисляется по зависимости

Этим самым значения р'a формируются в диапазоне положительных чисел

Мантисса числа ma представляется двоичным числом, у которого точка фиксируется перед старшим разрядом, т. е.

где k - число разрядов, отведенных для представления мантиссы.

Если

то старший значащий разряд мантиссы в системе счисления с основанием N отличен от нуля. Такое число называется нормализованным. Например, A2 =(100;0.101101)2 -нормализованное число А2= 1011.01 или А10= 11.25, а то же самое число А2 = (101 ;0.0101101) - число ненормализованное, так как старший разряд мантиссы равен нулю.

Диапазон представления нормализованных чисел с плавающей точкой определяется

где r и k - соответственно количество разрядов, используемых для представления порядка и мантиссы.

Третья форма представления двоичных чисел - двоично-десятичная. Ее появление объясняется следующим. При обработке больших массивов десятичных чисел (например, больших экономических документов) приходится тратить существенное время на перевод этих чисел из десятичной системы счисления в двоичную для последующей обработки и обратно - для вывода результатов. Каждый такой перевод требует выполнения двух - четырех десятков машинных команд. С включением в состав отдельных ЭВМ специальных функциональных блоков или спецпроцессоров десятичной арифметики появляется возможность обрабатывать десятичные числа напрямую, без их преобразования, что сокращает время вычислений. При этом каждая цифра десятичного числа представляется двоичной тетрадой. Например, A10=3759, A2-10= 0011 0111 0101 1001. Положение десятичной точки (запятой), отделяющей целую часть от дробной, обычно заранее фиксируется. Значение знака числа отмечается кодом, отличным от кодов цифр. Например, «+» имеет значение тетрады «1100», а «-» - «1101» [17].

 

 

 

 

 

 

 

 

 

 

 

 

§3 Представление символьной  информации в ЭВМ

 

Для кодирования символьной или текстовой информации применяются различные системы: при вводе информации с клавиатуры кодирование происходит при нажатии клавиши, на которой изображен требуемый символ, при этом в клавиатуре вырабатывается так называемый scan-код, представляющий собой двоичное число, равное порядковому номеру клавиши.

Номер нажатой клавиши никак не связан с формой символа, нанесенного на клавише. Опознание символа и присвоение ему внутреннего кода ЭВМ производятся специальной программой по специальным таблицам: ДКОИ, КОИ-7, ASCII.

3.1 Кодировка ASCII

Всего существует множество кодировочных таблиц. Рассмотрим сначала кодировочную таблицу ASCII (ASCII - American Standard Code for Information Interchange - Американский стандартный код для обмена информацией). Эта кодировка является наиболее известной. На практике обычно не бывает проблем с кодированием англоязычных текстов, поскольку первая половина кодировки стандартизована, но, к сожалению, для кодировки русских букв существует несколько кодировочных таблиц, что иногда создает проблемы при работе с текстами. 

Всего с помощью таблицы кодирования ASCII (табл. 2.1) можно закодировать 256 различных символов. Эта таблица разделена на две части: основную (с кодами от OOh до 7Fh) и дополнительную (от 80h до FFh, где буква h обозначает принадлежность кода к шестнадцатеричной системе счисления). Для кодировки одного символа из таблицы отводится 8 бит. При обработке текстовой информации один байт может содержать код некоторого символа - буквы, цифры, знака пунктуации, знака действия и т.д. Каждому символу соответствует свой код в виде целого числа. Один байт как набор восьми битов позволяет закодировать 256 символов, что вполне достаточно для работы сразу с двумя обычными языками, например английским и русским. При этом все коды собираются в специальные таблицы, называемые кодировочными. С их помощью производится преобразование кода символа в его видимое представление на экране монитора. В результате любой текст в памяти компьютера представляется как последовательность байтов с кодами символов. Например, слово hello! будет закодировано следующим образом (см. табл. 1):

 

Таблица 1. Кодирование символьной информации.

Символ

h

e

l

l

o

!

Код

двоичный

01001000

01100101

01101100

01101100

01101111

00100001

Код десятичный

72

101

108

108

111

33

 

На рис. 2 представлены символы, входящие в стандартную (английскую) и расширенную (русскую) кодировку ASCII.

 

Таблица кодировки текстовой информации ASCII.

Рис. 2.

Первая половина таблицы ASCII стандартизована. Она содержит управляющие коды (от 00h до 20h и 77h). Эти коды из таблицы изъяты, так как они не относятся к текстовым элементам. Здесь же размещаются знаки пунктуации и математические знаки: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., большие и малые латинские буквы: 41h - A, 61h - а,...

Вторая половина таблицы содержит национальные шрифты, символы псевдографики, из которых могут быть построены таблицы, специальные математические знаки. Нижнюю часть таблицы кодировок можно заменять, используя соответствующие драйверы - управляющие вспомогательные программы. Этот прием позволяет применять несколько шрифтов и их гарнитур.

Дисплей по каждому коду символа должен вывести на экран изображение символа - не просто цифровой код, а соответствующую ему картинку, так как каждый символ имеет свою форму.

Описание формы каждого символа хранится в специальной памяти дисплея - знакогенераторе. Высвечивание символа на экране дисплея IBМ PC осуществляется с помощью точек, образующих символьную матрицу. Каждый пиксел в такой матрице является элементом изображения и может быть ярким или темным. Темная точка кодируется цифрой 0, светлая (яркая)- 1. Если изображать в матричном поле знака темные пикселы точкой, а светлые - звездочкой, то можно графически изобразить форму символа [17].

Люди в разных странах используют символы для  записи слов их родных зыков. В наши дни большинство приложений, включая системы электронной почты и вэб-браузеры, являются чисто 8-битными, то есть они могут показывать и корректно воспринимать лишь 8-битные символы, согласно стандарту  ISO-8859-1.

Существует более 256 символов в мире (если учесть кириллицу, арабский, китайский, японский, корейский и тайский языки), а также появляются все новые и новые символы. И это создает следующие пробелы для многих пользователей:

Невозможно использовать символы различных наборов кодировок в одном и том же документе.

Так как каждый текстовый документ использует свой собственный набор кодировок, то возникают большие трудности с автоматическим  распознаванием текста.

Появляются новые символы (например: Евро), вследствие чего ISO разрабатывает новый стандарт ISO-8859-15, который весьма схож со стандартом ISO-8859-1.

Разница состоит в следующем: из таблицы кодировки старого стандарта ISO-8859-1 были убраны символы обозначения старых валют, которые не используются в настоящее время, для того, чтобы освободить место под вновь появившиеся символы (такие,   как Евро). В результате у пользователей на дисках могут лежать одни и те же документы, но в разных кодировках.

Решением этих проблем является принятие единого международного набора кодировок,   который называется универсальным кодированием или Unicode.

Кодировка Unicode

Данная кодировка решает пользовательские проблемы (см. выше), но создает новые, технические проблемы: как пересылать символы в формате Unicode, использую 8-битные байты? 8-битные единицы являются наименьшими передаваемыми единицами в большинстве компьютеров, а также являющимися минимальными единицами, используемыми при сетевых соединениях на основе протокола TCP/IP. Использование 1-го байта для представления 1-го символа стало эпизодом истории (факт появления такой кодировки обусловлен тем, что компьютеры зародились в Европе и США, где долгое время обходились 96   символами).

Существует 4 основных способа кодировки байтами в формате Unicode:

UTF-8: 128 символов кодируются одним байтом (формат ASCII), 1920 символов кодируются 2-мя байтами ((Roman, Greek, Cyrillic, Coptic, Armenian, Hebrew, Arabic символы), 63488 символов кодируются 3-мя байтами (Китайский, японский и др.) Оставшиеся 2 147 418 112 символы (еще не использованы) могут  быть закодированы 4, 5 или 6-ю байтами.

UCS-2: Каждый символ представлен 2-мя байтами. Данная кодировка включает  лишь первые 65 535 символов из формата Unicode.

UTF-16:Является расширением UCS-2, включает 1 114 112 символов формата Unicode. Первые 65 535 символов представлены 2-мя байтами, остальные - 4-мя байтами.

USC-4: Каждый символ кодируется 4-мя байтами.

Получается, что 8 бит используются для кодирования европейских языков, а для китайского, японского и корейского языков много больше. Это может повлиять на объем занимаемого дискового пространства и на скорость передачи по сети. Для основных кодировок картина следующая (<b>K</b> (%) - увеличение дискового пространства и снижение скорости передачи по сети):

UTF-8: никаких изменений для американской ASCII, незначительное ухудшение (К = несколько %) для ISO-8859-1, К=50% для китайского, японского,   корейского и К=100% для греческого и кириллицы.

UCS-2 и UTF-16: никаких изменений для китайского, японского, корейского;   К=100% для американской ASCII, ISO-8859-1, греческого и кириллицы.

UCS-4: К=100% для китайского, японского, корейского; К=300% для американской ASCII, ISO-8859-1, греческого и кириллицы.

В итоге получается, что UTF-8 кодировка занимает меньше дискового пространства и позволяется передавать данные по сети с большей скоростью [10].

Unicode 3.0

Стандарт Unicode был разработан с целью создания единой кодировки символов всех современных и многих древних письменных языков. Каждый символ в этом стандарте кодируется 16 битами, что позволяет ему охватить несравненно большее количество символов, чем принятые ранее 7- и 8-битовые   кодировки. Еще одним важным отличием Unicode от других систем кодировки является то, что он не только приписывает каждому символу уникальный код, но и определяет различные характеристики  этого символа, например:

*    тип символа (прописная буква, строчная буква, цифра, знак препинания и т.д.);

*    атрибуты символа (отображение слева направо или справа налево, пробел, разрыв строки и т.д.);

*    соответствующая прописная или строчная буква (для строчных и прописных букв соответственно);

*    соответствующее числовое значение (для цифровых символов).

Весь диапазон кодов от 0 до FFFF разбит на несколько стандартных подмножеств, каждое из которых соответствует либо алфавиту какого-то языка, либо группе специальных символов, сходных по своим функциям. На приведенной ниже схеме содержится общий перечень подмножеств Unicode 3.0.

Кодировка Unicode 3.0.

Рис. 3.

 

Формат UTF-8: Стандарт Unicode является основой для хранения и текста во многих современных компьютерных системах. Однако, он не совместим с большинством Интернет-протоколов, поскольку его коды могут содержать любые байтовые значения, а протоколы обычно используют байты 00 - 1F и FE - FF в качестве служебных. Для достижения совместимости были разработаны несколько форматов преобразования Unicode (UTFs, Unicode Transformation Formats), из которых на сегодня наиболее распространенным является UTF-8. Этот формат определяет следующие правила преобразования каждого кода Unicode в набор байтов (от одного до трех), пригодных для транспортировки Интернет-протоколами.

 

Таблица 2. Формат UTF-8.

Диапазон Unicode

Двоичный код символа

Байты UTF-8 (двоичные)

0000 - 007F

00000000 0zzzzzzz

0zzzzzzzz

0080 - 07FF

00000yyy yyzzzzzz

110yyyyy 10zzzzzz

0800 - FFFF

xxxxyyyy yyzzzzzz

1110xxxx 10yyyyyy 10zzzzzz

 

Здесь x,y,z обозначают биты исходного кода, которые должны извлекаться, начиная с младшего, и заноситься в байты результата справа налево, пока не будут заполнены все указанные позиции.

Формат UTF-16: Дальнейшее развитие стандарта Unicode связано с добавлением новых языковых плоскостей, т.е. символов в диапазонах 10000 - 1FFFF, 20000 - 2FFFF и т.д., куда предполагается включать кодировку для письменностей мертвых языков, не попавших в таблицу, приведенную выше. Для кодирования этих дополнительных символов был разработан новый формат UTF-16.

Для базовой языковой плоскости, т.е. для символов с кодами от 0000 до FFFF, он совпадает с Unicode. Поэтому, если вы не собираетесь писать Веб-страницы

на языке шумеров или майя, можете смело отождествлять два эти формата.