Информация и способы ее представления

ИНФОРМАЦИЯ И СПОСОБЫ ЕЕ
ПРЕДСТАВЛЕНИЯ
Информатика - наука о законах и методах накопления, обработки и передачи
информации. В наиболее общем виде понятие информации можно выразить так:
Информация - это отражение предметного мира с помощью знаков и сигналов.
Принято говорить, что решение задачи на ЭВМ, в результате чего создается новая
информация, получается путем вычислений. Потребность в вычислениях связана с
решением задач: научных, инженерных, экономических, медицинских и прочих.
Каким образом отыскивается решение задачи?
Задача становится разрешимой, если найдено правило, способ получения
результата. В информатике такое правило называют алгоритмом.
Содержание алгоритма - составляющие его действия и объекты, над которыми эти
действия выполняются, - определяют средства, которые должны присутствовать в
машине, предназначенной для исполнения алгоритма.
При решении задачи ЭВМ вводит в себя необходимую информацию и через какое-
то время выводит (печатает, рисует) результаты - информацию, для получения которой и
была создана. Таким образом, работа ЭВМ - это своеобразные манипуляции с
информацией. И, следовательно, ЭВМ - это техническое средство информатики.
Что такое информация? Какова ее природа?
В обыденной жизни под информацией понимают всякого рода сообщения,
сведения о чем-либо, которые передают и получают люди.
Сами по себе речь, текст, цифры - не информация. Они лишь носители
информации. Информация содержится в речи людей, текстах книг, колонках цифр, в
показаниях часов, термометров и других приборов. Сообщения, сведения, т.е.
информация, являются причиной увеличения знаний людей о реальном мире. Значит,
информация отражает нечто, присущее реальному миру, который познается в процессе
получения информации: до момента получения информации что-то было неизвестно,
или, иначе, не определено, и благодаря информации неопределенность была снята,
уничтожена.
Рассмотрим пример. Пусть нам известен дом, в котором проживает наш знакомый,
а номер квартиры неизвестен. В этом случае местопребывание знакомого в какой-то
степени не определено. Если в доме всего две квартиры, степень неопределенности
невелика. Но если в доме 200 квартир - неопределенность достаточно велика.
Этот пример наталкивает на мысль, что неопределенность связана с количеством
возможностей, т.е. с разнообразием ситуаций. Чем больше разнообразие, тем больше
неопределенность.
Информация, снимающая неопределенность, существует постольку, поскольку
существует разнообразие. Если нет разнообразия, нет неопределенности, а,
следовательно, нет и информации.
Итак, информация - это отражение разнообразия, присущего объектам и
явлениям реального мира. И, таким образом, природа информации объективно связана с
разнообразием мира, и именно разнообразие является источником информации.
Каковы формы представления информации?
Информация - очень емкое понятие, в которое вмещается весь мир: все
разнообразие вещей и явлений, вся история, все тома научных исследований, творения
поэтов и прозаиков. И все это отражается в двух формах - непрерывной и дискретной.
Обратимся к их сущности.
Объекты и явления характеризуются значениями физических величин. Например,
массой тела, его температурой, расстоянием между двумя точками, длиной пути
(пройденного движущимся телом), яркостью света и т.д. Природа некоторых величин
такова, что величина может принимать принципиально любые значения в каком-то
диапазоне. Эти значения могут быть сколь угодно близки друг к другу, исчезающе
малоразличимы, но все-таки, хотя бы в принципе, различаться, а количество значений,
которое может принимать такая величина, бесконечно велико.
Такие величины называются непрерывными величинами, а информация, которую
они несут в себе, непрерывной информацией.
Слово "непрерывность" отчетливо выделяет основное свойство таких величин -
отсутствие разрывов, промежутков между значениями, которые может принимать
величина. Масса тела - непрерывная величина, принимающая любые значения от 0 до
бесконечности. То же самое можно сказать о многих других физических величинах -
расстоянии между точками, площади фигур, напряжении электрического тока.
Кроме непрерывных существуют иные величины, например, количество людей в
комнате, количество электронов в атоме и т.д. Такого рода величины могут принимать
только целые значения, например, 0, 1, 2, ..., и не могут иметь дробных значений.
Величины, принимающие не всевозможные, а лишь вполне определенные значения,
называют дискретными. Для дискретной величины характерно, что все ее значения
можно пронумеровать целыми числами 0,1,2,...
Примеры дискретных величин:
? геометрические фигуры (треугольник, квадрат, окружность);
? буквы алфавита;
? цвета радуги;
Можно утверждать, что различие между двумя формами информации обусловлено
принципиальным различием природы величин. В то же время непрерывная и дискретная
информация часто используются совместно для представления сведений об объектах и
явлениях.
Пример. Рассмотрим утверждение "Это окружность радиуса 8,25".
Здесь:
? "окружность"- дискретная информация, выделяющая определенную
геометрическую фигуру из всего разнообразия фигур;
? значение "8,25" - непрерывная информация о радиусе окружности, который
может принимать бесчисленное множество значений.
Что объединяет непрерывные и дискретные величины?
В качестве простого примера, иллюстрирующего наши рассуждения, рассмотрим
пружинные весы. Масса тела, измеряемая на них, - величина непрерывная по своей
природе. Представление о массе (информацию о массе) содержит в себе длина отрезка,
на которую перемещается указатель весов под воздействием массы измеряемого тела.
Длина отрезка - тоже непрерывная величина.
Чтобы охарактеризовать массу, в весах традиционно используется шкала,
отградуированная, например, в граммах. Пусть, например, шкала конкретных весов имеет
диапазон от 0 до 50 граммов.
При этом масса будет характеризоваться одним из 51 значений: 0, 1, 2, ..., 50, т.е.
дискретным набором значений. Таким образом, информация о непрерывной величине,
массе тела, приобрела дискретную форму.
Любую непрерывную величину можно представить в дискретной форме. И
механизм такого преобразования очевиден.
Зададимся вопросом, можно ли по дискретному представлению восстановить
непрерывную величину. И ответ будет таким: да, в какой-то степени можно, но сделать
это не так просто, и восстанавливаемый образ может отличаться от подлинника.
Как представлять непрерывную информацию?
Для представления непрерывной величины могут использоваться самые
разнообразные физические процессы.
В рассмотренном выше примере весы позволяют величину "масса тела"
представить "длиной отрезка", на который переместится указатель весов (стрелка). В свою
очередь, механическое перемещение можно преобразовать, например, в "напряжение
электрического тока". Для этого можно использовать потенциометр, на который подается
постоянное напряжение, например, 10 вольт, от источника питания. Движок
потенциометра можно связать с указателем весов. В таком случае изменение массы тела
от 0 до 50 граммов приведет к перемещению движка в пределах длины потенциометра
(от 0 до L миллиметров) и, следовательно, к изменению напряжения на его выходе от 0 до
10 вольт.
Такое преобразование можно изобразить следующим образом:
Масса Длина Напряжение
0 - 50 [г] 0 - L [мм] 0 - 10 [в]
Выводы.
1. Информация о массе тела может представляться, вообще говоря, многими
способами.
2. В качестве носителей непрерывной информации могут использоваться любые
физические величины, принимающие непрерывный "набор" значений (правильнее было
бы сказать принимающие любое значение внутри некоторого интервала).
Отметим, что физические процессы (перемещение, электрический ток и др.) могут
существовать сами по себе или использоваться, например, для передачи энергии. Но в
ряде случаев эти же процессы применяются в качестве носителей информации. Чтобы
отличить одни процессы от других, введено понятие "сигнал".
Если физический процесс, т.е. какая-то присущая ему физическая величина, несет
в себе информацию, то говорят, что такой процесс является сигналом. Именно в этом
смысле пользуются понятиями "электрический сигнал", "световой сигнал" и т.д. Таким
образом, электрический сигнал - не просто электрический ток, а ток, величина которого
несет в себе какую-то информацию.
Как представлять дискретную информацию?
Как уже говорилось, дискретность - это случай, когда объект или явление имеет
конечное (счетное) число разнообразий. Чтобы выделить конкретное из всего
возможного, нужно каждому конкретному дать оригинальное имя (иначе, перечислить).
Эти имена и будут нести в себе информацию об объектах, явлениях и т. п.
В качестве имен часто используют целые числа 0, 1, 2,... Так именуются
(нумеруются) страницы книги, дома вдоль улицы, риски на шкалах измерительных
приборов. С помощью чисел можно перенумеровать все "разнообразия" реального мира.
Именно такая цифровая форма представления информации используется в ЭВМ.
В обыденной жизни, тем не менее, цифровая форма представления информации не
всегда удобна. Первенство принадлежит слову ! Традиционно информация об объектах и
явлениях окружающего мира представляется в форме слов и их последовательностей.
Основной элемент в этой форме - слово. Слово - имя объекта, действия, свойства и
т.п., с помощью которого выделяется именуемое понятие в устной речи или в письменной
форме.
Слова строятся из букв определенного алфавита (например, А, Б, ... , Я). Кроме
букв используются специальные символы - знаки препинания, математические символы
+, -, знак интеграла, знак суммы и т.п. Все разнообразие используемых символов
образует алфавит, на основе которого строятся самые разные объекты:
из цифр - числа;
из букв - собственно слова,
из цифр, букв и математических символов - формулы и т.д.
И все эти объекты несут в себе информацию :
числа - информацию о значениях;
слова - информацию об именах и свойствах объектов;
формулы - информацию о зависимостях между величинами и т.д.
Эта информация (и это очевидно) имеет дискретную природу и представляется в
виде последовательности символов. О такой информации говорят как об особом виде
дискретной информации и называют этот вид символьной информацией.
Наличие разных систем письменности, в том числе таких, как иероглифическое
письмо, доказывает, что одна и та же информация может быть представлена на основе
самых разных наборов символов и самых разных правил использования символов при
построении слов, фраз, текстов.
Из этого утверждения можно сделать следующий вывод:
Разные алфавиты обладают одинаковой "изобразительной возможностью", т.е.
с помощью одного алфавита можно представить всю информацию, которую удалось
представить на основе другого алфавита. Можно, например, ограничиться алфавитом из
десяти цифр - 0, 1, ..., 9 и с использованием только этих символов записать текст любой
книги или партитуру музыкального произведения. При этом сужение алфавита до
десяти символов не привело бы к каким-либо потерям информации. Более того, можно
использовать алфавит только из двух символов, например, символов 0 и 1. И его
"изобразительная возможность" будет такой же.
Итак, символьная информация может представляться с использованием самых
различных алфавитов (наборов символов) без искажения содержания и смысла
информации: при необходимости можно изменять форму представления информации -
вместо общепринятого алфавита использовать какой-либо другой, искусственный
алфавит, например, двухбуквенный.
Форма представления информации, отличная от естественной, общепринятой,
называется кодом. Коды широко используются в нашей жизни: почтовые индексы,
телеграфный код Морзе и др. Широко применяются коды и в ЭВМ и в аппаратуре
передачи данных. Так, например, широко известно понятие "программирование в кодах".
Кроме рассмотренных существуют и другие формы представления дискретной
информации. Например, чертежи и схемы содержат в себе графическую информацию.
Как измерить информацию?
Как уже говорилось в примере с номером квартиры, одни сведения могут
содержать в себе мало информации, а другие - много. Разработаны различные способы
оценки количества информации. В технике чаще всего используется способ оценки,
предложенный в 1948 году основоположником теории информации Клодом Шенноном.
Как было отмечено, информация уничтожает неопределенность. Степень
неопределенности принято характеризовать с помощью понятия "вероятность".
Вероятность - величина, которая может принимать значения в диапазоне от 0 до 1.
Она может рассматриваться как мера возможности наступления какого-либо события,
которое может иметь место в одних случаях и не иметь места в других.
Если событие никогда не может произойти, его вероятность считается равной 0.
Так, вероятность события "Завтра будет 5 августа 1832 года" равна нулю в любой день,
кроме 4 августа 1832 года. Если событие происходит всегда, его вероятность равна 1.
Чем больше вероятность события, тем выше уверенность в том, что оно
произойдет, и тем меньше информации содержит сообщение об этом событии. Когда же
вероятность события мала, сообщение о том, что оно случилось, очень информативно.
Количество информации I, характеризующей состояние, в котором пребывает
объект, можно определить, используя формулу Шеннона:
I = -(p[1]*log(p[1])+p[2]*log(p[2])+...+p[n]*log(p[n])) ,
здесь
n - число возможных состояний;
p[1],...p[n] - вероятности отдельных состояний;
log( ) - функция логарифма при основании 2.
Знак минус перед суммой позволяет получить положительное значение для I, поскольку
значение log(p[i]) всегда не положительно.
Единица информации называется битом. Термин "бит" предложен как
аббревиатура от английского словосочетания "Binary digiT", которое переводится как
"двоичная цифра".
1 бит информации - количество информации, посредством которого выделяется
одно из двух равновероятных состояний объекта.
Рассмотрим пример.
Пусть имеется два объекта. С каждого из них в определенные моменты времени
диспетчеру передается одно из двух сообщений: включен или выключен объект.
Диспетчеру известны типы сообщений, но неизвестно, когда и какое сообщение
поступит.
Пусть также, объект А работает почти без перерыва, т.е. вероятность того, что он
включен, очень велика (например, р_А_вкл=0,99 и р_А_выкл=0,01, а объект Б
работает иначе и для него р_Б_вкл=р_Б_выкл=0,5).
Тогда, если диспетчер получает сообщение том, что А включен, он получает
очень мало информации. С объектом Б дела обстоят иначе.
Подсчитаем для этого примера среднее количество информации для указанных
объектов, которое получает диспетчер:
? Объект А : I = -(0,99*log(0,99)+0,01*log(0,01))=0,0808.
? Объект Б : I = -(0,50*log(0,50)+0,50*log(0,50))=1.
Итак, каждое сообщение объекта Б несет 1 бит информации.
Формула Шеннона, в принципе, может быть использована и для оценки
количества информации в непрерывных величинах.
При оценке количества дискретной информации часто используется также
формула Хартли:
I = log(n) ,
где n - число возможных равновероятных состояний;
log() - функция логарифма при основании 2.
Формула Хартли применяется в случае, когда вероятности состояний, в которых
может находиться объект, одинаковые.
Приведем пример. Пусть объект может находиться в одном из восьми
равновероятных состояний. Тогда количество информации, поступающей в сообщении о
том, в каком именно он находится, будет равно
I = log(8) = 3 [бита].
Оценим количество информации в тексте.
Точно ответить на вопрос, какое количество информации содержит 1 символ в
слове или тексте, достаточно сложное дело. Оно требует исследования вопроса о частотах
использования символов и всякого рода сочетаний символов. Эта задача решается
криптографами. Мы же упростим задачу. Допустим, что текст строится на основе 64
символов, и частота появления каждого из них одинакова, т.е. все символы
равновероятны.
Тогда количество информации в одном символе будет равно
I = log(64) = 6 [бит].
Из двух символов данного алфавита может быть образовано n=64*64=4096
различных сочетаний. Следовательно, два символа несут в себе I=log(4096)=12 бит
информации.
Оценим количество информации, содержащейся в числах.
Если предположить, что цифры 0, 1, ..., 9 используются одинаково часто
(равновероятны), то
? одна цифра содержит I = log(10) = 3,32 [бит];
? четырехзначное число из диапазона [0..9999], если все его значения равновероятны,
содержит
I = log(10000)=13,28 [бит];
? а восьмиразрядное число - I=log(100000000)=26,56 [бита].
Итак, количество информации в сообщении зависит от числа разнообразий,
присущих источнику информации и их вероятностей.
Повторим основные положения, рассмотренные выше.
1. Информация - отражение предметного или воображаемого мира с помощью
знаков и сигналов.
2. Информация может существовать либо в непрерывной, либо в дискретной
формах.
3. Информация о чем-либо может быть представлена многими способами. В
качестве носителей информации могут использоваться разнообразные физические
величины такой же природы (для непрерывной информации - непрерывные физические
величины, для дискретной - дискретные).
4. Физический процесс является сигналом, если какая-либо присущая ему
физическая величина несет в себе информацию.
5. Чтобы представить дискретную информацию, надо перечислить (поименовать)
все разнообразия, присущие объекту или явлению (цвета радуги, виды фигур и др.).
Дискретная информация представляется:
? числами (как цифровая),
? символами некоторого алфавита (символьная),
? графическими схемами и чертежами (графическая).
6. Дискретная информация может использоваться и для представления
непрерывной. Удобной формой дискретной информации является символьная.
7. Разные алфавиты обладают одинаковой "изобразительной силой": с помощью
одного алфавита можно представить всю информацию, которую удавалось представить
на основе другого алфавита. А значит, информацию обо всем окружающем человека
мире можно представить в дискретной форме с использованием алфавита, состоящего
только из двух символов (т.е. с использованием двоичной цифровой формы).
8. Форма представления информации, отличная от естественной, общепринятой,
называется кодом.
Широко известны такие коды, как почтовые индексы, нотная запись музыки,
телеграфный код Морзе, цифровая запись программ для ЭВМ (программирование в
кодах), помехозащищенные коды в системах передачи данных.
9. Информация уничтожает неопределенность знаний об окружающем мире.
Степень неопределенности принято характеризовать с помощью понятия "вероятность".
Вероятность - величина, которая может принимать значения в диапазоне [0,1] и
которая может рассматриваться как мера возможности наступления какого-либо события.
Если событие никогда не может произойти, его вероятность считается равной 0, а если
событие происходит всегда, его вероятность равна 1.
Для оценки количества информации в технике чаще всего используется способ,
предложенный Клодом Шенноном. Для случая, когда все состояния, в которых может
находиться объект, равновероятны, применяют формулу Хартли. Одна единица
информации называется битом.
3