Меры информации синтаксического уровня. Семантическая мера информации. Синтаксическая мера информации

Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации.

Объём данных (V Д) понимается в техническом смысле этого слова как информационный объём сообщения или как объём памяти, необходимый для хранения сообщения без каких-либо изменений.

Информационный объём сообщения измеряется в битах и равен количеству двоичных цифр (“0” и “1”), которыми закодировано сообщение.

В компьютерной практике слово “бит” используется также как единица измерения объёма памяти. Ячейка памяти размером в 1 бит может находиться в двух состояниях (“включено” и “выключено”) и в неё может быть записана одна двоичная цифра (0 или 1). Понятно, что бит - слишком маленькая единица измерения информации, поэтому пользуются кратными ей величинами. Основной единицей измерения информации является байт . 1 байт равен 8 битам. В ячейку размером в 1 байт можно поместить 8 двоичных цифр, то есть в одном байте можно хранить 256 = 2 8 различных чисел. Для измерения ещё бóльших объёмов информации используются такие величины:

Пример 1. Важно иметь представление, сколько информации может вместить килобайт, мегабайт или гигабайт

· При двоичном кодировании текста каждая буква, знак препинания, пробел занимают 1 байт.

· На странице книги среднего формата примерно 50 строк, в каждой строке около 60 символов, таким образом, полностью заполненная страница имеет объём 50 x 60 = 3000 байт ≈3 Килобайта.

· Вся книга среднего формата занимает ≈ 0,5 Мегабайт. Один номер четырёхстраничной газеты - 150 Килобайт. Если человек говорит по 8 часов в день без перерыва, то за 70 лет он наговорит около 10 Гигабайт информации.

· Один чёрно-белый кадр (при 32 градациях яркости каждой точки) содержит примерно 300 Кб информации, цветной кадр содержит уже около 1 Мб информации.

· Телевизионный фильм продолжительностью 1,5 часа с частотой 25 кадров в секунду - 135 Гб.

Количество информацииI на синтаксическом уровне определяется через понятие энтропии системы.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция H(α), называемая энтропией системы, которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию I β (α), уменьшившую его априорную неосведомленность так, что неопределенность состояния системы после получения сообщения β стала H β (α).

Тогда количество информации I β (α) ξ системе, полученной в сообщении β, определится как

I β (α)=H(α)-H β (α).

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Если конечная неопределенность H β (α) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации I β (α)=H(α). Иными словами, энтропия системы Н(а) может рассматриваться как мера недостающей информации.

Энтропия H(α) системы α, имеющей N возможных состояний, согласно формуле Шеннона, равна:

где P i - вероятность того, что система находится в i-м состоянии. Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны P i =, ее энтропия определяется соотношением

Пример 2. Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

где N - число всевозможных отображаемых состояний;
m - основание системы счисления (разнообразие символов, применяемых в алфавите);
n -число разрядов (символов) в сообщении.

Допустим, что по каналу связи передается n-разрядное сообщение, использующее m различных символов. Так как количество всевозможных кодовых комбинаций будет N=m", то при равной вероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет

I = log N = n log m - формула Хартли.

Если в качестве основания логарифма принять m, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I=V Д, полученных по каналу связи.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит .

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Конец работы -

Эта тема принадлежит разделу:

Лекция 1. Введение. Понятие информатики

Структура информатики.. Информатика в широком смысле представляет собой единство разнообразных.. Информатику в узком смысле можно представить как состоящую из трех взаимосвязанных частей технических средств..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Понятие информатики
Термин информатика возник в 60-х гг. во Франции для названия области, занимающейся автоматизированной обработкой информации с помощью электронных вычислительных машин. Французский

Информационное общество
Информационная культура - умение целенаправленно работать с информацией и использовать для ее получения, обработки и передачи компьютерной информационную технологию, современные те

История развития рынка информационных услуг
С середины 50-х гг. началось формирование устойчивого рынка информационных услуг. Основными поставщиками информационных услуг являлись: информационные службы академических, профессиональных и научн

Информация, сообщения, сигналы
Информация наряду с материей и энергией является первичным понятием нашего мира и поэтому в строгом смысле не может быть определена. Можно лишь перечислить ее основные свойства, например такие как:

Семантическая мера информации
Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со сп

Прагматическая мера информации
Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цепи. Эта мера также величина относительная, обусловленная особенностями использования этой информации

Качественные характеристики информации
Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточн

Кодирование текстовой информации
В настоящее время большая часть пользователей при помощи компьютера обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков препинания и др. Традиционно, для тог

Кодирование графической информации
Графическую информацию можно представлять в двух формах: аналоговой или дискретной. Живописное полотно, цвет которого изменяется непрерывно - это при

Растровое изображение
При помощи увеличительного стекла можно увидеть, что черно-белое графическое изображение, например из газеты, состоит из мельчайших точек, составляющих определенный узор - растр. Во Франции в 19 ве

Модель CMYK
В основе этой модели лежит субтрактивное цветовоспроизведение (характерное для отражающих объектов). Каждому из основных цветов ставится в соответствие дополнительный цвет (дополняющий основной до

Графические режимы
Различают несколько режимов представления цветной графики: · полноцветный (True Color) - для кодирования яркости каждой из составляющих используют по 256 значений (восемь двоичных разрядов

Векторное и фрактальное изображения
Векторное изображение - это графический объект, состоящий из элементарных отрезков и дуг. Базовым элементом изображения является линия. Как и любой объект, она обладает

Кодирование звуковой информации
На слух человек воспринимает упругие волны, имеющие частоту где-то в пределах от 16 Гц до 20 кГц (1 Гц - 1 колебание в секунду). В соответствии с этим упругие волны в любой среде, частоты которых л

Цифро-аналоговое и аналого-цифровое преобразование звуковой информации
Звуковые волны при помощи микрофона превращаются в аналоговый переменный электрический сигнал. Он попадает в аналого-цифровой преобразователь (АЦП) - устройство, которое переводит сигнал в цифровую

Параметры семплирования
Частота - количество измерений амплитуды аналогового сигнала в секунду. Если частота семплирования не будет более чем в два раза превышать частоту верхней грани

Сжатие информации
Кодирование делится на три большие группы - сжатие (эффективные коды), помехоустойчивое кодирование и криптография. Коды, предназначенные для сжатия информации, делятся, в свою очередь, на

Сжатие без потерь
Один из самых простых способов сжатия информации – групповое кодирование. В соответствии с этой схемой серии повторяющихся величин (например, число) заменяются единственной величин

Сжатие с потерей информации
используется для упаковки графических изображений. Этот метод основан на особенности человеческого восприятия изображений. Для человеческого глаза яркость более существенна, чем информация о цветов

Информационные революции
В истории развития цивилизации произошло несколько информационных революций - преобразований общественных отношений из-за кардинальных изменений в сфере обработки информации. Следствием этих преобр

Понятие информационной системы
Под системой понимают любой объект, который одновременно рассматривается и как единое целое, и как объединённая в интересах достижения поставленных целей совокупность разнородных элементов. Системы

Этапы развития информационных систем
История развития информационных систем и цели их использования на разных периодах представлены в таблице 1: Таблица 1. Изменение подхода к использованию информационных систем

Процессы в ИС
Процессы, обеспечивающие работу ИС любого значения, условно можно представить в виде схемы. ИС состоит из блоков: · ввод информации из внешних или внутренних источников;

Структура информационной системы
Общую структуру ИС можно рассматривать как совокупность подсистем независимо от сферы применения. Таким образом, структура любой ИС может быть представлена следующим образом.

Устаревание ИТ
Для ИТ является вполне естественным то, что они устаревают и заменяются новым. Пример. На смену технологии пакетной обработки программ на большой ЭВМ в вычислительном центре пришла техноло

Методология использования ИТ
Централизованная обработка информации на ЭВМ вычислительных центров была первой исторически сложившейся технологией. Создавались крупные вычислительные центры (ВЦ) коллективного использовани

Система команд некоторой ЭВМ – это совокупность команд, которую может выполнить данная ЭВМ
Последовательность команд, предложенную ЭВМ для исполнения, называют программой. Несмотря на разнообразие современных ЭВМ, их структура основана на общих логических

Основные блоки ПК и их значение
Рис. Структурная схема персонального компьютера Микропроцессор (МП). Это центральны

Шины расширений
Шина ISA (Industry Standard Architecture–архитектура промышленного стандарта) – 16-разрядная шина данных и 24-разрядная шина адреса, рабочая частота 16 МГц, но мож

Локальные шины
Локальные шины подключаются непосредственно к шине МП, работают на тактовой частоте МП и обеспечивают связь с некоторыми скоростными внешними по отношению к МП устройствами: основной и внешней памя

Назначение и типы МП
МП выполняет следующие функции: · чтение и дешифрацию команд из ОП; · чтение данных из ОП и регистров адаптеров ВУ; · прием и обработку запросов и команд от адаптеров на

Структура МП
Микропроцессоры состоят из двух частей: · операционной, содержащей УУ, АЛУ и МППС, за исключением нескольких адресных регистров; · интерфейсной, содержащей адресные регистры МПП,

Кэш-память
Кэш-память – высокоскоростная память, являющаяся буфером между ОП и МП и позволяющая увеличить скорость выполнения операций. Регистры кэш–памяти недоступны для пользователя; отсюда и название «кэш»

Физическая структура ОП
ОП содержит RAM и ROM, т. е. ОЗУ и ПЗУ. ОЗУ предназначено для хранения информации (программ и данных), непосредственно участвующей на текущем этапе функционирования ПК.

Логическая структура ОП
Распределение одномегабайтовой области ОЗУ приведено на рис. 3.4. Логическая структура всей ОП показана на рис. 3.5. Каждая ячейка памяти имеет свой уникальный (отличный от всех других) адрес.

Дисковые накопители внешней памяти
Устройства памяти на дисках относятся к устройствам с прямым доступом. Быстрый доступ к любой части диска обеспечивается: · быстрым вращением диска (гибкий – около 300 об/мин, жесткий – ок

Видеотерминальные устройства
Видеотерминал состоит из видеомонитора (дисплея) и видеоконтроллера (адаптера). Видеоконтроллеры входят в состав системного блока ПК (находятся на видеокарте, устанавливаемой в разъем материнской п

Принтеры
Принтеры (печатающие устройства) - это устройства вывода данных из ЭВМ, преобразующие информационные ASCII-коды в соответствующие им графические символы (буквы, цифры, знаки и т.п.) и фиксирующие э

Сканеры
Сканер - это устройство ввода в ЭВМ информации непосредственно с бумажного документа. Можно вводить тексты, схемы, рисунки, графики, фотографии и другую графическую информацию. Сканеры вес

СуперЭВМ
К суперЭВМ относятся мощные многопроцессорные вычислительные машины с быстродействием сотни миллионов - десятки миллиардов операций в секунду. Типовая модель суперЭВМ 2000 г имеет

Переносные компьютеры
Переносные компьютеры - быстроразвивающийся подкласс персональных компьютеров. По прогнозу специалистов, в 1998 г. более 50% пользователей будут использовать именно переносные машины, а к

Процесс передачи информации
Любая коммуникационная сеть должна включать следующие компоненты: передатчик, средства передачи, приемник. Передатчик – устройство, являющееся источником данных.

Формы взаимодействия абонентских ЭВМ
Существуют следующие основные формы взаимодействия абонентских ЭВМ. 1. Терминал-удаленный процесс – предусматривает обращение с терминала одной из абонентских ЭВМ к процес

Модель взаимодействия открытых систем
Многообразие производителей ВС сетей и сетевого ПО породило проблему объединения сетей различных архитектур. Для этого была разработана модель архитектуры открытых систем. Открытая

Протоколы компьютерной сети
При обмене информацией в сети каждый уровень модели взаимодействия открытых систем реагирует на свой заголовок, то есть происходит взаимодействие между однолинейными уровнями модели в различных або

Локальные вычислительные сети
Основное назначение любой компьютерной сети - представление информационных и вычислительных ресурсов подключенным к ней пользователям. С этой точки зрения ЛВС можно рассматривает как совок

Основные топологии ЛВС
Топология ЛВС – это усредненная геометрическая схема соединений узлов сети. ВС можно рассматривать как совокупность узлов – устройств, непосредственно подключенных к перед

Физическая передающая среда ЛВС
Физическая передающая среда ЛВС может быть представлена тремя типами. 1. Витая пара. Состоит из двух изолированных проводов, свитых между собой. Скручивание проводов уменьшает влияние внеш

Методы доступа к передающей среде
Метод доступа к передающей среде – метод, обеспечивающий выполнение совокупности правил, в соответствии с которыми узлы сети получают доступ к ресурсу сети. Существуют два основных класса

Способы объединения ЛВС
Причины применения различных способов объединения ЛВС следующие: исчерпаны технические возможности ЛВС, нужно создать еще одну ЛВС, подключив новых пользователей и объединив ее с уже существующей Л

Глобальная сеть Internet
Internet – это сеть, объединяющая отдельные сети. Логическая структура Internet представляет собой некое виртуальное объединение, имеющее свое виртуальное пространство. Основные яч

Системное программное обеспечение
Системное ПО – совокупность программ и программных комплексов для обеспечения работы компьютера и вычислительных сетей. Системное ПО направлено: · на создание операционной среды ф

Инструментарий технологии программирования
Инструментарий технологии программирования обеспечивает процесс разработки программ и включает специализированное ПО, которое является инструментальными средствами разработки. ПО данного класса при

Пакеты прикладных программ
Прикладное ПО служит программным инструментарием для решения функциональных задач и являются самым многочисленным классом ПО. В данный класс входят программные продукты, выполняющие обработку инфор

Защита программного обеспечения
Защита ПО преследует следующие цели: · ограничение несанкционированного доступа к программам или их преднамеренное разрушение и хищение; · исключение несанкционированного копирова

Лекция № 7

Тема: Меры информации: синтаксическая, семантическая, прагматическая .

Информация - это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состояниях, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Информатика рассматривает информацию как связанные между собой сведения, изменяющие наши представления о явлении или объекте окружающего мира. С этой точки зрения информацию можно рассматривать как совокупность знаний о фактических данных и зависимостях между ними.

В процессе обработки информация может менять структуру и форму. Признаком структуры являются элементы информации и их взаимосвязь. Формы представления информации могут быть различны. Основными из них являются: символьная (основана на использовании различных символов), текстовая (текст - это символы, расположенные в определенном порядке), графическая (различные виды изображений), звуковая.

В повседневной практике такие понятия, как информация и данные, часто рассматриваются как синонимы. На самом деле между ними имеются различия. Данными называется информация, представленная в удобном для обработки виде. Данные могут быть представлены в виде текста, графики, аудио-визуального ряда. Представление данных называется языком информатики, представляющим собой совокупность символов, соглашений и правил, используемых для общения, отображения, передачи информации в электронном виде.

Информационная коммуникация – это пути процессы, обеспечивающие передачу сообщений от источника информации к её потребителю. Для потребителей информации важной характеристикой является адекватность.

Адекватность информации – определенный уровень соответствия, создаваемого с помощью полученной информации образа реальному образу, процессу или явлению.

Одной из важнейших характеристик информации является ее адекватность. От степени адекватности информации зависит правильность принятия решения.

Адекватность информации может выражаться в трех формах: синтаксической, семантической и прагматической.

Синтаксическая адекватность отображает формально-структурные характеристики информации, не затрагивая ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость ее передачи и обработки, размеры кодов представления информации, надежность и Точность преобразования этих кодов и т. д. Информацию, рассматриваемую с таких позиций, обычно называют данными.

Семантическая адекватность определяет степень соответствия образа объекта самому объекту. Здесь учитывается смысловое содержание информации. На этом уровне анализируются сведения, отражаемые информацией, рассматриваются смысловые связи. Таким образом, семантическая адекватность проявляется при наличии единства информации и пользователя. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая адекватность отражает соответствие информации цели управления, реализуемой на ее основе. Прагматические свойства информации проявляются при наличии единртва информации, пользователя и цели управления. На этом уровне анализируются потребительские свойства информации, связанные с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

Каждой форме адекватности соответствует своя мера количества информации.

Синтаксическая мера информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На этом уровне объем данных в сообщении измеряется количеством символов в этом сообщении. В современных ЭВМ минимальной единицей измерения данных является бит - один двоичный разряд. Широко используются также более крупные единицы измерения: байт, равный 8 битам; килобайт, равный 1024 байтам; мегабайт, равный 1024 килобайтам, и т. д.

Семантическая мера информации используется для измерения смыслового содержания информации. Наибольшее распространение здесь получила тезаурусная мера, связывающая семантические свойства информации со способностью пользователя принимать поступившее сообщение. Тезаурус - это совокупность сведений, которыми располагает пользователь или система. Максимальное количество семантической информации потребитель получает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее не известные сведения. С семантической мерой количества информации связан коэффициент содержательности, определяемый как отношение количества семантической информации к общему объему данных.

Синтаксическая мера информации

Рис. 1.1. Меры информации

Синтаксическая мера оперирует объемом данных и количеством информации I a , выраженной через энтропию (понятие неопределенности состояния системы).

Семантическая мера оперирует количеством информации, выраженной через ее объем и степень содержательности.

Прагматическая мера определяется ее полезностью, выраженной через соответствующие экономические эффекты.

Синтаксическая мера информации

Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

На сегодняшний день наиболее известны следующие способы количественного измерения информации: объемный, энтропийный, алгоритмический.

Объемный является самым простым и грубым способом измерения информации. Соответствующую количественную оценку информации естественно назвать объемом информации.

Объем информации – это количество символов в сообщении. Поскольку одно и то же число может быть записано многими разными способами, т. е. с использованием разных алфавитов, например двадцать один – 21– XXI– 11001, то этот способ чувствителен к форме представления (записи) сообщения. В вычислительной технике вся обрабатываемая и хранимая информация вне зависимости от ее природы (число, текст, отображение) представлена в двоичной форме (с использованием алфавита, состоящего всего из двух символов "0" и "1").

В двоичной системе счисления единица измерения – бит (bit – binary digit – двоичный разряд).

В теории информации бит – количество информации, необходимое для различения двух равновероятных сообщений; а в вычислительной технике битом называют наименьшую "порцию" памяти, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд. Это слишком мелкая единица измерения, на практике чаще применяется более крупная единица – байт, – равная 8 бит, необходимых для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256 = 2 8).

Широко используются также еще более крупные производные единицы информации:

1 килобайт (кбайт) = 1024 байт = 2 10 байт;

1 Мегабайт (Мбайт) = 1024 кбайт = 2 20 байт;

1 Гигабайт (Гбайт) = 1024 Мбайт = 2 30 байт.

В последнее время в связи с увеличением объемов обрабатываемой информации входят в употребление следующие производные единицы:

1 Терабайт (Тбайт) = 1024 Гбайт = 2 40 байт;

1 Петабайт (Пбайт) = 1024 Тбайт = 2 50 байт.

В десятичной системе счисления единица измерения – дит (десятичный разряд).

Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 1011 1011 имеет объем данных V Д = 8 бит.

Сообщение в десятичной системе в виде шестиразрядного числа 275 903 имеет объем данных V Д = 6 бит.

В теории информации и кодирования принят энтропийный подход к измерению информации. Получение информации о какой-либо системе всегда связано с изменением степени неосведомлен-ности получателя о состоянии этой системы. Этот способ измерения исходит из следующей модели.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. После получения сообщения b получатель приобрел некоторую дополнительную информацию I(b), уменьшившую его неосведомленность. Эта информация в общем случае недостоверна и выражается вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенности (энтропия) характеризуется некоторой математической зависимостью от совокупности этих вероятностей. Количество информации в сообщении определяется тем, насколько уменьшится эта мера после получения сообщения.

Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривает как выбор одного сообщения из конечного наперед заданного множества из N равновероятных сообщений, а количество информации i, содержащееся в выбранном сообщении, определяет как двоичный логарифм N (формула Хартли):

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: , т. е. сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицам информации.

Другие примеры равновероятных сообщений:

1) при бросании монеты "выпала решка", "выпал орел";

2) на странице книги "количество букв четное", "количество букв нечетное".

Нельзя ответить однозначно на вопрос, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский ученый Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе (формула Шеннона):

где – вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности … равны, то каждая из них равна и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определенному кругу случаев, очерченному первоначальными допущениями.

В алгоритмической теории информации (раздел теории алгоритмов) предлагается алгоритмический метод оценки информации в сообщении. Любому сообщению можно приписать количественную характеристику, отражающую сложность (размер) программы, которая позволяет ее произвести.

Коэффициент (степень) информативности (лаконичности) сообщения определяется отношением количества информации к общему объему полученных данных:

, причем 0 < Y < 1.

С увеличением Y уменьшаются объемы работ по преобразованию информации (данных) в системе. Поэтому необходимо стремиться к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

1.4.2.2 Семантическая мера информации

Семантика – наука о смысле, содержании информации.

Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, связывающая семантические свойства информации со способностью пользователя принимать поступившее сообщение. Одно и то же информационное сообщение (статья в газете, объявление, письмо, телеграмма, справка, рассказ, чертеж, радиопередача и т. п.) может содержать разное количество информации для разных людей в зависимости от их предшествующих знаний, уровня понимания этого сообщения и интереса к нему.

Для измерения количества семантической информации используется понятие "тезаурус пользователя", т. е. совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I c , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рисунке 1. 2.

Рис. 1. 2. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса I C = f(S p)

Рассмотрим два предельных случая, когда количество семантической информации I C равно 0:

При пользователь не воспринимает, не понимает поступающую информацию;

При пользователь все знает и поступающая информация ему не нужна.

Максимальное количество семантической информации потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом (), когда поступающая информация понятна пользователю и несет ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации и новых знаний в сообщении, получаемое пользователем, является величиной относительной.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, определяемый как отношение количества семантической информации к ее объему.

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I c , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис.2.2. Рассмотрим два предельных случая, когда количество семантической информации I c равно 0:

при S p 0 пользователь не воспринимает, не понимает поступающую информацию;

при Sp; пользователь все знает, н поступающая информация ему не нужна.

Рис. 2.2. Зависимость количества семантической информации. воспринимаемой потребителем, от его тезауруса Ic=f(Sp)

Максимальное количество семантической информации I c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S p = S p opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности С , который определяется как отношение количества семантической информации к ее объему:

Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.



Пример 2.5. В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:

Inb(g)=П(g /b)-П(g),

где Inb(g) -ценность информационного сообщения b для системы управления g,

П(g) -априорный ожидаемый экономический эффект функционирования системы управления g,

П(g /b) - ожидаемый эффект функционирования системы g при условии, что для управления будет использована информация, содержащаяся в сообщении b.

Для сопоставления введенные меры информации представим в табл.2.1.

Таблица 2.1. Единицы измерения информации и примеры

КАЧЕСТВО ИНФОРМАЦИИ

Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость.

  • Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют:
  • правильность концепции, на базе которой сформулировано исходное понятие;
  • обоснованность отбора существенных признаков и связей отображаемого явления.
  • Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
  • Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е. C=Ic/Vд.

С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.

Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных Y=I/Vд.

  • Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принята правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.
  • Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.
  • Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.
  • Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.
  • Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:
  • формальная точность, измеряемая значением единицы младшего разряда числа;
  • реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется;
  • максимальная точность, которую можно получить в конкретных условиях функционирования системы;
  • необходимая точность, определяемая функциональным назначением показателя.

Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.

Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.

В заключение следует отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем. Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность. При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности.

При оценке информации различают такие её аспекты, как синтаксический, семантический, прагматический. Синтаксический аспект связан со способом передачи информации вне зависимости от её смысловых и потребительских качеств. На синтаксическом уровне рассматриваются формы её передачи и хранения. Обычно информация, предназначенная для передачи, называется сообщением. Сообщение может быть представлено в виде знаков и символов, преобразованных в электрическую форму и закодированную, т.е. представленную в виде определённой последовательности электрических сигналов, однозначно отображающих передаваемые сообщения. Характеристики процессов преобразования сообщений для передачи определяет синтаксический аспект. При хранении синтаксический аспект определяется другими формами представления информации, которые позволяют наилучшим образом осуществлять поиск, запись, обновления, изменение информации в информационной базе. Информацию, рассмотренную только относительно синтаксического аспекта, часто называют данными . Семантический аспект передаёт смысловое содержание информации и соотносит её с ранее имевшейся информацией. Смысловые связи между словами и другими элементами языка отражает “тезаурус” (словарь). Он состоит из двух частей: списка слов и устойчивых словосочетаний, сгруппированных по смыслу, и некоторого ключа (алфавит), позволяющего расположить слова в определённом порядке. При получении информации тезаурус может быть изменён, и степень этого изменения характеризует количество воспроизводимой информации. Прагматический аспект определяет возможность достижения поставленной цели с учётом получаемой информации. Этот аспект отражает потребительские свойства информации - если информация оказалось ценной, поведение её потребителя меняется в нужном направлении. Прагматический аспект проявляется при наличии единства потребителя и поставленной цели.

Таким образом, информация относительно её возникновения и преобразований проходит 3 этапа, которые определяют её семантический, синтаксический и прагматический аспект. Человек сначала наблюдает некоторые факты окружающей действительности, которые отражаются в виде определённого набора данных в его сознании - здесь проявляется синтаксический аспект . Затем, после структуризации этих данных в соответствии с предметной областью человек формализует знания о структуре объекта - это семантический аспект полученной информации. Информация в виде знаний имеет высокую степень структуризации, что позволяет выделять полную информацию об окружающей действительности и создавать информационные модели исследуемых объектов. Полученные знания человек затем использует в своей практике, то есть для достижения поставленных целей, что отражает прагматический аспект .