Дискретное представление информации

cover
1275
СМС, мемы, звонки — мы сталкиваемся с передачей информации каждый день. Но устройства передают наши сообщения не так, как мы их видим… В статье рассказываем про дискретное представление информации и что за задачи ждут тебя на ЕГЭ.
13 декабря 2024 г.
Содержание статьи

Формы представления информации

Информация может быть двух форм: аналоговой и дискретной. 

Аналоговая форма — непрерывный сигнал, который меняется пропорционально изменению информации, то есть такой способ кодирования, при котором физическая величина принимает абсолютно любые значения из строго определенного диапазона и может непрерывно их менять.

Проще говоря, величина в аналоговой форме принимаем бесконечное множество значений. 

Представь: тебе нужно измерить высоту вод в реке. Ты подходишь к реке, опускаешь туда длинную линейку… А вода ни секунды не стоит на месте. Каждую секунду показания на линейке меняются: уровень воды то понижается, то повышается, без какой-либо системы или закономерности. Причем у нее нет минимума и максимума: с сильной волной вода может скрыть даже тебя с головой.


Мир аналоговый — это мир плавных переходов, бесконечных оттенков. Аналоговая информация: температура воздуха, сила звука, напряжение — все это изменяется плавно, без скачков, принимая любое значение в заданном диапазоне.

Еще примеры аналоговой формы информации: 

звук скрипки 

картина, написанная маслом

человеческая речь

Все они непрерывны, количество их значений — бесконечно. 

Дискретная форма — представление информации, в котором физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.

В отличие от плавного течения реки аналоговой информации, дискретная информация подобна цепочке бусин, каждая из которых имеет строго определенное значение. Циферблат часов — прекрасный пример: стрелки скачками переходят от одной отметки ко второй, никогда не замирая между ними.


Проще говоря, в случае с часами количество значений, которое ты можешь наблюдать, конечно. Ты будешь видеть там 00.00, 00.01, 00.02 и так далее, до 23.59. Но не больше. 

Показания спидометра, буквы в книге, пиксели на экране — все это «квантовано», разбито на отдельные, не связанные между собой части. В этой цифровой вселенной нет места для бесконечных оттенков; есть только строго определенное, конечное множество состояний.


И именно о дискретном мире данных мы поговорим сегодня.

Дискретная форма представления информации

Дискретная природа информации — это фундамент цифрового мира. Без неё электронный обмен данными был бы невозможен.


Вся информация, прежде чем попасть в электронное устройство, претерпевает метаморфозу: превращается в двоичный код — в последовательность двух цифр, 0 и 1.


Любая информация, которую мы хотим передать через электронику, сперва становится двоичным кодом,затем передается на другое устройство и уже там преобразуется обратно в то сообщение или файл, который мы хотели передать изначально. 


Эти процессы называются кодированием и декодированием. 

Кодирование — преобразование входной информации в форму, воспринимаемую компьютером.

Магия перевода живописного мира в черно-белый язык машины. Тот самый момент, когда картина становится двоичным кодом. 

Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.

Обратный кодированию процесс, восстановление первоначального смысла из цифрового потока, возвращение цвета в черно-белый мир. 


Но почему мы используем именно двоичный код? Ведь код получается очень длинным, неужели нельзя было взять больше символов? 

Может быть, можно. Но никто не смог придумать такую систему. 

Представь себе обычный выключатель. Он обычно находится только в двух состояниях: включено или выключено. 

А вот выключателя, который способен переключаться в 10 разных состояний, придумать не получилось. Даже сейчас, чтобы переключать лампы с разным светом, используют пульты, в которых каждая кнопка тоже отвечает за два состояния: включено или выключено. 


В итоге оказалось, что в данном случае сложность — враг эффективности. Вместо того, чтобы бороться с причудами десятичной системы счисления, разработчики компьютеров избрали путь упрощения — и выбрали двоичный код.


Множество простых элементов оказалось куда более управляемым и предсказуемым, чем небольшое количество сложных компонентов. 

Единицы измерения информации

Допустим, у нас есть некая закодировання двоичным кодом информация. 

Но чтобы производить с этим кодом какие-то операции, компьютер должен этот код где-то хранить. Для кода нужно место в памяти компьютера. 

Для простоты представь себе дом с большой такой кладовкой. 


В кладовку жители дома складывают все вещи — например, картину. Когда эта картина им понадобится, её достанут. 

Но кладовка не бесконечная, хоть и большая. Если в ней не останется места, хозяевам придется выбрасывать какие-то вещи. Ведь каждая вещь занимает какое-то место. 

Вот память компьютера — та же кладовка, где хранится информация в цифровом виде. 

И как у вещей есть свой размер, так размер есть и у информации. 


Информационный объем — то количество информации, которое объект занимает в памяти компьютера. 


Наименьшая единица измерения объема информации — Бит. Ему соответствует одна цифра двоичного кода: 1 бит = 1 цифра, 1 или 0.

Это очень, очень мало. В реальной жизни мы не измеряем информацию в битах. Мы используем увеличенные единицы измерения — так же, как измеряем расстояние между городами в километрах, а не в миллиметрах. 

Вот эти единицы измерения:

1 байт = 8 бит

1 килобайт (Кб) = 1024 байт

1 мегабайт (Мб) = 1024 кбайт

1 гигабайт (Гб) = 1024 мбайт

1 терабайт (Тб) = 1024 гбайт

То есть, если у нас есть информация объемом 8192 Кб, то нам проще представить её в Мб: 8192/1024=8Мб

Считать, конечно, адски неудобно. 


Гораздо проще с километрами и килограммами: там для перевода в другую единицу мы делим и умножаем ровно на 1000. 

Почему в информатике такая странная цифра — 1024? 

Потому что основание двоичной системы счисления — 2 (там две цифры). И компьютер считает всё в степенях двойки! 


Чтобы быстро решать задачи по информатике, тебе придется выучить степени двойки хотя бы до 15 степени, и обязательно освоить все свойства степеней: это сильно облегчит счет. 


Если боишься запутаться, у нас в СОТКЕ есть статья про свойства степеней — вот здесь. А на занятиях педагоги легко объяснят тебе всё непонятное! 


Зато зная степени двойки, можно очень облегчить себе перевод единиц измерения в информатике. Смотри: 



Если у нас есть информация объемом 8192 Кб, мы по степеням двойки видим, что это 213. Чтобы перевести в Мб, нам надо 213 / 210. При делении вычитаем степени, получаем 213 / 210 = 23 = 8Мб. 

Согласись: так гораздо проще считать. 

Теперь разберемся с принципом кодирования. 

Если нам нужно закодировать сообщение, алфавит которого состоит из двух символов, нам хватит положенных 0 и 1. 

Но в реальности так не бывает. Мы кодируем символы десятичной системы счисления (в алфавите 10 символов), кодируем сообщения русскими буквами (в алфавите 33 символа) и так далее. 

Чтобы закодировать такое сообщение, для одного знака алфавита потребуется несколько двоичных символов. 

Пример: 

Чтобы закодировать 4 символа алфавита, для каждого символа нам потребуется 2 символа двоичного кода: чтобы для каждого символа алфавита получилась своя неповторимая комбинация. 


 Все цепочки из 2 двоичных символов позволяют представить 4 символа произвольного алфавита.

Чтобы закодировать 8 символов алфавита, нам нужно получить больше комбинаций двоичных символов, то есть нужны более длинные цепочки — из 3 символов:


И так далее. Чем больше символов в алфавите кодируемого сообщения — тем более длинные цепочки нам нужны. 

Длина цепочек иначе называется разрядностью двоичного кода. 

Разрядность двоичного кода — число бит двоичного кода, используемого для числового отображения значений тона элемента изображения

Двоичный код с разрядностью 4 (цепочки из 4 символов) дает нам 16 кодовых комбинаций. С разрядностью 5 — 32 комбинации, шестиразрядный – 64. В стандартной кодировке Unicode 1 символ занимает 2 байта.

Количество кодовых комбинаций — это произведение определенного количества одинаковых множителей, равного разрядности двоичного кода.

В виде формулы это выглядит так: N = 2i

где N — это необходимое количество кодовых комбинаций, то есть мощность исходного алфавита

i – разрядность двоичного кода.


А чтобы подсчитать количество информации в сообщении, нужно умножить количество символов этого сообщения на информационный вес одного символа.

В виде формулы это выглядит так: I = К*i

где I — количество информации в сообщении

К — количество символов в сообщении

i – информационный вес одного символа (та самая разрядность двоичного кода).

Эти формулу ты не раз будешь применять при решении задач. Сейчас покажем, как. 


Примеры решения задач

Задачи мы взяли аналогичные КИМам, чтобы тебе было понятнее, как такое решать. 


Задача 1: 

Оля набрала фрагмент текста в документе, в котором один символ кодируется 8 битами. Вот этот текст без лишних пробелов: «СПб — культурная столица России.»

Затем Оля подумала, и заменила сокращенное название города на полное — Санкт-Петербург. Размер нового сообщения увеличился. Определи, на сколько байт, и запиши в ответе одно целое число.


Решение:

Так как нам нужно выяснить разницу, для начала посчитаем количество символов в двух вариантах предложения. 

В первом «СПб — культурная столица России.» — 28 символов. 

В предложении «Санкт-Петербург — культурная столица России.» — 40 символов. 

40 - 28 = 12 символов.


Размер нового предложения увеличился на 12 символов. 

Разрядность кодировки по условию задачи — 8 бит, т.е. 1 байт. 

12 символов * 1 байт = 12 байт добавила Оля. Значит, предложение увеличилось на 12 байт. 

Ответ: 12


Задача 2: 

У одного племени алфавит состоит из 23 букв и 8 цифр. Знаки препинания, как и арифметические знаки, отсутствуют. Определи, сколько байт потребуется для кодирования сообщения, написанного этим алфавитом, при условии, что в сообщении будет всего 12 символов? Обрати внимание: слова в сообщении должны быть отделены друг от друга. 

Решение: 

Мы знаем символы алфавита и нам известно количество символов в предполагаемом сообщении. Для решения задачи необходимо выяснить разрядность. 

Сперва определим мощность алфавита. В задаче указано, что слова в сообщении должны быть отделены друг от друга, то есть нам нужны не только символы алфавита, но и пробел. Итого 23 + 8 + 1 = 32 символа. N = 32. 

Из формулы N = 2i мы можем вывести 32 = 2i Помним степени двойки, 32 = 25 , то есть i=5. 

А теперь просто умножаем известное нам количество символов в сообщении — 12 на разрядность кода — 5. Получаем 12*5=60 бит. Для перевода в байты делим на 8, получаем 60/8=7,5 байт

Ответ: 7,5


Задача 3: 

Информационный объем текста реферата, набранного на компьютере с использованием кодировки Unicode — 128 Кб. Определите количество символов в тексте книги. 

Решение: 

В кодировке Unicode 1 символ занимает 2 байта.

Объем сообщения — 128 Кб, выразим в байтах: 128*1024 = 131072 байта

Из формулы I = К*i выразим К= I/i

Получаем К = 131072 / 2 = 65536 символов.

Ответ: 65536

Применяй при решении задач степени двойки и изученные формулы — и ты не запутаешься! 

Проверь себя

Представление информации, в котором физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно – это…

— дискретная форма информации

— аналоговая форма информации

— разрядность двоичного кода


В формуле I = К*i что такое i? 

— Алфавит сообщения

— Количество символов сообщения

— разрядность двоичного кода


Информационное сообщение содержит 3072 символа и весит 1,5Кб. Каков информационный вес одного символа использованного алфавита в байтах? 

— 3

— 4

— 8

Admin1