Обновлено:

Информационный вес символов алфавита

Когда ищут информационный вес символов алфавита, чаще всего нужен короткий ответ: сколько бит информации несёт один знак. Если в алфавите 64 символа, это 6 бит. Если 256 символов – 8 бит. Основа для всех таких задач одна: число вариантов переводят в биты через логарифм по основанию 2.

Как найти информационный вес символов алфавита?

Если все символы алфавита равновероятны, информационный вес одного символа находят по формуле:

i = log2 N

Здесь:

  • i – информационный вес одного символа в битах;
  • N – мощность алфавита, то есть количество разных символов.

Например, для алфавита из 32 символов:

i = log2 32 = 5

Значит, один символ несёт 5 бит информации.

Если N – степень двойки, ответ получается целым. Если нет, значение будет дробным. Это нормально для теории информации.

Режим расчёта

Количество разных символов в алфавите
Рассчитать объём сообщения Длина сообщения в символах

Калькулятор по размеру алфавита N показывает точное значение log2 N и отдельно – сколько бит потребуется для двоичного кода фиксированной длины. Это особенно полезно для алфавитов на 26, 33, 100, 1 024 символа и любых других случаев, где теоретический вес и длина кода не совпадают. Для обратных задач также удобно видеть, сколько символов соответствует известному числу бит по формуле N = 2^i.

Ниже – таблица значений, которые чаще всего встречаются в задачах по информатике.

Мощность алфавита NИнформационный вес log2 NБит на символ в фиксированном двоичном коде
211
422
833
1644
264,705
3255
335,046
6466
12877
25688
1 0241010

Для быстрых ответов полезно помнить степени двойки: 2^5 = 32, 2^6 = 64, 2^7 = 128, 2^8 = 256.

Почему для 33 букв выходит не 5, а 6 бит

Это самая частая путаница.

Для полного русского алфавита из 33 букв теоретический информационный вес символа равен:

log2 33 ≈ 5,04 бита

Но если каждую букву нужно записывать двоичным кодом одинаковой длины, 5 бит уже не хватает. Пятью битами можно закодировать только 2^5 = 32 разных комбинации. Для 33-й буквы места нет. Поэтому приходится брать 6 бит, потому что 2^6 = 64.

Отсюда правило:

  • если спрашивают информационный вес символа, обычно используют log2 N;
  • если спрашивают сколько бит нужно для кодирования одного символа в двоичном коде фиксированной длины, берут минимальное целое число бит, которого достаточно для всех символов.

На примере латинского алфавита из 26 букв разница видна ещё лучше:

  • информационный вес: log2 26 ≈ 4,7 бита;
  • длина двоичного кода фиксированной длины: 5 бит.

Именно из-за этой разницы в одних задачах правильный ответ – 4,7, а в других – 5.

Как связаны вес символа и объём сообщения

Когда известен вес одного символа, объём сообщения считают так:

I = K × i

Где:

  • I – объём сообщения в битах;
  • K – количество символов;
  • i – информационный вес одного символа.

Если задача про фиксированное двоичное кодирование, вместо теоретического i используют число бит на символ в коде.

Пример 1

Алфавит содержит 64 символа. Сообщение состоит из 200 символов.

Сначала находим вес одного символа:

i = log2 64 = 6 бит

Теперь объём сообщения:

I = 200 × 6 = 1 200 бит

Если перевести в байты:

1 200 / 8 = 150 байт

Пример 2

Известно, что сообщение занимает 2 560 бит и записано алфавитом из 16 символов. Нужно найти число символов.

Для алфавита из 16 символов:

i = log2 16 = 4 бита

Тогда количество символов:

K = 2 560 / 4 = 640

Пример 3

Сообщение длиной 90 символов занимает 540 бит. Нужно найти мощность алфавита.

Сначала найдём вес одного символа:

i = 540 / 90 = 6 бит

Теперь восстановим мощность алфавита:

N = 2^6 = 64

Значит, алфавит содержит 64 символа.

Когда формулы log2 N уже недостаточно

Формула i = log2 N работает только тогда, когда все символы появляются с одинаковой вероятностью.

Если вероятности разные, количество информации в конкретном символе зависит от того, насколько он редок. Тогда используют формулу Шеннона:

i(x) = -log2 p(x)

Здесь p(x) – вероятность появления символа x.

Простой пример:

  • если символ появляется с вероятностью 1/2, его вес равен 1 бит;
  • если с вероятностью 1/4, вес равен 2 бита;
  • если с вероятностью 1/8, вес равен 3 бита.

Чем реже символ, тем больше информации несёт его появление.

Для школьных задач это означает одно: если в условии не сказано про разные вероятности, почти всегда подразумевают равновероятный выбор и формулу log2 N.

Алгоритм для задач из ОГЭ и ЕГЭ

Чтобы не путаться в формулах, удобно идти по короткой схеме.

  1. Сначала определите, что именно спрашивают:
    вес символа, длину кода, объём сообщения или мощность алфавита.

  2. Если речь о равновероятных символах и именно об информационном весе, используйте:
    i = log2 N.

  3. Если спрашивают, сколько бит нужно для кодирования одного символа двоичным кодом одинаковой длины, берите минимальное целое число бит, которое покрывает все символы.

  4. Если известна длина сообщения, используйте связь:
    I = K × i
    или
    I = K × n,
    где n – длина кода на символ.

  5. Если нужно восстановить размер алфавита по известному весу, применяйте обратную формулу:
    N = 2^i.

На экзамене это экономит время: вы сразу понимаете, нужна ли дробная величина log2 N или целое число бит для кодирования.

Ошибки, из-за которых теряют баллы

Первая ошибка – смешивать информационный вес символа и длину двоичного кода. Для 33 символов это не одно и то же: 5,04 и 6 – разные ответы для разных вопросов.

Вторая ошибка – забывать про единицы измерения. В задаче могут просить ответ в битах, байтах, килобайтах. Напоминание простое: 1 байт = 8 бит.

Третья ошибка – автоматически писать N = 2^i, даже когда в условии спрашивают про код фиксированной длины. Если алфавит не является степенью двойки, ответ нужно проверять отдельно.

Четвёртая ошибка – не замечать фразу про вероятность символов. Если в условии даны вероятности, формула log2 N уже может не подойти.

Что запомнить за минуту

Для большинства задач достаточно двух идей:

  • информационный вес символа при равновероятном выборе: i = log2 N;
  • минимальное число бит для двоичного кода фиксированной длины: ближайшее целое сверху от log2 N.

Если алфавит состоит из 32 символов, это 5 бит.
Если из 64 – 6 бит.
Если из 256 – 8 бит.
Если символов 33, различайте теорию информации и практическое кодирование: 5,04 против 6.

Если нужно быстро проверить ответ или решить обратную задачу по количеству бит, используйте калькулятор выше: он сразу показывает обе величины и убирает самую частую путаницу в этой теме.

Часто задаваемые вопросы

Чем информационный вес символа отличается от объёма сообщения?

Информационный вес символа показывает, сколько бит приходится на один знак. Объём сообщения – это уже суммарное количество информации во всей последовательности символов. Чтобы найти объём, обычно умножают вес одного символа на количество символов в сообщении.

Почему в школьных задачах русский алфавит иногда считают равным 32 символам?

Так делают в упрощённых моделях, когда из рассмотрения исключают букву Ё или используют условный алфавит для удобства счёта. Тогда вес символа получается ровно 5 бит, потому что 32 = 2^5. Для полного русского алфавита из 33 букв результат уже другой.

Можно ли найти вес символа по длине сообщения в битах?

Да, если известны общий объём сообщения и число символов. Тогда вес одного символа находят делением: i = I / K, где I – объём в битах, а K – количество символов. После этого можно восстановить и мощность алфавита по формуле N = 2^i.

Что означает мощность алфавита?

Мощность алфавита – это количество разных символов, которые допускаются в сообщении. Например, у двоичного алфавита мощность 2, у десятичного набора цифр – 10, у расширенного байтового набора часто рассматривают 256 символов. В формулах её обозначают буквой N.

Какой ответ верный для алфавита из 26 символов: 4,7 или 5 бит?

Оба ответа могут быть верными, но в разных постановках. Теоретический информационный вес равен log2 26 ≈ 4,7 бита. Если же спрашивают минимальную длину двоичного кода фиксированной длины для одного символа, нужно 5 бит, потому что 2^4 недостаточно, а 2^5 уже хватает.

Когда используют формулу -log2 p?

Эту формулу применяют, когда символы появляются с разной вероятностью. Тогда количество информации зависит не только от размера алфавита, но и от редкости конкретного символа: чем он менее вероятен, тем больше информации несёт его появление. Это уже задача классической теории информации Шеннона.

  1. Информационный вес символа: формула и примеры
  2. Информационный объем алфавита
  3. Информационный вес алфавита: как рассчитать в битах по формуле
  4. Перевод битов в килобайты: формула, таблица и онлайн-калькулятор
  5. Как посчитать информационный объем сообщения
  6. Калькулятор СОУ онлайн по оценкам