Вы здесь

Информация? Это очень просто!

Что такое Информация? Это явление, о котором всем, всё и уже давно известно. Во всяком случае, я ни от кого никогда не слышал жалоб или нареканий по поводу недостатка понимания или знаний в этой области.

Великий математик, отец кибернетики, Норберт Винер сказал по этому поводу когда-то так: «Информация - это информация, не материя и не энергия, а что-то совсем другое…» (Сказал, ничего при этом не сказав, потому что даже ему самому не было ясно, что же это такое). Сказал это в 1961 г, через несколько лет после того, как слово «информация» было введено в обиход другим великим человеком Клодом Элвудом (Клаудио) Шенноном, и с тех пор все мучительно пытались понять «ну, что же это такое, Информация?»

Сегодня, Электронная Философская Энциклопедия (Платона), которую ведёт и поддерживает Стэнфордский университет, указывает 8 главных определений Информации: на первом месте, конечно, Шенноновская Информация, затем следуют Фишеровская, Колмогоровская, Хаитинская (алгоритмическая), квантовая, Бар-Гилелевская (Семантическая) и Рейни информация. (Может быть я кого-то забыл, но в оригинале указаны 8 главных). Такое широкое разнообразие определений ни о чём хорошем не говорит – это просто значит, что единственно правильного и достаточного на все случаи жизни определения просто не существует.

Однако, до поры до времени такое положение всех устраивало: Шеннон – самый главный и на первом месте. А за ним все остальные. Хотя в действительности, что такое информация, Шеннон никогда не определял. Он ввёл понятие «меры информации». В истории такое уже случалось – мы, например, не знаем, что такое «время», мы не знаем, как правильно определить это понятие. Но мы хорошо знаем, что такое «мера времени». И широко пользуемся этими мерами – минута, час, день, год, век и т.д. Никаких проблем, всем всё ясно, удобно и понятно. При этом само понятие времени так и остаётся неопределённым.

Шеннон использовал придуманную им меру информации для определения оптимальных условий передачи сигнала по каналу связи (коммуникации). Пользуясь мерой информации, он установил правила, при которых качество (достоверность) информации, передаваемой по каналу связи, сохраняются наилучшим образом (он ввёл теоремы оптимального кодирования и оптимальной пропускной способности (ёмкости) канала связи). Для правильного построения каналов связи это оказалось очень важным и нужным нововведением – всё дальнейшее развитие связи (телефон, радио, телевидение, сотовые и мобильные телефоны новейшего времени, интернет, спутниковая и космическая связь), всё, без чего современное общество не может существовать и функционировать, – всё это прямой результат внедрения и применения Шенноновского понимания информации, о которой все забыли, что она и не информация вовсе, а только мера информации.  

Ещё один важный аспект Шенноновской информации – она относится к физическим параметрам сигнала, передаваемого по каналу связи. Сигнал – это последовательность измеряемых состояний какого-то физического явления (электрического, магнитного, светового), которые называются «параметрами» сигнала или его «данными». По-английски – «данные» это «data». Этим термином я и буду пользоваться в дальнейшем.

По существу, по каналу связи передаётся сигнал, т.е., дата, которую все сегодня называют информацией. Например, Интернет – бесконечный поток даты, и вы платите своему провайдеру за скорость доставки этой даты (15 МГбит в секунду, 40 или 100), а говорите, что Интернет для вас бездонный источник информации. А это не совсем так. Т.е., на самом деле, это совсем не так – любой пакет сигналов, передаваемый по каналу связи, несёт с собой ещё и некоторый смысл, который, собственно говоря, и является тем, ради чего затевается эта связь. Вот этот-то смысл и имеется в виду, когда говорится, что по каналу связи передаётся «информация». Передача смысла и есть главная цель и задача акта коммуникации. Шеннон знал об этой проблеме, все вокруг знали об этой проблеме. Уже с самого начала, с 1948 года, все говорили и спорили о существовании «смысловой информации», но не могли договориться и определить, что же это такое, и как этим правильно пользоваться.

И так это всё продолжается уже более полувека: Мы говорим «дата» – а имеем в виду «информацию»! Мы говорим «информация», а подразумеваем «дату»! Пока однажды на этом празднике жизни не появился Я и не заявил всем, что это всё не так, и что дальше так продолжаться не может.

Вы снисходительно улыбнулись – и правильно сделали! Это ещё что за новость? Кто это тут такой умный выискался? Понятно, что вы просто хорошие люди, и Моше для потехи приводит к вам сюда всяких физиков и шизиков, а вы благосклонно их выслушиваете. А на самом деле, мир очень плохо относится к таким вот, (как я), самозваным умникам, – и вы это, и я это (на своей шкуре) очень хорошо знаем. Но тем не менее, я считаю себя счастливчиком, который ходит по свету и рассказывает всем, что он что-то такое знает, что другим не ведомо. Всех это очень и очень даже возмущает и раздражает, но ничего с этим нельзя поделать – время такое! Когда-то таких умников – вспомните Джордано Бруно, вспомните "вейсманистов-морганистов" или китайскую "культурную революцию", когда хунвейбины топтали университетских профессоров и отправляли их на перевоспитание в трудовые лагеря, – так вот, когда-то с такими умниками общество разбиралось быстро и беспощадно!

Но что-то в мире теперь не так – и такие, как я, гуляют себе на свободе, ездят даже за границы (на конференции), выступают там и беззастенчиво утверждают, что: Информация - это словесное описание структур, наблюдаемых в определённом массиве данных. (Это моё определение информации. Это первое, которое вам когда-нибудь приходилось слышать, самое точное и самое полное определение информации, которое вы можете сегодня взять на вооружение и начать им использоваться).

Бдительные (и технически грамотные) коллеги из Дома ученых, конечно, сразу же заметят мне, что тут что-то не так – что нечто похожее уже заявлял в 1965 году великий советский учёный Андрей Николаевич Колмогоров! И я им отвечу: «Браво, друзья мои! Браво! Вы совершенно правы!» Только Андрей Николаевич, как и все учёные того времени, занимался связью, т.е., одномерными потоками данных (все они тогда занимались связью, а связь – это всегда одномерная последовательность сигналов, такая длинная-длинная цепочка данных. И выражение Колмогорова относилось к одномерному сигналу связи. И занимала его, как было принято в то время, не сама информация, а её количественная мера, которая у Колмогорова называется «сложность» (в отличие от шенноновской меры, которая называется «энтропия»).

Я применил исходное определение Колмогорова к картинке, к двумерному изображению-отображению внешнего мира в наших глазах: как известно, зрение у нас самый главный орган и основной поставщик информации о внешнем мире. Так вот, картинка внешнего мира у нас в глазах двумерная, т.е., имеет ширину и высоту, а не одномерная, как в связи, где есть только длина передаваемого сообщения. Даже двумерную картинку телевидение ещё совсем недавно передавало как последовательно, строка за строкой, сканируемый массив данных, т.е., одномерный массив данных, для которого годятся шенноновские правила передачи информации. А для двумерных массивов таких (шенноновских) правил не существует. Поэтому-то я и занимался этой проблемой.

Так вот, давайте посмотрим, что же такое двумерная картинка (а это то, что у вас сегодня в телевизоре, в фотоаппарате, в видеокамере, в смартфоне и мобильном телефоне, практически везде). Экран (картинка) любого такого устройства состоит из набора тесно прижатых друг к другу светящихся точек, которые называются элементами картинки или «picture elements», или сокращённо просто «pixels». И светятся эти пиксели не как попало, а в строго предопределённом порядке. И частью этого порядка является то, что очень похожие (даже одинаковые) пиксели располагаются рядом, образуя такие островки, объединения, блоки (или по-научному скажем «структуры») элементарных данных. Я предложил называть эти структуры «первичными». Вы легко можете видеть их повсюду вокруг себя. Отличительной особенностью этих структур является то, что все они собраны из элементов, сходных по какому-то одному физическому параметру – например, цвет, или яркость, (при зрении), или температура, влажность, (при осязании), или что-то ещё – неважно, главное, что это совершенно определённый физический параметр, общий для всех элементов данной структуры. Поэтому я предложил называть их первичными или физическими структурами. И, как вы легко можете в этом сами убедиться, всё пространство картинки занято этими первичными физическими структурами.

А теперь, если вы внимательно посмотрите на картинку, то заметите, что видим мы в ней не первичные физические структуры (которыми забита вся картинка), а видим мы в ней, знакомые нам, предметы и объекты – стол, стул, человек, стена, люстра (и т.д.). Эти объекты собраны из многих разных первичных структур, но видим мы их и воспринимаем как единое целое. Это тоже структуры, но структуры, собранные из набора более примитивных первичных структур. Поэтому я называю их Вторичными структурами. А поскольку в каждой вторичной структуре мы видим какой-то известный нам и знакомый объект или предмет, я предложил называть вторичные структуры осмысленными или семантическими структурами.

А теперь вы можете вернуться и ещё раз внимательно прочитать моё заявление: информация – это лингвистическое описание структур, видимых (наблюдаемых) в конкретном массиве данных. Из этого сразу становится понятным, что наблюдая два вида структур в одной картинке, мы имеем два вида описаний этих структур, а следовательно два вида (два типа) информации об этих структурах (в любой и каждой картинке): физическую информацию о структурах первого рода, и семантическую информацию о структурах второго рода. И информация, которая содержится в картинке, есть агломерат двух разных информаций – физической и семантической информации!

Это сильно расходится с тем, что принято сегодня в науке об информации. Хотя понятие «семантическая информация» было введено Бар-Гилелем ещё в 1952 году, но подразумевалось под этим совсем не то, о чём я вам рассказываю – считалось, что семантическая информация - это просто модификация и дальнейшее развитие шенноновской информации.

Неожиданной новостью стало то, что понятие информация потеряло свою унитарность и стало сложным, или, правильнее будет сказать, «комплексным» понятием, состоящим из физической и семантической информации, которые выступают в роли вещественной и мнимой части комплексного числа, о котором мы хорошо наслышаны из элементарной математики.

Неожиданной новостью стало и то, что семантическая информация - это субъективная информация, т.е., не подчиняющаяся никаким общеизвестным законам. Я уже объяснял, что объединение первичных структур в какую-нибудь вторичную структуру – это акт, происходящий в голове у наблюдателя, и подчиняющийся только его (наблюдателя) личной воле и прихоти (иллюзии). И хотя это акт субъективный, но он не произвольный. Потому что, чтобы сохранить возможность взаимопонимания при общении с другими наблюдателями, объединения первичных структур во вторичные должны быть общепринятыми, согласованными, исключающими субъективный произвол или случайность. Это и есть то, что обычно называется «common sense», или «общий здравый смысл». Это и есть та зыбкая, но всем понятная и знакомая «мудрость», описание которой никак нельзя формализовать или ограничить жёсткими правилами способы её создания и употребления, как это делается, например, в математике.

Неожиданной новостью стало то, что информация - это лингвистическое описание. Великий Фейнман говорил, что всё, что не может быть описано математически, не является наукой. Это правильно и справедливо. Но справедливо только для физического мира. Тут у меня никаких противоречий с Фейнманом нет – физическая информация может быть описана (и, как правило, описывается) математически! Надо только помнить при этом, что математика – это тоже язык, особый язык, специальный язык. Только и всего. При этом общее правило, что информация - это лингвистическое описание - не нарушается: физическая информация описывается математическим языком, а семантическая информация, поскольку это продукт человеческой психики, может быть описана только человеческим языком! Других форм описания семантической информации не бывает! (А в других системах семантическая информация будет описываться на других языках, но это обязательно будет лингвистическое (языковое) описание – вот что тут важно и ново!)

Очень важным следствием из этого последнего положения будет утверждение о том, что информация, по сути, это текст, набор слов, написанных на определённом языке с помощью определённого кода, который мы называем «алфавитом». Это очень важное нововведение, потому что оно прямо говорит нам: ищешь информацию? -  Ищи текст, в котором она реализована!

Например: вот вам образец широко распространённого и всем хорошо известного информационного сообщения – кулинарный рецепт приготовления чего-нибудь вкусненького. (Для увеселения души, своей и своих гостей). Он начинается с перечисления используемых ингредиентов:

два стакана муки, стакан сахара, горсть грецких орехов, четыре яйца, баночка сметаны и т.д. Затем следует текст, в котором описывается, что и в какой последовательности с этими ингредиентами нужно делать. Я правильно излагаю суть вопроса? Замечательно!

А теперь, с точки зрения специалиста по обработке информации (а мы с вами теперь крупные специалисты в этой области), мы можем сказать, что: 1) список используемых ингредиентов - это ничто иное, как физическая информация в нашем информационном сообщении. А последующее описание того, что и как делать с этими ингредиентами это есть 2) семантическая информация в нашем информационном сообщении. Всё очень просто, не правда ли?!

Но если это действительно общее правило, а не трюк самовлюблённого изобретателя-рационализатора и автора научно-фантастических публикаций, то оно годится и для всех других случаев жизни, например, для биологии или генной инженерии. (У нас в науке сейчас большие проблемы с биологической информацией). Сегодня принято считать, что ген - это источник информации, нужной нам для нашего существования. А если так, то должны быть в гене участки физической информации рядом с участками семантической информации (как в кулинарном рецепте, например).

Строение гена изучается уже 50 с лишним лет – так что же, наука до сих пор ничего об этом не знает? Знает. Знает, что в создании белков принимает участие лишь очень малый участок гена, который называется intron'ом, а кроме него и впритык к нему существуют огромные участки гена, которые называются exon'ами, и которые не принимают никакого участия в кодировании геном новых белков. Долгое время о предназначении exon'ов вообще ничего не было известно – их считали мусором, остатками прошлых мутаций, которые накопились в гене и сохранились как нейтральные реликты. Но теперь уже появляется мнение, что exon'ы как-то связаны с функциональными особенностями гена. О комплексной природе информации, о дуальности информации – о физической и семантической компонентах информации никто в биологии не знает (и знать не хочет!). А жаль.

Ещё один пример ошибочного понимания природы информации и связанных с этим печальных последствий. Я говорю о работе мозга, о сознании. Наш век – это век исследования мозга. В 2014 году сначала Америка, а вслед за ней и Европейский союз запустили национальные проекты по исследованию работы мозга. Human Brain Project (HBP) в Европе и BRAIN project в США. Бюджет каждого проекта более миллиарда евро (или долларов). В этом году к ним присоединились национальные проекты Китая, Японии, Австралии, Индонезии и Малайзии. Все начинают изучение мозга с изучения связи (опять связи!) между отдельными областями и участками мозга – прежде всего, устанавливается и изучается карта таких связей, так называемый Connectome.

А что передаётся по этим связям? Такой вопрос не ставится и не стоит даже – всем ясно, что по нейронным каналам связи (как по любым другим каналам связи) передаётся информация. Конечно же! А что такое информация? Это, конечно, тоже всем давно ясно, это как у Шеннона, – нервные импульсы, известные человечеству с конца 19 века.

В январе 2014 года, как раз к началу запуска проектов по исследованию мозга, я опубликовал статью, в которой пытался привлечь внимание публики к фатальным ошибкам в понимании природы информации и следующей из этого ошибочной методологии изучения работы мозга. Никто моей статьи читать не стал и никого эти проблемы не взволновали. Но вы-то народ любознательный, вам-то хочется узнать, как там в мозгу у нас всё происходит… Всё в порядке, для этого я здесь с вами.

Прежде всего, должен вас предупредить, что мои рассуждения о работе мозга никакой связи с действительной работой мозга не имеют. Я не знаю, как работает мозг, и думаю, что никто сегодня этого не знает. Через три недели я поеду в Москву, где буду участвовать в Международном конгрессе БИКА – БИКА это аббревиатура Brain Inspired Cognitive Architectures – что в переводе значит «Навеянные Мозгом Архитектуры Сознания». Я представил на конгресс доклад, в котором излагаю свои взгляды на вещи. Как вы понимаете, они отличается от общепринятых (а БИКА как научное направление существует уже лет 40), поэтому рецензенты (два рецензента) оценили достоинства моего доклада очень невысоко, а именно – ноль и единица (т.е., решительно отвергли его). Тем не менее, программная комиссия приняла мой доклад к представлению – кому-то мои аргументы показались заслуживающими внимания. Я думаю, что и вам они могут быть интересны.

Основная мысль моя сводится к следующему: Мы не знаем сегодня, как работает наш мозг (и вряд ли узнаем об этом в ближайшем будущем). Поэтому говорить, что мы Brain Inspired в наших исследованиях (что мы воодушевлены и вооружены нашими знаниями о работе мозга) будет нечестно и не научно. Поэтому свои догадки о том, как работает мозг, мы должны строить на общих логических рассуждениях о том, как бы выглядела работа мозга, если бы он должен был решать свои задачи, пользуясь уже имеющимися в нашем распоряжении знаниями. (Моя статья 2009 года, опубликованная в Киеве, так и называлась: «Как должен быть устроен человеческий мозг, чтобы мы могли воспроизвести его в «думающей» машине?»)

Так что же мы знаем о мозге? Немного. Знаем только, что мозг обрабатывает информацию. А что такое информация? Тут у нас недавно появилось новое знание по этому вопросу, и интересно было бы подумать, как это новое знание должно повлиять на наше понимание того, как мозг (или любое другое устройство) могли бы обрабатывать поступающую информацию.

Прежде всего, мы должны вспомнить, что из окружающей среды к нам в мозг (через наши органы чувств) поступает… Нет, не информация (как принято говорить и думать), а дата (физические данные о том, что происходит вокруг нас). Из этой даты может быть извлечена физическая информация, которая поступает на дальнейшую обработку в различных частях мозга.

Блок-схему такой обработки я предложил ещё в 2005 году, и в 2008 году она была опубликована в журнале «Brain Research». Выглядит она следующим образом: у нас в мозгу имеется пирамида семантической информации. Семантическая информация – это (как вы уже знаете) тексты разного уровня детализации описания. На нижних уровнях более детализированные описания, на верхних – менее детализированные, более обобщённые, более абстрактные описания. На самом нижнем уровне находится иерархия физических описаний, иерархия физической информации, хранящейся в системе.

Извлечённая из поступившей даты физическая информация сравнивается (ассоциируется) с физической информацией, имеющейся (хранящейся) в иерархии семантической информации. Если найдено подобие, новая физическая информация получает своё семантическое обозначение (связывается со словом, которое в пирамиде было связано с физической информацией, уже хранящейся в семантической пирамиде системы), т.е., становится словом, названием предмета, которому соответствует данная физическая информация. Это слово (в свою очередь) оказывается частью текста, хранящегося на данном уровне пирамиды семантической информации. Т.е., оказывается частью текста, который является интерпретацией смысла того предмета, физическая информация о котором появилась на входе системы. Т.е., предмет, о котором получена физическая информация, становится частью рассказа, который служит его семантической интерпретацией.

Из этого краткого описания принципа обработки информации в какой-нибудь естественной или искусственной системе обработки информации становятся понятными некоторые обязательные элементы любой системы обработки информации. Прежде всего, новая физическая информация ассоциируется с уже имеющейся в системе физической информацией, которая является частью хранящейся в системе семантической информации, которая в конце концов определяет её смысл. Т.е., в системе всегда имеется своя, базовая, реферативная семантическая информация, по отношению к которой определяется смысл новой физической информации. Из этого следует, что система не может сама по себе самостоятельно создать себе базовую реферативную семантическую информацию, а должна получить её от кого-то извне. Это нарушает все теории о самостоятельном машинном обучении. Нет такого! Автономного машинного самообучения не бывает! – это одна новость, о которой широкая публика ничего не знает.

Другой аспект этой новости заключается в том, что Машинное обучение и Машинная обработка должны помочь нам быстрее находить искомую семантическую информацию. Но Машинное обучение предполагает интенсивную переработку даты. А из даты (как вы уже знаете, а весь остальной мир ещё нет) можно получить только физическую информацию, семантическую информацию из даты получить невозможно! А значит все разговоры о колоссальных успехах искусственного разума, о самообучающихся машинах, о триумфальном шествии Deep Learning (есть такой последний крик моды) – всё это рекламный бред научных фантастов.

Теперь последнее: из всего, что вы здесь услышали, можно сделать несколько простых и однозначных выводов: Разум, Интеллект, Сознание – это всё разновидности одного и того же чудесного явления, а именно – способности человека обрабатывать информацию, т.е., прежде всего семантическую информацию, (которая всегда содержит физическую информацию).

Но сегодня уже известно, что этой способностью обладают не только люди, но и все живые существа, растения, бактерии, и совсем недавно была статья Рафы Нудельмана о том, что даже вирусы обладают способностью разумного поведения, т.е., имеют разум. И у всех вышеупомянутых существ разум есть, хотя мозга нет! Т.е., для создания системы искусственного разума нам вовсе не нужно знать, как работает человеческий мозг! Нам не нужно пытаться имитировать или эмулировать человеческий мозг и его невообразимую сложность! Потому что у природы, у эволюции нет цели, и всё, что она создаёт, она создаётся самым неоптимальным, самым неразумным и случайным образом, который мы копировать не должны. 

Хотел ещё рассказать вам о том, как рушится DIKW пирамида Эдельсона – многолетний классический вариант представлений о связи между датой-информацией-знанием-и разумом (в классическом варианте это «мудрость», т.е., почти разум). Так вот, нет никакой такой пирамиды – информация не вытекает из даты, знание не вытекает из информации (знание это и есть информация, замороженная в системе), а разум - это не высшая форма знания, а просто способность обрабатывать информацию.

Эмануэль (Амик) Диамант

Лекция, прочитанная в Домк ученых Тель-Авива 12.6.2017.