Ввод и "разглядывание" эталонов и образов
Устройства ввода информации - эталонов, входных векторов, исходных ситуаций - имеют определяющее значение для нейросети. С их помощью формируются и поддерживаются возбуждения входного слоя. Однако связь модели живого организма с внешней средой естественно представляет собой сложную проблему - конгломерат ряда частных технических и алгоритмических проблем. Среди них - успешно решаемая проблема видеоввода. Однако ввести в компьютер "картинку" - это лишь часть дела. Картинку надо обработать - в целом и по частям, чтобы по максимуму интересующей информации получить полные и достоверные выводы. Здесь мы ищем аналоги нашего восприятия действительности.
Мы совершаем обзор представляемой нам картины тремя способами:
-
сканированием сектора обзора, разбитого на элементарные сегменты (рис. 2.12);
-
сканированием сектора обзора со "своим окном просмотра" (рис. 2.13);
-
спонтанным обзором, обусловленным привлечением внимания к цветовому или скоростному всплеску, быстрым увеличением размера (угрожающим приближением) объекта, указанием извне (целеуказанием) и т.д. (рис. 2.14).
Третий способ также требует сканирования сектора обзора, однако со значительно меньшими энергетическими затратами.
При первом и втором способах анализ сложнее, т.к. требует согласования всего виденного по сегментам. Это, в свою очередь, требует включения высших уровней логического вывода (интеллекта).
При третьем же способе можно добиться избирательности, чрезвычайности реакции, например на резкие движения, на бег, появление яркой расцветки в одежде и т.д. Это может с успехом использоваться в развлекательных, игровых системах.
Все способы реализуются легче, если речь идет о единственном объекте единовременного распознавания, например буквы, хозяина квартиры, подписи и т.д. Ибо любая сцена, например туристская группа, пришедшая полюбоваться "умным" монстром, требует не только детального, но и совместного анализа этим монстром всех (многих) ее составляющих.
Рис. 2.12. Сканирование по строкам
Рис. 2.13. Реакция на внезапность
Рис. 2.14. Беспорядочное сканирование
Впрочем, говоря о туристах, можно говорить о конечной, усредненной реакции на всю группу. Ведя обзор, сеть постепенно, по критериям обучения "это хорошо - это плохо", воспринимая "настроение" как последовательное добавление элементов радости и огорчения, приходит к некоторому окончательному состоянию, обусловленному тем, сколько того и другого она увидела. Тогда для разных групп туристов или экскурсантов это состояние будет разным. Это может стать источником веселья и шутливого "поощрения" той группы, которая привела объект в радость, и "осуждение" группы, ввергнувшей его в печаль.
Итак, в каждом такте обзора, формируется сегмент, содержимое которого необходимо распознать. Чаще всего целесообразно допущение о том, что в элементарном сегменте (или в "окне просмотра") при дискретном сканировании находится не более чем один значимый объект. Пусть это - максимальная область текста, вмещающая единственную букву, написанную с допустимой долей небрежности. Как помочь себе же разглядеть эту букву? По-видимому, следует пытаться разместить эту букву на входном слое так, чтобы она максимально соответствовала тому размещению эталонов, с помощью которых производилось обучение. Тогда распознавание заработает правильно (рис. 2.15). Такой процесс "разглядывания" может предполагать:
поиск возможности совмещения условного центра элемента изображения и центра экрана - входного рецепторного слоя сети (фокусировка);- поиск варианта масштабирования элемента изображения (приближение - удаление);
- поиск угла наклона и др.
В результате таких пробных действий может вдруг "запуститься" процесс распознавания, хотя, возможно, и ошибочного. Что ж, в жизни бывает и так.
Рис. 2.15. Поиск условия узнавания
Этот процесс выделения и размещения в попытке инициировать распознавание мы можем сравнить с концентрацией нашего внимания и с фокусировкой, понимая, что наше зрение в каждый момент всегда сконцентрировано на элементе изображения, держа его в фокусе, в целом производя обзор и разглядывание всего изображения [26].
Напомним, что работа нейросети тактируется. Тогда развитие сценария в увлекательной многофункциональной детской игре с обучаемым компьютерным человечком КОМПИ может быть таким, как представлено на рис. 2.16.
Рис. 2.16. Реакция на распознавание в реальном времени