.RU

1. Введение - Методы нейроинформатики сборник научных трудов под редакцией доктора физико-математических наук А....


1. Введение

В настоящее время широкое распространение получили искусственные обучаемые нейронные сети. С их помощью эффективно решаются неформализованные задачи классификации и прогнозирования в различных проблемных областях. Обучаясь на некоторой таблице данных, нейросеть формирует навык предсказания или классификации и в дальнейшем может решать задачи с высокой точностью. Однако, обучившись решать задачу, нейронная сеть сформировала навык, логическая структура которого не понятна пользователю.

К настоящему моменту разработано большое число высокоэффективных процедур для упрощения (контрастирования) нейронной сети – снижения избыточности последней [1-3]. В [2,5] предложена гипотеза о возможности использования контрастирования для такого упрощения нейронной сети, после которого структура сети станет логически прозрачной. Логически прозрачной назовем сеть, по структуре которой легко можно сформировать понятный пользователю алгоритм решения задачи. Очевидно, что простое упрощение сети не приведет последнюю к логически прозрачному виду – надо строить специальные правила исключения из сети сигналов и элементов, чтобы получить сеть со структурой, близкой к нашему пониманию логической прозрачности.

В настоящей статье описывается процесс порождения явных и понятных алгоритмов решения неформализованных задач (получение полуэмпирических теорий) с помощью обучаемых нейронных сетей. Формализуются критерии логической прозрачности нейронной сети и строится методология приведения нейросети к логически прозрачному виду. Приведены основные идеи, на основе которых можно строить алгоритмы извлечения знаний и нейросетевые программые средства качественно нового уровня, ориентированные на специалистов-когнитологов.

Для изучения нейротехнологий можно порекомендовать работы [1-3,6]. Краткое изложение основных аспектов перечисленных работ приведено в статье [8], включенной в настоящий сборник. Термины и обозначения настоящей статьи соответствуют этим работам.

^ 2. Логически прозрачные нейронные сети

После того, как сеть обучилась решению некоторой задачи, обычно не ясно, какие же правила используются сетью для получения правильных ответов. Сеть произвела из задачника (таблицы данных) скрытое знание – сформировала некоторый навык предсказания или классификации, но логическая структура этого навыка осталась непонятной пользователю. Такое обстоятельство очень сильно разочаровывает: поскольку на основе нейронных сетей часто решаются неформализованные задачи (алгоритм решения которых неизвестен), то даже успешное обучение сети дает нам просто некоторое вычислительное устройство, не приближая к пониманию процесса решения задачи. Действительно, можно описать функционирование сети как пересылку, суммирование и преобразование большого числа сигналов, но понятийная интерпретация крайне затруднена. Этот факт называется логической непрозрачностью нейронной сети.

Введем фундаментальные критерии логической прозрачности нейронной сети. Эти критерии естественно и просто вводятся по аналогии с критериями простоты и понятности рассуждений, выполняемых человеком.


^ 2.1. Архитектура логически прозрачных сетей

Рассмотрим архитектуры нейронных сетей и выделим из них наиболее логически прозрачные. Поскольку обычно архитектура выбирается в процессе создания нейронной сети и контрастирование в подавляющем большинстве случаев не приводит к изменению архитектуры, то появляется возможность зафиксировать класс изначально логически прозрачных нейросетевых архитектур и в дальнейшем оперировать именно с ними начиная с момента создания сети и заканчивая приведением сети к логически прозрачному виду.

Критерии логической прозрачности нейросетевых архитектур не должны обязательно совпадать с критериями наиболее простой технической или программной реализуемости сети – это все-же разные задачи. Поэтому представляется возможным использование в качестве логически прозрачных сетей со слоистой и только слоистой архитектурой. Слоистые сети наиболее соответствуют нашему представлению о естественном пути решения задачи. А именно, в слоистых сетях происходит некоторое распределение набора входных признаков по нейронам первого слоя, нейроны первого слоя на основании поступивших сигналов генерируют признаки следующего уровня иерархии и т.д. Наличие каких-либо циклов в архитектуре сети затрудняет процесс отслеживания движения признаков по графу вычислений.

Нейросети любой архитектуры могут быть представлены в виде слоистых сетей. Единственное ограничение – в сети не должно быть бесконечных циклов. Иными словами, в сетях с циклами (полносвязных и родственных с ними) процесс функционирования сети должен обрываться после некоторого фиксированного числа тактов. Действительно, имеются сети полносвязной архитектуры, для которых наперед неизвестно цисло циклов функционирования. Функционирование таких сетей обрывается после установления, например, некоторого равновесного состояния на выходе, когда новый цикл существенно не меняет значений выходных сигналов сети. При этом для каждого примера, подаваемого сети, число циклов функционирования является различным. Такие сети мало пригодны для приведения к логически прозрачному виду.

Итак, нейросети слоистой архитектуры зафиксированы в качестве логически прозрачных. Возможно приведение слоистой архитектуры к более логически прозрачному виду, а именно, преобразование слоистой сети в монотонную. Монотонность не обязательно применима только к слоистым архитектурам. Под монотонными сетями понимаются такие сети, для каждого из настраиваемых параметров и сигналов (входных и внутренних) которых можно сказать, как изменится (увеличится либо уменьшится) выходной сигнал сети при уменьшении или увеличении значения этого параметра или сигнала. В монотонной сети выделены группы возбуждающих и тормозящих параметров, увеличение значений которых соответственно увеличивает (для возбуждающих параметров) и уменьшает (для тормозящих) выходные сигналы сети, а уменьшение значения этих параметров действует наоборот.

Каждый слой монотонной сети, кроме выходного, разбит на два блока: возбуждающий (В) и тормозящий (Т). Связи между блоками разделяются на два типа: возбуждающие (+) и тормозящие (-). На нелинейные преобразователи нейронов накладывается требование монотонной зависимости выходного сигнала от параметров и входных сигналов. Взаимодействие возбуждающих и тормозящих блоков через возбуждающие и тормозящие связи представлено на рис. 1. От возбуждающего блока к возбуждающему и от тормозящего блока к тормозящему ведут возбуждающие связи, а от возбуждающего к тормозящему и от тормозящего к возбуждающему ведут тормозящие связи. На выходной блок сигналы от возбуждающего блока приходят через возбуждающие связи, а от тормозящего – через тормозящие. При упрощении монотонной сети накладывается дополнительное требование минимизации числа общих входных сигналов возбуждающих и тормозящих слоев. В идеале такое требование приводит к разбиению множества входных сигналов на два непересекающихся подмножества возбуждающих и тормозящих сигналов [1,2].


Р
ис. 1. Монотонная сеть


^ 2.2. Критерии логической прозрачности нейронной сети

Зафиксировав требования к архитектуре, определим набор критериев, следование которым делает сеть более логически прозрачной. Некоторые из критериев были приведены в [2,5]. На основе этих критериев можно строить оценки приближения к идеальному логически прозрачному состоянию сети. Эти критерии могут ранжироваться пользователями по степени важности (в зависимости от субъективного понимания логической прозрачности) и пользователи могут добавлять новые критерии логической прозрачности в эту группу критериев. Перечислим эти критерии:

  1. Чем меньше слоев нейронов в сети, тем сеть более логически прозрачна. Однако число слоев зафиксировано при создании сети. Этот критерий важен в тех ситуациях, когда число слоев сети избыточно и после контрастирования возникают отдельные нейроны (или слои нейронов), являющиеся просто передатчиками информации с предыдущего слоя на следующий. Такие нейроны имеют единственный вход (и могут иметь также и единственный выход). Эти нейроны должны по возможности заменяться линиями передачи информации (подробнее об этом – в разделе 3.3). Однако часто не удается полностью избавиться от излишних слоев и поэтому можно ввести окончательную формулировку первого критерия логической прозрачности – чем меньше нейронов в каждом из имеющихся путей прохождения сигналов в сети от входа к выходу, тем сеть логически прозрачнее. Такое утверждение основывается на том факте, что рассуждение понять тем проще, чем меньше длины цепочек рассуждений.

  2. ^ Уменьшение числа входных сигналов сети. Этот критерий отсеивает признаковое “шумовое поле”, оставляя минимально необходимый для правильного решения задачи набор наиболее значимых входных признаков. Надо строить такие рассуждения, которые опираются на минимальное число посылок.

  3. ^ Уменьшение числа нейронов в каждом слое сети. Этот факт не требует пояснения – мы минимизируем число сигналов, генерируемых каждым слоем сети, что позволяет оставить только действительно значимые промежуточные сигналы (признаки). Надо не только опираться на минимальное число исходных посылок (п.2), но и генерировать минимальное число промежуточных сущностей. Методика контрастирования нейронов описана в главе 2 настоящей работы.

  4. ^ Уменьшение числа приходящих на нейрон сигналов. Это утверждение опирается на тот факт, что человек может одновременно оперировать с достаточно малым числом сущностей. Минимизируя число приходящих на нейрон сигналов, мы облегчаем пользователю задачу содержательного осмысления признака, генерируемого нейроном, и, может быть, помогаем в именовании этого признака. Однако желательна модификация этого критерия и введение критерия равномерной простоты сети – на каждый нейрон сети должно приходить не более n сигналов, где n достаточно мало (2-3, но может задаваться и пользователем). Ведь если рассуждение понять легче, когда оно опирается на малое число посылок, то сделаем так, чтобы все рассуждения были примерно одной степени сложности.

  5. ^ Уменьшение общего числа синапсов в сети. Критерий ликвидирует все излишние синапсы нейронной сети, которые могут оставаться после достижения предыдущих требований.

  6. ^ Синапс, по которому передается сигнал, логически непрозрачнее неоднородного входа нейрона. Действительно, неоднородный (пороговый) вход нейрона – это просто константа, в отличие от синапса, выполняющего умножение своего веса на величину поступающего на синапс сигнала. Поэтому в первую очередь из сети должны исключаться синапсы, а только потом – неоднородные входы адаптивных сумматоров. Таким образом, желательно при упрощении сети по предыдущим критериям исключать только синапсы, а избыточные неоднородные входы удалять на отдельном этапе упрощения сети.

  7. ^ Необходимо приведение значений настраиваемых параметров сети к конечному набору выделенных значений. На диапазон изменения адаптивных параметров сети обычно наложены некоторые ограничения. Допустим, веса синапсов меняются при обучении в диапазоне [-1,1]. Желательна бинаризация параметров сети – приведение весов синапсов к значениям -1 и 1. Если такое жесткое требование не выполняется, то можно вводить более широкие наборы дискретных значений. Например, множество {-1, -0.5, 0.5, 1} как самое первое расширение исходного набора бинаризованных весов.


^ 2.3. Требования к нелинейности элементов

Вообще то, требование использования более простых нелинейных функций нейронов можно было включить отдельным пунктом (критерием) предыдущего раздела. Однако достаточно большой объем изложения потребовал формирования отдельного раздела.

Имеется теорема, показывающая, что с помощью нейронных сетей можно сколь угодно точно приблизить любую непрерывную функцию, используя любую нелинейность нейронов [4]. Хватает всего-навсего одной любой нелинейной функции. Однако такие широкие возможности для решения задачи приведения сети к логически прозрачному виду нам не нужны – нужно ограничиться теми нелинейными функциями, которые допускают простую интерпретацию. Наиболее проста из нелинейных единичная пороговая функция h (функция Хевисайда). Если сумма сигналов, приходящих на нейрон с такой единичной нелинейной функцией, меньше или равна 0, то далее можно не обращать внимания на выходной сигнал нейрона – он будет нулевым и не повлияет на выдаваемые нейронами следующего слоя значения. Если эта сумма входных сигналов больше нуля, то нейрон генерирует единичный выходной сигнал и здесь нам опять не важна величина сигнала, а важно то, что воздействие на нейрон превысило некоторый критический уровень и нейрон возбудился. Такие пороговые нейроны допускают наиболее простую интерпретацию.

С другой стороны, просто линейная функция еще проще… Поэтому имеются предельные случаи:

Однако для обучения нейронной сети по методу двойственности необходимо наличие непрерывной первой производной у нелинейной функции нейрона, что для порогового нейрона не достигается. Поэтому можно предложить путь, использующий некоторые непрерывно дифференцируемые функции и переходящий к пороговым тогда, когда дальнейшее обучение сети не нужно.

Рассмотрим одну из наиболее часто используемых нелинейных функций нейрона – сигмоидную функцию f(A)=A/(c+|A|). Здесь c – настраиваемый параметр крутизны сигмоиды . Функция имеет непрерывную первую производную и принимает значения из диапазона [-1,1]. Устремление c к  дает более пологую сигмоиду, а устремление к 0 – сигмоиду, близкую к пороговой функции sgn(A), однако имеющую третье стабильное состояние, нуль, при нулевом входном сигнале. Однако значение c – параметр крутизны сигмоидной функции – обычно устанавливается одинаковым для всех нейронов в момент создания сети и не включается в число обучаемых параметров, поскольку в большинстве случаев это приводит к ухудшению интер- и экстраполяционных способностей нейронной сети. Действительно, поскольку нейронная сеть первоначально избыточна, то ей обычно проще научиться решению задачи, приближая задачник набором функций, близких к дельта-функциям (а точнее, набором “колоколообразных” функций), чем строя регрессионные зависимости. При этом параметры крутизны при обучении быстро устремляются к нулю, ускоряя обучение сети, но снижая качество решения тестовой выборки.

Исключение из сети малозначимых входных сигналов и элементов снижает избыточность и гибкость нейронной сети и поэтому появляется возможность начинать обучать и параметры крутизны сигмоиды для еще большего снижения избыточности сети.

Итак, надо пытаться заменить сигмоидный элемент пороговым элементом. При этом выход нейрона будет принимать дискретные значения, что упростит пользователю понимание сети. В качестве пороговой функции лучше брать трехзначную пороговую функцию вида



С другой стороны, не надо забывать о том, что сигмоиду можно приводить не к более крутой, а к более пологой функции. Тождественная функция f(A)=A хоть и не является предельным случаем сигмоиды, но в окрестности нуля достаточно хорошо аппроксимирует сигмоиду при определенной крутизне последней. Поэтому можно пытаться заменять сигмоиду не только на порог, но и на линейную функцию. Подробно технология такой замены будет изложена в разделе 3.3.


14-gipomagnitnoe-pole-referat-vvedenie.html
14-glossarij-uchebno-metodicheskij-kompleks-specialnosti-080502-ekonomika-i-upravlenie-na-predpriyatii-restoranno-gostinichnogo.html
14-gyote-i-shiller-1794-1805-pervie-vstrechi-gyote-s-shillerom-svidanie-v-iene-i-nachalo-sblizheniya-shiller-gostit-v-vejmare-i-druzhba-ego-s-gyote-okonchatelno.html
14-huan-avstrijskij-seriya-100-velikih-predstavlyaet-novuyu-knigu-kotoraya-poznakomit-chitatelej-s-biografiyami.html
14-informacionnaya-otkritost-i-prozrachnost-planirovanie-pri-razmeshenii-zakazov-42-zaklyuchitelnie-polozheniya-45.html
14-informaciya-o-prodolzhenii-obucheniya-uchashimisya-vipusknikami-liceya-publichnij-otchyot-municipalnogo-obrazovatelnogo.html
  • universitet.bystrickaya.ru/svedeniya-o-territorii-vseleniya-minusinskij-rajon-programma-krasnoyarskogo-kraya-po-okazaniyu-sodejstviya-dobrovolnomu.html
  • klass.bystrickaya.ru/analiz-kadrovoj-politiki-godovoj-otchet-po-itogam-raboti-za-2010-god-utverzhden.html
  • writing.bystrickaya.ru/1-celi-osvoeniya-disciplini-annotaciya-k-rabochej-programme-disciplini.html
  • urok.bystrickaya.ru/predstavlen-paket-zakonoproektov-o-pensiyah-sudej-otchet-soyuz-potrebitelej-finansovih-uslug-finpotrebsoyuz.html
  • vospitanie.bystrickaya.ru/zhizn-gumileva.html
  • testyi.bystrickaya.ru/analiz-problem-zhilishnogo-stroitelstva-na-primere-usst-8-g-izhevska-chast-13.html
  • uchebnik.bystrickaya.ru/voennoe-delo-sluzhba-chs-nauchno-tehnicheskaya-biblioteka-vogtu.html
  • urok.bystrickaya.ru/pravila-i-normi-tehnicheskoj-ekspluatacii-zhilishnogo-fonda-i-osnovnie-polozheniya-stranica-15.html
  • crib.bystrickaya.ru/ispolzuyutsya-takzhe-drugie-koefficienti-organizaciya-raboti-torgovo-promishlennih-palat-po-privlecheniyu-investicij.html
  • holiday.bystrickaya.ru/obshaya-energetika-otche-t-o-deyatelnosti-rossijskoj-akademii-nauk-v-2003-godu.html
  • knowledge.bystrickaya.ru/na-reke-stepnoj-zaj-v-tatarstane-proshli-ucheniya-otryada-federalnoj-protivopozharnoj-sluzhbi-informacionnoe-agentstvo-tatar-inform-24112011.html
  • klass.bystrickaya.ru/8575-kombinezoni-rabochie-i-specialnogo-naznacheniya-informaciya-o-produkcii-podlezhashej-obyazatelnomu.html
  • tests.bystrickaya.ru/kontrolnie-voprosi-uchebnoe-posobie-samara-2008-bbk-32-973-26-018-2-udk.html
  • holiday.bystrickaya.ru/migel-anhel-asturias.html
  • pisat.bystrickaya.ru/sto-pudov-5-ot-160705-g-obyavleniya-stranica-16.html
  • urok.bystrickaya.ru/primernaya-programma-disciplini-istoriya-medicini-dlya-studentov-obuchayushihsya-po-specialnosti-stomatologiya.html
  • essay.bystrickaya.ru/benzojnij-aldegid-metodika-i-tehnika-posobie-dlya-uchitelej-izdanie-pyatoe-pererabotannoe-i-dopolnennoe-pod-obshej.html
  • occupation.bystrickaya.ru/na-etoj-nedele-iz-sankt-peterburga-vozvratilsya-svodnij-otryad-mvd-po-rt-pomogavshij-obespechivat-obshestvennij-poryadok-vo-vremya-provedeniya-xiii-mezhdunarodnogo-ek.html
  • notebook.bystrickaya.ru/kniga-1-sistema-polevoj-samoregulyacii.html
  • school.bystrickaya.ru/denezhnoe-obrashenie-i-denezhnaya-sistema-2.html
  • znaniya.bystrickaya.ru/raspisanie-trenirovochnogo-testirovaniya.html
  • learn.bystrickaya.ru/glava-iii-funkcionalnie-stili-anglijskogo-yazika-osobennosti-hudozhestvennogo-i-publicisticheskogo-stilej.html
  • pisat.bystrickaya.ru/tihoplav-v-yu-tihoplav-t-s-zhizn-naprokat.html
  • lektsiya.bystrickaya.ru/prikaz-ot-20-g-rabochaya-programma-pedagoga-rzhevskogo-vladimira-ivanovicha.html
  • bukva.bystrickaya.ru/proisshestvie-opisannoe-v-sej-povesti-osnovano-na-istine-podrobnosti-navodneniya-zaimstvovani-iz-togdashnih-zhurnalov-lyubopitnie-mogut-spravitsya-s-izvestiem-s.html
  • tasks.bystrickaya.ru/20-aprelya-2012-goda-avetyan-natalya-yurevna.html
  • control.bystrickaya.ru/doklad-nachalnika-otdela-gpn-po-mo-g-nadim-i-nadimskij-rajon-upravleniya-gpn-gu-mchs-rossii-po-yamalo-neneckomu-avtonomnomu-okrugu.html
  • uchit.bystrickaya.ru/tehnicheskoe-zadanie-na-sostavnuyu-chast-opitno-konstruktorskoj-raboti-sozdanie-avtomatizirovannogo-izmeritelno-modeliruyushego-kompleksa-dlya-ispitanij-ms-dzz-soyuz-sat-o-stranica-2.html
  • knigi.bystrickaya.ru/s-federalnoj-podderzhkoj-rossijskij-sport-v-inostrannih-smi-po-materialam-sajtov-inosmi-ru-inopressa-ru-6.html
  • school.bystrickaya.ru/formirovanie-muzikalnoj-kulturi-shkolnikov-posredstvom-informacionno-prosvetitelskoj-deyateln.html
  • apprentice.bystrickaya.ru/vihod-iz-grazhdanstva-chast-2.html
  • textbook.bystrickaya.ru/gosudarstvennoe-regulirovanie-v-rinochnoj-ekonomike.html
  • klass.bystrickaya.ru/amerika-sleva-i-sprava-ili-ot-okeana-do-okeana-na-borzoj.html
  • tetrad.bystrickaya.ru/vi-podgotovka-k-vedeniyu-i-vedenie-grazhdanskoj-oboroni-poryadok-podgotovki-k-vedeniyu-i-vedeniya-grazhdanskoj-oboroni.html
  • tasks.bystrickaya.ru/11lokalnie-akti-ou-praktikum-po-ekspertize.html
  • © bystrickaya.ru
    Мобильный рефератник - для мобильных людей.