Сети глубокого обучения предпочитают человеческий голос, как и мы

Глубокая нейронная сеть, которую учат говорить ответ, демонстрирует более высокую производительность обучения надежным и эффективным функциям. Это исследование открывает новые исследовательские вопросы о роли репрезентаций меток для распознавания объектов. Предоставлено: лаборатория Creative Machines / Columbia Engineering.

Цифровая революция построена на основе невидимых единиц и нулей, называемых битами. По прошествии десятилетий и все больше и больше информации и знаний в мире превращаются в потоки единиц и нулей, идея о том, что компьютеры предпочитают «говорить» двоичными числами, редко подвергается сомнению. Согласно новому исследованию Columbia Engineering, это может измениться.

Новое исследование профессора машиностроения Ход Липсона и его доктора философии. студент Боюан Чен доказывает, что системы искусственного интеллекта могут действительно достичь более высокого уровня производительности, если они будут запрограммированы с использованием звуковых файлов на человеческом языке, а не с помощью числовых меток данных. Исследователи обнаружили, что при параллельном сравнении нейронная сеть, «обучающие метки» которой состояли из звуковых файлов, достигла более высокого уровня производительности при идентификации объектов на изображениях по сравнению с другой сетью, которая была запрограммирована более традиционным способом. используя простые двоичные входы.

«Чтобы понять, почему это открытие так важно, — сказали Липсон, Джеймс и Салли Скапа, профессор инноваций и член Колумбийского института науки о данных, — полезно понять, как обычно программируются нейронные сети и почему используется звук человеческого голоса. это радикальный эксперимент ».

Когда используется для передачи информации, язык двоичных чисел компактный и точный. В отличие от этого разговорный человеческий язык является более тональным и аналоговым, и, когда он записан в цифровом файле, не является двоичным. Поскольку числа являются таким эффективным способом оцифровки данных, программисты редко отклоняются от процесса, основанного на числах, при разработке нейронной сети.

Липсон, уважаемый специалист по робототехнике, и Чен, бывший пианист-концертмейстер, подозревали, что нейронные сети, возможно, не полностью раскрывают свой потенциал. Они предположили, что нейронные сети могли бы учиться быстрее и лучше, если бы системы были «обучены» распознавать животных, например, используя силу одного из самых высокоразвитых звуков в мире — человеческого голоса, произносящего определенные слова.

Одним из наиболее распространенных упражнений, которые используют исследователи ИИ для проверки достоинств новой техники машинного обучения, является обучение нейронной сети распознаванию определенных объектов и животных в коллекции разных фотографий. Чтобы проверить свою гипотезу, Чен, Липсон и двое студентов, Ю Ли и Сунанд Рагхупати, поставили контролируемый эксперимент. Они создали две новые нейронные сети с целью научить их распознавать 10 различных типов объектов в коллекции из 50 000 фотографий, известной как «обучающие изображения».

Одна система ИИ обучалась традиционным способом, загружая гигантскую таблицу данных, содержащую тысячи строк, каждая из которых соответствует одной тренировочной фотографии. Первый столбец представлял собой файл изображения, содержащий фотографию определенного объекта или животного; следующие 10 столбцов соответствуют 10 возможным типам объектов: кошки, собаки, самолеты и т. д. «1» в любом столбце указывает правильный ответ, а девять 0 указывают на неправильные ответы.

Команда создала экспериментальную нейронную сеть радикально новым способом. Они скармливали ему таблицу данных, строки которой содержали фотографию животного или объекта, а второй столбец содержал аудиофайл с записанным человеческим голосом, фактически озвучивающим слово, обозначающее изображенное животное или объект, вслух. Не было ни единиц, ни нулей.

Когда обе нейронные сети были готовы, Чен, Ли и Рагхупати обучили обе системы ИИ в общей сложности 15 часов, а затем сравнили их производительность. При представлении изображения исходная сеть выдавала ответ в виде серии из десяти единиц и нулей — точно так, как ее научили делать. Однако экспериментальная нейронная сеть издала отчетливо различимый голос, пытаясь «сказать», что это за объект на изображении. Изначально звук был искаженным. Иногда это было смешение нескольких категорий, например «шестеренка» для кошки и собаки. В конце концов, голос был в основном правильным, хотя и с жутким инопланетным тоном (см. Пример на веб-сайте).

Сначала исследователи были несколько удивлены, обнаружив, что их догадка оказалась верной — не было очевидного преимущества у единиц и нулей. И контрольная нейронная сеть, и экспериментальная работали одинаково хорошо, правильно идентифицируя животное или объект, изображенные на фотографии, примерно в 92% случаев. Чтобы перепроверить свои результаты, исследователи снова провели эксперимент и получили тот же результат.

Однако то, что они обнаружили потом, было еще более удивительным. Чтобы еще больше изучить пределы использования звука в качестве обучающего инструмента, исследователи провели еще одно параллельное сравнение, на этот раз с использованием гораздо меньшего количества фотографий во время тренировочного процесса. В то время как первый раунд обучения включал загрузку обеих таблиц данных нейронных сетей, содержащих 50 000 обучающих изображений, обе системы во втором эксперименте получали гораздо меньше обучающих фотографий, всего по 2500 изображений каждая.

В исследованиях искусственного интеллекта хорошо известно, что большинство нейронных сетей плохо работают, когда обучающие данные редки, и в этом эксперименте традиционная сеть с численным обучением не стала исключением. Его способность идентифицировать отдельных животных, которые появлялись на фотографиях, резко упала примерно до 35%. Напротив, хотя экспериментальная нейронная сеть также была обучена с тем же количеством фотографий, ее производительность увеличилась вдвое, снизившись лишь до 70% точности.

Заинтригованные, Липсон и его ученики решили протестировать свой голосовой метод обучения на другой классической задаче распознавания изображений ИИ — неоднозначности изображения. На этот раз они провели еще одно параллельное сравнение, но подняли игру на ступеньку выше, используя более сложные фотографии, которые системе ИИ было труднее «понять». Например, на одной тренировочной фотографии было изображено слегка искаженное изображение собаки или кошки странного цвета. Когда они сравнили результаты, даже с более сложными фотографиями, нейронная сеть с голосовым обучением все еще была правильной примерно в 50% случаев, превосходя сеть с числовым обучением, которая колебалась, достигая только 20% точности.

По иронии судьбы, тот факт, что их результаты прямо противоречили статус-кво, стал проблемой, когда исследователи впервые попытались поделиться своими выводами со своими коллегами в области компьютерных наук. «Наши результаты прямо противоречат тому, сколько экспертов было обучено думать о компьютерах и числах; широко распространено предположение, что двоичные входные данные являются более эффективным способом передачи информации в машину, чем аудиопотоки подобной информационного« богатства »», — пояснил Боюан Чен, ведущий исследователь исследования. «Фактически, когда мы представили это исследование на большой конференции по искусственному интеллекту, один анонимный рецензент отклонил нашу статью просто потому, что посчитал наши результаты« слишком неожиданными и неинтуитивно понятными »».

Однако, если рассматривать ее в более широком контексте теории информации, гипотеза Липсона и Чена фактически поддерживает гораздо более старую и знаменательную гипотезу, впервые предложенную легендарным Клодом Шенноном, отцом теории информации. Согласно теории Шеннона, наиболее эффективные коммуникационные «сигналы» характеризуются оптимальным количеством битов в сочетании с оптимальным количеством полезной информации или «неожиданностью».

«Если вы думаете о том факте, что человеческий язык подвергался процессу оптимизации на протяжении десятков тысяч лет, тогда это имеет смысл, что наши произносимые слова нашли хороший баланс между шумом и сигналом»; — заметил Липсон. «Следовательно, если смотреть сквозь призму энтропии Шеннона, становится понятно, что нейронная сеть, обученная человеческому языку, превзойдет нейронную сеть, обученную простыми единицами и нулями».

Исследование, которое будет представлено на Международной конференции по обучающим представлениям 3 мая 2021 года, является частью более широких усилий лаборатории творческих машин Lipson Columbia Creative Machines Lab по созданию роботов, которые могут понимать окружающий мир, взаимодействуя с другими машинами и людьми. вместо того, чтобы быть запрограммированным напрямую с тщательно предварительно обработанными данными.

«Мы должны подумать об использовании новых и лучших способов обучения систем ИИ вместо сбора больших наборов данных», — сказал Чен. «Если мы переосмыслим, как мы представляем данные обучения машине, мы могли бы лучше работать как учителя».

Одним из наиболее освежающих результатов компьютерных исследований в области искусственного интеллекта стал неожиданный побочный эффект: исследуя, как машины обучаются, иногда исследователи натыкаются на свежий взгляд на грандиозные проблемы других, хорошо зарекомендовавших себя областей.

«Одна из самых больших загадок человеческой эволюции — это то, как наши предки приобрели язык и как дети учатся говорить с такой легкостью», — сказал Липсон. «Если малыши лучше всего учатся с помощью повторяющихся речевых инструкций, то, возможно, системы ИИ тоже смогут».

Call Now Button«Позвонить Сейчас»