Новый фреймворк повышает производительность глубоких нейронных сетей

«Сети AOGNets имеют лучшую точность прогнозирования, чем любая из сетей, с которыми мы их сравнивали», – говорит Тианфу Ву, доцент кафедры электротехники и вычислительной техники в NC State и автор статьи о работе. "Сети AOGNets также более интерпретируемы, что означает, что пользователи могут видеть, как система приходит к своим выводам."
В новой структуре используется подход композиционной грамматики к архитектуре системы, основанный на передовом опыте предыдущих сетевых систем для более эффективного извлечения полезной информации из необработанных данных.
«Мы обнаружили, что иерархическая и композиционная грамматика дала нам простой и элегантный способ унифицировать подходы, применявшиеся в предыдущих системных архитектурах, и, насколько нам известно, это первая работа, в которой грамматика используется для создания сети», – говорит Ву.
Чтобы протестировать свою новую структуру, исследователи разработали AOGNets и протестировали их по трем тестам классификации изображений: CIFAR-10, CIFAR-100 и ImageNet-1K.

«AOGNets продемонстрировала значительно лучшую производительность, чем все современные сети при честных сравнениях, включая ResNets, DenseNets, ResNeXts и DualPathNets», – говорит Ву. «Компания AOGNets также получила лучший показатель интерпретируемости модели, используя метрику рассечения сети в ImageNet. AOGNets также демонстрируют большой потенциал в противоборстве и развертывании без привязки к платформе (мобильное или облачное)."
Исследователи также протестировали производительность сетей AOGNets при обнаружении объектов и семантической сегментации экземпляров в тесте Microsoft COCO, используя систему vanilla Mask R-CNN.

«Сети AOGNets достигли лучших результатов, чем магистрали ResNet и ResNeXt, с меньшими размерами моделей и аналогичным или немного лучшим временем вывода», – говорит Ву. "Результаты показывают эффективность обучения AOGNets лучшим функциям в задачах обнаружения и сегментации объектов.
Эти тесты актуальны, потому что классификация изображений – одна из основных базовых задач визуального распознавания, а ImageNet – стандартный крупномасштабный эталонный тест. Точно так же обнаружение объектов и сегментация – это две основные задачи высокоуровневого зрения, а MS-COCO – один из наиболее широко используемых тестов.

«Чтобы оценить новые сетевые архитектуры для глубокого обучения в области визуального распознавания, они являются золотыми тестовыми площадками», – говорит Ву. «Сети AOGNets разработаны в соответствии с принципиальной структурой грамматики и значительно улучшены как в ImageNet, так и в MS-COCO, тем самым демонстрируя потенциально широкое и глубокое влияние на изучение представлений во многих практических приложениях.
«Мы в восторге от структуры AOGNet, основанной на грамматике, и изучаем ее эффективность в других приложениях глубокого обучения, таких как глубокое понимание естественного языка, глубокое генеративное обучение и глубокое обучение с подкреплением», – говорит Ву.

Доклад «AOGNets: Композиционные грамматические архитектуры для глубокого обучения» будет представлен на конференции IEEE по компьютерному зрению и распознаванию образов, которая состоится 16-20 июня в Лонг-Бич, Калифорния. Первым автором статьи является Силай Ли, доктор философии.D. студент NC State. Соавтором статьи является Си Сун, независимый исследователь.

Работа выполнена при поддержке U.S. Управление армейских исследований по грантам W911NF1810295 и W911NF1810209.

Подается патентная заявка на работу. Авторы заинтересованы в сотрудничестве с потенциальными академическими и отраслевыми партнерами.