«Сети глубокого обучения лежат в основе приложений искусственного интеллекта, используемых во всем, от беспилотных автомобилей до технологий компьютерного зрения», – говорит Сипенг Шен, профессор информатики в NC State и соавтор статьи о работе.
«Одна из самых больших проблем, стоящих перед разработкой новых инструментов искусственного интеллекта, – это количество времени и вычислительные мощности, необходимые для обучения сетей глубокого обучения распознаванию шаблонов данных, которые имеют отношение к их приложениям, и реагированию на них. Мы придумали способ ускорить этот процесс, который мы называем Adaptive Deep Reuse.
Мы продемонстрировали, что с его помощью можно сократить время обучения до 69 процентов без потери точности."
Обучение сети глубокого обучения включает разбиение выборки данных на фрагменты последовательных точек данных. Подумайте о сети, предназначенной для определения, есть ли пешеход на данном изображении. Процесс начинается с разделения цифрового изображения на смежные друг с другом блоки пикселей.
Каждый блок данных проходит через набор вычислительных фильтров. Затем результаты обрабатываются вторым набором фильтров. Это продолжается итеративно до тех пор, пока все данные не будут пропущены через все фильтры, позволяя сети прийти к выводу о выборке данных.
Когда этот процесс был выполнен для каждой выборки данных в наборе данных, это называется эпохой.
Чтобы точно настроить сеть глубокого обучения, сеть, вероятно, будет работать с одним и тем же набором данных в течение сотен эпох. Многие наборы данных состоят из десятков тысяч и миллионов выборок данных.
Множество итераций с множеством фильтров, применяемых к большому количеству данных, означает, что обучение сети глубокого обучения требует больших вычислительных мощностей.
Момент прорыва для исследовательской группы Шена наступил, когда она поняла, что многие фрагменты данных в наборе данных похожи друг на друга.
Например, участок голубого неба на одном изображении может быть похож на участок голубого неба в другом месте того же изображения или участок неба на другом изображении в том же наборе данных.
Распознавая эти похожие фрагменты данных, сеть глубокого обучения может применять фильтры к одному фрагменту данных и применять результаты ко всем аналогичным фрагментам данных в том же наборе, экономя много вычислительной мощности.
«Мы смогли не только продемонстрировать наличие этих сходств, но и то, что мы можем найти эти сходства для промежуточных результатов на каждом этапе процесса», – говорит Линь Нин, доктор философии.D. студент NC State и ведущий автор статьи. "И мы смогли максимизировать эту эффективность, применив метод, называемый хешированием с учетом местоположения."
Но здесь возникают два дополнительных вопроса.
Насколько большим должен быть каждый блок данных? И какому порогу должны соответствовать блоки данных, чтобы считаться "похожими"?
Исследователи обнаружили, что наиболее эффективным подходом было начать с рассмотрения относительно больших блоков данных с использованием относительно низкого порога для определения сходства. В последующие эпохи блоки данных становятся меньше, а порог схожести более строгим, что повышает точность сети глубокого обучения.
Исследователи разработали адаптивный алгоритм, который автоматически реализует эти постепенные изменения в процессе обучения.
Чтобы оценить свой новый метод, исследователи протестировали его с использованием трех сетей глубокого обучения и наборов данных, которые широко используются в качестве тестовых площадок исследователями глубокого обучения: CifarNet с использованием Cifar10; AlexNet с использованием ImageNet; и VGG-19 с использованием ImageNet.
Adaptive Deep Reuse сократила время обучения AlexNet на 69 процентов; для ВГГ-19 на 68 процентов; а для CifarNet на 63 процента – все без потери точности.
«Это демонстрирует, что методика резко сокращает время обучения», – говорит Хуэй Гуань, доктор философии.D. студент NC State и соавтор статьи. «Это также указывает на то, что чем больше сеть, тем больше Adaptive Deep Reuse может сократить время обучения – поскольку AlexNet и VGG-19 значительно больше, чем CifarNet."
«Мы считаем Adaptive Deep Reuse ценным инструментом и надеемся на сотрудничество с отраслевыми партнерами и партнерами по исследованиям, чтобы продемонстрировать, как его можно использовать для развития ИИ», – говорит Шен.
Документ «Адаптивное глубокое повторное использование: ускорение обучения CNN на лету» будет представлен на 35-й Международной конференции IEEE по инженерии данных, которая состоится 8-11 апреля в САР Макао, Китай. Работа выполнена при поддержке Национального научного фонда под номерами грантов CCF-1525609, CNS-1717425 и CCF-1703487.