У проектов в области гражданской науки появился неожиданный новый партнер - компьютер: новые методы машинного обучения могут проложить путь для более крупных и своевременных проектов

Теперь методы компьютерного машинного обучения, которые обучают компьютерным навыкам распознавания изображений, могут использоваться в проектах краудсорсинга для работы с постоянно растущими объемами данных, что делает компьютеры неожиданным новым партнером в проектах гражданской науки.
Исследование, проведенное под руководством Университета Миннесоты-городов-побратимов, было выбрано в качестве обложки для последнего выпуска научного журнала Британского экологического общества «Методы экологии и эволюции».
В этом исследовании специалисты по обработке данных и эксперты в области гражданской науки сотрудничали с экологами, которые часто изучают популяции диких животных с помощью фотоловушек.

Эти фотоловушки представляют собой удаленные независимые устройства, срабатывающие от датчиков движения и инфракрасных датчиков, которые предоставляют исследователям изображения проходящих животных. После сбора эти изображения необходимо классифицировать в соответствии с целями исследования, чтобы получить полезные экологические данные для анализа.
«В прошлом исследователи просили гражданских ученых помочь им обработать и классифицировать изображения в разумные сроки», – сказал ведущий автор исследования Марко Вилли, недавний выпускник магистерской программы Университета Миннесоты в области науки о данных и исследователь в Школа физики и астрономии университета. "Теперь некоторые из этих недавних проектов фотоловушек собрали миллионы изображений. Даже с помощью гражданских ученых могут потребоваться годы, чтобы классифицировать все изображения.

Это новое исследование является доказательством концепции о том, что методы машинного обучения могут помочь значительно сократить время классификации."
Исследователи использовали три набора данных изображений, собранных из Африки – Snapshot Serengeti, Camera catalog и Elephant Expedition – и один набор данных из Snapshot Wisconsin с изображениями, собранными в Северной Америке. Каждый набор данных содержал от девяти до 55 видов и демонстрировал существенные различия в том, как часто фотографировали разные виды. Эти наборы данных также различались по таким аспектам, как размер набора данных, размещение камеры, конфигурация камеры и охват видов, что позволяет делать более общие выводы.

Исследователи использовали методы машинного обучения, которые учат компьютер классифицировать изображения, показывая компьютерные наборы данных изображений, уже классифицированных людьми. Например, машине будут показаны полные и частичные изображения, которые, как известно, являются изображениями зебр с разных углов.

Затем компьютер начнет распознавать узоры, края и части животного и узнает, как идентифицировать изображение как зебру. Исследователи могут также развить некоторые из этих навыков, чтобы помочь компьютерам идентифицировать других животных, таких как олень или белка, с еще меньшим количеством изображений.

Компьютер также учится определять пустые изображения, то есть изображения без животных, на которых камеры обычно были включены из-за растительности, развевающейся на ветру. В некоторых случаях эти пустые изображения составляют около 80 процентов всех изображений с фотоловушки. Удаление всех пустых изображений может значительно ускорить процесс классификации.

Уровень точности компьютера для определения пустых изображений в проектах колеблется от 91.2 процента и 98.0 процентов, а точность определения конкретных видов составляет от 88.7 процентов и 92.7 процентов. Хотя компьютерная точность классификации редких видов невысока, компьютер также может сказать исследователям, насколько он уверен в своих прогнозах.

Удаление прогнозов с низким уровнем достоверности повышает точность компьютера до уровня ученых-граждан.
«Наши методы машинного обучения позволяют исследователям-экологам ускорить процесс классификации изображений и подготовить почву для еще более крупных гражданских научных проектов в будущем», – сказал Вилли. "Вместо того, чтобы классифицировать каждое изображение несколькими добровольцами, один или два добровольца могут подтвердить классификацию компьютера."
В то время как это исследование было посвящено программам экологических ловушек для фотоловушек, Вилли сказал, что те же методы могут также использоваться в других гражданских научных проектах, таких как классификация изображений из космоса.
«Данные в широком спектре научных областей растут намного быстрее, чем количество добровольцев из гражданских научных проектов», – сказала соавтор исследования Люси Фортсон, профессор физики и астрономии Миннесотского университета и соучредитель Zooniverse, крупнейшей гражданской науки. онлайн-платформа, на которой размещались проекты, включенные в исследование. «Хотя в этих проектах всегда будет потребность в человеческих усилиях, объединение этих усилий с помощью методов больших данных может помочь исследователям обрабатывать больше данных еще быстрее и позволит волонтерам сосредоточиться на более сложных и редких классификациях."

Под руководством Фортсона команда Zooniverse из Университета Миннесоты, включая Вилли, работает над интеграцией методов машинного обучения в платформу, чтобы сотни исследователей от астрономии до зоологии, использующие платформу, могли воспользоваться ими.
Помимо исследователей из Университета Миннесоты, в международную команду, участвовавшую в этом исследовании, входили исследователи из Оксфордского университета, Департамента природных ресурсов Висконсина, Института сообществ и дикой природы в Африке, планетария Адлера и природоохранной организации Panthera.