Широко используемые методы машинного обучения не работают так, как заявлено

"Это не значит, что эти методы приносят вам абсолютный мусор. Вероятно, в них есть какая-то информация, но не так много, как думают многие люди », – сказал С. "Сеш" Сешадхри, доцент кафедры информатики и инженерии инженерной школы Баскина в Калифорнийском университете в Санта-Круз.
Сешадри – первый автор статьи о новых открытиях, опубликованной 2 марта в Proceedings of the National Academy of Sciences. В исследовании оценивались методы, известные как «низкоразмерные вложения», которые обычно используются в качестве входных данных для моделей машинного обучения.

Это активная область исследований, и новые методы встраивания разрабатываются быстрыми темпами. Но Сешадри и его соавторы говорят, что все эти методы имеют одни и те же недостатки.

Чтобы объяснить, почему, Сешадри использовал пример социальной сети, знакомого типа сложной сети. Многие компании применяют машинное обучение к данным социальных сетей для прогнозирования поведения людей, рекомендаций для пользователей и т. Д. Методы встраивания, по сути, преобразуют положение человека в социальной сети в набор координат точки в геометрическом пространстве, давая список чисел для каждого человека, который можно подключить к алгоритму.

«Это важно, потому что нечто абстрактное, например« положение человека в социальной сети », можно преобразовать в конкретный список чисел. Еще одна важная вещь заключается в том, что вы хотите преобразовать это в низкоразмерное пространство, чтобы список чисел, представляющих каждого человека, был относительно небольшим, – пояснил Сешадри.
После того, как это преобразование было выполнено, система игнорирует фактическую социальную сеть и делает прогнозы на основе отношений между точками в пространстве. Например, если много людей, близких вам в этом месте, покупают определенный продукт, система может предсказать, что вы, вероятно, купите тот же продукт.

Сешадри и его соавторы математически продемонстрировали, что важные структурные аспекты сложных сетей теряются в этом процессе встраивания. Они также подтвердили этот результат эмпирическим путем, протестировав различные методы встраивания на различных типах сложных сетей.
"Мы не говорим, что определенные методы терпят неудачу. Мы говорим, что любой метод встраивания, который дает вам небольшой список чисел, в корне потерпит неудачу, потому что геометрия низкой размерности просто недостаточно выразительна для социальных сетей и других сложных сетей », – сказал Сешадри.

Важнейшей особенностью реальных социальных сетей является плотность треугольников или связей между тремя людьми.
"Если у вас много треугольников, это означает, что в этой части социальной сети есть много структур сообщества", – сказал Сешадри. "Более того, эти треугольники имеют еще большее значение, когда вы смотрите на людей с ограниченными социальными сетями.

В типичной социальной сети у некоторых людей есть множество связей, но у большинства людей их не так много."
В своем анализе методов встраивания исследователи заметили, что многие социальные треугольники, представляющие структуру сообщества, теряются в процессе встраивания. «Кажется, что вся эта информация исчезает, так что похоже, что то, что вы хотели найти, было потеряно, когда вы строите эти геометрические представления», – сказал Сешадри.

Низкоразмерные вложения – далеко не единственные методы, используемые для генерации прогнозов и рекомендаций.

Обычно они являются лишь одним из множества входных параметров очень большой и сложной модели машинного обучения.
"Эта модель представляет собой огромный черный ящик, и многие сообщаемые положительные результаты говорят о том, что если вы включите эти низкоразмерные вложения, ваша производительность возрастет, возможно, вы получите небольшой скачок.

Но если бы вы использовали его отдельно, похоже, вы многое упустили бы », – сказал Сешадхри.
Он также отметил, что новые методы встраивания в основном сравнивают с другими методами встраивания. Однако недавние эмпирические работы других исследователей показывают, что различные методы могут дать лучшие результаты для конкретных задач.
"Допустим, вы хотите предсказать, кто республиканец, а кто демократ. "Есть методы, разработанные специально для этой задачи, которые работают лучше, чем встраивание", – сказал он. "Утверждают, что эти методы встраивания работают для множества различных задач, и поэтому многие люди приняли их.

Их также очень легко подключить к существующей системе машинного обучения. Но для любой конкретной задачи, оказывается, всегда есть что-то получше."

Учитывая растущее влияние машинного обучения в нашем обществе, Сешадри сказал, что важно исследовать, верны ли основные предположения, лежащие в основе моделей.
"У нас есть все эти сложные машины, которые делают вещи, которые существенно влияют на нашу жизнь. Наше сообщение состоит в том, что нам нужно быть более осторожными при оценке этих методов », – сказал он. "Особенно в наши дни, когда машинное обучение становится все более сложным, важно иметь некоторое представление о том, что можно, а что нельзя делать."