Первоапрельские мистификации могут дать ключи к разгадке “фейковых новостей”

Академические эксперты в области обработки естественного языка из Ланкастерского университета, заинтересованные в обмане, сравнили язык, используемый в письменных первоапрельских розыгрышах и фальшивых новостях.
Они обнаружили сходство в письменной структуре шутливых первоапрельских розыгрышей – фальшивых статей, публикуемых СМИ каждое 1 апреля, – и злонамеренных фейковых новостных статей.
Исследователи составили новый набор данных или корпус из более чем 500 первоапрельских статей, взятых с более чем 370 веб-сайтов и написанных за 14 лет.
«Первоапрельские мистификации очень полезны, потому что они предоставляют нам поддающийся проверке корпус вводящих в заблуждение текстов, которые дают нам возможность узнать о лингвистических методах, используемых, когда автор пишет что-то вымышленное, замаскированное под фактический отчет», – сказал Эдвард Дирден из Ланкастерского университета. , и ведущий автор исследования. "Посмотрев на язык, использованный в Первоапрельской дурачке, и сравнив их с фальшивыми новостями, мы сможем лучше понять, на каких языках пишут авторы дезинформации."

Сравнение первоапрельских текстов-мистификаций с настоящими новостными статьями, написанными в тот же период, но не опубликованными 1 апреля, выявило стилистические различия.

Исследователи сосредоточили внимание на специфических особенностях текстов, таких как количество используемых деталей, расплывчатость, формальность стиля письма и сложность языка.
Затем они сравнили первоапрельские истории с набором данных «фейковых новостей», ранее собранным другой командой исследователей.

Хотя не все функции первоапрельских розыгрышей оказались полезными для обнаружения фейковых новостей, в обоих случаях был обнаружен ряд схожих характеристик.
Они обнаружили, что первоапрельские розыгрыши и фальшивые новостные статьи, как правило, содержат менее сложный язык, более легкие для чтения и более длинные предложения, чем настоящие новости.

Было обнаружено, что важные детали для новостей, такие как имена, места, даты и время, реже используются в первоапрельских розыгрышах и фальшивых новостях. Однако имена собственные, такие как имена известных политиков «Трамп» или «Хиллари», чаще встречаются в фейковых новостях, чем в настоящих новостных статьях или первоапрельских статьях, в которых значительно меньше.

Местоимения от первого лица, такие как «мы», также являются отличительной чертой как первоапрельских новостей, так и фейковых новостей. Это идет вразрез с традиционным подходом к обнаружению обмана, который предполагает, что лжецы используют меньше местоимений от первого лица.

Исследователи обнаружили, что первоапрельские истории-мистификации по сравнению с подлинными новостями:
Обычно короче по длине
Используйте больше уникальных слов

Используйте более длинные предложения
Легче читать
Обратитесь к неопределенным событиям в будущем
Содержать больше ссылок на настоящее

Менее интересуются прошлыми событиями
Содержать меньше имен собственных
Используйте больше местоимений от первого лица
Фальшивые новости по сравнению с настоящими новостями:

Короче по длине
Легче читать
Используйте упрощенный язык
Меньше знаков препинания

Содержать больше существительных собственных
Как правило, менее формальны – используйте больше имен, таких как "Хиллари", и содержат больше ненормативной лексики и орфографических ошибок
Очень мало фиников

Используйте больше местоимений от первого лица
Исследователи также создали «классификатор» машинного обучения, чтобы определить, являются ли статьи розыгрышами первоапрельских дураков, фальшивыми новостями или подлинными новостями. Классификатор достиг 75-процентной точности при идентификации первоапрельских статей и 72-процентной точности при выявлении фальшивых новостей. Когда классификатор был обучен розыгрышу первоапрельских розыгрышей и поставил задачу распознавать фейковые новости, он зафиксировал точность более 65 процентов.

Доктор Алистер Барон, соавтор статьи, сказал: «Анализ деталей и сложностей в тексте имеет решающее значение при попытке определить, является ли статья подделкой. Хотя есть много различий, наши результаты показывают, что первоапрельские статьи и фальшивые новостные статьи имеют схожие черты, в основном связанные со структурной сложностью.

"Наши результаты показывают, что между различными формами дезинформации есть определенные общие черты, и изучение этих сходств может дать важную информацию для будущих исследований ложных новостей."
Исследование было изложено в документе «Дурацкое поручение: взгляд на первоапрельские мистификации как дезинформацию через призму обмана и юмора», который будет представлен на 20-й Международной конференции по компьютерной лингвистике и интеллектуальной обработке текстов, которая состоится в Лос-Анджелесе.

Рошель in Апрель.
Авторы статьи – Эдвард Дирден и Алистер Барон из Ланкастерского университета.

Исследования Эдварда Дирдена были поддержаны Исследовательским советом по инженерным и физическим наукам.