1. Выявление гендерной предвзятости в блокбастерах через призму машинного обучения (arXiv)

Автор: Мухаммад Джунаид Харис, Аанчал Упрети, Мелих Куртаран, Филип Гинтер, Себастьян Лафонд, Сепинуд Азими

Вывод:проблема гендерных предубеждений широко распространена и хорошо известна. В этой статье мы проанализировали изображение гендерных ролей в английских фильмах, средство, которое эффективно влияет на общество, формируя убеждения и мнения людей. Во-первых, мы собрали сценарии фильмов разных жанров и извлекли чувства и эмоции, используя методы обработки естественного языка. После этого мы конвертировали скрипты в эмбеддинги, т.е. способ представления текста в виде векторов. В результате тщательного расследования мы обнаружили определенные закономерности в чертах характера мужских и женских персонажей в фильмах, которые соответствуют общественным стереотипам. Кроме того, мы использовали математические методы и методы машинного обучения и обнаружили некоторые предубеждения, когда мужчины изображаются более доминирующими и завистливыми, чем женщины, тогда как женщины играют более радостные роли в фильмах. В нашей работе мы вводим, насколько нам известно, новую технику преобразования диалогов в набор эмоций, комбинируя ее с колесом эмоций Плутчика. Наше исследование направлено на поощрение размышлений о гендерном равенстве в области кино и на помощь другим исследователям в автоматическом анализе фильмов вместо использования ручных подходов.

2. Наборы данных с учетом времени — это адаптивные базы знаний для новых норм (arXiv)

Автор: Абхиджит Супрем, Санджйот Вайдья, Жоао Эдуардо Феррейра, Калтон Пу

Аннотация. Недавние достижения в области классификации текстов и сбора знаний в языковых моделях основывались на наличии крупномасштабных наборов текстовых данных. Однако языковые модели обучаются на статических моментальных снимках знаний и ограничены по мере развития этих знаний. Это особенно важно для обнаружения дезинформации, когда новые типы дезинформации постоянно появляются, заменяя старые кампании. Мы предлагаем наборы данных дезинформации с учетом времени, чтобы фиксировать критичные ко времени явления. В этой статье мы впервые представляем доказательства развития дезинформации и показываем, что включение даже простого учета времени значительно повышает точность классификатора. Во-вторых, мы представляем COVID-TAD, крупномасштабный набор дезинформационных данных о COVID-19, охватывающий 25 месяцев. Это первый крупномасштабный набор данных дезинформации, который содержит несколько моментальных снимков потока данных и на несколько порядков больше, чем связанные наборы данных дезинформации. Мы описываем процесс сбора и маркировки, а также предварительные эксперименты.

3.Умное сельское хозяйство: новый многоуровневый подход к оценке сельскохозяйственных рисков на основе неструктурированных данных (arXiv)

Автор:Хасна Наджми, Муния Микрам, Марием Рануи, Сихам Юсфи

Аннотация. Обнаружение возможностей и угроз в массивах текстовых данных является сложной задачей для большинства пользователей. Традиционно компании полагались в основном на структурированные данные для обнаружения и прогнозирования рисков, теряя огромное количество информации, которую можно было извлечь из неструктурированных текстовых данных. К счастью, искусственный интеллект решил эту проблему, внедряя инновации в методы извлечения и обработки данных, позволяя нам понимать и использовать данные на естественном языке и превращая их в структуры, которые машина может обрабатывать и извлекать из них информацию. Неопределенность относится к состоянию незнания того, что произойдет в будущем. Эта статья направлена ​​на использование методов обработки естественного языка и машинного обучения для моделирования неопределенностей и оценки уровня риска в каждом кластере неопределенности с использованием массивных текстовых данных.