После бумажной критики

В прошлом месяце я вступил в короткую дискуссию в Твиттере с автором «Время морфина! Борьба с языковой дискриминацией с помощью флективных нарушений в Salesforce Research. Твиттер — неподходящий форум для обзора работы друг друга, и я бы выбрал частный канал для отзывов о студенческой статье, но публикация в блоге и реклама Salesforce сделали эту статью более публичной.

Morpheus описывается как инструмент для «борьбы с языковой дискриминацией», «выявления лингвистических предубеждений» существующих моделей, тем самым «[обеспечивая] инклюзивность технологий НЛП. … для пользователей с разным языковым опытом».
Существует действующий и новый метод, когда Морфеус создает новые примеры предложений, нарушая согласование единственного и множественного числа и подлежащего-глагола в случайных комбинациях. Это повторяет распространенные ошибки в письменной и устной речи, и эти ошибки более часты, когда кто-то не является носителем языка.

У меня что-то пошло не так, когда статья включила в исследование афроамериканский разговорный английский (AAVE). Это четыре упоминания AAVE в документе и приложениях:

Даже среди носителей языка значительная часть говорит на диалекте, таком как афроамериканский разговорный английский (AAVE), а не на стандартном английском
[Цитирование: Дэвид Кристал. 2003. Английский как глобальный язык. Издательство Кембриджского университета.]

…внедрение этих моделей непосредственно в производство без устранения этой врожденной предвзятости подвергает их риску лингвистической дискриминации из-за плохой работы для многих речевых сообществ (например, говорящих на AAVE и L2).

Обеспечение того, чтобы технологии НЛП были инклюзивными в смысле работы для пользователей с разным языковым опытом (например, говорящих на языках мира, таких как AAVE, а также говорящих на L2), особенно важно […].

Приложение A: Примеры флективных вариаций в английских диалектах
Афроамериканский разговорный английский
• Они это видели.
• Они бегали туда вчера.
• Люди были там
[Цитирование: Уолт Вольфрам. 2004. Грамматика городского афроамериканского разговорного английского. Справочник по разновидностям английского языка, 2:111–32.]

Суть моей критики статьи была изложена в моем первоначальном твите:
Говорящие на AAVE используют последовательную грамматику, которая не описана и не смоделирована в статье.

Если вы сталкивались с академическими статьями об AAVE, вы должны знать, что эта согласованность правил является основной концепцией в изучении AAVE, а также в развенчании политических и расистских сообщений о «негритянской панике» 1990-х годов. (и продолжается до сих пор).

Я не верю, что авторы статьи намеревались увековечить стереотипы или привлечь американскую политику (первый автор живет в Сингапуре). К сожалению, они мало что сделали для описания AAVE в своей статье. Случайный читатель сравнил бы это с тем, что делает их код — вставкой грамматических ошибок в стандартный английский.

Помимо политики, на техническом уровне примеры, созданные Morpheus, не моделируют работу AAVE. AAVE иногда идет вразрез со стандартной английской грамматикой, но это так же просто, как сказать, что британский и индийский английский иногда добавляют «u» к словам. Если мы случайным образом добавим 'u', наш шаблон будет редко соответствовать естественному языку.
Как американец, я обычно замечаю британский и индийский английский по новым словам ("грузовик", "крор", "лакхс"), новым значениям. («подъем»), более частое («трижды») и даже перевернутые значения («взять урок»). Можно привести убедительный аргумент, что Morpheus не моделирует эти сложности и потенциальные источники предвзятости из Global English.

Признание ограничений в статье по сравнению с реальными ограничениями

В документе эта проблема реальных примеров рассматривается как ограничение:

MORPHEUS находит распределение примеров, которые являются состязательными для целевой модели, а не распределение реальных ошибок говорящего L2, что приводит к некоторым нереалистичным состязательным примерам.

Но здесь есть дыры: включение только динамиков L2, ранее дифференцированных от AAVE, и классификация изменений строго как ошибки.

Для представленной задачи (ответ на вопрос) последствием неправильного прочтения входных данных BERT является то, что развернутая модель возвращает неправильное слово или не дает ответа. Ставки низкие. Для модели, предназначенной для различения (фильтр спама или токсичности комментариев), эти эксперименты со «статистической погрешностью» могут привести к значительной расовой предвзятости.

Выводы

Интересно, изначально статья была предназначена для обсуждения только распространенных ошибок или понимания L2. AAVE рассматривается в статье только в скобках, и его следует рассматривать в более чувствительных и инклюзивных исследованиях.

Если бы я анализировал предвзятость к AAVE в НЛП, я бы надеялся сотрудничать с кем-то, кто уже изучает расовые предубеждения в технологиях и знаком с AAVE по личному и/или академическому опыту.
Я бы предложил начать с изучения распознают ли основные модели НЛП AAVE. Если модель обучается, например, на Википедии и Project Gutenberg, она видела очень мало примеров. Если он обучается в социальных сетях или на веб-сайтах… то это открытый вопрос. Говорящие на AAVE часто являются экспертами в переключении кодов, а веб-сайты (такие как Salesforce.com или Twitter) могут быть закодированы как более или менее белые в зависимости от контекста.

ОБНОВЛЕНО

Всего через несколько дней после написания этого я читал FairMLBook.org, и они цитируют исследование НЛП по афроамериканскому английскому языку за 2016 год. Ссылка на лабораторию ниже содержит эту статью, статью 2018 года и большой корпус твитов.



Для будущих обновлений (после августа 2020 г.) см. https://github.com/mapmeld/use-this-now/blob/main/README.md#nlp--aave