Как работает многоязычное предварительное обучение, часть 1 (машинное обучение)

mPMR: многоязычный предварительно обученный машинный ридер в масштабе (arXiv)

Автор: Вэйвэнь Сюй, Синь Ли, Вай Лам, Лидонг Бин.

Аннотация: Мы представляем многоязычный предварительно обученный машинный ридер (mPMR), новый метод предварительного обучения многоязычному машинному чтению (MRC). mPMR направлен на то, чтобы направлять многоязычные предварительно обученные языковые модели (mPLM) для выполнения понимания естественного языка (NLU), включая как классификацию последовательностей, так и извлечение диапазонов на нескольких языках. Для достижения межъязыкового обобщения, когда доступны только данные тонкой настройки исходного языка, существующие mPLM переносят только возможности NLU с исходного языка на целевые языки. Напротив, mPMR допускает прямое наследование многоязычных возможностей NLU от предварительного обучения в стиле MRC к последующим задачам. Таким образом, mPMR приобретает лучшие возможности NLU для целевых языков. mPMR также предоставляет унифицированный решатель для извлечения межъязыкового интервала и классификации последовательностей, что позволяет извлекать обоснования для объяснения процесса классификации пар предложений.

2. Количественная оценка валентности и возбуждения в тексте с помощью многоязычных предварительно обученных преобразователей (arXiv)

Автор: Гонсало Азеведо Мендес, Бруно Мартинс.

Аннотация: Анализ эмоций, выраженных в тексте, имеет множество применений. В отличие от категориального анализа, ориентированного на классификацию эмоций в соответствии с заранее определенным набором общих классов, многомерные подходы могут предложить более тонкий способ различения разных эмоций. Тем не менее размерные методы менее изучены в литературе. Принимая во внимание размерное пространство возбуждения валентности, в этой работе оценивается использование предварительно обученных трансформеров для прогнозирования этих двух измерений в непрерывном масштабе с входными текстами из разных языков и доменов. Мы специально объединили несколько аннотированных наборов данных из предыдущих исследований, соответствующих либо эмоциональной лексике, либо коротким текстовым документам, и оценили модели разных размеров и обучили в разных условиях. Наши результаты показывают, что размер модели может оказать существенное влияние на качество прогнозов, и что путем точной настройки большой модели мы можем уверенно прогнозировать валентность и возбуждение на нескольких языках. Мы предоставляем код, модели и вспомогательные данные.

Как работает многоязычное предварительное обучение, часть 1 (машинное обучение)

Похожие вопросы