Как выполнить алгоритм регрессии на текстовых данных (обзоры IMDB)?

                 reviews              label
0   i admit the great majority of...    1
1   take a low budget inexperienced ... 0
2   everybody has seen back to th...    1
3   doris day was an icon of b...       0
4   after a series of silly fun ...     0

У меня есть датафрейм обзоров фильмов и столбец меток (1-положительный, 0-отрицательный обзор)

У меня есть еще один аналогичный тестовый набор данных только с колонкой обзора.

Мне нужно построить модель анализа настроений, используя линейную регрессию, чтобы предсказать столбец меток тестового фрейма данных.

Желаемый результат: тестовый фрейм данных со столбцом меток.

Регрессия выполняется на числовых данных. Как преобразовать текстовый обзор в числовую форму, чтобы можно было его подогнать?


person lipi sahu    schedule 27.01.2019    source источник


Ответы (1)


Вам нужно преобразовать ваши слова в векторы, метод, известный как word2vec. Вот ссылка, объясняющая технику.

person Pierre S.    schedule 27.01.2019
comment
Хорошо, будет ли использование td-idf также подходящим для конвертации? - person lipi sahu; 28.01.2019
comment
Да, это тоже альтернатива. Основное преимущество world2vec заключается в том, что миры со схожими значениями будут иметь аналогичную кодировку. Это особенно интересно, когда вы хотите угадать положительность обзора. Это то, чего у вас не будет с td-idf, поскольку он основан только на встречаемости слов. - person Pierre S.; 28.01.2019