Как выполнить алгоритм регрессии на текстовых данных (обзоры IMDB)?

                 reviews              label
0   i admit the great majority of...    1
1   take a low budget inexperienced ... 0
2   everybody has seen back to th...    1
3   doris day was an icon of b...       0
4   after a series of silly fun ...     0

У меня есть датафрейм обзоров фильмов и столбец меток (1-положительный, 0-отрицательный обзор)

У меня есть еще один аналогичный тестовый набор данных только с колонкой обзора.

Мне нужно построить модель анализа настроений, используя линейную регрессию, чтобы предсказать столбец меток тестового фрейма данных.

Желаемый результат: тестовый фрейм данных со столбцом меток.

Регрессия выполняется на числовых данных. Как преобразовать текстовый обзор в числовую форму, чтобы можно было его подогнать?

python-3.x linear-regression

lipi sahu 27.01.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вам нужно преобразовать ваши слова в векторы, метод, известный как word2vec. Вот ссылка, объясняющая технику.

Pierre S. 27.01.2019

comment

Хорошо, будет ли использование td-idf также подходящим для конвертации? - lipi sahu; 28.01.2019

comment

Да, это тоже альтернатива. Основное преимущество world2vec заключается в том, что миры со схожими значениями будут иметь аналогичную кодировку. Это особенно интересно, когда вы хотите угадать положительность обзора. Это то, чего у вас не будет с td-idf, поскольку он основан только на встречаемости слов. - Pierre S.; 28.01.2019

Как выполнить алгоритм регрессии на текстовых данных (обзоры IMDB)?

Ответы (1)

Похожие вопросы