Ограничения функции кросс-таблицы pyspark / pandas dataframe

У меня есть CSV-файл с 600 000 уникальных идентификаторов пользователей и 70 000 уникальных_продуктов. Я планирую внедрить рекомендательную систему на основе ALS, и для этого я планирую применить функцию кросс-таблицы к идентификаторам пользователей и уникальным продуктам. Это создает ошибку памяти в pandas и ошибку ограничения 1e4 в pyspark. Может ли кто-нибудь предложить мне способ решить эту проблему. Или я также буду рад получить некоторые предложения о том, как использовать данные для реализации рекомендательной системы с использованием метода ALS. Заранее спасибо

Karthick 26.03.2017 источник

comment

Вероятно, вам нужно использовать разреженную матрицу. Возможно, этот вопрос может помочь: stackoverflow.com/questions/38134370/ - gereleth 27.03.2017

comment

Спасибо, разреженная матрица была решением. - Karthick 28.03.2017

Ограничения функции кросс-таблицы pyspark / pandas dataframe

Похожие вопросы