Ограничения функции кросс-таблицы pyspark / pandas dataframe

У меня есть CSV-файл с 600 000 уникальных идентификаторов пользователей и 70 000 уникальных_продуктов. Я планирую внедрить рекомендательную систему на основе ALS, и для этого я планирую применить функцию кросс-таблицы к идентификаторам пользователей и уникальным продуктам. Это создает ошибку памяти в pandas и ошибку ограничения 1e4 в pyspark. Может ли кто-нибудь предложить мне способ решить эту проблему. Или я также буду рад получить некоторые предложения о том, как использовать данные для реализации рекомендательной системы с использованием метода ALS. Заранее спасибо


person Karthick    schedule 26.03.2017    source источник
comment
Вероятно, вам нужно использовать разреженную матрицу. Возможно, этот вопрос может помочь: stackoverflow.com/questions/38134370/   -  person gereleth    schedule 27.03.2017
comment
Спасибо, разреженная матрица была решением.   -  person Karthick    schedule 28.03.2017