Вопросы по теме 'pyspark'

Ограничения функции кросс-таблицы pyspark / pandas dataframe
У меня есть CSV-файл с 600 000 уникальных идентификаторов пользователей и 70 000 уникальных_продуктов. Я планирую внедрить рекомендательную систему на основе ALS, и для этого я планирую применить функцию кросс-таблицы к идентификаторам пользователей...
431 просмотров

Pyspark Dataframe TypeError: ожидаемая строка или буфер
Я создаю новый столбец для существующего фрейма данных в Pyspark, выполняя поиск в одном из поданных «скриптов» и возвращая совпадение в качестве записи для нового столбца. import re as re def sw_fix(data_str): if...
1163 просмотров
schedule 09.03.2024

Присоединяйтесь к двум таблицам, имя_файла имеет дополнительную строку, регулярное выражение для удаления строки из имени файла и выполнения соединения
У меня есть две таблицы, к которым при необходимости применить объединение по table_name и file_name соответственно. Проблема в том, что table_name имеет дополнительную строку по сравнению с file_name в таблице 2. Используя регулярное выражение,...
38 просмотров
schedule 04.04.2024