Вопросы по теме 'pyspark'
Ограничения функции кросс-таблицы pyspark / pandas dataframe
У меня есть CSV-файл с 600 000 уникальных идентификаторов пользователей и 70 000 уникальных_продуктов. Я планирую внедрить рекомендательную систему на основе ALS, и для этого я планирую применить функцию кросс-таблицы к идентификаторам пользователей...
431 просмотров
schedule
02.05.2024
Pyspark Dataframe TypeError: ожидаемая строка или буфер
Я создаю новый столбец для существующего фрейма данных в Pyspark, выполняя поиск в одном из поданных «скриптов» и возвращая совпадение в качестве записи для нового столбца.
import re as re
def sw_fix(data_str):
if...
1163 просмотров
schedule
09.03.2024
Присоединяйтесь к двум таблицам, имя_файла имеет дополнительную строку, регулярное выражение для удаления строки из имени файла и выполнения соединения
У меня есть две таблицы, к которым при необходимости применить объединение по table_name и file_name соответственно. Проблема в том, что table_name имеет дополнительную строку по сравнению с file_name в таблице 2.
Используя регулярное выражение,...
38 просмотров
schedule
04.04.2024