Публикации по теме 'apache-spark'


Список 13 наиболее распространенных проблем с данными конвейера (с примерами)
Этот пост был написан Джоном Бластом, контент-менеджером @ Databand.ai Возможно, самая сложная часть управления конвейерами данных — это понимание призрака в машине — данных из машины , если хотите. У многих пайплайнов есть то, что кажется личностями. Они непостоянны. Они таинственным образом разбиваются, когда бывает плохая погода. Они генерируют постоянно неверные результаты и безумно несогласованное время. Некоторые вопросы кажутся совершенно неразрешимыми. Это большая часть..

Вопросы по теме 'apache-spark'

Как запустить graphx с Python / pyspark?
Я пытаюсь запустить Spark graphx с Python, используя pyspark. Моя установка кажется правильной, так как я могу запускать учебные пособия по pyspark и (Java) GraphX ​​без проблем. Предположительно, поскольку GraphX ​​является частью Spark, pyspark...
32629 просмотров
schedule 22.05.2024

Ошибка CountVectorizerModel с apache Spark - Java API
Я работаю с образцом кода после документа Apache Spark: https://spark.apache.org/docs/latest/ml-features.html#countvectorizer import java.util.Arrays; import org.apache.spark.SparkConf; import...
629 просмотров
schedule 08.05.2024

Сопоставление столбцов запроса Cassandra
У меня есть таблица Cassandra trans_by_date с происхождением столбцов, tran_date (и некоторыми другими столбцами). Я пытаюсь запустить приведенный ниже код и получаю ошибку: java.util.NoSuchElementException: Columns not found in table...
608 просмотров

Объединение двух столбцов RDD в Apache Spark
Это уже заданный вопрос, но я не мог правильно понять ответы. У меня есть два RDD с одинаковым количеством столбцов и одинаковым количеством записей. RDD1(col1,col2,col3) и RDD2(colA,colB,colC) Мне нужно присоединиться к ним...
1169 просмотров
schedule 27.03.2024

Почему при выполнении приложения структурированной потоковой передачи происходит сбой с ошибкой «Не удалось найти источник данных: kafka»?
Я пытаюсь подключить структурированную потоковую передачу Spark к kafka, и она выдает следующую ошибку: Исключение в потоке «основной» java.lang.ClassNotFoundException: не удалось найти источник данных: kafka. Пожалуйста, найдите пакеты в ......
2328 просмотров

Разделение столбца на несколько столбцов с помощью Spark SQL
У меня есть столбец col1 , который представляет формат координат GPS: 25 4.1866N 55 8.3824E Я хотел бы разбить его на несколько столбцов на основе пробела в качестве разделителя, как в примере вывода table_example ниже: | 1st_split...
4201 просмотров

YARN не распознает увеличенные значения «yarn.scheduler.maximum-allocation-mb» и «yarn.nodemanager.resource.memory-mb».
Я работаю с докеризованным кластером pyspark, который использует пряжу. Чтобы повысить эффективность конвейеров обработки данных, я хочу увеличить объем памяти, выделяемой исполнителям pyspark и драйверу. Это делается путем добавления следующих...
186 просмотров
schedule 13.04.2024