Статьи по теме apache-spark

Публикации по теме 'apache-spark'

Список 13 наиболее распространенных проблем с данными конвейера (с примерами)

Этот пост был написан Джоном Бластом, контент-менеджером @ Databand.ai Возможно, самая сложная часть управления конвейерами данных — это понимание призрака в машине — данных из машины , если хотите. У многих пайплайнов есть то, что кажется личностями. Они непостоянны. Они таинственным образом разбиваются, когда бывает плохая погода. Они генерируют постоянно неверные результаты и безумно несогласованное время. Некоторые вопросы кажутся совершенно неразрешимыми. Это большая часть..

Вопросы по теме 'apache-spark'

Как запустить graphx с Python / pyspark?

Я пытаюсь запустить Spark graphx с Python, используя pyspark. Моя установка кажется правильной, так как я могу запускать учебные пособия по pyspark и (Java) GraphX без проблем. Предположительно, поскольку GraphX является частью Spark, pyspark...

32629 просмотров

22.05.2024

Ошибка CountVectorizerModel с apache Spark - Java API

Я работаю с образцом кода после документа Apache Spark: https://spark.apache.org/docs/latest/ml-features.html#countvectorizer import java.util.Arrays; import org.apache.spark.SparkConf; import...

629 просмотров

java apache-spark apache-spark-mllib

08.05.2024

Сопоставление столбцов запроса Cassandra

У меня есть таблица Cassandra trans_by_date с происхождением столбцов, tran_date (и некоторыми другими столбцами). Я пытаюсь запустить приведенный ниже код и получаю ошибку: java.util.NoSuchElementException: Columns not found in table...

608 просмотров

cassandra apache-spark apache-spark-sql spark-cassandra-connector cassandra-2.0

25.03.2024

Объединение двух столбцов RDD в Apache Spark

Это уже заданный вопрос, но я не мог правильно понять ответы. У меня есть два RDD с одинаковым количеством столбцов и одинаковым количеством записей. RDD1(col1,col2,col3) и RDD2(colA,colB,colC) Мне нужно присоединиться к ним...

1169 просмотров

apache-spark scala rdd

27.03.2024

Почему при выполнении приложения структурированной потоковой передачи происходит сбой с ошибкой «Не удалось найти источник данных: kafka»?

Я пытаюсь подключить структурированную потоковую передачу Spark к kafka, и она выдает следующую ошибку: Исключение в потоке «основной» java.lang.ClassNotFoundException: не удалось найти источник данных: kafka. Пожалуйста, найдите пакеты в ......

2328 просмотров

apache-kafka apache-spark spark-structured-streaming scala

15.05.2024

Разделение столбца на несколько столбцов с помощью Spark SQL

У меня есть столбец col1 , который представляет формат координат GPS: 25 4.1866N 55 8.3824E Я хотел бы разбить его на несколько столбцов на основе пробела в качестве разделителя, как в примере вывода table_example ниже: | 1st_split...

4201 просмотров

sql apache-spark apache-spark-sql spark-dataframe

08.05.2024

YARN не распознает увеличенные значения «yarn.scheduler.maximum-allocation-mb» и «yarn.nodemanager.resource.memory-mb».

Я работаю с докеризованным кластером pyspark, который использует пряжу. Чтобы повысить эффективность конвейеров обработки данных, я хочу увеличить объем памяти, выделяемой исполнителям pyspark и драйверу. Это делается путем добавления следующих...

186 просмотров

apache-spark hadoop hive yarn livy

13.04.2024

Публикации по теме 'apache-spark'

Список 13 наиболее распространенных проблем с данными конвейера (с примерами)

Вопросы по теме 'apache-spark'

Похожие вопросы