Публикации по теме 'apache-spark'
Список 13 наиболее распространенных проблем с данными конвейера (с примерами)
Этот пост был написан Джоном Бластом, контент-менеджером @ Databand.ai
Возможно, самая сложная часть управления конвейерами данных — это понимание призрака в машине — данных из машины , если хотите.
У многих пайплайнов есть то, что кажется личностями. Они непостоянны. Они таинственным образом разбиваются, когда бывает плохая погода. Они генерируют постоянно неверные результаты и безумно несогласованное время. Некоторые вопросы кажутся совершенно неразрешимыми.
Это большая часть..
Вопросы по теме 'apache-spark'
Как запустить graphx с Python / pyspark?
Я пытаюсь запустить Spark graphx с Python, используя pyspark. Моя установка кажется правильной, так как я могу запускать учебные пособия по pyspark и (Java) GraphX без проблем. Предположительно, поскольку GraphX является частью Spark, pyspark...
32629 просмотров
schedule
22.05.2024
Ошибка CountVectorizerModel с apache Spark - Java API
Я работаю с образцом кода после документа Apache Spark: https://spark.apache.org/docs/latest/ml-features.html#countvectorizer
import java.util.Arrays;
import org.apache.spark.SparkConf;
import...
629 просмотров
schedule
08.05.2024
Сопоставление столбцов запроса Cassandra
У меня есть таблица Cassandra trans_by_date с происхождением столбцов, tran_date (и некоторыми другими столбцами). Я пытаюсь запустить приведенный ниже код и получаю ошибку:
java.util.NoSuchElementException: Columns not found in table...
608 просмотров
schedule
25.03.2024
Объединение двух столбцов RDD в Apache Spark
Это уже заданный вопрос, но я не мог правильно понять ответы.
У меня есть два RDD с одинаковым количеством столбцов и одинаковым количеством записей.
RDD1(col1,col2,col3)
и
RDD2(colA,colB,colC)
Мне нужно присоединиться к ним...
1169 просмотров
schedule
27.03.2024
Почему при выполнении приложения структурированной потоковой передачи происходит сбой с ошибкой «Не удалось найти источник данных: kafka»?
Я пытаюсь подключить структурированную потоковую передачу Spark к kafka, и она выдает следующую ошибку:
Исключение в потоке «основной» java.lang.ClassNotFoundException: не удалось найти источник данных: kafka. Пожалуйста, найдите пакеты в ......
2328 просмотров
schedule
15.05.2024
Разделение столбца на несколько столбцов с помощью Spark SQL
У меня есть столбец col1 , который представляет формат координат GPS:
25 4.1866N 55 8.3824E
Я хотел бы разбить его на несколько столбцов на основе пробела в качестве разделителя, как в примере вывода table_example ниже:
| 1st_split...
4201 просмотров
schedule
08.05.2024
YARN не распознает увеличенные значения «yarn.scheduler.maximum-allocation-mb» и «yarn.nodemanager.resource.memory-mb».
Я работаю с докеризованным кластером pyspark, который использует пряжу. Чтобы повысить эффективность конвейеров обработки данных, я хочу увеличить объем памяти, выделяемой исполнителям pyspark и драйверу.
Это делается путем добавления следующих...
186 просмотров
schedule
13.04.2024