Публикации по тегам apache-spark

Публикации по теме 'apache-spark'

AutoML на Apache PredictionIO с TransmogrifAI

Apache PredictionIO - это платформа машинного обучения с открытым исходным кодом, которую компания Salesforce предоставила Apache Software Foundation. PredictionIO охватывает весь рабочий процесс машинного обучения, и наиболее важной функцией является система шаблонов движка. Это позволяет легко запускать веб-API прогнозирования на основе шаблона движка. Существует множество готовых к использованию шаблонов движков, поэтому мы можем выбрать из них наиболее подходящий для наших целей...

Вопросы по теме 'apache-spark'

Изменить связанный IP-адрес, работающий на порту 7077 - Apache Spark

Можно ли настроить Spark таким образом, чтобы вместо привязки к адресу 127.0.1.1 для порта 7077 можно было привязать его к 0.0.0.0 . Так же, как порт 8080 привязан: netstat -pln (Not all processes could be identified, non-owned process info will...

4110 просмотров

24.10.2023

pySpark находит медиану распределенным способом?

Можно ли найти медиану искры распределенным способом? В настоящее время я нахожу: Sum , Average , Variance , Count , используя следующий код: dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\...

1914 просмотров

apache-spark pyspark

01.11.2023

Выбор нескольких произвольных столбцов из массива Scala с помощью map()

Я новичок в Scala (и Spark). Я пытаюсь прочитать файл csv и извлечь несколько произвольных столбцов из данных. Следующая функция делает это, но с жестко заданными индексами столбцов: def readCSV(filename: String, sc: SparkContext): RDD[String] =...

830 просмотров

csv apache-spark scala

05.01.2024

PySpark Проблемы с потоковой передачей из Kafka

Я пытался подключиться к потоку kafka (0.9.0) через pyspark для одного из моих приложений. Столкнулся со следующей проблемой: Предпринятые шаги Запустил кафку, используя следующие команды bin/zookeeper-server-start.sh...

465 просмотров

apache-kafka streaming apache-spark pyspark

04.11.2023

Тайм-аут задания SparkR 100 минут

Я написал немного сложный скрипт sparkR и запустил его с помощью spark-submit. Сценарий в основном читает строку за строкой большой таблицы на основе паркета hive/impala и создает новый файл паркета с таким же количеством строк. Но кажется, что...

1517 просмотров

apache-spark hadoop sparkr bigdata

11.11.2023

Вопрос о дизайне Spark Streaming

Я новичок в искре. Я хотел выполнить настройку потоковой передачи искры, чтобы получить пары значений ключа из файлов формата ниже: файл: информация1 Примечание. Каждый информационный файл будет содержать около 1000 таких записей. И...

80 просмотров

apache-spark spark-streaming

18.01.2024

Отражение Scala с сериализацией (через Spark) — символы не сериализуются

Начнем с того, что я использую scala 2.10.4, а приведенный выше пример выполняется в Spark 1.6 (хотя я сомневаюсь, что Spark имеет к этому какое-либо отношение, это просто проблема сериализации). Итак, вот моя проблема: предположим, у меня есть...

1322 просмотров

apache-spark reflection serialization scala

18.12.2023

Установка искры storageFraction не имеет никакого эффекта. Он даже не падает с бессмысленным значением

Я пытаюсь изменить переменную среды искры «spark.memory.storageFraction». Я пытался сделать это разными способами: В качестве параметра моей команды spark-submit Сохранено в файле конфигурации, который я прикрепил к моему spark-submit. В...

152 просмотров

configuration caching storage apache-spark memory

14.11.2023

Искра чтения CSV-файла ClassCastException

Я запускаю Spark 1.6.1 так: ./pyspark --master local[4] --packages com.databricks:spark-csv_2.10:1.0.3 Я могу загрузить файл CSV без каких-либо ошибок, например: df =...

428 просмотров

apache-spark

05.11.2023

Ошибка при вызове spark-shell в Windows

Я пытаюсь установить apache spark на окна, используя шаги, описанные в эта запись в блоге Однако я получаю много предупреждений и ошибок, как показано ниже: C:\setups\spark-1.6.1-bin-hadoop2.6\bin>spark-shell log4j:WARN No appenders could...

879 просмотров

installation apache-spark windows-7

10.12.2023

Отправка задания на удаленный сервер Apache Spark

Apache Spark (v1.6.1) запускался как служба на компьютере с Ubuntu (10.10.0.102) с использованием ./start-all.sh . Теперь нужно отправить задание на этот сервер удаленно с помощью Java API. Ниже приведен код клиента Java, работающий с другого...

821 просмотров

java apache-spark apache-spark-sql

26.10.2023

интерпретатор pyspark не найден в apache zeppelin

У меня возникла проблема с использованием pyspark в записной книжке Apache-Zeppelin (версия 0.6.0). Выполнение следующего простого кода дает мне pyspark interpreter not found ошибку %pyspark a = 1+3 Запуск sc.version дал мне res2:...

5747 просмотров

python apache-spark pyspark apache-zeppelin hortonworks-data-platform

25.11.2023

Объединение двух DataFrames в Spark SQL и выбор столбцов только одного

У меня есть два DataFrames в Spark SQL ( D1 и D2 ). Я пытаюсь внутренне объединить их D1.join(D2, "some column") и получить обратно данные только D1, а не полного набора данных . И D1, и D2 имеют одинаковые столбцы. Может ли кто-нибудь...

46546 просмотров

apache-spark apache-spark-sql scala

13.11.2023

запуск нескольких заданий Spark в кластере Mesos

Я хотел бы запустить несколько искровых заданий в моем кластере Mesos, и чтобы все искровые задания использовали одну и ту же искровую среду. Это возможно? Я попытался запустить MesosClusterDispatcher и подключить искровые задания к диспетчеру, но...

186 просмотров

apache-spark mesos

27.12.2023

Не удается собрать данные из набора данных/фрейма данных в Spark 2.0.1; получить исключение ClassCastException

У меня есть некоторые данные json, которые представляют собой пары ключевых значений с целыми числами в качестве ключей и списками целых чисел в качестве значений. Я хочу прочитать эти данные на карте, а затем передать их, чтобы их можно было...

992 просмотров

apache-spark scala

05.01.2024

Коннектор MongoDB Spark — агрегация медленная

Я запускаю один и тот же конвейер агрегации с приложением Spark и на консоли Mongos. На консоли данные извлекаются в мгновение ока, и для получения всех ожидаемых данных требуется только второе использование «it». Однако, согласно веб-интерфейсу...

2788 просмотров

mongodb apache-spark mongodb-query mongodb-java

28.12.2023

Spark Streaming + Kinesis: нарушена максимальная скорость приемника

Я вызываю spark-submit, передавая maxRate, у меня есть один приемник kinesis и пакеты из 1 с. spark-submit --conf spark.streaming.receiver.maxRate=10 .... однако одна партия может значительно превышать установленную максимальную скорость. то...

479 просмотров

apache-spark spark-streaming amazon-kinesis

21.11.2023

SBT в фреймах графа Apache-Spark

У меня есть следующий файл SBT, я компилирую код Scala с помощью Apache GraphFrame, а также читаю файл CSV. name := "Simple" version := "1.0" scalaVersion := "2.10.5" libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "1.6.1",...

2727 просмотров

apache-spark scala sbt graphframes

18.11.2023

Будет ли запрос из Spark hivecontext блокировать таблицу куста?

Я знаю, что если я отправлю запрос из Hive, будет получена общая блокировка, а затем таблица Hive будет заблокирована запросом: https://cwiki.apache.org/confluence/display/Hive/Locking Поэтому мне просто интересно, если запрос выполняется Spark...

1451 просмотров

apache-spark hivecontext

27.11.2023

Spark Scala Разделить DataFrame по некоторому диапазону значений

Предположим, у меня есть фрейм данных со столбцом с именем x с диапазоном значений [0, 1] . Я надеюсь разделить его по значению столбца x с такими диапазонами, как [0, 0.1) , [0.1, 0.2) ... [0.9, 1] . Есть ли хороший и быстрый способ сделать...

1993 просмотров

apache-spark scala apache-spark-mllib spark-dataframe

20.01.2024