Публикации по теме 'apache-spark'


AutoML на Apache PredictionIO с TransmogrifAI
Apache PredictionIO - это платформа машинного обучения с открытым исходным кодом, которую компания Salesforce предоставила Apache Software Foundation. PredictionIO охватывает весь рабочий процесс машинного обучения, и наиболее важной функцией является система шаблонов движка. Это позволяет легко запускать веб-API прогнозирования на основе шаблона движка. Существует множество готовых к использованию шаблонов движков, поэтому мы можем выбрать из них наиболее подходящий для наших целей...

Вопросы по теме 'apache-spark'

Изменить связанный IP-адрес, работающий на порту 7077 - Apache Spark
Можно ли настроить Spark таким образом, чтобы вместо привязки к адресу 127.0.1.1 для порта 7077 можно было привязать его к 0.0.0.0 . Так же, как порт 8080 привязан: netstat -pln (Not all processes could be identified, non-owned process info will...
4110 просмотров

pySpark находит медиану распределенным способом?
Можно ли найти медиану искры распределенным способом? В настоящее время я нахожу: Sum , Average , Variance , Count , используя следующий код: dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\...
1914 просмотров
schedule 01.11.2023

Выбор нескольких произвольных столбцов из массива Scala с помощью map()
Я новичок в Scala (и Spark). Я пытаюсь прочитать файл csv и извлечь несколько произвольных столбцов из данных. Следующая функция делает это, но с жестко заданными индексами столбцов: def readCSV(filename: String, sc: SparkContext): RDD[String] =...
830 просмотров
schedule 05.01.2024

PySpark Проблемы с потоковой передачей из Kafka
Я пытался подключиться к потоку kafka (0.9.0) через pyspark для одного из моих приложений. Столкнулся со следующей проблемой: Предпринятые шаги Запустил кафку, используя следующие команды bin/zookeeper-server-start.sh...
465 просмотров

Тайм-аут задания SparkR 100 минут
Я написал немного сложный скрипт sparkR и запустил его с помощью spark-submit. Сценарий в основном читает строку за строкой большой таблицы на основе паркета hive/impala и создает новый файл паркета с таким же количеством строк. Но кажется, что...
1517 просмотров
schedule 11.11.2023

Вопрос о дизайне Spark Streaming
Я новичок в искре. Я хотел выполнить настройку потоковой передачи искры, чтобы получить пары значений ключа из файлов формата ниже: файл: информация1 Примечание. Каждый информационный файл будет содержать около 1000 таких записей. И...
80 просмотров
schedule 18.01.2024

Отражение Scala с сериализацией (через Spark) — символы не сериализуются
Начнем с того, что я использую scala 2.10.4, а приведенный выше пример выполняется в Spark 1.6 (хотя я сомневаюсь, что Spark имеет к этому какое-либо отношение, это просто проблема сериализации). Итак, вот моя проблема: предположим, у меня есть...
1322 просмотров

Установка искры storageFraction не имеет никакого эффекта. Он даже не падает с бессмысленным значением
Я пытаюсь изменить переменную среды искры «spark.memory.storageFraction». Я пытался сделать это разными способами: В качестве параметра моей команды spark-submit Сохранено в файле конфигурации, который я прикрепил к моему spark-submit. В...
152 просмотров

Искра чтения CSV-файла ClassCastException
Я запускаю Spark 1.6.1 так: ./pyspark --master local[4] --packages com.databricks:spark-csv_2.10:1.0.3 Я могу загрузить файл CSV без каких-либо ошибок, например: df =...
428 просмотров
schedule 05.11.2023

Ошибка при вызове spark-shell в Windows
Я пытаюсь установить apache spark на окна, используя шаги, описанные в эта запись в блоге Однако я получаю много предупреждений и ошибок, как показано ниже: C:\setups\spark-1.6.1-bin-hadoop2.6\bin>spark-shell log4j:WARN No appenders could...
879 просмотров
schedule 10.12.2023

Отправка задания на удаленный сервер Apache Spark
Apache Spark (v1.6.1) запускался как служба на компьютере с Ubuntu (10.10.0.102) с использованием ./start-all.sh . Теперь нужно отправить задание на этот сервер удаленно с помощью Java API. Ниже приведен код клиента Java, работающий с другого...
821 просмотров
schedule 26.10.2023

интерпретатор pyspark не найден в apache zeppelin
У меня возникла проблема с использованием pyspark в записной книжке Apache-Zeppelin (версия 0.6.0). Выполнение следующего простого кода дает мне pyspark interpreter not found ошибку %pyspark a = 1+3 Запуск sc.version дал мне res2:...
5747 просмотров

Объединение двух DataFrames в Spark SQL и выбор столбцов только одного
У меня есть два DataFrames в Spark SQL ( D1 и D2 ). Я пытаюсь внутренне объединить их D1.join(D2, "some column") и получить обратно данные только D1, а не полного набора данных . И D1, и D2 имеют одинаковые столбцы. Может ли кто-нибудь...
46546 просмотров
schedule 13.11.2023

запуск нескольких заданий Spark в кластере Mesos
Я хотел бы запустить несколько искровых заданий в моем кластере Mesos, и чтобы все искровые задания использовали одну и ту же искровую среду. Это возможно? Я попытался запустить MesosClusterDispatcher и подключить искровые задания к диспетчеру, но...
186 просмотров
schedule 27.12.2023

Не удается собрать данные из набора данных/фрейма данных в Spark 2.0.1; получить исключение ClassCastException
У меня есть некоторые данные json, которые представляют собой пары ключевых значений с целыми числами в качестве ключей и списками целых чисел в качестве значений. Я хочу прочитать эти данные на карте, а затем передать их, чтобы их можно было...
992 просмотров
schedule 05.01.2024

Коннектор MongoDB Spark — агрегация медленная
Я запускаю один и тот же конвейер агрегации с приложением Spark и на консоли Mongos. На консоли данные извлекаются в мгновение ока, и для получения всех ожидаемых данных требуется только второе использование «it». Однако, согласно веб-интерфейсу...
2788 просмотров

Spark Streaming + Kinesis: нарушена максимальная скорость приемника
Я вызываю spark-submit, передавая maxRate, у меня есть один приемник kinesis и пакеты из 1 с. spark-submit --conf spark.streaming.receiver.maxRate=10 .... однако одна партия может значительно превышать установленную максимальную скорость. то...
479 просмотров

SBT в фреймах графа Apache-Spark
У меня есть следующий файл SBT, я компилирую код Scala с помощью Apache GraphFrame, а также читаю файл CSV. name := "Simple" version := "1.0" scalaVersion := "2.10.5" libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "1.6.1",...
2727 просмотров
schedule 18.11.2023

Будет ли запрос из Spark hivecontext блокировать таблицу куста?
Я знаю, что если я отправлю запрос из Hive, будет получена общая блокировка, а затем таблица Hive будет заблокирована запросом: https://cwiki.apache.org/confluence/display/Hive/Locking Поэтому мне просто интересно, если запрос выполняется Spark...
1451 просмотров
schedule 27.11.2023

Spark Scala Разделить DataFrame по некоторому диапазону значений
Предположим, у меня есть фрейм данных со столбцом с именем x с диапазоном значений [0, 1] . Я надеюсь разделить его по значению столбца x с такими диапазонами, как [0, 0.1) , [0.1, 0.2) ... [0.9, 1] . Есть ли хороший и быстрый способ сделать...
1993 просмотров