Публикации по теме 'apache-spark'
AutoML на Apache PredictionIO с TransmogrifAI
Apache PredictionIO - это платформа машинного обучения с открытым исходным кодом, которую компания Salesforce предоставила Apache Software Foundation.
PredictionIO охватывает весь рабочий процесс машинного обучения, и наиболее важной функцией является система шаблонов движка. Это позволяет легко запускать веб-API прогнозирования на основе шаблона движка. Существует множество готовых к использованию шаблонов движков, поэтому мы можем выбрать из них наиболее подходящий для наших целей...
Вопросы по теме 'apache-spark'
Изменить связанный IP-адрес, работающий на порту 7077 - Apache Spark
Можно ли настроить Spark таким образом, чтобы вместо привязки к адресу 127.0.1.1 для порта 7077 можно было привязать его к 0.0.0.0 . Так же, как порт 8080 привязан:
netstat -pln
(Not all processes could be identified, non-owned process info
will...
4110 просмотров
schedule
24.10.2023
pySpark находит медиану распределенным способом?
Можно ли найти медиану искры распределенным способом? В настоящее время я нахожу: Sum , Average , Variance , Count , используя следующий код:
dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\...
1914 просмотров
schedule
01.11.2023
Выбор нескольких произвольных столбцов из массива Scala с помощью map()
Я новичок в Scala (и Spark). Я пытаюсь прочитать файл csv и извлечь несколько произвольных столбцов из данных. Следующая функция делает это, но с жестко заданными индексами столбцов:
def readCSV(filename: String, sc: SparkContext): RDD[String] =...
830 просмотров
schedule
05.01.2024
PySpark Проблемы с потоковой передачей из Kafka
Я пытался подключиться к потоку kafka (0.9.0) через pyspark для одного из моих приложений. Столкнулся со следующей проблемой:
Предпринятые шаги
Запустил кафку, используя следующие команды
bin/zookeeper-server-start.sh...
465 просмотров
schedule
04.11.2023
Тайм-аут задания SparkR 100 минут
Я написал немного сложный скрипт sparkR и запустил его с помощью spark-submit. Сценарий в основном читает строку за строкой большой таблицы на основе паркета hive/impala и создает новый файл паркета с таким же количеством строк. Но кажется, что...
1517 просмотров
schedule
11.11.2023
Вопрос о дизайне Spark Streaming
Я новичок в искре. Я хотел выполнить настройку потоковой передачи искры, чтобы получить пары значений ключа из файлов формата ниже:
файл: информация1
Примечание. Каждый информационный файл будет содержать около 1000 таких записей. И...
80 просмотров
schedule
18.01.2024
Отражение Scala с сериализацией (через Spark) — символы не сериализуются
Начнем с того, что я использую scala 2.10.4, а приведенный выше пример выполняется в Spark 1.6 (хотя я сомневаюсь, что Spark имеет к этому какое-либо отношение, это просто проблема сериализации).
Итак, вот моя проблема: предположим, у меня есть...
1322 просмотров
schedule
18.12.2023
Установка искры storageFraction не имеет никакого эффекта. Он даже не падает с бессмысленным значением
Я пытаюсь изменить переменную среды искры «spark.memory.storageFraction». Я пытался сделать это разными способами:
В качестве параметра моей команды spark-submit
Сохранено в файле конфигурации, который я прикрепил к моему spark-submit.
В...
152 просмотров
schedule
14.11.2023
Искра чтения CSV-файла ClassCastException
Я запускаю Spark 1.6.1 так:
./pyspark --master local[4] --packages com.databricks:spark-csv_2.10:1.0.3
Я могу загрузить файл CSV без каких-либо ошибок, например:
df =...
428 просмотров
schedule
05.11.2023
Ошибка при вызове spark-shell в Windows
Я пытаюсь установить apache spark на окна, используя шаги, описанные в эта запись в блоге
Однако я получаю много предупреждений и ошибок, как показано ниже:
C:\setups\spark-1.6.1-bin-hadoop2.6\bin>spark-shell
log4j:WARN No appenders could...
879 просмотров
schedule
10.12.2023
Отправка задания на удаленный сервер Apache Spark
Apache Spark (v1.6.1) запускался как служба на компьютере с Ubuntu (10.10.0.102) с использованием ./start-all.sh .
Теперь нужно отправить задание на этот сервер удаленно с помощью Java API.
Ниже приведен код клиента Java, работающий с другого...
821 просмотров
schedule
26.10.2023
интерпретатор pyspark не найден в apache zeppelin
У меня возникла проблема с использованием pyspark в записной книжке Apache-Zeppelin (версия 0.6.0). Выполнение следующего простого кода дает мне pyspark interpreter not found ошибку
%pyspark
a = 1+3
Запуск sc.version дал мне res2:...
5747 просмотров
schedule
25.11.2023
Объединение двух DataFrames в Spark SQL и выбор столбцов только одного
У меня есть два DataFrames в Spark SQL ( D1 и D2 ).
Я пытаюсь внутренне объединить их D1.join(D2, "some column") и получить обратно данные только D1, а не полного набора данных .
И D1, и D2 имеют одинаковые столбцы.
Может ли кто-нибудь...
46546 просмотров
schedule
13.11.2023
запуск нескольких заданий Spark в кластере Mesos
Я хотел бы запустить несколько искровых заданий в моем кластере Mesos, и чтобы все искровые задания использовали одну и ту же искровую среду. Это возможно? Я попытался запустить MesosClusterDispatcher и подключить искровые задания к диспетчеру, но...
186 просмотров
schedule
27.12.2023
Не удается собрать данные из набора данных/фрейма данных в Spark 2.0.1; получить исключение ClassCastException
У меня есть некоторые данные json, которые представляют собой пары ключевых значений с целыми числами в качестве ключей и списками целых чисел в качестве значений. Я хочу прочитать эти данные на карте, а затем передать их, чтобы их можно было...
992 просмотров
schedule
05.01.2024
Коннектор MongoDB Spark — агрегация медленная
Я запускаю один и тот же конвейер агрегации с приложением Spark и на консоли Mongos. На консоли данные извлекаются в мгновение ока, и для получения всех ожидаемых данных требуется только второе использование «it». Однако, согласно веб-интерфейсу...
2788 просмотров
schedule
28.12.2023
Spark Streaming + Kinesis: нарушена максимальная скорость приемника
Я вызываю spark-submit, передавая maxRate, у меня есть один приемник kinesis и пакеты из 1 с.
spark-submit --conf spark.streaming.receiver.maxRate=10 ....
однако одна партия может значительно превышать установленную максимальную скорость. то...
479 просмотров
schedule
21.11.2023
SBT в фреймах графа Apache-Spark
У меня есть следующий файл SBT, я компилирую код Scala с помощью Apache GraphFrame, а также читаю файл CSV.
name := "Simple"
version := "1.0"
scalaVersion := "2.10.5"
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "1.6.1",...
2727 просмотров
schedule
18.11.2023
Будет ли запрос из Spark hivecontext блокировать таблицу куста?
Я знаю, что если я отправлю запрос из Hive, будет получена общая блокировка, а затем таблица Hive будет заблокирована запросом: https://cwiki.apache.org/confluence/display/Hive/Locking
Поэтому мне просто интересно, если запрос выполняется Spark...
1451 просмотров
schedule
27.11.2023
Spark Scala Разделить DataFrame по некоторому диапазону значений
Предположим, у меня есть фрейм данных со столбцом с именем x с диапазоном значений [0, 1] . Я надеюсь разделить его по значению столбца x с такими диапазонами, как [0, 0.1) , [0.1, 0.2) ... [0.9, 1] . Есть ли хороший и быстрый способ сделать...
1993 просмотров
schedule
20.01.2024