Публикации по тегам apache-spark-sql

Вопросы по теме 'apache-spark-sql'

Отправка задания на удаленный сервер Apache Spark

Apache Spark (v1.6.1) запускался как служба на компьютере с Ubuntu (10.10.0.102) с использованием ./start-all.sh . Теперь нужно отправить задание на этот сервер удаленно с помощью Java API. Ниже приведен код клиента Java, работающий с другого...

821 просмотров

java apache-spark apache-spark-sql

26.10.2023

Объединение двух DataFrames в Spark SQL и выбор столбцов только одного

У меня есть два DataFrames в Spark SQL ( D1 и D2 ). Я пытаюсь внутренне объединить их D1.join(D2, "some column") и получить обратно данные только D1, а не полного набора данных . И D1, и D2 имеют одинаковые столбцы. Может ли кто-нибудь...

46546 просмотров

apache-spark apache-spark-sql scala

13.11.2023

Spark читать json с частичной схемой

Мне нужно обработать довольно большой файл json с помощью spark. Мне не нужны все поля в json, и на самом деле я хотел бы прочитать только часть из них (не читать все поля и проект). Мне было интересно, могу ли я использовать json-коннектор и дать...

1015 просмотров

apache-spark apache-spark-sql spark-dataframe

04.12.2023

Использование пользовательского объекта Python в Pyspark UDF

При запуске следующего фрагмента кода PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients))...

5581 просмотров

python apache-spark pyspark apache-spark-sql

11.11.2023

Добавить автоматически сгенерированное поле в фрейм данных

У меня есть этот кадр данных, который содержит значения val cabArticleLocal = spark.load("jdbc", Map("url" -> url, "dbtable" -> "cabarticle")) cabArticleLocal.show root |-- is_enabled: boolean (nullable = true) |-- cab_article: long...

67 просмотров

apache-spark apache-spark-sql scala

13.12.2023

Выполнение нескольких SQL-запросов в Spark

У меня есть запрос Spark SQL в файле test.sql - CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1 select * from VIEW_2 Теперь я запускаю свою искровую оболочку и пытаюсь...

6189 просмотров

apache-spark apache-spark-sql scala

06.01.2024

Левое внешнее соединение для записей unequla для двух кадров данных в искровом скала

У меня есть два фрейма данных. Кадр данных один...

78 просмотров

apache-spark apache-spark-sql scala spark-dataframe

27.10.2023

Фильтровать, но сохранять пустые строки

У меня есть расплавленный фрейм данных, который выглядит так: # +---+--------+----------+ # | id| c_type|c_type_val| # +---+--------+----------+ # | 1|c_type_1| null| # | 1|c_type_2| null| # | 1|c_type_3| r| # | 2|c_type_1|...

20 просмотров

pyspark dataframe apache-spark-sql

27.11.2023

настройка размера задачи в Rstudio

Я использую Rstudio, когда я запускаю свой код, я столкнулся со следующей проблемой: taskSetManager:66 — Этап 0 содержит задачу очень большого размера (1045 КБ). Максимальный рекомендуемый размер задачи — 100 КБ. Что кто-то знает о...

55 просмотров

r machine-learning apache-spark apache-spark-sql sparkr

21.12.2023

Объединить несколько кадров данных, выведенных с помощью функции цикла FOR, в один кадр данных.

У меня есть функция цикла FOR, которая перебирает список таблиц и столбцов (zip), чтобы получить минимальное и максимальное значения. Вывод разделяется для каждой комбинации, а не для одного кадра данных/таблицы. Есть ли способ объединить результаты...

1974 просмотров

python-3.x python apache-spark pyspark apache-spark-sql

14.11.2023

Pyspark игнорирует фильтрацию фрейма данных внутри pyspark-sql-functions

98 просмотров

apache-spark pyspark apache-spark-sql

05.12.2023

сумма данных за последние 12 месяцев, где каждый месяц имеет 2 строки данных Spark SQL

поэтому мой набор данных имеет два столбца, один столбец для даты (который содержит дату начала и окончания месяца), второй столбец содержит количество 1-Nov-18 58 30-Nov-18 76 1-Dec-18 93 31-Dec-18 57 1-Jan-19 62 31-Jan-19 78...

222 просмотров

sql apache-spark-sql

24.12.2023

Создание пустых разреженных векторов в PySpark

150 просмотров

pyspark apache-spark-sql pyspark-dataframes

11.12.2023

PySpark: фильтрация фрейма данных по подстроке в другой таблице

У меня есть два фрейма данных a и b: a: +-----+---------+ | word|frequency| +-----+---------+ | git| 5| |stack| 10| |match| 15| |other| 3| +-----+---------+ b: +-------------+---------+ | word|frequency|...

204 просмотров

python pyspark apache-spark-sql

27.10.2023

Как преобразовать фрейм данных Spark в список структур в Scala

У меня есть искровый фрейм данных, состоящий из 12 строк и разных столбцов, в данном случае 22. Я хочу преобразовать его в фрейм данных формата: root |-- data: array (nullable = false) | |-- element: struct (containsNull = false) | |...

174 просмотров

apache-spark apache-spark-sql scala

07.11.2023

Как прочитать сжатый gzip файл строк json в кадр данных PySpark?

У меня есть файл JSON-lines, который я хочу прочитать во фрейме данных PySpark. файл сжат gzip. Имя файла выглядит следующим образом: file.jl.gz Я знаю, как прочитать этот файл в кадре данных pandas: df= pd.read_json('file.jl.gz',...

702 просмотров

python apache-spark pyspark apache-spark-sql pyspark-dataframes

24.10.2023

Сохранение файла паркета в java

У меня есть переменная myDataset типа Dataset<Row> . Когда я пытаюсь сохранить это в файл паркета, используя myDataset.write().format("parquet").save(output_dir_path) , где output_dir_path - это строка с путем для...

45 просмотров

java parquet apache-spark apache-spark-sql

10.11.2023