Вопросы по теме 'apache-spark-sql'

Отправка задания на удаленный сервер Apache Spark
Apache Spark (v1.6.1) запускался как служба на компьютере с Ubuntu (10.10.0.102) с использованием ./start-all.sh . Теперь нужно отправить задание на этот сервер удаленно с помощью Java API. Ниже приведен код клиента Java, работающий с другого...
821 просмотров
schedule 26.10.2023

Объединение двух DataFrames в Spark SQL и выбор столбцов только одного
У меня есть два DataFrames в Spark SQL ( D1 и D2 ). Я пытаюсь внутренне объединить их D1.join(D2, "some column") и получить обратно данные только D1, а не полного набора данных . И D1, и D2 имеют одинаковые столбцы. Может ли кто-нибудь...
46546 просмотров
schedule 13.11.2023

Spark читать json с частичной схемой
Мне нужно обработать довольно большой файл json с помощью spark. Мне не нужны все поля в json, и на самом деле я хотел бы прочитать только часть из них (не читать все поля и проект). Мне было интересно, могу ли я использовать json-коннектор и дать...
1015 просмотров

Использование пользовательского объекта Python в Pyspark UDF
При запуске следующего фрагмента кода PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients))...
5581 просмотров

Добавить автоматически сгенерированное поле в фрейм данных
У меня есть этот кадр данных, который содержит значения val cabArticleLocal = spark.load("jdbc", Map("url" -> url, "dbtable" -> "cabarticle")) cabArticleLocal.show root |-- is_enabled: boolean (nullable = true) |-- cab_article: long...
67 просмотров
schedule 13.12.2023

Выполнение нескольких SQL-запросов в Spark
У меня есть запрос Spark SQL в файле test.sql - CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1 select * from VIEW_2 Теперь я запускаю свою искровую оболочку и пытаюсь...
6189 просмотров
schedule 06.01.2024

Левое внешнее соединение для записей unequla для двух кадров данных в искровом скала
У меня есть два фрейма данных. Кадр данных один...
78 просмотров

Фильтровать, но сохранять пустые строки
У меня есть расплавленный фрейм данных, который выглядит так: # +---+--------+----------+ # | id| c_type|c_type_val| # +---+--------+----------+ # | 1|c_type_1| null| # | 1|c_type_2| null| # | 1|c_type_3| r| # | 2|c_type_1|...
20 просмотров
schedule 27.11.2023

настройка размера задачи в Rstudio
Я использую Rstudio, когда я запускаю свой код, я столкнулся со следующей проблемой: taskSetManager:66 — Этап 0 содержит задачу очень большого размера (1045 КБ). Максимальный рекомендуемый размер задачи — 100 КБ. Что кто-то знает о...
55 просмотров

Объединить несколько кадров данных, выведенных с помощью функции цикла FOR, в один кадр данных.
У меня есть функция цикла FOR, которая перебирает список таблиц и столбцов (zip), чтобы получить минимальное и максимальное значения. Вывод разделяется для каждой комбинации, а не для одного кадра данных/таблицы. Есть ли способ объединить результаты...
1974 просмотров

Pyspark игнорирует фильтрацию фрейма данных внутри pyspark-sql-functions
Доброе утро, У меня вопрос по поводу pyspark-кода. Предполагая, что у нас есть такой фрейм данных: +---------+--------+-------+--------+ | p_key_1 | p_key_2| status| value_1| +---------+--------+-------+--------+ | 13| 42| True|...
98 просмотров
schedule 05.12.2023

сумма данных за последние 12 месяцев, где каждый месяц имеет 2 строки данных Spark SQL
поэтому мой набор данных имеет два столбца, один столбец для даты (который содержит дату начала и окончания месяца), второй столбец содержит количество 1-Nov-18 58 30-Nov-18 76 1-Dec-18 93 31-Dec-18 57 1-Jan-19 62 31-Jan-19 78...
222 просмотров
schedule 24.12.2023

Создание пустых разреженных векторов в PySpark
У меня есть фрейм данных DF1, который выглядит так: +-------+------+ |user_id|meta | +-------+------+ | 1| null| | 11| null| | 15| null| +-------+------+ Схема: root |-- user_id: string (nullable = true) |-- meta:...
150 просмотров

PySpark: фильтрация фрейма данных по подстроке в другой таблице
У меня есть два фрейма данных a и b: a: +-----+---------+ | word|frequency| +-----+---------+ | git| 5| |stack| 10| |match| 15| |other| 3| +-----+---------+ b: +-------------+---------+ | word|frequency|...
204 просмотров
schedule 27.10.2023

Как преобразовать фрейм данных Spark в список структур в Scala
У меня есть искровый фрейм данных, состоящий из 12 строк и разных столбцов, в данном случае 22. Я хочу преобразовать его в фрейм данных формата: root |-- data: array (nullable = false) | |-- element: struct (containsNull = false) | |...
174 просмотров
schedule 07.11.2023

Как прочитать сжатый gzip файл строк json в кадр данных PySpark?
У меня есть файл JSON-lines, который я хочу прочитать во фрейме данных PySpark. файл сжат gzip. Имя файла выглядит следующим образом: file.jl.gz Я знаю, как прочитать этот файл в кадре данных pandas: df= pd.read_json('file.jl.gz',...
702 просмотров

Сохранение файла паркета в java
У меня есть переменная myDataset типа Dataset<Row> . Когда я пытаюсь сохранить это в файл паркета, используя myDataset.write().format("parquet").save(output_dir_path) , где output_dir_path - это строка с путем для...
45 просмотров