Вопросы по теме 'apache-spark-sql'
Отправка задания на удаленный сервер Apache Spark
Apache Spark (v1.6.1) запускался как служба на компьютере с Ubuntu (10.10.0.102) с использованием ./start-all.sh .
Теперь нужно отправить задание на этот сервер удаленно с помощью Java API.
Ниже приведен код клиента Java, работающий с другого...
821 просмотров
schedule
26.10.2023
Объединение двух DataFrames в Spark SQL и выбор столбцов только одного
У меня есть два DataFrames в Spark SQL ( D1 и D2 ).
Я пытаюсь внутренне объединить их D1.join(D2, "some column") и получить обратно данные только D1, а не полного набора данных .
И D1, и D2 имеют одинаковые столбцы.
Может ли кто-нибудь...
46546 просмотров
schedule
13.11.2023
Spark читать json с частичной схемой
Мне нужно обработать довольно большой файл json с помощью spark. Мне не нужны все поля в json, и на самом деле я хотел бы прочитать только часть из них (не читать все поля и проект). Мне было интересно, могу ли я использовать json-коннектор и дать...
1015 просмотров
schedule
04.12.2023
Использование пользовательского объекта Python в Pyspark UDF
При запуске следующего фрагмента кода PySpark:
nlp = NLPFunctions()
def parse_ingredients(ingredient_lines):
parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0]
return list(chain.from_iterable(parsed_ingredients))...
5581 просмотров
schedule
11.11.2023
Добавить автоматически сгенерированное поле в фрейм данных
У меня есть этот кадр данных, который содержит значения
val cabArticleLocal = spark.load("jdbc", Map("url" -> url, "dbtable" -> "cabarticle"))
cabArticleLocal.show
root
|-- is_enabled: boolean (nullable = true)
|-- cab_article: long...
67 просмотров
schedule
13.12.2023
Выполнение нескольких SQL-запросов в Spark
У меня есть запрос Spark SQL в файле test.sql -
CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc
CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1
select * from VIEW_2
Теперь я запускаю свою искровую оболочку и пытаюсь...
6189 просмотров
schedule
06.01.2024
Левое внешнее соединение для записей unequla для двух кадров данных в искровом скала
У меня есть два фрейма данных. Кадр данных один...
78 просмотров
schedule
27.10.2023
Фильтровать, но сохранять пустые строки
У меня есть расплавленный фрейм данных, который выглядит так:
# +---+--------+----------+
# | id| c_type|c_type_val|
# +---+--------+----------+
# | 1|c_type_1| null|
# | 1|c_type_2| null|
# | 1|c_type_3| r|
# | 2|c_type_1|...
20 просмотров
schedule
27.11.2023
настройка размера задачи в Rstudio
Я использую Rstudio, когда я запускаю свой код, я столкнулся со следующей проблемой:
taskSetManager:66 — Этап 0 содержит задачу очень большого размера (1045 КБ). Максимальный рекомендуемый размер задачи — 100 КБ.
Что кто-то знает о...
55 просмотров
schedule
21.12.2023
Объединить несколько кадров данных, выведенных с помощью функции цикла FOR, в один кадр данных.
У меня есть функция цикла FOR, которая перебирает список таблиц и столбцов (zip), чтобы получить минимальное и максимальное значения. Вывод разделяется для каждой комбинации, а не для одного кадра данных/таблицы. Есть ли способ объединить результаты...
1974 просмотров
schedule
14.11.2023
Pyspark игнорирует фильтрацию фрейма данных внутри pyspark-sql-functions
Доброе утро,
У меня вопрос по поводу pyspark-кода. Предполагая, что у нас есть такой фрейм данных:
+---------+--------+-------+--------+
| p_key_1 | p_key_2| status| value_1|
+---------+--------+-------+--------+
| 13| 42| True|...
98 просмотров
schedule
05.12.2023
сумма данных за последние 12 месяцев, где каждый месяц имеет 2 строки данных Spark SQL
поэтому мой набор данных имеет два столбца, один столбец для даты (который содержит дату начала и окончания месяца), второй столбец содержит количество
1-Nov-18 58
30-Nov-18 76
1-Dec-18 93
31-Dec-18 57
1-Jan-19 62
31-Jan-19 78...
222 просмотров
schedule
24.12.2023
Создание пустых разреженных векторов в PySpark
У меня есть фрейм данных DF1, который выглядит так:
+-------+------+
|user_id|meta |
+-------+------+
| 1| null|
| 11| null|
| 15| null|
+-------+------+
Схема:
root
|-- user_id: string (nullable = true)
|-- meta:...
150 просмотров
schedule
11.12.2023
PySpark: фильтрация фрейма данных по подстроке в другой таблице
У меня есть два фрейма данных a и b:
a:
+-----+---------+
| word|frequency|
+-----+---------+
| git| 5|
|stack| 10|
|match| 15|
|other| 3|
+-----+---------+
b:
+-------------+---------+
| word|frequency|...
204 просмотров
schedule
27.10.2023
Как преобразовать фрейм данных Spark в список структур в Scala
У меня есть искровый фрейм данных, состоящий из 12 строк и разных столбцов, в данном случае 22.
Я хочу преобразовать его в фрейм данных формата:
root
|-- data: array (nullable = false)
| |-- element: struct (containsNull = false)
| |...
174 просмотров
schedule
07.11.2023
Как прочитать сжатый gzip файл строк json в кадр данных PySpark?
У меня есть файл JSON-lines, который я хочу прочитать во фрейме данных PySpark. файл сжат gzip.
Имя файла выглядит следующим образом: file.jl.gz
Я знаю, как прочитать этот файл в кадре данных pandas:
df= pd.read_json('file.jl.gz',...
702 просмотров
schedule
24.10.2023
Сохранение файла паркета в java
У меня есть переменная myDataset типа Dataset<Row> .
Когда я пытаюсь сохранить это в файл паркета, используя myDataset.write().format("parquet").save(output_dir_path) , где output_dir_path - это строка с путем для...
45 просмотров
schedule
10.11.2023