Pertanyaan tentang topik tersebut 'apache-spark-sql'

Mengirimkan Pekerjaan ke Server Apache Spark Jarak Jauh
Apache Spark (v1.6.1) dimulai sebagai layanan di mesin Ubuntu (10.10.0.102), menggunakan ./start-all.sh . Sekarang perlu mengirimkan pekerjaan ke server ini dari jarak jauh menggunakan Java API. Berikut ini adalah kode klien Java yang...
821 dilihat
schedule 26.10.2023

Menggabungkan dua DataFrames di Spark SQL dan memilih hanya satu kolom
Saya memiliki dua DataFrame di Spark SQL ( D1 dan D2 ). Saya mencoba menggabungkan keduanya D1.join(D2, "some column") dan mendapatkan kembali data hanya D1, bukan kumpulan data lengkap . Baik D1 dan D2 memiliki kolom yang sama. Bisakah...
46546 dilihat
schedule 13.11.2023

Spark baca json dengan skema parsial
Saya perlu memproses file json yang cukup besar menggunakan spark. Saya tidak memerlukan semua bidang di json dan sebenarnya hanya ingin membaca sebagian saja (tidak membaca semua bidang dan proyek). Saya bertanya-tanya apakah saya dapat menggunakan...
1015 dilihat

Penggunaan objek Python khusus di Pyspark UDF
Saat menjalankan potongan kode PySpark berikut: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients))...
5581 dilihat

Tambahkan bidang yang dibuat secara otomatis ke kerangka data
Saya memiliki kerangka data ini, yang memang mengandung nilai val cabArticleLocal = spark.load("jdbc", Map("url" -> url, "dbtable" -> "cabarticle")) cabArticleLocal.show root |-- is_enabled: boolean (nullable = true) |-- cab_article:...
67 dilihat
schedule 13.12.2023

Mengeksekusi beberapa kueri SQL di Spark
Saya memiliki kueri Spark SQL dalam file test.sql - CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1 select * from VIEW_2 Sekarang, saya memulai spark-shell saya dan...
6189 dilihat
schedule 06.01.2024

Gabungan Luar Kiri untuk catatan yang tidak sama dari dua bingkai data dalam skala percikan
Saya memiliki dua bingkai data. Bingkai Data satu...
78 dilihat

Filter tetapi Pertahankan Baris Null
Saya memiliki kerangka data meleleh yang terlihat seperti ini: # +---+--------+----------+ # | id| c_type|c_type_val| # +---+--------+----------+ # | 1|c_type_1| null| # | 1|c_type_2| null| # | 1|c_type_3| r| # | 2|c_type_1|...
20 dilihat
schedule 27.11.2023

pengaturan ukuran tugas di Rstudio
Saya menggunakan Rstudio, ketika saya menjalankan kode saya, saya menghadapi masalah berikut: taskSetManager:66 - Tahap 0 berisi tugas berukuran sangat besar (1045 KB). Ukuran tugas maksimum yang disarankan adalah 100 KB. Apa yang...
55 dilihat

Gabungkan beberapa kerangka data yang dihasilkan melalui fungsi loop FOR menjadi satu kerangka data tunggal
Saya memiliki fungsi loop FOR yang mengulangi daftar tabel dan kolom (zip) untuk mendapatkan nilai minimum dan maksimum. Outputnya dipisahkan untuk setiap kombinasi, bukan satu kerangka data/tabel. Apakah ada cara untuk menggabungkan hasil...
1974 dilihat

Pyspark mengabaikan pemfilteran kerangka data di dalam fungsi pyspark-sql
Selamat pagi, Saya punya pertanyaan tentang beberapa kode pyspark. Dengan asumsi kita memiliki kerangka data seperti ini: +---------+--------+-------+--------+ | p_key_1 | p_key_2| status| value_1| +---------+--------+-------+--------+ |...
98 dilihat
schedule 05.12.2023

jumlah data 12 bulan terakhir yang setiap bulannya memiliki 2 baris data Spark SQL
jadi dataset saya memiliki dua kolom, satu kolom untuk tanggal (yang berisi tanggal mulai bulan dan akhir bulan), kolom kedua berisi hitungan 1-Nov-18 58 30-Nov-18 76 1-Dec-18 93 31-Dec-18 57 1-Jan-19 62 31-Jan-19 78 1-Feb-19 87...
222 dilihat
schedule 24.12.2023

Buat vektor renggang kosong di PySpark
Saya memiliki kerangka data DF1 yang terlihat seperti ini: +-------+------+ |user_id|meta | +-------+------+ | 1| null| | 11| null| | 15| null| +-------+------+ Skema: root |-- user_id: string (nullable = true) |--...
150 dilihat

PySpark: Filter kerangka data berdasarkan substring di tabel lain
Saya memiliki dua kerangka data, a dan b: a: +-----+---------+ | word|frequency| +-----+---------+ | git| 5| |stack| 10| |match| 15| |other| 3| +-----+---------+ b: +-------------+---------+ |...
204 dilihat
schedule 27.10.2023

Cara mengonversi kerangka data percikan ke daftar struct di scala
Saya memiliki kerangka data percikan yang terdiri dari 12 baris dan kolom berbeda, dalam hal ini 22. Saya ingin mengubahnya menjadi kerangka data dengan format: root |-- data: array (nullable = false) | |-- element: struct (containsNull =...
174 dilihat
schedule 07.11.2023

Bagaimana cara membaca file baris json terkompresi gzip ke dalam kerangka data PySpark?
Saya memiliki file baris JSON yang ingin saya baca ke dalam bingkai data PySpark. file dikompresi dengan gzip. Nama filenya terlihat seperti ini: file.jl.gz Saya tahu cara membaca file ini ke dalam bingkai data pandas: df=...
702 dilihat

Menyimpan file parket di java
Saya memiliki variabel myDataset bertipe Dataset<Row> . Ketika saya mencoba menyimpan ini ke file parket menggunakan myDataset.write().format("parquet").save(output_dir_path) , di mana output_dir_path adalah String dengan jalur...
45 dilihat