Pertanyaan tentang topik tersebut 'apache-spark-sql'
Mengirimkan Pekerjaan ke Server Apache Spark Jarak Jauh
Apache Spark (v1.6.1) dimulai sebagai layanan di mesin Ubuntu (10.10.0.102), menggunakan ./start-all.sh .
Sekarang perlu mengirimkan pekerjaan ke server ini dari jarak jauh menggunakan Java API.
Berikut ini adalah kode klien Java yang...
821 dilihat
schedule
26.10.2023
Menggabungkan dua DataFrames di Spark SQL dan memilih hanya satu kolom
Saya memiliki dua DataFrame di Spark SQL ( D1 dan D2 ).
Saya mencoba menggabungkan keduanya D1.join(D2, "some column") dan mendapatkan kembali data hanya D1, bukan kumpulan data lengkap .
Baik D1 dan D2 memiliki kolom yang sama.
Bisakah...
46546 dilihat
schedule
13.11.2023
Spark baca json dengan skema parsial
Saya perlu memproses file json yang cukup besar menggunakan spark. Saya tidak memerlukan semua bidang di json dan sebenarnya hanya ingin membaca sebagian saja (tidak membaca semua bidang dan proyek). Saya bertanya-tanya apakah saya dapat menggunakan...
1015 dilihat
schedule
04.12.2023
Penggunaan objek Python khusus di Pyspark UDF
Saat menjalankan potongan kode PySpark berikut:
nlp = NLPFunctions()
def parse_ingredients(ingredient_lines):
parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0]
return list(chain.from_iterable(parsed_ingredients))...
5581 dilihat
schedule
11.11.2023
Tambahkan bidang yang dibuat secara otomatis ke kerangka data
Saya memiliki kerangka data ini, yang memang mengandung nilai
val cabArticleLocal = spark.load("jdbc", Map("url" -> url, "dbtable" -> "cabarticle"))
cabArticleLocal.show
root
|-- is_enabled: boolean (nullable = true)
|-- cab_article:...
67 dilihat
schedule
13.12.2023
Mengeksekusi beberapa kueri SQL di Spark
Saya memiliki kueri Spark SQL dalam file test.sql -
CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc
CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1
select * from VIEW_2
Sekarang, saya memulai spark-shell saya dan...
6189 dilihat
schedule
06.01.2024
Gabungan Luar Kiri untuk catatan yang tidak sama dari dua bingkai data dalam skala percikan
Saya memiliki dua bingkai data. Bingkai Data satu...
78 dilihat
schedule
27.10.2023
Filter tetapi Pertahankan Baris Null
Saya memiliki kerangka data meleleh yang terlihat seperti ini:
# +---+--------+----------+
# | id| c_type|c_type_val|
# +---+--------+----------+
# | 1|c_type_1| null|
# | 1|c_type_2| null|
# | 1|c_type_3| r|
# | 2|c_type_1|...
20 dilihat
schedule
27.11.2023
pengaturan ukuran tugas di Rstudio
Saya menggunakan Rstudio, ketika saya menjalankan kode saya, saya menghadapi masalah berikut:
taskSetManager:66 - Tahap 0 berisi tugas berukuran sangat besar (1045 KB). Ukuran tugas maksimum yang disarankan adalah 100 KB.
Apa yang...
55 dilihat
schedule
21.12.2023
Gabungkan beberapa kerangka data yang dihasilkan melalui fungsi loop FOR menjadi satu kerangka data tunggal
Saya memiliki fungsi loop FOR yang mengulangi daftar tabel dan kolom (zip) untuk mendapatkan nilai minimum dan maksimum. Outputnya dipisahkan untuk setiap kombinasi, bukan satu kerangka data/tabel. Apakah ada cara untuk menggabungkan hasil...
1974 dilihat
schedule
14.11.2023
Pyspark mengabaikan pemfilteran kerangka data di dalam fungsi pyspark-sql
Selamat pagi,
Saya punya pertanyaan tentang beberapa kode pyspark. Dengan asumsi kita memiliki kerangka data seperti ini:
+---------+--------+-------+--------+
| p_key_1 | p_key_2| status| value_1|
+---------+--------+-------+--------+
|...
98 dilihat
schedule
05.12.2023
jumlah data 12 bulan terakhir yang setiap bulannya memiliki 2 baris data Spark SQL
jadi dataset saya memiliki dua kolom, satu kolom untuk tanggal (yang berisi tanggal mulai bulan dan akhir bulan), kolom kedua berisi hitungan
1-Nov-18 58
30-Nov-18 76
1-Dec-18 93
31-Dec-18 57
1-Jan-19 62
31-Jan-19 78
1-Feb-19 87...
222 dilihat
schedule
24.12.2023
Buat vektor renggang kosong di PySpark
Saya memiliki kerangka data DF1 yang terlihat seperti ini:
+-------+------+
|user_id|meta |
+-------+------+
| 1| null|
| 11| null|
| 15| null|
+-------+------+
Skema:
root
|-- user_id: string (nullable = true)
|--...
150 dilihat
schedule
11.12.2023
PySpark: Filter kerangka data berdasarkan substring di tabel lain
Saya memiliki dua kerangka data, a dan b:
a:
+-----+---------+
| word|frequency|
+-----+---------+
| git| 5|
|stack| 10|
|match| 15|
|other| 3|
+-----+---------+
b:
+-------------+---------+
|...
204 dilihat
schedule
27.10.2023
Cara mengonversi kerangka data percikan ke daftar struct di scala
Saya memiliki kerangka data percikan yang terdiri dari 12 baris dan kolom berbeda, dalam hal ini 22.
Saya ingin mengubahnya menjadi kerangka data dengan format:
root
|-- data: array (nullable = false)
| |-- element: struct (containsNull =...
174 dilihat
schedule
07.11.2023
Bagaimana cara membaca file baris json terkompresi gzip ke dalam kerangka data PySpark?
Saya memiliki file baris JSON yang ingin saya baca ke dalam bingkai data PySpark. file dikompresi dengan gzip.
Nama filenya terlihat seperti ini: file.jl.gz
Saya tahu cara membaca file ini ke dalam bingkai data pandas:
df=...
702 dilihat
schedule
24.10.2023
Menyimpan file parket di java
Saya memiliki variabel myDataset bertipe Dataset<Row> .
Ketika saya mencoba menyimpan ini ke file parket menggunakan myDataset.write().format("parquet").save(output_dir_path) , di mana output_dir_path adalah String dengan jalur...
45 dilihat
schedule
10.11.2023