คำถามในหัวข้อ 'apache-spark-sql'
การส่งงานไปยังเซิร์ฟเวอร์ Apache Spark ระยะไกล
Apache Spark (v1.6.1) เริ่มต้นเป็นบริการบนเครื่อง Ubuntu (10.10.0.102) โดยใช้ ./start-all.sh
ตอนนี้จำเป็นต้องส่งงานไปยังเซิร์ฟเวอร์นี้จากระยะไกลโดยใช้ Java API
ต่อไปนี้เป็นโค้ดไคลเอ็นต์ Java ที่ทำงานจากเครื่องอื่น (10.10.0.95)
String...
821 มุมมอง
schedule
26.10.2023
เข้าร่วม DataFrames สองอันใน Spark SQL และเลือกคอลัมน์เดียวเท่านั้น
ฉันมี DataFrames สองอันใน Spark SQL ( D1 และ D2 )
ฉันกำลังพยายามรวมทั้งสองอย่างเข้าด้วยกัน D1.join(D2, "some column") และรับข้อมูลกลับ เฉพาะ D1 เท่านั้น ไม่ใช่ชุดข้อมูลทั้งหมด
ทั้ง D1 และ D2 มีคอลัมน์เดียวกัน...
46546 มุมมอง
schedule
13.11.2023
Spark อ่าน json พร้อมสคีมาบางส่วน
ฉันต้องประมวลผลไฟล์ json ที่ค่อนข้างใหญ่โดยใช้ spark ฉันไม่ต้องการฟิลด์ทั้งหมดใน json และจริงๆ แล้วต้องการอ่านเพียงบางส่วนเท่านั้น (ไม่ใช่อ่านทุกฟิลด์และโปรเจ็กต์) ฉันสงสัยว่าฉันสามารถใช้ตัวเชื่อมต่อ json...
1015 มุมมอง
schedule
04.12.2023
การใช้วัตถุ Python แบบกำหนดเองใน Pyspark UDF
เมื่อรันโค้ด PySpark ส่วนต่อไปนี้:
nlp = NLPFunctions()
def parse_ingredients(ingredient_lines):
parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0]
return list(chain.from_iterable(parsed_ingredients))...
5581 มุมมอง
schedule
11.11.2023
เพิ่มฟิลด์ที่สร้างอัตโนมัติให้กับดาต้าเฟรม
ฉันมี dataframe นี้ซึ่งมีค่าอยู่
val cabArticleLocal = spark.load("jdbc", Map("url" -> url, "dbtable" -> "cabarticle"))
cabArticleLocal.show
root
|-- is_enabled: boolean (nullable = true)
|-- cab_article: long (nullable = true)
|--...
67 มุมมอง
schedule
13.12.2023
ดำเนินการคำสั่ง SQL หลายรายการบน Spark
ฉันมีแบบสอบถาม Spark SQL ในไฟล์ test.sql -
CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc
CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1
select * from VIEW_2
ตอนนี้ ฉันเริ่ม spark-shell...
6189 มุมมอง
schedule
06.01.2024
การรวมภายนอกด้านซ้ายสำหรับบันทึก unequla จากสองเฟรมข้อมูลในสกาล่าสปาร์ค
ฉันมีสอง data frame กรอบข้อมูลหนึ่ง...
78 มุมมอง
schedule
27.10.2023
กรองแต่คงแถวว่างไว้
ฉันมี dataframe ที่หลอมละลายซึ่งมีลักษณะดังนี้:
# +---+--------+----------+
# | id| c_type|c_type_val|
# +---+--------+----------+
# | 1|c_type_1| null|
# | 1|c_type_2| null|
# | 1|c_type_3| r|
# | 2|c_type_1| a|
# |...
20 มุมมอง
schedule
27.11.2023
การตั้งค่าขนาดงานใน Rstudio
ฉันใช้ Rstudio เมื่อฉันรันโค้ด ฉันประสบปัญหาต่อไปนี้:
TaskSetManager:66 - สเตจ 0 มีงานที่มีขนาดใหญ่มาก (1,045 KB) ขนาดงานสูงสุดที่แนะนำคือ 100 KB
มีใครรู้อะไรบ้างเกี่ยวกับปัญหา และฉันจะแก้ไขได้อย่างไร
รหัส:
library(readr)...
55 มุมมอง
schedule
21.12.2023
รวมหลาย dataframes ที่ส่งออกผ่านฟังก์ชัน FOR loop ให้เป็น dataframe เดียว
ฉันมีฟังก์ชัน FOR loop ที่วนซ้ำรายการตารางและคอลัมน์ (zip) เพื่อรับค่าต่ำสุดและสูงสุด เอาต์พุตจะถูกแยกออกจากกันสำหรับแต่ละชุดค่าผสม แทนที่จะเป็นหนึ่งดาต้าเฟรม/ตารางเดียว มีวิธีรวมผลลัพธ์ของ FOR loop ให้เป็นเอาต์พุตสุดท้ายภายในฟังก์ชันหรือไม่?...
1974 มุมมอง
schedule
14.11.2023
Pyspark ไม่สนใจการกรอง dataframe ภายใน pyspark-sql-functions
สวัสดีตอนเช้า,
ฉันมีคำถามเกี่ยวกับรหัส pyspark สมมติว่าเรามี dataframe เช่นนี้:
+---------+--------+-------+--------+
| p_key_1 | p_key_2| status| value_1|
+---------+--------+-------+--------+
| 13| 42| True| 33|
| 13|...
98 มุมมอง
schedule
05.12.2023
ผลรวมของข้อมูล 12 เดือนที่ผ่านมา โดยแต่ละเดือนมีข้อมูล Spark SQL จำนวน 2 แถว
ดังนั้นชุดข้อมูลของฉันจึงมีสองคอลัมน์ หนึ่งคอลัมน์สำหรับวันที่ (ที่มีเดือนเริ่มต้นและวันที่สิ้นสุดเดือน) คอลัมน์ที่สองประกอบด้วยการนับ
1-Nov-18 58
30-Nov-18 76
1-Dec-18 93
31-Dec-18 57
1-Jan-19 62
31-Jan-19 78
1-Feb-19 87...
222 มุมมอง
schedule
24.12.2023
สร้างเวกเตอร์กระจัดกระจายว่างใน PySpark
ฉันมี dataframe DF1 ที่มีลักษณะดังนี้:
+-------+------+
|user_id|meta |
+-------+------+
| 1| null|
| 11| null|
| 15| null|
+-------+------+
สคีมา:
root
|-- user_id: string (nullable = true)
|-- meta: string (nullable =...
150 มุมมอง
schedule
11.12.2023
PySpark: กรอง dataframe ตามสตริงย่อยในตารางอื่น
ฉันมีสองดาต้าเฟรม a และ b:
a:
+-----+---------+
| word|frequency|
+-----+---------+
| git| 5|
|stack| 10|
|match| 15|
|other| 3|
+-----+---------+
b:
+-------------+---------+
| word|frequency|...
204 มุมมอง
schedule
27.10.2023
วิธีแปลง spark dataframe เป็นรายการโครงสร้างในสกาล่า
ฉันมี spark dataframe ประกอบด้วย 12 แถวและคอลัมน์ต่าง ๆ ในกรณีนี้ 22 แถว
ฉันต้องการแปลงเป็น dataframe ในรูปแบบ:
root
|-- data: array (nullable = false)
| |-- element: struct (containsNull = false)
| | |-- ast: double (nullable =...
174 มุมมอง
schedule
07.11.2023
จะอ่านไฟล์บรรทัด json ที่ถูกบีบอัด gzip ใน PySpark dataframe ได้อย่างไร
ฉันมีไฟล์บรรทัด JSON ที่ฉันต้องการอ่านลงในเฟรมข้อมูล PySpark ไฟล์ถูกบีบอัดด้วย gzip
ชื่อไฟล์มีลักษณะดังนี้: file.jl.gz
ฉันรู้วิธีอ่านไฟล์นี้ในกรอบข้อมูลแพนด้า:
df= pd.read_json('file.jl.gz', lines=True, compression='gzip)
ฉันยังใหม่กับ...
702 มุมมอง
schedule
24.10.2023
บันทึกไฟล์ไม้ปาร์เก้ใน java
ฉันมีตัวแปร myDataset ประเภท Dataset<Row>
เมื่อฉันพยายามบันทึกสิ่งนี้ลงในไฟล์ปาร์เก้โดยใช้ myDataset.write().format("parquet").save(output_dir_path) โดยที่ output_dir_path เป็นสตริงที่มีเส้นทางสำหรับไฟล์ที่สร้างขึ้น...
45 มุมมอง
schedule
10.11.2023