คำถามในหัวข้อ 'apache-spark-sql'

การส่งงานไปยังเซิร์ฟเวอร์ Apache Spark ระยะไกล
Apache Spark (v1.6.1) เริ่มต้นเป็นบริการบนเครื่อง Ubuntu (10.10.0.102) โดยใช้ ./start-all.sh ตอนนี้จำเป็นต้องส่งงานไปยังเซิร์ฟเวอร์นี้จากระยะไกลโดยใช้ Java API ต่อไปนี้เป็นโค้ดไคลเอ็นต์ Java ที่ทำงานจากเครื่องอื่น (10.10.0.95) String...
821 มุมมอง
schedule 26.10.2023

เข้าร่วม DataFrames สองอันใน Spark SQL และเลือกคอลัมน์เดียวเท่านั้น
ฉันมี DataFrames สองอันใน Spark SQL ( D1 และ D2 ) ฉันกำลังพยายามรวมทั้งสองอย่างเข้าด้วยกัน D1.join(D2, "some column") และรับข้อมูลกลับ เฉพาะ D1 เท่านั้น ไม่ใช่ชุดข้อมูลทั้งหมด ทั้ง D1 และ D2 มีคอลัมน์เดียวกัน...
46546 มุมมอง
schedule 13.11.2023

Spark อ่าน json พร้อมสคีมาบางส่วน
ฉันต้องประมวลผลไฟล์ json ที่ค่อนข้างใหญ่โดยใช้ spark ฉันไม่ต้องการฟิลด์ทั้งหมดใน json และจริงๆ แล้วต้องการอ่านเพียงบางส่วนเท่านั้น (ไม่ใช่อ่านทุกฟิลด์และโปรเจ็กต์) ฉันสงสัยว่าฉันสามารถใช้ตัวเชื่อมต่อ json...
1015 มุมมอง

การใช้วัตถุ Python แบบกำหนดเองใน Pyspark UDF
เมื่อรันโค้ด PySpark ส่วนต่อไปนี้: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients))...
5581 มุมมอง

เพิ่มฟิลด์ที่สร้างอัตโนมัติให้กับดาต้าเฟรม
ฉันมี dataframe นี้ซึ่งมีค่าอยู่ val cabArticleLocal = spark.load("jdbc", Map("url" -> url, "dbtable" -> "cabarticle")) cabArticleLocal.show root |-- is_enabled: boolean (nullable = true) |-- cab_article: long (nullable = true) |--...
67 มุมมอง
schedule 13.12.2023

ดำเนินการคำสั่ง SQL หลายรายการบน Spark
ฉันมีแบบสอบถาม Spark SQL ในไฟล์ test.sql - CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1 select * from VIEW_2 ตอนนี้ ฉันเริ่ม spark-shell...
6189 มุมมอง
schedule 06.01.2024


กรองแต่คงแถวว่างไว้
ฉันมี dataframe ที่หลอมละลายซึ่งมีลักษณะดังนี้: # +---+--------+----------+ # | id| c_type|c_type_val| # +---+--------+----------+ # | 1|c_type_1| null| # | 1|c_type_2| null| # | 1|c_type_3| r| # | 2|c_type_1| a| # |...
20 มุมมอง
schedule 27.11.2023

การตั้งค่าขนาดงานใน Rstudio
ฉันใช้ Rstudio เมื่อฉันรันโค้ด ฉันประสบปัญหาต่อไปนี้: TaskSetManager:66 - สเตจ 0 มีงานที่มีขนาดใหญ่มาก (1,045 KB) ขนาดงานสูงสุดที่แนะนำคือ 100 KB มีใครรู้อะไรบ้างเกี่ยวกับปัญหา และฉันจะแก้ไขได้อย่างไร รหัส: library(readr)...
55 มุมมอง

รวมหลาย dataframes ที่ส่งออกผ่านฟังก์ชัน FOR loop ให้เป็น dataframe เดียว
ฉันมีฟังก์ชัน FOR loop ที่วนซ้ำรายการตารางและคอลัมน์ (zip) เพื่อรับค่าต่ำสุดและสูงสุด เอาต์พุตจะถูกแยกออกจากกันสำหรับแต่ละชุดค่าผสม แทนที่จะเป็นหนึ่งดาต้าเฟรม/ตารางเดียว มีวิธีรวมผลลัพธ์ของ FOR loop ให้เป็นเอาต์พุตสุดท้ายภายในฟังก์ชันหรือไม่?...
1974 มุมมอง

Pyspark ไม่สนใจการกรอง dataframe ภายใน pyspark-sql-functions
สวัสดีตอนเช้า, ฉันมีคำถามเกี่ยวกับรหัส pyspark สมมติว่าเรามี dataframe เช่นนี้: +---------+--------+-------+--------+ | p_key_1 | p_key_2| status| value_1| +---------+--------+-------+--------+ | 13| 42| True| 33| | 13|...
98 มุมมอง
schedule 05.12.2023

ผลรวมของข้อมูล 12 เดือนที่ผ่านมา โดยแต่ละเดือนมีข้อมูล Spark SQL จำนวน 2 แถว
ดังนั้นชุดข้อมูลของฉันจึงมีสองคอลัมน์ หนึ่งคอลัมน์สำหรับวันที่ (ที่มีเดือนเริ่มต้นและวันที่สิ้นสุดเดือน) คอลัมน์ที่สองประกอบด้วยการนับ 1-Nov-18 58 30-Nov-18 76 1-Dec-18 93 31-Dec-18 57 1-Jan-19 62 31-Jan-19 78 1-Feb-19 87...
222 มุมมอง
schedule 24.12.2023

สร้างเวกเตอร์กระจัดกระจายว่างใน PySpark
ฉันมี dataframe DF1 ที่มีลักษณะดังนี้: +-------+------+ |user_id|meta | +-------+------+ | 1| null| | 11| null| | 15| null| +-------+------+ สคีมา: root |-- user_id: string (nullable = true) |-- meta: string (nullable =...
150 มุมมอง

PySpark: กรอง dataframe ตามสตริงย่อยในตารางอื่น
ฉันมีสองดาต้าเฟรม a และ b: a: +-----+---------+ | word|frequency| +-----+---------+ | git| 5| |stack| 10| |match| 15| |other| 3| +-----+---------+ b: +-------------+---------+ | word|frequency|...
204 มุมมอง
schedule 27.10.2023

วิธีแปลง spark dataframe เป็นรายการโครงสร้างในสกาล่า
ฉันมี spark dataframe ประกอบด้วย 12 แถวและคอลัมน์ต่าง ๆ ในกรณีนี้ 22 แถว ฉันต้องการแปลงเป็น dataframe ในรูปแบบ: root |-- data: array (nullable = false) | |-- element: struct (containsNull = false) | | |-- ast: double (nullable =...
174 มุมมอง
schedule 07.11.2023

จะอ่านไฟล์บรรทัด json ที่ถูกบีบอัด gzip ใน PySpark dataframe ได้อย่างไร
ฉันมีไฟล์บรรทัด JSON ที่ฉันต้องการอ่านลงในเฟรมข้อมูล PySpark ไฟล์ถูกบีบอัดด้วย gzip ชื่อไฟล์มีลักษณะดังนี้: file.jl.gz ฉันรู้วิธีอ่านไฟล์นี้ในกรอบข้อมูลแพนด้า: df= pd.read_json('file.jl.gz', lines=True, compression='gzip) ฉันยังใหม่กับ...
702 มุมมอง

บันทึกไฟล์ไม้ปาร์เก้ใน java
ฉันมีตัวแปร myDataset ประเภท Dataset<Row> เมื่อฉันพยายามบันทึกสิ่งนี้ลงในไฟล์ปาร์เก้โดยใช้ myDataset.write().format("parquet").save(output_dir_path) โดยที่ output_dir_path เป็นสตริงที่มีเส้นทางสำหรับไฟล์ที่สร้างขึ้น...
45 มุมมอง