สิ่งพิมพ์ตามแท็ก apache-spark-sql

คำถามในหัวข้อ 'apache-spark-sql'

การส่งงานไปยังเซิร์ฟเวอร์ Apache Spark ระยะไกล

Apache Spark (v1.6.1) เริ่มต้นเป็นบริการบนเครื่อง Ubuntu (10.10.0.102) โดยใช้ ./start-all.sh ตอนนี้จำเป็นต้องส่งงานไปยังเซิร์ฟเวอร์นี้จากระยะไกลโดยใช้ Java API ต่อไปนี้เป็นโค้ดไคลเอ็นต์ Java ที่ทำงานจากเครื่องอื่น (10.10.0.95) String...

821 มุมมอง

java apache-spark apache-spark-sql

26.10.2023

เข้าร่วม DataFrames สองอันใน Spark SQL และเลือกคอลัมน์เดียวเท่านั้น

ฉันมี DataFrames สองอันใน Spark SQL ( D1 และ D2 ) ฉันกำลังพยายามรวมทั้งสองอย่างเข้าด้วยกัน D1.join(D2, "some column") และรับข้อมูลกลับ เฉพาะ D1 เท่านั้น ไม่ใช่ชุดข้อมูลทั้งหมด ทั้ง D1 และ D2 มีคอลัมน์เดียวกัน...

46546 มุมมอง

apache-spark apache-spark-sql scala

13.11.2023

Spark อ่าน json พร้อมสคีมาบางส่วน

ฉันต้องประมวลผลไฟล์ json ที่ค่อนข้างใหญ่โดยใช้ spark ฉันไม่ต้องการฟิลด์ทั้งหมดใน json และจริงๆ แล้วต้องการอ่านเพียงบางส่วนเท่านั้น (ไม่ใช่อ่านทุกฟิลด์และโปรเจ็กต์) ฉันสงสัยว่าฉันสามารถใช้ตัวเชื่อมต่อ json...

1015 มุมมอง

apache-spark apache-spark-sql spark-dataframe

04.12.2023

การใช้วัตถุ Python แบบกำหนดเองใน Pyspark UDF

เมื่อรันโค้ด PySpark ส่วนต่อไปนี้: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients))...

5581 มุมมอง

python apache-spark pyspark apache-spark-sql

11.11.2023

เพิ่มฟิลด์ที่สร้างอัตโนมัติให้กับดาต้าเฟรม

ฉันมี dataframe นี้ซึ่งมีค่าอยู่ val cabArticleLocal = spark.load("jdbc", Map("url" -> url, "dbtable" -> "cabarticle")) cabArticleLocal.show root |-- is_enabled: boolean (nullable = true) |-- cab_article: long (nullable = true) |--...

67 มุมมอง

apache-spark apache-spark-sql scala

13.12.2023

ดำเนินการคำสั่ง SQL หลายรายการบน Spark

ฉันมีแบบสอบถาม Spark SQL ในไฟล์ test.sql - CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1 select * from VIEW_2 ตอนนี้ ฉันเริ่ม spark-shell...

6189 มุมมอง

apache-spark apache-spark-sql scala

06.01.2024

การรวมภายนอกด้านซ้ายสำหรับบันทึก unequla จากสองเฟรมข้อมูลในสกาล่าสปาร์ค

ฉันมีสอง data frame กรอบข้อมูลหนึ่ง...

78 มุมมอง

apache-spark apache-spark-sql scala spark-dataframe

27.10.2023

กรองแต่คงแถวว่างไว้

ฉันมี dataframe ที่หลอมละลายซึ่งมีลักษณะดังนี้: # +---+--------+----------+ # | id| c_type|c_type_val| # +---+--------+----------+ # | 1|c_type_1| null| # | 1|c_type_2| null| # | 1|c_type_3| r| # | 2|c_type_1| a| # |...

20 มุมมอง

pyspark dataframe apache-spark-sql

27.11.2023

การตั้งค่าขนาดงานใน Rstudio

ฉันใช้ Rstudio เมื่อฉันรันโค้ด ฉันประสบปัญหาต่อไปนี้: TaskSetManager:66 - สเตจ 0 มีงานที่มีขนาดใหญ่มาก (1,045 KB) ขนาดงานสูงสุดที่แนะนำคือ 100 KB มีใครรู้อะไรบ้างเกี่ยวกับปัญหา และฉันจะแก้ไขได้อย่างไร รหัส: library(readr)...

55 มุมมอง

r machine-learning apache-spark apache-spark-sql sparkr

21.12.2023

รวมหลาย dataframes ที่ส่งออกผ่านฟังก์ชัน FOR loop ให้เป็น dataframe เดียว

ฉันมีฟังก์ชัน FOR loop ที่วนซ้ำรายการตารางและคอลัมน์ (zip) เพื่อรับค่าต่ำสุดและสูงสุด เอาต์พุตจะถูกแยกออกจากกันสำหรับแต่ละชุดค่าผสม แทนที่จะเป็นหนึ่งดาต้าเฟรม/ตารางเดียว มีวิธีรวมผลลัพธ์ของ FOR loop ให้เป็นเอาต์พุตสุดท้ายภายในฟังก์ชันหรือไม่?...

1974 มุมมอง

python-3.x python apache-spark pyspark apache-spark-sql

14.11.2023

Pyspark ไม่สนใจการกรอง dataframe ภายใน pyspark-sql-functions

สวัสดีตอนเช้า, ฉันมีคำถามเกี่ยวกับรหัส pyspark สมมติว่าเรามี dataframe เช่นนี้: +---------+--------+-------+--------+ | p_key_1 | p_key_2| status| value_1| +---------+--------+-------+--------+ | 13| 42| True| 33| | 13|...

98 มุมมอง

apache-spark pyspark apache-spark-sql

05.12.2023

ผลรวมของข้อมูล 12 เดือนที่ผ่านมา โดยแต่ละเดือนมีข้อมูล Spark SQL จำนวน 2 แถว

ดังนั้นชุดข้อมูลของฉันจึงมีสองคอลัมน์ หนึ่งคอลัมน์สำหรับวันที่ (ที่มีเดือนเริ่มต้นและวันที่สิ้นสุดเดือน) คอลัมน์ที่สองประกอบด้วยการนับ 1-Nov-18 58 30-Nov-18 76 1-Dec-18 93 31-Dec-18 57 1-Jan-19 62 31-Jan-19 78 1-Feb-19 87...

222 มุมมอง

sql apache-spark-sql

24.12.2023

สร้างเวกเตอร์กระจัดกระจายว่างใน PySpark

150 มุมมอง

pyspark apache-spark-sql pyspark-dataframes

11.12.2023

PySpark: กรอง dataframe ตามสตริงย่อยในตารางอื่น

ฉันมีสองดาต้าเฟรม a และ b: a: +-----+---------+ | word|frequency| +-----+---------+ | git| 5| |stack| 10| |match| 15| |other| 3| +-----+---------+ b: +-------------+---------+ | word|frequency|...

204 มุมมอง

python pyspark apache-spark-sql

27.10.2023

วิธีแปลง spark dataframe เป็นรายการโครงสร้างในสกาล่า

ฉันมี spark dataframe ประกอบด้วย 12 แถวและคอลัมน์ต่าง ๆ ในกรณีนี้ 22 แถว ฉันต้องการแปลงเป็น dataframe ในรูปแบบ: root |-- data: array (nullable = false) | |-- element: struct (containsNull = false) | | |-- ast: double (nullable =...

174 มุมมอง

apache-spark apache-spark-sql scala

07.11.2023

จะอ่านไฟล์บรรทัด json ที่ถูกบีบอัด gzip ใน PySpark dataframe ได้อย่างไร

ฉันมีไฟล์บรรทัด JSON ที่ฉันต้องการอ่านลงในเฟรมข้อมูล PySpark ไฟล์ถูกบีบอัดด้วย gzip ชื่อไฟล์มีลักษณะดังนี้: file.jl.gz ฉันรู้วิธีอ่านไฟล์นี้ในกรอบข้อมูลแพนด้า: df= pd.read_json('file.jl.gz', lines=True, compression='gzip) ฉันยังใหม่กับ...

702 มุมมอง

python apache-spark pyspark apache-spark-sql pyspark-dataframes

24.10.2023

บันทึกไฟล์ไม้ปาร์เก้ใน java

ฉันมีตัวแปร myDataset ประเภท Dataset<Row> เมื่อฉันพยายามบันทึกสิ่งนี้ลงในไฟล์ปาร์เก้โดยใช้ myDataset.write().format("parquet").save(output_dir_path) โดยที่ output_dir_path เป็นสตริงที่มีเส้นทางสำหรับไฟล์ที่สร้างขึ้น...

45 มุมมอง

java parquet apache-spark apache-spark-sql

10.11.2023