สิ่งตีพิมพ์ในหัวข้อ 'pyspark'


ลูกค้าเปลี่ยนใจโดยใช้ PySpark
ลูกค้าเปลี่ยนใจโดยใช้ PySpark การทำนายสำหรับแอปเพลง ภาพรวมโครงการ Sparkify เป็นแอปสำหรับฟังเพลง ชุดข้อมูลนี้ประกอบด้วยบันทึกกิจกรรมของผู้ใช้ sparkify ระยะเวลาสองเดือน บันทึกประกอบด้วยข้อมูลผู้ใช้พื้นฐานบางส่วน และข้อมูลเกี่ยวกับการดำเนินงาน ผู้บริโภคสามารถมีได้หลายรายการในนั้น ฉันปั่นส่วนหนึ่งของผู้ใช้ในผลลัพธ์โดยการยกเลิกบัญชี ฉันอัปโหลดข้อมูลการวิจัยของฉันไปยังพื้นที่เก็บข้อมูล GitHub ค้นหารหัส GitHub ที่นี่ : คุณจะได้รู้อะไรบ้าง..

Spark Essentials — วิธีอ่านและเขียนข้อมูลด้วย PySpark
แผ่นโกง PySpark สำหรับวิศวกรข้อมูลมือใหม่ Buddy เป็นวิศวกรข้อมูลมือใหม่ที่เพิ่งพบกับ Spark ซึ่งเป็นเฟรมเวิร์กการประมวลผลข้อมูลขนาดใหญ่ยอดนิยม เมื่อพิจารณาถึงข้อเท็จจริงที่ว่า Spark ได้รับการผสานรวมเข้ากับแพลตฟอร์มข้อมูลบนคลาวด์อย่าง Azure, AWS และ GCP Buddy ได้อย่างราบรื่น ตอนนี้ได้ตระหนักถึงความแน่นอนที่มีอยู่แล้ว สิ่งนี้ได้ผลักดัน Buddy ให้เริ่มต้นการเดินทาง Spark ของเขาอย่างรวดเร็ว โดยจัดการกับแบบฝึกหัดที่ไม่สำคัญที่สุดในวงจรชีวิตการประมวลผลข้อมูลขนาดใหญ่ -..

คำถามในหัวข้อ 'pyspark'

pySpark ค้นหาค่ามัธยฐานแบบกระจายหรือไม่
เป็นไปได้ไหมที่จะหาค่ามัธยฐานของประกายไฟแบบกระจาย? ขณะนี้ฉันกำลังค้นหา: Sum , Average , Variance , Count โดยใช้รหัสต่อไปนี้: dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\...
1914 มุมมอง
schedule 01.11.2023

ปัญหา PySpark สตรีมมิ่งจาก Kafka
ฉันพยายามเชื่อมต่อกับสตรีม kafka(0.9.0) ผ่าน pyspark สำหรับหนึ่งในแอปพลิเคชันของฉัน ประสบปัญหาดังต่อไปนี้: ขั้นตอนที่ดำเนินการ เริ่มคาฟคาโดยใช้คำสั่งต่อไปนี้ bin/zookeeper-server-start.sh config/zookeeper.properties...
465 มุมมอง

ไม่พบล่าม pyspark ใน apache zeppelin
ฉันมีปัญหากับการใช้ pyspark ในโน้ตบุ๊ก Apache-Zeppelin (เวอร์ชัน 0.6.0) การรันโค้ดง่ายๆ ต่อไปนี้ทำให้ฉันมีข้อผิดพลาด pyspark interpreter not found %pyspark a = 1+3 การรัน sc.version ทำให้ฉัน res2: String = 1.6.0 ซึ่งเป็นเวอร์ชันของ...
5747 มุมมอง

แปลง Dense Vector เป็น Sparse Vector ใน PySpark
มีวิธีสร้างเวกเตอร์กระจัดกระจายจากเวกเตอร์หนาแน่นใน PySpark หรือไม่? วิธีที่ฉันทำมีดังต่อไปนี้: Vectors.sparse(len(denseVector), [(i,j) for i,j in enumerate(denseVector) if j != 0 ]) ซึ่งเป็นไปตามรูปแบบ [ขนาด (ดัชนี ข้อมูล)]...
2921 มุมมอง
schedule 12.12.2023

คอลัมน์ PySpark ผูกอย่างชาญฉลาด
มีวิธีใดใน PySpark ที่จะเชื่อมโยงสองเฟรมข้อมูลเหมือนกับที่เราทำ cbind ใน r หรือไม่? ตัวอย่าง: Data frame 1 มี 10 คอลัมน์ Data frame 2 มี 1 คอลัมน์ ฉันต้องรวมทั้ง data frame และสร้างเป็น data frame เดียวใน PySpark
3102 มุมมอง
schedule 21.01.2024

ลดรายการคำ นับสิ่งอันดับจนถึงคีย์รวม
ฉันกำลังพยายามใช้ตัวอย่างการนับจำนวนคำ Spark และจำนวนคำรวมด้วยค่าอื่น ๆ (เช่น คำและการนับตามบุคคลที่บุคคลคือ "VI" หรือ "MO" ในกรณีด้านล่าง) ฉันมี rdd ซึ่งเป็นรายการสิ่งอันดับที่มีค่าเป็นรายการสิ่งอันดับ: from operator import add reduced_tokens...
1473 มุมมอง
schedule 15.01.2024

การใช้วัตถุ Python แบบกำหนดเองใน Pyspark UDF
เมื่อรันโค้ด PySpark ส่วนต่อไปนี้: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients))...
5581 มุมมอง

ฉันจะเชื่อมต่อกับไฮฟ์โดยใช้ pyspark ได้อย่างไร
ฉันกำลังพยายามสร้างตารางใน HIVE แต่กำลังสร้างโฟลเดอร์เช่น testdb.db ภายในโฟลเดอร์ spark-warehouse ฉันจะจัดเก็บโดยตรงใน HIVE ได้อย่างไรในขณะที่เราจัดเก็บไว้ในฐานข้อมูล MySQL/MongoDB conf = SparkConf().setAppName("data_import") sc =...
1699 มุมมอง
schedule 22.11.2023

กรองแต่คงแถวว่างไว้
ฉันมี dataframe ที่หลอมละลายซึ่งมีลักษณะดังนี้: # +---+--------+----------+ # | id| c_type|c_type_val| # +---+--------+----------+ # | 1|c_type_1| null| # | 1|c_type_2| null| # | 1|c_type_3| r| # | 2|c_type_1| a| # |...
20 มุมมอง
schedule 27.11.2023

Elasticsearch Spark จะสืบค้นหลายครั้งได้อย่างไร
ฉันอยู่ในสมุดบันทึกของ jupyter ฉันต้องการใช้ dsl แบบสอบถามเพื่อเตรียม Dataframe เริ่มต้น ฉันใช้ conf.set("es.query", dsl_query) เพื่อสิ่งนั้น ( https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html#_querying )...
236 มุมมอง

จะเพิ่มเนื้อหารายการทั้งหมดลงในแถว Pyspark Dataframe ได้อย่างไร
ฉันกำลังสร้าง pyspark dataframe ใหม่จากรายการสตริง รหัสของฉันควรมีลักษณะอย่างไร นี่คือรายการของฉัน: ['there', 'is', 'one', 'that', 'commands'] และนี่คือสิ่งที่ฉันต้องการในอุดมคติ: คำ(ส่วนหัว) แถวที่ 1: ['there', 'is', 'one', 'that',...
64 มุมมอง
schedule 26.12.2023

ข้อผิดพลาด FATAL ของ Intel MKL คืออะไร: ไม่สามารถโหลด libmkl_core.dylib ได้ ในขณะที่ใช้งาน pyspark ใน MacOs?
ติดตั้ง Pyspark ใน Mac ของฉันแล้ว ฉันได้รับข้อผิดพลาดนี้ขณะพยายามเรียกใช้ Pyspark จากบรรทัดคำสั่ง ฉันกำลังติดตั้ง Pyspark โดยใช้ homebrew และทำตามคำแนะนำในบล็อกนี้ (...
6598 มุมมอง
schedule 22.11.2023

รวมหลาย dataframes ที่ส่งออกผ่านฟังก์ชัน FOR loop ให้เป็น dataframe เดียว
ฉันมีฟังก์ชัน FOR loop ที่วนซ้ำรายการตารางและคอลัมน์ (zip) เพื่อรับค่าต่ำสุดและสูงสุด เอาต์พุตจะถูกแยกออกจากกันสำหรับแต่ละชุดค่าผสม แทนที่จะเป็นหนึ่งดาต้าเฟรม/ตารางเดียว มีวิธีรวมผลลัพธ์ของ FOR loop ให้เป็นเอาต์พุตสุดท้ายภายในฟังก์ชันหรือไม่?...
1974 มุมมอง

Pyspark ไม่สนใจการกรอง dataframe ภายใน pyspark-sql-functions
สวัสดีตอนเช้า, ฉันมีคำถามเกี่ยวกับรหัส pyspark สมมติว่าเรามี dataframe เช่นนี้: +---------+--------+-------+--------+ | p_key_1 | p_key_2| status| value_1| +---------+--------+-------+--------+ | 13| 42| True| 33| | 13|...
98 มุมมอง
schedule 05.12.2023

แยกปีจาก Date ใน Pyspark dataframe
ฉันมีกรอบข้อมูล Pyspark ที่มีคอลัมน์วันที่ "วันที่รายงาน" (ประเภท: สตริง) ฉันต้องการนับจำนวนคอลัมน์อื่นหลังจากแยกปีออกจากวันที่ ฉันสามารถรับการนับได้หากฉันใช้คอลัมน์วันที่ของสตริง crimeFile_date.groupBy("Reported Date").sum("Offence...
8155 มุมมอง
schedule 16.12.2023

แปลงสคีมาของ Spark DataFrame เป็น DataFrame อื่น
ฉันมี Spark DataFrame บน PySpark และฉันต้องการจัดเก็บสคีมาของมันไว้ใน Spark DataFrame อื่น ตัวอย่างเช่น: ฉันมีตัวอย่าง DataFrame df ที่มีลักษณะดังนี้ - +---+-------------------+ | id| v| +---+-------------------+ | 0|...
669 มุมมอง
schedule 16.01.2024

ค่าคีย์สูงสุดในการดำเนินการตาม rdd ใน pyspark
ฉันยังใหม่ต่อการดำเนินการตาม rdd ฉันกำลังพยายามทำความเข้าใจคีย์-ค่าสูงสุด ฉันมี rdd เช่นนี้: RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)]) ฉันต้องหาองค์ประกอบที่ 2...
21 มุมมอง
schedule 08.12.2023

เลือกสิ้นเดือนและทำให้เป็นสตริงใน pyspark
ฉันต้องการสร้างลูปใน pyspark โดยที่ฉันให้เวลาหนึ่งเดือนและควรเลือกตาราง ณ สิ้นเดือนและสิ้นเดือนของเดือนก่อนหน้า การเลือกเดือนทำด้วยสตริง ดังนั้นฉันจึงให้ '201901' และควรเลือก '20190131' และ '20181231'...
98 มุมมอง
schedule 06.11.2023

สร้างเวกเตอร์กระจัดกระจายว่างใน PySpark
ฉันมี dataframe DF1 ที่มีลักษณะดังนี้: +-------+------+ |user_id|meta | +-------+------+ | 1| null| | 11| null| | 15| null| +-------+------+ สคีมา: root |-- user_id: string (nullable = true) |-- meta: string (nullable =...
150 มุมมอง

คอลัมน์ Pyspark DataFrame ตามค่า DataFrame อื่น
ฉันมี DataFrames สองอัน: df1= +---+----------+ | id|filter | +---+----------+ | 1| YES| | 2| NO| | 3| NO| +---+----------+ df2 = +--------------------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+ |...
505 มุมมอง
schedule 29.11.2023