สิ่งตีพิมพ์ในหัวข้อ 'pyspark'
ลูกค้าเปลี่ยนใจโดยใช้ PySpark
ลูกค้าเปลี่ยนใจโดยใช้ PySpark
การทำนายสำหรับแอปเพลง
ภาพรวมโครงการ
Sparkify เป็นแอปสำหรับฟังเพลง ชุดข้อมูลนี้ประกอบด้วยบันทึกกิจกรรมของผู้ใช้ sparkify ระยะเวลาสองเดือน บันทึกประกอบด้วยข้อมูลผู้ใช้พื้นฐานบางส่วน และข้อมูลเกี่ยวกับการดำเนินงาน ผู้บริโภคสามารถมีได้หลายรายการในนั้น ฉันปั่นส่วนหนึ่งของผู้ใช้ในผลลัพธ์โดยการยกเลิกบัญชี ฉันอัปโหลดข้อมูลการวิจัยของฉันไปยังพื้นที่เก็บข้อมูล GitHub
ค้นหารหัส GitHub ที่นี่ :
คุณจะได้รู้อะไรบ้าง..
Spark Essentials — วิธีอ่านและเขียนข้อมูลด้วย PySpark
แผ่นโกง PySpark สำหรับวิศวกรข้อมูลมือใหม่
Buddy เป็นวิศวกรข้อมูลมือใหม่ที่เพิ่งพบกับ Spark ซึ่งเป็นเฟรมเวิร์กการประมวลผลข้อมูลขนาดใหญ่ยอดนิยม
เมื่อพิจารณาถึงข้อเท็จจริงที่ว่า Spark ได้รับการผสานรวมเข้ากับแพลตฟอร์มข้อมูลบนคลาวด์อย่าง Azure, AWS และ GCP Buddy ได้อย่างราบรื่น ตอนนี้ได้ตระหนักถึงความแน่นอนที่มีอยู่แล้ว สิ่งนี้ได้ผลักดัน Buddy ให้เริ่มต้นการเดินทาง Spark ของเขาอย่างรวดเร็ว โดยจัดการกับแบบฝึกหัดที่ไม่สำคัญที่สุดในวงจรชีวิตการประมวลผลข้อมูลขนาดใหญ่ -..
คำถามในหัวข้อ 'pyspark'
pySpark ค้นหาค่ามัธยฐานแบบกระจายหรือไม่
เป็นไปได้ไหมที่จะหาค่ามัธยฐานของประกายไฟแบบกระจาย? ขณะนี้ฉันกำลังค้นหา: Sum , Average , Variance , Count โดยใช้รหัสต่อไปนี้:
dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\...
1914 มุมมอง
schedule
01.11.2023
ปัญหา PySpark สตรีมมิ่งจาก Kafka
ฉันพยายามเชื่อมต่อกับสตรีม kafka(0.9.0) ผ่าน pyspark สำหรับหนึ่งในแอปพลิเคชันของฉัน ประสบปัญหาดังต่อไปนี้:
ขั้นตอนที่ดำเนินการ
เริ่มคาฟคาโดยใช้คำสั่งต่อไปนี้
bin/zookeeper-server-start.sh config/zookeeper.properties...
465 มุมมอง
schedule
04.11.2023
ไม่พบล่าม pyspark ใน apache zeppelin
ฉันมีปัญหากับการใช้ pyspark ในโน้ตบุ๊ก Apache-Zeppelin (เวอร์ชัน 0.6.0) การรันโค้ดง่ายๆ ต่อไปนี้ทำให้ฉันมีข้อผิดพลาด pyspark interpreter not found
%pyspark
a = 1+3
การรัน sc.version ทำให้ฉัน res2: String = 1.6.0 ซึ่งเป็นเวอร์ชันของ...
5747 มุมมอง
schedule
25.11.2023
แปลง Dense Vector เป็น Sparse Vector ใน PySpark
มีวิธีสร้างเวกเตอร์กระจัดกระจายจากเวกเตอร์หนาแน่นใน PySpark หรือไม่? วิธีที่ฉันทำมีดังต่อไปนี้:
Vectors.sparse(len(denseVector), [(i,j) for i,j in enumerate(denseVector) if j != 0 ])
ซึ่งเป็นไปตามรูปแบบ [ขนาด (ดัชนี ข้อมูล)]...
2921 มุมมอง
schedule
12.12.2023
คอลัมน์ PySpark ผูกอย่างชาญฉลาด
มีวิธีใดใน PySpark ที่จะเชื่อมโยงสองเฟรมข้อมูลเหมือนกับที่เราทำ cbind ใน r หรือไม่?
ตัวอย่าง:
Data frame 1 มี 10 คอลัมน์
Data frame 2 มี 1 คอลัมน์
ฉันต้องรวมทั้ง data frame และสร้างเป็น data frame เดียวใน PySpark
3102 มุมมอง
schedule
21.01.2024
ลดรายการคำ นับสิ่งอันดับจนถึงคีย์รวม
ฉันกำลังพยายามใช้ตัวอย่างการนับจำนวนคำ Spark และจำนวนคำรวมด้วยค่าอื่น ๆ (เช่น คำและการนับตามบุคคลที่บุคคลคือ "VI" หรือ "MO" ในกรณีด้านล่าง)
ฉันมี rdd ซึ่งเป็นรายการสิ่งอันดับที่มีค่าเป็นรายการสิ่งอันดับ:
from operator import add
reduced_tokens...
1473 มุมมอง
schedule
15.01.2024
การใช้วัตถุ Python แบบกำหนดเองใน Pyspark UDF
เมื่อรันโค้ด PySpark ส่วนต่อไปนี้:
nlp = NLPFunctions()
def parse_ingredients(ingredient_lines):
parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0]
return list(chain.from_iterable(parsed_ingredients))...
5581 มุมมอง
schedule
11.11.2023
ฉันจะเชื่อมต่อกับไฮฟ์โดยใช้ pyspark ได้อย่างไร
ฉันกำลังพยายามสร้างตารางใน HIVE แต่กำลังสร้างโฟลเดอร์เช่น testdb.db ภายในโฟลเดอร์ spark-warehouse ฉันจะจัดเก็บโดยตรงใน HIVE ได้อย่างไรในขณะที่เราจัดเก็บไว้ในฐานข้อมูล MySQL/MongoDB
conf = SparkConf().setAppName("data_import")
sc =...
1699 มุมมอง
schedule
22.11.2023
กรองแต่คงแถวว่างไว้
ฉันมี dataframe ที่หลอมละลายซึ่งมีลักษณะดังนี้:
# +---+--------+----------+
# | id| c_type|c_type_val|
# +---+--------+----------+
# | 1|c_type_1| null|
# | 1|c_type_2| null|
# | 1|c_type_3| r|
# | 2|c_type_1| a|
# |...
20 มุมมอง
schedule
27.11.2023
Elasticsearch Spark จะสืบค้นหลายครั้งได้อย่างไร
ฉันอยู่ในสมุดบันทึกของ jupyter
ฉันต้องการใช้ dsl แบบสอบถามเพื่อเตรียม Dataframe เริ่มต้น
ฉันใช้ conf.set("es.query", dsl_query) เพื่อสิ่งนั้น ( https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html#_querying )...
236 มุมมอง
schedule
23.12.2023
จะเพิ่มเนื้อหารายการทั้งหมดลงในแถว Pyspark Dataframe ได้อย่างไร
ฉันกำลังสร้าง pyspark dataframe ใหม่จากรายการสตริง รหัสของฉันควรมีลักษณะอย่างไร
นี่คือรายการของฉัน: ['there', 'is', 'one', 'that', 'commands'] และนี่คือสิ่งที่ฉันต้องการในอุดมคติ:
คำ(ส่วนหัว)
แถวที่ 1: ['there', 'is', 'one', 'that',...
64 มุมมอง
schedule
26.12.2023
ข้อผิดพลาด FATAL ของ Intel MKL คืออะไร: ไม่สามารถโหลด libmkl_core.dylib ได้ ในขณะที่ใช้งาน pyspark ใน MacOs?
ติดตั้ง Pyspark ใน Mac ของฉันแล้ว ฉันได้รับข้อผิดพลาดนี้ขณะพยายามเรียกใช้ Pyspark จากบรรทัดคำสั่ง
ฉันกำลังติดตั้ง Pyspark โดยใช้ homebrew และทำตามคำแนะนำในบล็อกนี้ (...
6598 มุมมอง
schedule
22.11.2023
รวมหลาย dataframes ที่ส่งออกผ่านฟังก์ชัน FOR loop ให้เป็น dataframe เดียว
ฉันมีฟังก์ชัน FOR loop ที่วนซ้ำรายการตารางและคอลัมน์ (zip) เพื่อรับค่าต่ำสุดและสูงสุด เอาต์พุตจะถูกแยกออกจากกันสำหรับแต่ละชุดค่าผสม แทนที่จะเป็นหนึ่งดาต้าเฟรม/ตารางเดียว มีวิธีรวมผลลัพธ์ของ FOR loop ให้เป็นเอาต์พุตสุดท้ายภายในฟังก์ชันหรือไม่?...
1974 มุมมอง
schedule
14.11.2023
Pyspark ไม่สนใจการกรอง dataframe ภายใน pyspark-sql-functions
สวัสดีตอนเช้า,
ฉันมีคำถามเกี่ยวกับรหัส pyspark สมมติว่าเรามี dataframe เช่นนี้:
+---------+--------+-------+--------+
| p_key_1 | p_key_2| status| value_1|
+---------+--------+-------+--------+
| 13| 42| True| 33|
| 13|...
98 มุมมอง
schedule
05.12.2023
แยกปีจาก Date ใน Pyspark dataframe
ฉันมีกรอบข้อมูล Pyspark ที่มีคอลัมน์วันที่ "วันที่รายงาน" (ประเภท: สตริง) ฉันต้องการนับจำนวนคอลัมน์อื่นหลังจากแยกปีออกจากวันที่
ฉันสามารถรับการนับได้หากฉันใช้คอลัมน์วันที่ของสตริง
crimeFile_date.groupBy("Reported Date").sum("Offence...
8155 มุมมอง
schedule
16.12.2023
แปลงสคีมาของ Spark DataFrame เป็น DataFrame อื่น
ฉันมี Spark DataFrame บน PySpark และฉันต้องการจัดเก็บสคีมาของมันไว้ใน Spark DataFrame อื่น
ตัวอย่างเช่น: ฉันมีตัวอย่าง DataFrame df ที่มีลักษณะดังนี้ -
+---+-------------------+
| id| v|
+---+-------------------+
| 0|...
669 มุมมอง
schedule
16.01.2024
ค่าคีย์สูงสุดในการดำเนินการตาม rdd ใน pyspark
ฉันยังใหม่ต่อการดำเนินการตาม rdd ฉันกำลังพยายามทำความเข้าใจคีย์-ค่าสูงสุด ฉันมี rdd เช่นนี้:
RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)])
ฉันต้องหาองค์ประกอบที่ 2...
21 มุมมอง
schedule
08.12.2023
เลือกสิ้นเดือนและทำให้เป็นสตริงใน pyspark
ฉันต้องการสร้างลูปใน pyspark โดยที่ฉันให้เวลาหนึ่งเดือนและควรเลือกตาราง ณ สิ้นเดือนและสิ้นเดือนของเดือนก่อนหน้า การเลือกเดือนทำด้วยสตริง ดังนั้นฉันจึงให้ '201901' และควรเลือก '20190131' และ '20181231'...
98 มุมมอง
schedule
06.11.2023
สร้างเวกเตอร์กระจัดกระจายว่างใน PySpark
ฉันมี dataframe DF1 ที่มีลักษณะดังนี้:
+-------+------+
|user_id|meta |
+-------+------+
| 1| null|
| 11| null|
| 15| null|
+-------+------+
สคีมา:
root
|-- user_id: string (nullable = true)
|-- meta: string (nullable =...
150 มุมมอง
schedule
11.12.2023
คอลัมน์ Pyspark DataFrame ตามค่า DataFrame อื่น
ฉันมี DataFrames สองอัน:
df1=
+---+----------+
| id|filter |
+---+----------+
| 1| YES|
| 2| NO|
| 3| NO|
+---+----------+
df2 =
+--------------------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
|...
505 มุมมอง
schedule
29.11.2023