สิ่งตีพิมพ์ในหัวข้อ 'apache-spark'
AutoML บน Apache PredictionIO พร้อม TransmogrifAI
Apache PredictionIO เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพ่นซอร์สซึ่งสนับสนุนให้กับ Apache Software Foundation โดย Salesforce
PredictionIO ครอบคลุมกระบวนการทั้งหมดของเวิร์กโฟลว์แมชชีนเลิร์นนิง และคุณสมบัติที่สำคัญที่สุดคือระบบเทมเพลตกลไก ทำให้สามารถเปิดใช้ Predict Web API ได้อย่างง่ายดายตามเทมเพลตกลไก มีเทมเพลตกลไกที่พร้อมใช้งานมากมาย ดังนั้นเราจึงสามารถเลือกเทมเพลตที่ดีที่สุดสำหรับวัตถุประสงค์ของเราได้ อย่างไรก็ตาม เทมเพลตกลไกเป็นเพียงจุดเริ่มต้นเท่านั้น..
คำถามในหัวข้อ 'apache-spark'
เปลี่ยน IP ที่ถูกผูกไว้ที่ทำงานบนพอร์ต 7077 - Apache Spark
สามารถกำหนดค่า Spark เพื่อให้สามารถผูกเข้ากับที่อยู่ 127.0.1.1 สำหรับพอร์ต 7077 แทนการเชื่อมโยงกับ 0.0.0.0 แทนได้ เช่นเดียวกับพอร์ต 8080 ที่ถูกผูกไว้:
netstat -pln
(Not all processes could be identified, non-owned process info
will not be shown,...
4110 มุมมอง
schedule
24.10.2023
pySpark ค้นหาค่ามัธยฐานแบบกระจายหรือไม่
เป็นไปได้ไหมที่จะหาค่ามัธยฐานของประกายไฟแบบกระจาย? ขณะนี้ฉันกำลังค้นหา: Sum , Average , Variance , Count โดยใช้รหัสต่อไปนี้:
dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\...
1914 มุมมอง
schedule
01.11.2023
การเลือกคอลัมน์ที่ต้องการหลายคอลัมน์จากอาร์เรย์ Scala โดยใช้ map ()
ฉันยังใหม่กับ Scala (และ Spark) ฉันกำลังพยายามอ่านในไฟล์ csv และแยกคอลัมน์หลายคอลัมน์ออกจากข้อมูล ฟังก์ชันต่อไปนี้ทำเช่นนี้ แต่มีดัชนีคอลัมน์แบบฮาร์ดโค้ด:
def readCSV(filename: String, sc: SparkContext): RDD[String] = {
val input =...
830 มุมมอง
schedule
05.01.2024
ปัญหา PySpark สตรีมมิ่งจาก Kafka
ฉันพยายามเชื่อมต่อกับสตรีม kafka(0.9.0) ผ่าน pyspark สำหรับหนึ่งในแอปพลิเคชันของฉัน ประสบปัญหาดังต่อไปนี้:
ขั้นตอนที่ดำเนินการ
เริ่มคาฟคาโดยใช้คำสั่งต่อไปนี้
bin/zookeeper-server-start.sh config/zookeeper.properties...
465 มุมมอง
schedule
04.11.2023
งาน SparkR หมดเวลา 100 นาที
ฉันได้เขียนสคริปต์ sparkR ที่ซับซ้อนเล็กน้อยแล้วรันโดยใช้ spark-submit โดยทั่วไปสคริปต์ทำอะไรคืออ่านตารางไม้ปาร์เก้ไฮฟ์/อิมพาลาขนาดใหญ่ทีละแถวและสร้างไฟล์ไม้ปาร์เก้ใหม่ที่มีจำนวนแถวเท่ากัน แต่ดูเหมือนว่างานจะหยุดหลังจากผ่านไปประมาณ 100 นาที...
1517 มุมมอง
schedule
11.11.2023
คำถามเกี่ยวกับการออกแบบ Spark Streaming
ฉันเป็นคนใหม่ในจุดประกาย ฉันต้องการตั้งค่าการสตรีมแบบ Spark เพื่อดึงคู่ค่าคีย์ของไฟล์รูปแบบด้านล่าง:
ไฟล์: info1
หมายเหตุ: แต่ละไฟล์ข้อมูลจะมีบันทึกเหล่านี้ประมาณ 1,000 รายการ และระบบของเรากำลังสร้างไฟล์ข้อมูลเหล่านี้อย่างต่อเนื่อง...
80 มุมมอง
schedule
18.01.2024
การสะท้อน Scala พร้อมการทำให้เป็นอนุกรม (บน Spark) - สัญลักษณ์ไม่สามารถทำให้เป็นอนุกรมได้
เริ่มต้นด้วยฉันใช้ scala 2.10.4 และตัวอย่างด้านบนทำงานใน Spark 1.6 (แม้ว่าฉันจะสงสัยว่า Spark มีส่วนเกี่ยวข้องกับสิ่งนี้ แต่ก็เป็นเพียงปัญหาการทำให้เป็นอนุกรม)
นี่คือปัญหาของฉัน: สมมติว่าฉันมีลักษณะ Base ที่นำไปใช้โดยบอกว่ามีสองคลาส B1 และ B2...
1322 มุมมอง
schedule
18.12.2023
การตั้งค่า spark storageFraction ไม่มีผลใดๆ มันไม่ผิดพลาดกับคุณค่าไร้สาระด้วยซ้ำ
ฉันกำลังพยายามเปลี่ยนตัวแปรสภาพแวดล้อม spark "spark.memory.storageFraction" ฉันได้ลองทำสิ่งนี้ด้วยวิธีต่างๆ:
เป็นพารามิเตอร์ของคำสั่ง spark-submit ของฉัน
บันทึกในไฟล์กำหนดค่าที่ฉันแนบไปกับ spark-submit
ในโค้ดสกาล่าผ่าน...
152 มุมมอง
schedule
14.11.2023
Spark อ่านไฟล์ CSV ClassCastException
ฉันเริ่ม Spark 1.6.1 เช่นนี้:
./pyspark --master local[4] --packages com.databricks:spark-csv_2.10:1.0.3
ฉันสามารถโหลดไฟล์ CSV ได้โดยไม่มีข้อผิดพลาดเช่นนี้:
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true',...
428 มุมมอง
schedule
05.11.2023
เกิดข้อผิดพลาดขณะเรียกใช้ spark-shell บน windows
ฉันกำลังพยายามติดตั้ง apache spark บน windows โดยใช้ขั้นตอนที่ให้ไว้ใน โพสต์ในบล็อกนี้
อย่างไรก็ตาม ฉันได้รับคำเตือนและข้อผิดพลาดมากมายดังที่แสดงด้านล่าง:
C:\setups\spark-1.6.1-bin-hadoop2.6\bin>spark-shell
log4j:WARN No appenders could be...
879 มุมมอง
schedule
10.12.2023
การส่งงานไปยังเซิร์ฟเวอร์ Apache Spark ระยะไกล
Apache Spark (v1.6.1) เริ่มต้นเป็นบริการบนเครื่อง Ubuntu (10.10.0.102) โดยใช้ ./start-all.sh
ตอนนี้จำเป็นต้องส่งงานไปยังเซิร์ฟเวอร์นี้จากระยะไกลโดยใช้ Java API
ต่อไปนี้เป็นโค้ดไคลเอ็นต์ Java ที่ทำงานจากเครื่องอื่น (10.10.0.95)
String...
821 มุมมอง
schedule
26.10.2023
ไม่พบล่าม pyspark ใน apache zeppelin
ฉันมีปัญหากับการใช้ pyspark ในโน้ตบุ๊ก Apache-Zeppelin (เวอร์ชัน 0.6.0) การรันโค้ดง่ายๆ ต่อไปนี้ทำให้ฉันมีข้อผิดพลาด pyspark interpreter not found
%pyspark
a = 1+3
การรัน sc.version ทำให้ฉัน res2: String = 1.6.0 ซึ่งเป็นเวอร์ชันของ...
5747 มุมมอง
schedule
25.11.2023
เข้าร่วม DataFrames สองอันใน Spark SQL และเลือกคอลัมน์เดียวเท่านั้น
ฉันมี DataFrames สองอันใน Spark SQL ( D1 และ D2 )
ฉันกำลังพยายามรวมทั้งสองอย่างเข้าด้วยกัน D1.join(D2, "some column") และรับข้อมูลกลับ เฉพาะ D1 เท่านั้น ไม่ใช่ชุดข้อมูลทั้งหมด
ทั้ง D1 และ D2 มีคอลัมน์เดียวกัน...
46546 มุมมอง
schedule
13.11.2023
รันงาน Spark หลายงานบนคลัสเตอร์ Mesos
ฉันต้องการเรียกใช้งาน Spark หลายรายการบนคลัสเตอร์ Mesos ของฉัน และให้งาน Spark ทั้งหมดใช้เฟรมเวิร์ก Spark เดียวกัน เป็นไปได้ไหม? ฉันได้ลองใช้ MesosClusterDispatcher แล้วและให้งาน Spark เชื่อมต่อกับโปรแกรมเลือกจ่ายงาน แต่งาน Spark แต่ละงานจะเปิดตัว...
186 มุมมอง
schedule
27.12.2023
ไม่สามารถรวบรวมข้อมูลจากชุดข้อมูล / dataframe ใน Spark 2.0.1; รับ ClassCastException
ฉันมีข้อมูล json บางส่วนที่เป็นคู่ของค่าคีย์โดยมี int เป็นคีย์และรายการ ints เป็นค่า ฉันต้องการอ่านข้อมูลนี้ลงในแผนที่แล้วออกอากาศเพื่อให้ RDD อื่นนำไปใช้ในการค้นหาอย่างรวดเร็ว
ฉันมีโค้ดที่ทำงานกับคลัสเตอร์ Spark 1.6.1 ที่อยู่ในศูนย์ข้อมูล...
992 มุมมอง
schedule
05.01.2024
MongoDB Spark Connector - การรวมตัวช้า
ฉันกำลังใช้งานไปป์ไลน์การรวมกลุ่มเดียวกันกับแอปพลิเคชัน Spark และบนคอนโซล Mongos บนคอนโซล ข้อมูลจะถูกดึงออกมาภายในพริบตา และจำเป็นต้องใช้ "it" เพียงครั้งเดียวเพื่อดึงข้อมูลที่คาดหวังทั้งหมด อย่างไรก็ตาม แอปพลิเคชัน Spark ใช้เวลาเกือบสองนาทีตาม Spark...
2788 มุมมอง
schedule
28.12.2023
Spark Streaming + Kinesis: ตัวรับ MaxRate ถูกละเมิด
ฉันกำลังเรียก spark-submit ผ่าน maxRate ฉันมีตัวรับ kinesis ตัวเดียวและแบตช์ 1 วินาที
spark-submit --conf spark.streaming.receiver.maxRate=10 ....
อย่างไรก็ตาม ชุดเดียวสามารถเกินอัตราสูงสุดที่กำหนดไว้ได้อย่างมาก เช่น: ฉันได้รับ 300 บันทึก...
479 มุมมอง
schedule
21.11.2023
SBT ในเฟรมกราฟ Apache-Spark
ฉันมีไฟล์ SBT ต่อไปนี้ ฉันกำลังรวบรวมรหัส Scala โดยใช้ Apache GraphFrame และอ่านไฟล์ CSV ด้วย
name := "Simple"
version := "1.0"
scalaVersion := "2.10.5"
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "1.6.1",
"graphframes"...
2727 มุมมอง
schedule
18.11.2023
ข้อความค้นหาจาก Spark hivecontext จะล็อคตารางไฮฟ์หรือไม่
ฉันรู้ว่าถ้าฉันส่งแบบสอบถามจาก Hive จะได้รับล็อคที่ใช้ร่วมกัน จากนั้นตารางไฮฟ์จะถูกล็อคโดยแบบสอบถาม: https://cwiki.apache.org/confluence/display/Hive/Locking
ดังนั้นฉันแค่สงสัยว่าแบบสอบถามนั้นดำเนินการโดย Spark Hivecontext หรือไม่...
1451 มุมมอง
schedule
27.11.2023
Spark Scala Split DataFrame ตามช่วงค่าบางช่วง
สมมติว่าฉันมี dataframe ที่มีคอลัมน์ชื่อ x โดยมีช่วงค่าเป็น [0, 1] ฉันหวังว่าจะแบ่งตามค่าของคอลัมน์ x โดยมีช่วงเช่น [0, 0.1) , [0.1, 0.2) ... [0.9, 1] มีวิธีที่ดีและรวดเร็วในการทำเช่นนั้นหรือไม่? ฉันใช้ Spark 2 ใน Scala
อัปเดต:...
1993 มุมมอง
schedule
20.01.2024