สิ่งตีพิมพ์ในหัวข้อ 'apache-spark'


AutoML บน Apache PredictionIO พร้อม TransmogrifAI
Apache PredictionIO เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพ่นซอร์สซึ่งสนับสนุนให้กับ Apache Software Foundation โดย Salesforce PredictionIO ครอบคลุมกระบวนการทั้งหมดของเวิร์กโฟลว์แมชชีนเลิร์นนิง และคุณสมบัติที่สำคัญที่สุดคือระบบเทมเพลตกลไก ทำให้สามารถเปิดใช้ Predict Web API ได้อย่างง่ายดายตามเทมเพลตกลไก มีเทมเพลตกลไกที่พร้อมใช้งานมากมาย ดังนั้นเราจึงสามารถเลือกเทมเพลตที่ดีที่สุดสำหรับวัตถุประสงค์ของเราได้ อย่างไรก็ตาม เทมเพลตกลไกเป็นเพียงจุดเริ่มต้นเท่านั้น..

คำถามในหัวข้อ 'apache-spark'

เปลี่ยน IP ที่ถูกผูกไว้ที่ทำงานบนพอร์ต 7077 - Apache Spark
สามารถกำหนดค่า Spark เพื่อให้สามารถผูกเข้ากับที่อยู่ 127.0.1.1 สำหรับพอร์ต 7077 แทนการเชื่อมโยงกับ 0.0.0.0 แทนได้ เช่นเดียวกับพอร์ต 8080 ที่ถูกผูกไว้: netstat -pln (Not all processes could be identified, non-owned process info will not be shown,...
4110 มุมมอง

pySpark ค้นหาค่ามัธยฐานแบบกระจายหรือไม่
เป็นไปได้ไหมที่จะหาค่ามัธยฐานของประกายไฟแบบกระจาย? ขณะนี้ฉันกำลังค้นหา: Sum , Average , Variance , Count โดยใช้รหัสต่อไปนี้: dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\...
1914 มุมมอง
schedule 01.11.2023

การเลือกคอลัมน์ที่ต้องการหลายคอลัมน์จากอาร์เรย์ Scala โดยใช้ map ()
ฉันยังใหม่กับ Scala (และ Spark) ฉันกำลังพยายามอ่านในไฟล์ csv และแยกคอลัมน์หลายคอลัมน์ออกจากข้อมูล ฟังก์ชันต่อไปนี้ทำเช่นนี้ แต่มีดัชนีคอลัมน์แบบฮาร์ดโค้ด: def readCSV(filename: String, sc: SparkContext): RDD[String] = { val input =...
830 มุมมอง
schedule 05.01.2024

ปัญหา PySpark สตรีมมิ่งจาก Kafka
ฉันพยายามเชื่อมต่อกับสตรีม kafka(0.9.0) ผ่าน pyspark สำหรับหนึ่งในแอปพลิเคชันของฉัน ประสบปัญหาดังต่อไปนี้: ขั้นตอนที่ดำเนินการ เริ่มคาฟคาโดยใช้คำสั่งต่อไปนี้ bin/zookeeper-server-start.sh config/zookeeper.properties...
465 มุมมอง

งาน SparkR หมดเวลา 100 นาที
ฉันได้เขียนสคริปต์ sparkR ที่ซับซ้อนเล็กน้อยแล้วรันโดยใช้ spark-submit โดยทั่วไปสคริปต์ทำอะไรคืออ่านตารางไม้ปาร์เก้ไฮฟ์/อิมพาลาขนาดใหญ่ทีละแถวและสร้างไฟล์ไม้ปาร์เก้ใหม่ที่มีจำนวนแถวเท่ากัน แต่ดูเหมือนว่างานจะหยุดหลังจากผ่านไปประมาณ 100 นาที...
1517 มุมมอง
schedule 11.11.2023

คำถามเกี่ยวกับการออกแบบ Spark Streaming
ฉันเป็นคนใหม่ในจุดประกาย ฉันต้องการตั้งค่าการสตรีมแบบ Spark เพื่อดึงคู่ค่าคีย์ของไฟล์รูปแบบด้านล่าง: ไฟล์: info1 หมายเหตุ: แต่ละไฟล์ข้อมูลจะมีบันทึกเหล่านี้ประมาณ 1,000 รายการ และระบบของเรากำลังสร้างไฟล์ข้อมูลเหล่านี้อย่างต่อเนื่อง...
80 มุมมอง
schedule 18.01.2024

การสะท้อน Scala พร้อมการทำให้เป็นอนุกรม (บน Spark) - สัญลักษณ์ไม่สามารถทำให้เป็นอนุกรมได้
เริ่มต้นด้วยฉันใช้ scala 2.10.4 และตัวอย่างด้านบนทำงานใน Spark 1.6 (แม้ว่าฉันจะสงสัยว่า Spark มีส่วนเกี่ยวข้องกับสิ่งนี้ แต่ก็เป็นเพียงปัญหาการทำให้เป็นอนุกรม) นี่คือปัญหาของฉัน: สมมติว่าฉันมีลักษณะ Base ที่นำไปใช้โดยบอกว่ามีสองคลาส B1 และ B2...
1322 มุมมอง

การตั้งค่า spark storageFraction ไม่มีผลใดๆ มันไม่ผิดพลาดกับคุณค่าไร้สาระด้วยซ้ำ
ฉันกำลังพยายามเปลี่ยนตัวแปรสภาพแวดล้อม spark "spark.memory.storageFraction" ฉันได้ลองทำสิ่งนี้ด้วยวิธีต่างๆ: เป็นพารามิเตอร์ของคำสั่ง spark-submit ของฉัน บันทึกในไฟล์กำหนดค่าที่ฉันแนบไปกับ spark-submit ในโค้ดสกาล่าผ่าน...
152 มุมมอง

Spark อ่านไฟล์ CSV ClassCastException
ฉันเริ่ม Spark 1.6.1 เช่นนี้: ./pyspark --master local[4] --packages com.databricks:spark-csv_2.10:1.0.3 ฉันสามารถโหลดไฟล์ CSV ได้โดยไม่มีข้อผิดพลาดเช่นนี้: df = sqlContext.read.format('com.databricks.spark.csv').options(header='true',...
428 มุมมอง
schedule 05.11.2023

เกิดข้อผิดพลาดขณะเรียกใช้ spark-shell บน windows
ฉันกำลังพยายามติดตั้ง apache spark บน windows โดยใช้ขั้นตอนที่ให้ไว้ใน โพสต์ในบล็อกนี้ อย่างไรก็ตาม ฉันได้รับคำเตือนและข้อผิดพลาดมากมายดังที่แสดงด้านล่าง: C:\setups\spark-1.6.1-bin-hadoop2.6\bin>spark-shell log4j:WARN No appenders could be...
879 มุมมอง
schedule 10.12.2023

การส่งงานไปยังเซิร์ฟเวอร์ Apache Spark ระยะไกล
Apache Spark (v1.6.1) เริ่มต้นเป็นบริการบนเครื่อง Ubuntu (10.10.0.102) โดยใช้ ./start-all.sh ตอนนี้จำเป็นต้องส่งงานไปยังเซิร์ฟเวอร์นี้จากระยะไกลโดยใช้ Java API ต่อไปนี้เป็นโค้ดไคลเอ็นต์ Java ที่ทำงานจากเครื่องอื่น (10.10.0.95) String...
821 มุมมอง
schedule 26.10.2023

ไม่พบล่าม pyspark ใน apache zeppelin
ฉันมีปัญหากับการใช้ pyspark ในโน้ตบุ๊ก Apache-Zeppelin (เวอร์ชัน 0.6.0) การรันโค้ดง่ายๆ ต่อไปนี้ทำให้ฉันมีข้อผิดพลาด pyspark interpreter not found %pyspark a = 1+3 การรัน sc.version ทำให้ฉัน res2: String = 1.6.0 ซึ่งเป็นเวอร์ชันของ...
5747 มุมมอง

เข้าร่วม DataFrames สองอันใน Spark SQL และเลือกคอลัมน์เดียวเท่านั้น
ฉันมี DataFrames สองอันใน Spark SQL ( D1 และ D2 ) ฉันกำลังพยายามรวมทั้งสองอย่างเข้าด้วยกัน D1.join(D2, "some column") และรับข้อมูลกลับ เฉพาะ D1 เท่านั้น ไม่ใช่ชุดข้อมูลทั้งหมด ทั้ง D1 และ D2 มีคอลัมน์เดียวกัน...
46546 มุมมอง
schedule 13.11.2023

รันงาน Spark หลายงานบนคลัสเตอร์ Mesos
ฉันต้องการเรียกใช้งาน Spark หลายรายการบนคลัสเตอร์ Mesos ของฉัน และให้งาน Spark ทั้งหมดใช้เฟรมเวิร์ก Spark เดียวกัน เป็นไปได้ไหม? ฉันได้ลองใช้ MesosClusterDispatcher แล้วและให้งาน Spark เชื่อมต่อกับโปรแกรมเลือกจ่ายงาน แต่งาน Spark แต่ละงานจะเปิดตัว...
186 มุมมอง
schedule 27.12.2023

ไม่สามารถรวบรวมข้อมูลจากชุดข้อมูล / dataframe ใน Spark 2.0.1; รับ ClassCastException
ฉันมีข้อมูล json บางส่วนที่เป็นคู่ของค่าคีย์โดยมี int เป็นคีย์และรายการ ints เป็นค่า ฉันต้องการอ่านข้อมูลนี้ลงในแผนที่แล้วออกอากาศเพื่อให้ RDD อื่นนำไปใช้ในการค้นหาอย่างรวดเร็ว ฉันมีโค้ดที่ทำงานกับคลัสเตอร์ Spark 1.6.1 ที่อยู่ในศูนย์ข้อมูล...
992 มุมมอง
schedule 05.01.2024

MongoDB Spark Connector - การรวมตัวช้า
ฉันกำลังใช้งานไปป์ไลน์การรวมกลุ่มเดียวกันกับแอปพลิเคชัน Spark และบนคอนโซล Mongos บนคอนโซล ข้อมูลจะถูกดึงออกมาภายในพริบตา และจำเป็นต้องใช้ "it" เพียงครั้งเดียวเพื่อดึงข้อมูลที่คาดหวังทั้งหมด อย่างไรก็ตาม แอปพลิเคชัน Spark ใช้เวลาเกือบสองนาทีตาม Spark...
2788 มุมมอง

Spark Streaming + Kinesis: ตัวรับ MaxRate ถูกละเมิด
ฉันกำลังเรียก spark-submit ผ่าน maxRate ฉันมีตัวรับ kinesis ตัวเดียวและแบตช์ 1 วินาที spark-submit --conf spark.streaming.receiver.maxRate=10 .... อย่างไรก็ตาม ชุดเดียวสามารถเกินอัตราสูงสุดที่กำหนดไว้ได้อย่างมาก เช่น: ฉันได้รับ 300 บันทึก...
479 มุมมอง

SBT ในเฟรมกราฟ Apache-Spark
ฉันมีไฟล์ SBT ต่อไปนี้ ฉันกำลังรวบรวมรหัส Scala โดยใช้ Apache GraphFrame และอ่านไฟล์ CSV ด้วย name := "Simple" version := "1.0" scalaVersion := "2.10.5" libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "1.6.1", "graphframes"...
2727 มุมมอง
schedule 18.11.2023

ข้อความค้นหาจาก Spark hivecontext จะล็อคตารางไฮฟ์หรือไม่
ฉันรู้ว่าถ้าฉันส่งแบบสอบถามจาก Hive จะได้รับล็อคที่ใช้ร่วมกัน จากนั้นตารางไฮฟ์จะถูกล็อคโดยแบบสอบถาม: https://cwiki.apache.org/confluence/display/Hive/Locking ดังนั้นฉันแค่สงสัยว่าแบบสอบถามนั้นดำเนินการโดย Spark Hivecontext หรือไม่...
1451 มุมมอง
schedule 27.11.2023

Spark Scala Split DataFrame ตามช่วงค่าบางช่วง
สมมติว่าฉันมี dataframe ที่มีคอลัมน์ชื่อ x โดยมีช่วงค่าเป็น [0, 1] ฉันหวังว่าจะแบ่งตามค่าของคอลัมน์ x โดยมีช่วงเช่น [0, 0.1) , [0.1, 0.2) ... [0.9, 1] มีวิธีที่ดีและรวดเร็วในการทำเช่นนั้นหรือไม่? ฉันใช้ Spark 2 ใน Scala อัปเดต:...
1993 มุมมอง