สิ่งพิมพ์ตามแท็ก apache-spark

สิ่งตีพิมพ์ในหัวข้อ 'apache-spark'

AutoML บน Apache PredictionIO พร้อม TransmogrifAI

Apache PredictionIO เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพ่นซอร์สซึ่งสนับสนุนให้กับ Apache Software Foundation โดย Salesforce PredictionIO ครอบคลุมกระบวนการทั้งหมดของเวิร์กโฟลว์แมชชีนเลิร์นนิง และคุณสมบัติที่สำคัญที่สุดคือระบบเทมเพลตกลไก ทำให้สามารถเปิดใช้ Predict Web API ได้อย่างง่ายดายตามเทมเพลตกลไก มีเทมเพลตกลไกที่พร้อมใช้งานมากมาย ดังนั้นเราจึงสามารถเลือกเทมเพลตที่ดีที่สุดสำหรับวัตถุประสงค์ของเราได้ อย่างไรก็ตาม เทมเพลตกลไกเป็นเพียงจุดเริ่มต้นเท่านั้น..

คำถามในหัวข้อ 'apache-spark'

เปลี่ยน IP ที่ถูกผูกไว้ที่ทำงานบนพอร์ต 7077 - Apache Spark

สามารถกำหนดค่า Spark เพื่อให้สามารถผูกเข้ากับที่อยู่ 127.0.1.1 สำหรับพอร์ต 7077 แทนการเชื่อมโยงกับ 0.0.0.0 แทนได้ เช่นเดียวกับพอร์ต 8080 ที่ถูกผูกไว้: netstat -pln (Not all processes could be identified, non-owned process info will not be shown,...

4110 มุมมอง

24.10.2023

pySpark ค้นหาค่ามัธยฐานแบบกระจายหรือไม่

เป็นไปได้ไหมที่จะหาค่ามัธยฐานของประกายไฟแบบกระจาย? ขณะนี้ฉันกำลังค้นหา: Sum , Average , Variance , Count โดยใช้รหัสต่อไปนี้: dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\...

1914 มุมมอง

apache-spark pyspark

01.11.2023

การเลือกคอลัมน์ที่ต้องการหลายคอลัมน์จากอาร์เรย์ Scala โดยใช้ map ()

ฉันยังใหม่กับ Scala (และ Spark) ฉันกำลังพยายามอ่านในไฟล์ csv และแยกคอลัมน์หลายคอลัมน์ออกจากข้อมูล ฟังก์ชันต่อไปนี้ทำเช่นนี้ แต่มีดัชนีคอลัมน์แบบฮาร์ดโค้ด: def readCSV(filename: String, sc: SparkContext): RDD[String] = { val input =...

830 มุมมอง

csv apache-spark scala

05.01.2024

ปัญหา PySpark สตรีมมิ่งจาก Kafka

ฉันพยายามเชื่อมต่อกับสตรีม kafka(0.9.0) ผ่าน pyspark สำหรับหนึ่งในแอปพลิเคชันของฉัน ประสบปัญหาดังต่อไปนี้: ขั้นตอนที่ดำเนินการ เริ่มคาฟคาโดยใช้คำสั่งต่อไปนี้ bin/zookeeper-server-start.sh config/zookeeper.properties...

465 มุมมอง

apache-kafka streaming apache-spark pyspark

04.11.2023

งาน SparkR หมดเวลา 100 นาที

ฉันได้เขียนสคริปต์ sparkR ที่ซับซ้อนเล็กน้อยแล้วรันโดยใช้ spark-submit โดยทั่วไปสคริปต์ทำอะไรคืออ่านตารางไม้ปาร์เก้ไฮฟ์/อิมพาลาขนาดใหญ่ทีละแถวและสร้างไฟล์ไม้ปาร์เก้ใหม่ที่มีจำนวนแถวเท่ากัน แต่ดูเหมือนว่างานจะหยุดหลังจากผ่านไปประมาณ 100 นาที...

1517 มุมมอง

apache-spark hadoop sparkr bigdata

11.11.2023

คำถามเกี่ยวกับการออกแบบ Spark Streaming

ฉันเป็นคนใหม่ในจุดประกาย ฉันต้องการตั้งค่าการสตรีมแบบ Spark เพื่อดึงคู่ค่าคีย์ของไฟล์รูปแบบด้านล่าง: ไฟล์: info1 หมายเหตุ: แต่ละไฟล์ข้อมูลจะมีบันทึกเหล่านี้ประมาณ 1,000 รายการ และระบบของเรากำลังสร้างไฟล์ข้อมูลเหล่านี้อย่างต่อเนื่อง...

80 มุมมอง

apache-spark spark-streaming

18.01.2024

การสะท้อน Scala พร้อมการทำให้เป็นอนุกรม (บน Spark) - สัญลักษณ์ไม่สามารถทำให้เป็นอนุกรมได้

เริ่มต้นด้วยฉันใช้ scala 2.10.4 และตัวอย่างด้านบนทำงานใน Spark 1.6 (แม้ว่าฉันจะสงสัยว่า Spark มีส่วนเกี่ยวข้องกับสิ่งนี้ แต่ก็เป็นเพียงปัญหาการทำให้เป็นอนุกรม) นี่คือปัญหาของฉัน: สมมติว่าฉันมีลักษณะ Base ที่นำไปใช้โดยบอกว่ามีสองคลาส B1 และ B2...

1322 มุมมอง

apache-spark reflection serialization scala

18.12.2023

การตั้งค่า spark storageFraction ไม่มีผลใดๆ มันไม่ผิดพลาดกับคุณค่าไร้สาระด้วยซ้ำ

ฉันกำลังพยายามเปลี่ยนตัวแปรสภาพแวดล้อม spark "spark.memory.storageFraction" ฉันได้ลองทำสิ่งนี้ด้วยวิธีต่างๆ: เป็นพารามิเตอร์ของคำสั่ง spark-submit ของฉัน บันทึกในไฟล์กำหนดค่าที่ฉันแนบไปกับ spark-submit ในโค้ดสกาล่าผ่าน...

152 มุมมอง

configuration caching storage apache-spark memory

14.11.2023

Spark อ่านไฟล์ CSV ClassCastException

ฉันเริ่ม Spark 1.6.1 เช่นนี้: ./pyspark --master local[4] --packages com.databricks:spark-csv_2.10:1.0.3 ฉันสามารถโหลดไฟล์ CSV ได้โดยไม่มีข้อผิดพลาดเช่นนี้: df = sqlContext.read.format('com.databricks.spark.csv').options(header='true',...

428 มุมมอง

apache-spark

05.11.2023

เกิดข้อผิดพลาดขณะเรียกใช้ spark-shell บน windows

ฉันกำลังพยายามติดตั้ง apache spark บน windows โดยใช้ขั้นตอนที่ให้ไว้ใน โพสต์ในบล็อกนี้ อย่างไรก็ตาม ฉันได้รับคำเตือนและข้อผิดพลาดมากมายดังที่แสดงด้านล่าง: C:\setups\spark-1.6.1-bin-hadoop2.6\bin>spark-shell log4j:WARN No appenders could be...

879 มุมมอง

installation apache-spark windows-7

10.12.2023

การส่งงานไปยังเซิร์ฟเวอร์ Apache Spark ระยะไกล

Apache Spark (v1.6.1) เริ่มต้นเป็นบริการบนเครื่อง Ubuntu (10.10.0.102) โดยใช้ ./start-all.sh ตอนนี้จำเป็นต้องส่งงานไปยังเซิร์ฟเวอร์นี้จากระยะไกลโดยใช้ Java API ต่อไปนี้เป็นโค้ดไคลเอ็นต์ Java ที่ทำงานจากเครื่องอื่น (10.10.0.95) String...

821 มุมมอง

java apache-spark apache-spark-sql

26.10.2023

ไม่พบล่าม pyspark ใน apache zeppelin

ฉันมีปัญหากับการใช้ pyspark ในโน้ตบุ๊ก Apache-Zeppelin (เวอร์ชัน 0.6.0) การรันโค้ดง่ายๆ ต่อไปนี้ทำให้ฉันมีข้อผิดพลาด pyspark interpreter not found %pyspark a = 1+3 การรัน sc.version ทำให้ฉัน res2: String = 1.6.0 ซึ่งเป็นเวอร์ชันของ...

5747 มุมมอง

python apache-spark pyspark apache-zeppelin hortonworks-data-platform

25.11.2023

เข้าร่วม DataFrames สองอันใน Spark SQL และเลือกคอลัมน์เดียวเท่านั้น

ฉันมี DataFrames สองอันใน Spark SQL ( D1 และ D2 ) ฉันกำลังพยายามรวมทั้งสองอย่างเข้าด้วยกัน D1.join(D2, "some column") และรับข้อมูลกลับ เฉพาะ D1 เท่านั้น ไม่ใช่ชุดข้อมูลทั้งหมด ทั้ง D1 และ D2 มีคอลัมน์เดียวกัน...

46546 มุมมอง

apache-spark apache-spark-sql scala

13.11.2023

รันงาน Spark หลายงานบนคลัสเตอร์ Mesos

ฉันต้องการเรียกใช้งาน Spark หลายรายการบนคลัสเตอร์ Mesos ของฉัน และให้งาน Spark ทั้งหมดใช้เฟรมเวิร์ก Spark เดียวกัน เป็นไปได้ไหม? ฉันได้ลองใช้ MesosClusterDispatcher แล้วและให้งาน Spark เชื่อมต่อกับโปรแกรมเลือกจ่ายงาน แต่งาน Spark แต่ละงานจะเปิดตัว...

186 มุมมอง

apache-spark mesos

27.12.2023

ไม่สามารถรวบรวมข้อมูลจากชุดข้อมูล / dataframe ใน Spark 2.0.1; รับ ClassCastException

ฉันมีข้อมูล json บางส่วนที่เป็นคู่ของค่าคีย์โดยมี int เป็นคีย์และรายการ ints เป็นค่า ฉันต้องการอ่านข้อมูลนี้ลงในแผนที่แล้วออกอากาศเพื่อให้ RDD อื่นนำไปใช้ในการค้นหาอย่างรวดเร็ว ฉันมีโค้ดที่ทำงานกับคลัสเตอร์ Spark 1.6.1 ที่อยู่ในศูนย์ข้อมูล...

992 มุมมอง

apache-spark scala

05.01.2024

MongoDB Spark Connector - การรวมตัวช้า

ฉันกำลังใช้งานไปป์ไลน์การรวมกลุ่มเดียวกันกับแอปพลิเคชัน Spark และบนคอนโซล Mongos บนคอนโซล ข้อมูลจะถูกดึงออกมาภายในพริบตา และจำเป็นต้องใช้ "it" เพียงครั้งเดียวเพื่อดึงข้อมูลที่คาดหวังทั้งหมด อย่างไรก็ตาม แอปพลิเคชัน Spark ใช้เวลาเกือบสองนาทีตาม Spark...

2788 มุมมอง

mongodb apache-spark mongodb-query mongodb-java

28.12.2023

Spark Streaming + Kinesis: ตัวรับ MaxRate ถูกละเมิด

ฉันกำลังเรียก spark-submit ผ่าน maxRate ฉันมีตัวรับ kinesis ตัวเดียวและแบตช์ 1 วินาที spark-submit --conf spark.streaming.receiver.maxRate=10 .... อย่างไรก็ตาม ชุดเดียวสามารถเกินอัตราสูงสุดที่กำหนดไว้ได้อย่างมาก เช่น: ฉันได้รับ 300 บันทึก...

479 มุมมอง

apache-spark spark-streaming amazon-kinesis

21.11.2023

SBT ในเฟรมกราฟ Apache-Spark

ฉันมีไฟล์ SBT ต่อไปนี้ ฉันกำลังรวบรวมรหัส Scala โดยใช้ Apache GraphFrame และอ่านไฟล์ CSV ด้วย name := "Simple" version := "1.0" scalaVersion := "2.10.5" libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "1.6.1", "graphframes"...

2727 มุมมอง

apache-spark scala sbt graphframes

18.11.2023

ข้อความค้นหาจาก Spark hivecontext จะล็อคตารางไฮฟ์หรือไม่

ฉันรู้ว่าถ้าฉันส่งแบบสอบถามจาก Hive จะได้รับล็อคที่ใช้ร่วมกัน จากนั้นตารางไฮฟ์จะถูกล็อคโดยแบบสอบถาม: https://cwiki.apache.org/confluence/display/Hive/Locking ดังนั้นฉันแค่สงสัยว่าแบบสอบถามนั้นดำเนินการโดย Spark Hivecontext หรือไม่...

1451 มุมมอง

apache-spark hivecontext

27.11.2023

Spark Scala Split DataFrame ตามช่วงค่าบางช่วง

สมมติว่าฉันมี dataframe ที่มีคอลัมน์ชื่อ x โดยมีช่วงค่าเป็น [0, 1] ฉันหวังว่าจะแบ่งตามค่าของคอลัมน์ x โดยมีช่วงเช่น [0, 0.1) , [0.1, 0.2) ... [0.9, 1] มีวิธีที่ดีและรวดเร็วในการทำเช่นนั้นหรือไม่? ฉันใช้ Spark 2 ใน Scala อัปเดต:...

1993 มุมมอง

apache-spark scala apache-spark-mllib spark-dataframe

20.01.2024