Saya relatif baru mengenal SPARKR. Saya mengunduh SPARK 1.4 dan mengatur RStudio untuk menggunakan perpustakaan SPARKR. Namun saya ingin tahu bagaimana saya bisa menerapkan fungsi ke setiap nilai di kolom DataFrame terdistribusi, dapatkah seseorang membantu? Misalnya,
Ini bekerja dengan sempurna
myFunc <- function(x) { paste(x , "_hello")}
c <- c("a", "b", "c")
d <- lapply(c, myFunc)
Cara membuat ini berfungsi untuk DataFrame Terdistribusi. Tujuannya adalah untuk menambahkan "_hello" ke setiap nilai kolom Nama DF
DF <- read.df(sqlContext, "TV_Flattened_2.csv", source = "com.databricks.spark.csv", header="true")
SparkR:::lapply(DF$Name, myFunc)
Pada SPARKR versi alpha sebelum rilis SPARK 1.4 sepertinya sudah ada kemampuan ini, mengapa sekarang tidak ada pada rilis resmi SPARK 1.4?
name(DF)
daripadaDF$Name
? - person mts   schedule 12.08.2015