Выбор нескольких произвольных столбцов из массива Scala с помощью map()

Я новичок в Scala (и Spark). Я пытаюсь прочитать файл csv и извлечь несколько произвольных столбцов из данных. Следующая функция делает это, но с жестко заданными индексами столбцов:

def readCSV(filename: String, sc: SparkContext): RDD[String] = {
  val input = sc.textFile(filename).map(line => line.split(","))
  val out = input.map(csv => csv(2)+","+csv(4)+","+csv(15))
  return out
}

Есть ли способ использовать карту с произвольным количеством индексов столбцов, переданных функции в массиве?


person yrjo    schedule 09.07.2015    source источник


Ответы (1)


Если у вас есть последовательность индексов, вы можете сопоставить ее и вернуть значения:

scala> val m = List(List(1,2,3), List(4,5,6))
m: List[List[Int]] = List(List(1, 2, 3), List(4, 5, 6))

scala> val indices = List(0,2)
indices: List[Int] = List(0, 2)

// For each inner sequence, get the relevant values
// indices.map(inner) is the same as indices.map(i => inner(i))
scala> m.map(inner => indices.map(inner))
res1: List[List[Int]] = List(List(1, 3), List(4, 6))

// If you want to join all of them use .mkString
scala> m.map(inner => indices.map(inner).mkString(","))
res2: List[String] = List(1,3, 4,6)  // that's actually a List containing 2 String
person Marth    schedule 09.07.2015