Искра чтения CSV-файла ClassCastException

Я запускаю Spark 1.6.1 так:

./pyspark --master local[4] --packages com.databricks:spark-csv_2.10:1.0.3

Я могу загрузить файл CSV без каких-либо ошибок, например:

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('/home/SparkTest.csv')

но когда я пытаюсь увидеть такие данные:

df.head()

Я получаю такие ошибки:

16/04/07 10:41:49 ERROR CsvRelation$: Exception while parsing line: 5,2012-01-01,53,Lucky Charms. java.lang.ClassCastException
16/04/07 10:41:49 ERROR CsvRelation$: Exception while parsing line: 6,2012-02-01,14,Cap'n Crunch. java.lang.ClassCastException

person skunkwerk    schedule 07.04.2016    source источник
comment
Можете ли вы попробовать удалить вывод схемы?   -  person eliasah    schedule 07.04.2016
comment
Каково содержимое файла SparkTest.csv?   -  person Milad Khajavi    schedule 07.04.2016
comment
Я удалил параметр вывода схемы, но ошибка осталась прежней. Строки файла csv выглядят следующим образом: DFLR200,2009-11-02,1000,R100 (т.е. строка, дата, число, строка).   -  person skunkwerk    schedule 02.05.2016


Ответы (1)


Я использовал более старую версию библиотеки CSV. Ошибки исчезли, когда я перешел на этот аргумент при запуске искры:

--packages com.databricks:spark-csv_2.11:1.4.0
person skunkwerk    schedule 02.05.2016