Spark baca json dengan skema parsial

Saya perlu memproses file json yang cukup besar menggunakan spark. Saya tidak memerlukan semua bidang di json dan sebenarnya hanya ingin membaca sebagian saja (tidak membaca semua bidang dan proyek). Saya bertanya-tanya apakah saya dapat menggunakan konektor json dan memberikan skema baca sebagian hanya dengan bidang yang ingin saya muat.


person Hagai    schedule 13.07.2017    source sumber


Jawaban (1)


Itu tergantung pada apakah json Anda multi baris. Saat ini spark hanya mendukung json pada satu baris sebagai bingkai data. Rilis berikutnya dari spark 2.3 akan mendukung multiline json.

Tapi untuk pertanyaanmu. Saya rasa Anda tidak dapat menggunakan skema parsial untuk membaca di json. Pertama-tama Anda dapat memberikan skema lengkap untuk dibaca sebagai kerangka data, lalu memilih kolom spesifik yang Anda perlukan untuk membuat skema parsial sebagai kerangka data terpisah. Karena spark menggunakan evaluasi malas dan mesin sql mampu menekan filter, kinerjanya tidak akan buruk.

person xuanyue    schedule 13.07.2017
comment
dan dengan asumsi itu json tunggal per baris? - person Hagai; 14.07.2017