Sumber blob biru pabrik data - karakter pengganti

Saya yakin bahwa Anda dapat melakukan wildcard pada properti nama file di objek sumber Azure Blob Table.

Saya hanya ingin mengambil file csv tertentu dari penyimpanan blob yang ada di direktori yang sama dengan file lain yang tidak ingin saya proses:

i.e.

root/data/GUJH-01.csv

root/data/GUJH-02.csv

root/data/DFGT-01.csv

Saya ingin memproses GUJH*.csv dan bukan DFGT-01.csv

Apakah ini mungkin? Jika ya, mengapa validasi sumber blob saya gagal, memberi tahu saya bahwa file tidak ada (Pesan melaporkan bahwa blob root/data tidak ada.

Terima kasih sebelumnya.


person Steve    schedule 29.01.2016    source sumber


Jawaban (2)


Menjawab pertanyaan saya sendiri..

Tidak ada wildcard tetapi ada 'Dimulai Dengan' yang akan berfungsi dalam skenario saya:

Daripada root/data/GUJH*.csv saya bisa melakukan root/data/GUJH pada properti folderPath dan itu akan membawa semua file root/data/GUJH..

:)

person Steve    schedule 03.02.2016
comment
Butuh waktu lama bagi saya untuk menyelesaikannya juga. Sekarang saya bertanya-tanya bagaimana Anda membatasi file CSV saja? - person Nick.McDermaid; 27.07.2017
comment
Pastikan saja filePath tidak ditentukan dan folderPath memiliki path lengkap termasuk nama file. Pastikan juga Anda menjalankan timeslice yang benar. Saya baru saja menjalankan potongan waktu acak yang pada gilirannya memasukkan parameter yang salah yang berarti tidak dapat menemukan file - person Nick.McDermaid; 27.07.2017

Hanya menambahkan lebih banyak detail di sini karena menurut saya ini adalah kurva pembelajaran yang sangat sulit dan saya ingin mendokumentasikannya demi saya dan orang lain.

Diberikan contoh file seperti ini (dalam hal ini tidak ada ekstensi) di penyimpanan blob,

ZZZZ_20170727_1324

Kita bisa melihat bagian tengahnya dalam format yyyyMMdd.

Ini diunggah ke folder Landing di dalam wadah MyContainer

ini adalah bagian dari definisi kumpulan data saya ::

    "typeProperties": {
        "folderPath": "MyContainer/Landing/ZZZZ_{DayCode}",
        "format": {
            "type": "TextFormat",
            "columnDelimiter": "\u0001"
        },
        "partitionedBy": [
            {
                "name": "DayCode",
                "value": {
                    "type": "DateTime",
                    "date": "SliceStart",
                    "format": "yyyyMMdd"
                }
            }
        ]
    },

Perhatikan bahwa ini adalah 'awalan', yang akan Anda lihat di log/pesan kesalahan, jika Anda dapat menemukannya (semoga berhasil)

Jika Anda ingin menguji pemuatan file khusus ini, Anda perlu menekan tombol 'Diagram', lalu telusuri alur Anda hingga Anda menemukan kumpulan data target - kumpulan data yang ke dalamnyamuat filenya /em> (Saya memuat ini ke SQL Azure). Klik pada kumpulan data target, sekarang buka dan temukan bagian waktu yang benar. Dalam kasus saya, saya perlu menemukan bagian waktu dengan bagian waktu mulai 20170727 dan menjalankannya.

Ini akan memastikan file yang benar diambil dan dimuat ke SQL Azure

Lupakan menjalankan pipeline atau aktivitas secara manual - cara kerjanya tidak seperti itu. Anda perlu menjalankan kumpulan data keluaran di bawah batas waktu untuk menjalankannya.

person Nick.McDermaid    schedule 27.07.2017