Publikasi tentang topik tersebut 'data-engineering'


Kontrak Data: Masa Depan Integrasi Data
Apa itu Kontrak Data? Kontrak data adalah alat yang ampuh untuk menentukan dan menerapkan skema data. Mereka dapat membantu memastikan keandalan dan interoperabilitas data, dan keduanya penting untuk keberhasilan arsitektur data. Mereka membantu memastikan pertukaran data dilakukan secara konsisten dan dapat diprediksi. Hal ini membantu meningkatkan keandalan, efisiensi, dan keamanan pertukaran data. Di masa lalu, kontrak data sering kali digunakan dalam lingkungan yang tertutup...

DuckDB — Tentang Apa Hypenya?
Ini adalah postingan blog yang sudah saya rencanakan untuk ditulis pada musim semi ketika saya melihat bahwa hype seputar DuckDB mulai meningkat. Sejak itu diskusi seputar DuckDB semakin intensif di komunitas pengembang dan rekayasa data. Saat ini saya melihat dua tren dalam komunitas data dengan tingkat keterlibatan tinggi: DuckDB dan “Rust mengambil alih rekayasa data”. Tapi apa sebenarnya hype seputar DuckDB? Mari kita gores permukaannya sedikit. Banyaknya percepatan yang..

Analisis Data Eksplorasi Dengan Satu Baris Kode
visualisasi data yang lengkap dan responsif sepenuhnya dengan Lux Pernahkah Anda menghadapi situasi di mana Anda harus menulis beberapa baris kode hanya untuk memplot dan memvisualisasikan data Anda? Bagaimana dengan saat Anda harus menulis beberapa baris kode hanya untuk memplot beberapa grafik (garis, batang, pai, et c)? Jika jawabannya ya, seperti saya, maka saya punya kabar baik untuk Anda! Hanya dengan satu baris kode, Anda dapat membuat plot, tidak hanya satu, namun..

Penyempurnaan Efisien Parameter (PEFT): pendekatan baru untuk menyempurnakan LLM
Penyempurnaan Efisien Parameter (PEFT) adalah pendekatan baru untuk menyempurnakan model bahasa besar (LLM) yang secara efektif mengurangi kebutuhan komputasi dan memori dibandingkan dengan metode tradisional. PEFT hanya menerapkan penyesuaian pada sebagian kecil parameter model, sekaligus membekukan sebagian besar jaringan yang telah dilatih sebelumnya. Taktik ini mengurangi bencana lupa dan secara signifikan mengurangi biaya komputasi dan penyimpanan. Saya telah menulis tentang metode..

Buat Proyek dbt Lokal
Cara membuat proyek dbt lokal dengan data dummy untuk tujuan pengujian dengan Docker dbt (alat pembuatan data) adalah salah satu teknologi terpanas di bidang rekayasa data dan analitik . Baru-baru ini, saya sedang mengerjakan tugas yang melakukan beberapa pasca-pemrosesan pada artefak dbt dan ingin menulis beberapa tes. Untuk melakukannya, saya harus membuat proyek contoh yang dapat berjalan secara lokal (atau dalam container buruh pelabuhan), sehingga saya tidak perlu berinteraksi..

Survei Siklus Hidup Machine Learning
MLOps Survei Siklus Hidup Machine Learning Evolusi siklus hidup ML dari penambangan data batch dengan sumber daya terbatas menjadi MLOps pada skala cloud Semua orang telah membicarakan MLOps selama lebih dari setahun sekarang. Saya melihat sekeliling untuk mengetahui bagaimana siklus hidup dan proses telah berkembang. Disiplin mencari wawasan dari data telah ada selama 25 tahun. Saat itu, ini dikenal sebagai data mining. Dalam artikel ini, saya menyajikan survei tentang proses..

10 Cara Teratas ANDA Dapat Mendapatkan Pekerjaan di Bidang Ilmu Data
Dalam ilmu data, permintaan akan data scientist seringkali melebihi pasokan. Jadi, tidak mengherankan jika banyak orang ingin mendalami ilmu data dan bergabung dengan industri yang sedang berkembang ini. Selama proyek ilmu data, data dikumpulkan dari database atau API, diubah menjadi kumpulan data, dan kemudian dianalisis menggunakan metode statistik. Bisnis membutuhkan data scientist karena mereka dapat membantu…