สิ่งตีพิมพ์ในหัวข้อ 'data-engineering'


สัญญาข้อมูล: อนาคตของการรวมข้อมูล
สัญญาข้อมูลคืออะไร? สัญญาข้อมูลเป็นเครื่องมือที่มีประสิทธิภาพในการกำหนดและบังคับใช้สคีมาข้อมูล สิ่งเหล่านี้สามารถช่วยรับประกันความน่าเชื่อถือของข้อมูลและการทำงานร่วมกันได้ และจำเป็นสำหรับสถาปัตยกรรมข้อมูลที่ประสบความสำเร็จ ช่วยให้มั่นใจว่ามีการแลกเปลี่ยนข้อมูลอย่างสม่ำเสมอและคาดการณ์ได้ ซึ่งจะช่วยปรับปรุงความน่าเชื่อถือ ประสิทธิภาพ และความปลอดภัยของการแลกเปลี่ยนข้อมูล ในอดีต สัญญาข้อมูลมักถูกใช้ในสภาพแวดล้อมแบบแยกส่วน อย่างไรก็ตาม เมื่อข้อมูลเชื่อมโยงกันมากขึ้นเรื่อยๆ..

DuckDB — โฆษณาเกี่ยวกับอะไร?
นี่คือโพสต์บนบล็อกที่ฉันวางแผนจะเขียนในช่วงฤดูใบไม้ผลิ เมื่อฉันเห็นว่ากระแสความนิยมใน DuckDB เริ่มก้าวไปอีกขั้น ตั้งแต่นั้นมาการอภิปรายเกี่ยวกับ DuckDB ก็ทวีความรุนแรงมากขึ้นเฉพาะในชุมชนนักพัฒนาและวิศวกรรมข้อมูลเท่านั้น ขณะนี้ฉันเห็นแนวโน้มสองประการในชุมชนข้อมูลที่มีระดับการมีส่วนร่วมสูง: DuckDB และ Rust เข้าควบคุมวิศวกรรมข้อมูล แต่สิ่งที่เกินจริงเกี่ยวกับ DuckDB คืออะไร? มาเกาพื้นผิวกันสักหน่อย..

การวิเคราะห์ข้อมูลเชิงสำรวจด้วยโค้ดบรรทัดเดียว
การสร้างภาพข้อมูลที่สมบูรณ์และตอบสนองอย่างเต็มที่ด้วย Lux คุณเคยพบกับสถานการณ์ที่คุณต้องเขียนโค้ดหลายบรรทัดเพียงเพื่อพล็อตและแสดงภาพข้อมูลของคุณหรือไม่? แล้วเวลานั้นที่คุณต้องเขียนโค้ดหลายบรรทัดเพียงเพื่อพล็อตกราฟไม่กี่กราฟ (เส้น แท่ง พาย et c) ล่ะ? หากคำตอบคือใช่ เช่นเดียวกับฉัน ฉันก็จะมีข่าวดีมาแจ้ง! ด้วยโค้ดเพียงบรรทัดเดียว คุณสามารถพล็อตกราฟและการแสดงภาพชุดข้อมูลของคุณได้อย่างครบถ้วน ไม่ใช่แค่บรรทัดเดียว ขอแนะนำ ลักซ์ ! ไม่เพียงแต่ให้ชุดการแสดงข้อมูลที่สมบูรณ์เท่านั้น..

การปรับพารามิเตอร์แบบละเอียดที่มีประสิทธิภาพ (PEFT): แนวทางใหม่สำหรับการปรับ LLM แบบละเอียด
การปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพ (PEFT) เป็นแนวทางใหม่สำหรับการปรับแต่งโมเดลภาษาขนาดใหญ่ (LLM) อย่างละเอียด ซึ่งช่วยลดความต้องการด้านการคำนวณและหน่วยความจำได้อย่างมีประสิทธิภาพ เมื่อเทียบกับวิธีการแบบดั้งเดิม PEFT ใช้การปรับแต่งอย่างละเอียดเฉพาะชุดย่อยเล็กๆ ของพารามิเตอร์ของโมเดล ในขณะที่หยุดเครือข่ายส่วนใหญ่ที่ได้รับการฝึกอบรมล่วงหน้าไว้ กลยุทธ์นี้ช่วยลดการลืมอันเลวร้ายและลดต้นทุนด้านการคำนวณและการจัดเก็บลงอย่างมาก ฉันได้เขียนเกี่ยวกับวิธีการแบบดั้งเดิมใน "บทความ" อีกฉบับหนึ่งนี้..

สร้างโครงการ dbt ท้องถิ่น
วิธีสร้างโปรเจ็กต์ dbt ในเครื่องด้วยข้อมูลจำลองเพื่อการทดสอบด้วย Docker dbt (เครื่องมือสร้างข้อมูล) เป็นหนึ่งในเทคโนโลยีที่ร้อนแรงที่สุดในสาขาวิศวกรรมข้อมูลและการวิเคราะห์ เมื่อเร็วๆ นี้ ฉันได้ทำงานที่ดำเนินการหลังการประมวลผลในส่วน dbt artefact และต้องการเขียนการทดสอบบางอย่าง ในการทำเช่นนั้น ฉันต้องสร้างโปรเจ็กต์ตัวอย่างที่สามารถทำงานภายในเครื่อง (หรือในคอนเทนเนอร์นักเทียบท่า) เพื่อที่ฉันจะได้ไม่ต้องโต้ตอบกับคลังข้อมูลจริง ในบทความนี้..

การสำรวจวงจรการเรียนรู้ของเครื่อง
MLOps การสำรวจวงจรการเรียนรู้ของเครื่อง วิวัฒนาการของวงจรชีวิต ML จากการขุดข้อมูลแบบแบตช์ที่จำกัดทรัพยากรไปจนถึง MLOps ในระดับคลาวด์ ทุกคนพูดถึง MLOps มานานกว่าหนึ่งปีแล้ว ฉันมองไปรอบๆ เพื่อดูว่าวงจรชีวิตและกระบวนการต่างๆ มีการพัฒนาอย่างไร วินัยในการแสวงหาข้อมูลเชิงลึกจากข้อมูลมีมานานกว่า 25 ปีแล้ว สมัยนั้นเรียกว่าการขุดข้อมูล ในบทความนี้ ฉันนำเสนอแบบสำรวจเกี่ยวกับกระบวนการวงจรชีวิต ML และสรุปพร้อมความคิดเห็นของฉัน ดังนั้นหากคุณรีบ ให้ข้ามไปที่ส่วนสุดท้ายของ TL;DR..

10 วิธีที่คุณจะได้งานในสาขาวิทยาศาสตร์ข้อมูล
ในด้านวิทยาศาสตร์ข้อมูล ความต้องการนักวิทยาศาสตร์ข้อมูลมักมีมากกว่าอุปทาน จึงไม่น่าแปลกใจที่ผู้คนจำนวนมากต้องการเจาะลึกด้านวิทยาศาสตร์ข้อมูลและเข้าร่วมในอุตสาหกรรมที่กำลังเติบโตนี้ ในระหว่างโครงงานวิทยาศาสตร์ข้อมูล ข้อมูลจะถูกรวบรวมจากฐานข้อมูลหรือ API แปลงเป็นชุดข้อมูล จากนั้นวิเคราะห์โดยใช้วิธีทางสถิติ ธุรกิจต่างๆ ต้องการนักวิทยาศาสตร์ข้อมูลเพราะพวกเขาสามารถช่วย...