สิ่งตีพิมพ์ในหัวข้อ 'data-analysis'


การนำทางความแปรปรวนระหว่างฐานข้อมูล คลังข้อมูล Data Lake และ Data Lakehouse
บทนำ ในโลกที่ขับเคลื่อนด้วยข้อมูลในปัจจุบัน การจัดการและการใช้สินทรัพย์ข้อมูลอย่างมีประสิทธิภาพกลายเป็นสิ่งสำคัญสำหรับธุรกิจและองค์กรที่มุ่งมั่นที่จะรักษาความสามารถในการแข่งขัน ท่ามกลางน้ำท่วมทางดิจิทัลนี้ มีเสาหลักสี่เสาเกิดขึ้น ซึ่งแต่ละเสาหลักมีบทบาทที่แตกต่างกันในการจัดการข้อมูลและการดึงคุณค่า ได้แก่ ฐานข้อมูล คลังข้อมูล คลังข้อมูลขนาดใหญ่ และคลังข้อมูลขนาดใหญ่แห่งใหม่ ฐานข้อมูลเป็นรากฐานของการจัดเก็บและเรียกค้นข้อมูล..

ลูกค้าเปลี่ยนใจโดยใช้ PySpark
ลูกค้าเปลี่ยนใจโดยใช้ PySpark การทำนายสำหรับแอปเพลง ภาพรวมโครงการ Sparkify เป็นแอปสำหรับฟังเพลง ชุดข้อมูลนี้ประกอบด้วยบันทึกกิจกรรมของผู้ใช้ sparkify ระยะเวลาสองเดือน บันทึกประกอบด้วยข้อมูลผู้ใช้พื้นฐานบางส่วน และข้อมูลเกี่ยวกับการดำเนินงาน ผู้บริโภคสามารถมีได้หลายรายการในนั้น ฉันปั่นส่วนหนึ่งของผู้ใช้ในผลลัพธ์โดยการยกเลิกบัญชี ฉันอัปโหลดข้อมูลการวิจัยของฉันไปยังพื้นที่เก็บข้อมูล GitHub ค้นหารหัส GitHub ที่นี่ : คุณจะได้รู้อะไรบ้าง..

หนังสือการเขียนโปรแกรม R 6 อันดับแรกที่ต้องอ่าน
ตำนานกล่าวว่าความลับและสมบัติของโลกซ่อนอยู่ในหนังสือ แต่มนุษย์ขี้เกียจค้นหามัน ต้องขอบคุณ Google หากคุณเป็นคนที่ชอบอ่านหนังสือและที่สำคัญใช้ภาษา R Programming บทความนี้เหมาะสำหรับคุณ ตามความเห็นของฉัน หนังสือการเขียนโปรแกรม R เหล่านี้คุณจะพบว่ามีแหล่งข้อมูลมากมาย R สำหรับวิทยาศาสตร์ข้อมูล นี่คือหนังสือที่ดีที่สุดของฉันในรูปแบบ R แต่งโดยซุปเปอร์สตาร์ R Hardley Wickham และด้วยเหตุนี้จึงมาอยู่ด้านบนสุดของรายการ หนังสือเล่มนี้จะสอนวิธีเป็น Data Scientist ที่ดีขึ้นด้วย R...

การจัดโครงสร้างโครงการ ML
แม้ว่างานของคุณจะดีแค่ไหนและสไตล์การเขียนโค้ดของคุณก็อยู่ในระดับสูงสุด แต่ก็ไม่ต้องสงสัยเลยว่าการจัดโครงสร้างโครงการและดำเนินการไปทีละขั้นตอนจะไม่มีโอกาสที่จะถูกละเลย เพราะเมื่อถึงจุดหนึ่ง คุณจะติดอยู่กับจุดหรืองานบางอย่าง และคุณต้องแก้ไขสิ่งที่คุณเคยทำก่อนหน้านี้ สิ่งสำคัญของการจัดโครงสร้างที่ดีมาถึงตรงนี้ วิธีการนี้มีความสำคัญอย่างมากในการเขียนโปรแกรมแบบดั้งเดิม ดังนั้นแน่นอนว่ามันเป็นสิ่งจำเป็นในโปรเจ็กต์การเรียนรู้ของเครื่อง..

The Dreaded antagonist: ข้อมูลรั่วไหลใน Machine Learning
อาจเป็นหนึ่งในแนวคิดที่ไม่ค่อยมีคนชื่นชมมากที่สุดใน Machine Learning ฉันได้เข้าร่วมหลักสูตรการวิเคราะห์ธุรกิจและการเรียนรู้ของเครื่องมากกว่า 5 หลักสูตร ทั้งแบบตัวต่อตัวและแบบออนไลน์ น่าประหลาดใจที่มีเพียงคนเดียวเท่านั้นที่ทำให้เกิดรอยรั่วไหลของข้อมูลได้ในเวลาสั้นๆ เมื่อพูดถึงการรั่วไหลของข้อมูลโดยไม่มีบริบทของการเรียนรู้ของเครื่อง บ่อยครั้งที่เราเรียกสิ่งนี้ว่าเป็นสถานการณ์เมื่อมีการถ่ายโอนข้อมูลที่เป็นความลับไปยังบุคคลที่สามโดยไม่มีมาตรการรักษาความปลอดภัยหรือการอนุญาตที่เหมาะสม..

คู่มือฉบับสมบูรณ์ การจัดการข้อมูลอย่างง่ายด้วย NumPy
หากคุณยังใหม่กับการเขียนโปรแกรมและต้องการเรียนรู้วิธีทำงานกับข้อมูลตัวเลขใน python NumPy ถือเป็นไลบรารี่ที่จำเป็นสำหรับการเรียนรู้ การแนะนำ NumPy ย่อมาจาก 'Numerical Python' เป็นแพ็คเกจการวิเคราะห์ข้อมูลและการคำนวณทางวิทยาศาสตร์ด้วย Python NumPy ใช้วัตถุอาร์เรย์หลายมิติและมีฟังก์ชันและเครื่องมือสำหรับการทำงานกับอาร์เรย์เหล่านี้ อาร์เรย์ n มิติอันทรงพลังใน NumPy ช่วยเพิ่มความเร็วในการประมวลผลข้อมูล NumPy สามารถเชื่อมต่อกับแพ็คเกจ Python อื่น ๆ ได้อย่างง่ายดาย..

การใช้ AutoML เพื่อลดเวลาสู่ข้อมูลเชิงลึก
การแข่งขันเพื่อรวบรวมข้อมูลเชิงลึกที่นำไปใช้ได้จริงจากชุดข้อมูลกำลังเร่งตัวขึ้น ธุรกิจในปัจจุบันต่างหมดหวังที่จะก้าวนำหน้า และองค์ประกอบที่สำคัญของสิ่งนี้คือการลดเวลาในการทำความเข้าใจ (ดูบทความก่อนหน้าของฉันเกี่ยวกับเรื่องนี้ที่นี่) หนึ่งในอาวุธที่ทรงพลังที่สุดในคลังแสงของนักวิเคราะห์ในการบรรลุเป้าหมายนี้คือ Automated Machine Learning หรือ AutoML ในบทความนี้ เราจะเจาะลึกว่า AutoML สามารถเป็นตัวเปลี่ยนเกมในการลดเวลาสู่ข้อมูลเชิงลึกได้อย่างไร AutoML คืออะไร?..