สิ่งตีพิมพ์ในหัวข้อ 'data-analysis'
การนำทางความแปรปรวนระหว่างฐานข้อมูล คลังข้อมูล Data Lake และ Data Lakehouse
บทนำ
ในโลกที่ขับเคลื่อนด้วยข้อมูลในปัจจุบัน การจัดการและการใช้สินทรัพย์ข้อมูลอย่างมีประสิทธิภาพกลายเป็นสิ่งสำคัญสำหรับธุรกิจและองค์กรที่มุ่งมั่นที่จะรักษาความสามารถในการแข่งขัน ท่ามกลางน้ำท่วมทางดิจิทัลนี้ มีเสาหลักสี่เสาเกิดขึ้น ซึ่งแต่ละเสาหลักมีบทบาทที่แตกต่างกันในการจัดการข้อมูลและการดึงคุณค่า ได้แก่ ฐานข้อมูล คลังข้อมูล คลังข้อมูลขนาดใหญ่ และคลังข้อมูลขนาดใหญ่แห่งใหม่ ฐานข้อมูลเป็นรากฐานของการจัดเก็บและเรียกค้นข้อมูล..
ลูกค้าเปลี่ยนใจโดยใช้ PySpark
ลูกค้าเปลี่ยนใจโดยใช้ PySpark
การทำนายสำหรับแอปเพลง
ภาพรวมโครงการ
Sparkify เป็นแอปสำหรับฟังเพลง ชุดข้อมูลนี้ประกอบด้วยบันทึกกิจกรรมของผู้ใช้ sparkify ระยะเวลาสองเดือน บันทึกประกอบด้วยข้อมูลผู้ใช้พื้นฐานบางส่วน และข้อมูลเกี่ยวกับการดำเนินงาน ผู้บริโภคสามารถมีได้หลายรายการในนั้น ฉันปั่นส่วนหนึ่งของผู้ใช้ในผลลัพธ์โดยการยกเลิกบัญชี ฉันอัปโหลดข้อมูลการวิจัยของฉันไปยังพื้นที่เก็บข้อมูล GitHub
ค้นหารหัส GitHub ที่นี่ :
คุณจะได้รู้อะไรบ้าง..
หนังสือการเขียนโปรแกรม R 6 อันดับแรกที่ต้องอ่าน
ตำนานกล่าวว่าความลับและสมบัติของโลกซ่อนอยู่ในหนังสือ แต่มนุษย์ขี้เกียจค้นหามัน ต้องขอบคุณ Google
หากคุณเป็นคนที่ชอบอ่านหนังสือและที่สำคัญใช้ภาษา R Programming บทความนี้เหมาะสำหรับคุณ
ตามความเห็นของฉัน หนังสือการเขียนโปรแกรม R เหล่านี้คุณจะพบว่ามีแหล่งข้อมูลมากมาย
R สำหรับวิทยาศาสตร์ข้อมูล
นี่คือหนังสือที่ดีที่สุดของฉันในรูปแบบ R แต่งโดยซุปเปอร์สตาร์ R Hardley Wickham และด้วยเหตุนี้จึงมาอยู่ด้านบนสุดของรายการ
หนังสือเล่มนี้จะสอนวิธีเป็น Data Scientist ที่ดีขึ้นด้วย R...
การจัดโครงสร้างโครงการ ML
แม้ว่างานของคุณจะดีแค่ไหนและสไตล์การเขียนโค้ดของคุณก็อยู่ในระดับสูงสุด แต่ก็ไม่ต้องสงสัยเลยว่าการจัดโครงสร้างโครงการและดำเนินการไปทีละขั้นตอนจะไม่มีโอกาสที่จะถูกละเลย
เพราะเมื่อถึงจุดหนึ่ง คุณจะติดอยู่กับจุดหรืองานบางอย่าง และคุณต้องแก้ไขสิ่งที่คุณเคยทำก่อนหน้านี้ สิ่งสำคัญของการจัดโครงสร้างที่ดีมาถึงตรงนี้
วิธีการนี้มีความสำคัญอย่างมากในการเขียนโปรแกรมแบบดั้งเดิม ดังนั้นแน่นอนว่ามันเป็นสิ่งจำเป็นในโปรเจ็กต์การเรียนรู้ของเครื่อง..
The Dreaded antagonist: ข้อมูลรั่วไหลใน Machine Learning
อาจเป็นหนึ่งในแนวคิดที่ไม่ค่อยมีคนชื่นชมมากที่สุดใน Machine Learning
ฉันได้เข้าร่วมหลักสูตรการวิเคราะห์ธุรกิจและการเรียนรู้ของเครื่องมากกว่า 5 หลักสูตร ทั้งแบบตัวต่อตัวและแบบออนไลน์ น่าประหลาดใจที่มีเพียงคนเดียวเท่านั้นที่ทำให้เกิดรอยรั่วไหลของข้อมูลได้ในเวลาสั้นๆ
เมื่อพูดถึงการรั่วไหลของข้อมูลโดยไม่มีบริบทของการเรียนรู้ของเครื่อง บ่อยครั้งที่เราเรียกสิ่งนี้ว่าเป็นสถานการณ์เมื่อมีการถ่ายโอนข้อมูลที่เป็นความลับไปยังบุคคลที่สามโดยไม่มีมาตรการรักษาความปลอดภัยหรือการอนุญาตที่เหมาะสม..
คู่มือฉบับสมบูรณ์ การจัดการข้อมูลอย่างง่ายด้วย NumPy
หากคุณยังใหม่กับการเขียนโปรแกรมและต้องการเรียนรู้วิธีทำงานกับข้อมูลตัวเลขใน python NumPy ถือเป็นไลบรารี่ที่จำเป็นสำหรับการเรียนรู้
การแนะนำ
NumPy ย่อมาจาก 'Numerical Python' เป็นแพ็คเกจการวิเคราะห์ข้อมูลและการคำนวณทางวิทยาศาสตร์ด้วย Python NumPy ใช้วัตถุอาร์เรย์หลายมิติและมีฟังก์ชันและเครื่องมือสำหรับการทำงานกับอาร์เรย์เหล่านี้ อาร์เรย์ n มิติอันทรงพลังใน NumPy ช่วยเพิ่มความเร็วในการประมวลผลข้อมูล NumPy สามารถเชื่อมต่อกับแพ็คเกจ Python อื่น ๆ ได้อย่างง่ายดาย..
การใช้ AutoML เพื่อลดเวลาสู่ข้อมูลเชิงลึก
การแข่งขันเพื่อรวบรวมข้อมูลเชิงลึกที่นำไปใช้ได้จริงจากชุดข้อมูลกำลังเร่งตัวขึ้น ธุรกิจในปัจจุบันต่างหมดหวังที่จะก้าวนำหน้า และองค์ประกอบที่สำคัญของสิ่งนี้คือการลดเวลาในการทำความเข้าใจ (ดูบทความก่อนหน้าของฉันเกี่ยวกับเรื่องนี้ที่นี่) หนึ่งในอาวุธที่ทรงพลังที่สุดในคลังแสงของนักวิเคราะห์ในการบรรลุเป้าหมายนี้คือ Automated Machine Learning หรือ AutoML ในบทความนี้ เราจะเจาะลึกว่า AutoML สามารถเป็นตัวเปลี่ยนเกมในการลดเวลาสู่ข้อมูลเชิงลึกได้อย่างไร
AutoML คืออะไร?..