อาชีพ, วิทยาศาสตร์ข้อมูล

สัมภาษณ์นักวิทยาศาสตร์ข้อมูล

นักวิทยาศาสตร์ข้อมูลมืออาชีพตอบคำถามที่ถูกถามบ่อยที่สุด 12 ข้อ ชี้แจงและหักล้างความเชื่อผิด ๆ ที่คุณสร้างขึ้นเกี่ยวกับสาขานี้!

เผยแพร่ครั้งแรกที่ louisbouchard.ai อ่านเมื่อ 2 วันก่อนใน บล็อกของฉัน!

บทความนี้เป็นบทสรุปของการสัมภาษณ์ "Kashyap Barua" [1] นักวิทยาศาสตร์ข้อมูลผู้มากประสบการณ์ คำถามที่ถูกถามมากที่สุดเหล่านี้นำมาจาก "ชุมชน Learn AI Together บน Discord" [2]

บทนำสั้น ๆ

Kashyap Barua เป็นนักวิทยาศาสตร์ข้อมูลมืออาชีพที่ทำงานที่ MiQ [3] พื้นหลังของเขาส่วนใหญ่อยู่ในสาขาวิทยาการคอมพิวเตอร์และวิศวกรรมศาสตร์ ซึ่งเขาสำเร็จการศึกษาใน สถาบันเทคโนโลยีอุตสาหกรรมคาลิงกา [4] รวมถึงใบรับรอง "หลักสูตร" มากมาย [5] เพื่อพัฒนาทักษะของเขาทั้งในด้าน "การเรียนรู้ของเครื่อง" และ " วิทยาศาสตร์ข้อมูล». แต่อย่างที่เขาจะอธิบาย มีหลายวิธีในการเข้าสู่สาขาวิทยาศาสตร์ข้อมูล การเป็นวิศวกรไม่ใช่ข้อกำหนดอย่างแน่นอน!

วิทยาศาสตร์ข้อมูลเป็นสาขาที่ใหญ่มากและทางเข้าค่อนข้างลึกลับสำหรับหลาย ๆ คน นี่คือเหตุผลที่ฉันถาม "ชุมชน" ของเราว่าอะไรคือสิ่งที่ #1 ที่คุณอยากจะถามผู้ปฏิบัติงานมืออาชีพในสาขาวิทยาศาสตร์ข้อมูลหากคุณมีโอกาสได้พูดคุยด้วย แน่นอนว่าคำตอบทั้งหมดเป็นเรื่องส่วนตัวสำหรับ Kashyap Barua แต่คำตอบของเขาน่าสนใจมากและจะช่วยตอบคำถามของคุณหลายข้อด้วยเช่นกัน!

มันอาจช่วยคุณในการตัดสินใจว่าคุณจะเลือกเส้นทางวิทยาศาสตร์ข้อมูลหรือไม่! แต่พอพูดออกไปแล้วมาเริ่มกันเลย!

สัมภาษณ์

ที่นี่ Kashyap ตอบคำถาม 12 ข้อที่ถูกถามบ่อยที่สุดโดย "ชุมชน" ของเราเกี่ยวกับสาขาวิทยาศาสตร์ข้อมูล

1 — วิทยาศาสตร์ข้อมูลคืออะไร

Data Science ในภาพรวมเป็นสาขาสหวิทยาการที่ใช้คณิตศาสตร์ ความเฉียบแหลมทางธุรกิจ และอัลกอริทึมในการแก้ปัญหาในขณะที่ใช้ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง

2 — ใครคือนักวิทยาศาสตร์ข้อมูล

Data Scientist คือบุคคลที่มีหน้าที่รวบรวม วิเคราะห์ และทำความเข้าใจข้อมูลไปพร้อมๆ กันโดยใช้ข้อมูลจำนวนมาก นักวิทยาศาสตร์ข้อมูลได้รับการคาดหวังให้รู้เทคนิคทางสถิติ ภาษาการเขียนโปรแกรม และเครื่องมือแสดงภาพอื่นๆ เพื่อให้สามารถเข้าใจข้อมูลและแก้ไขปัญหาทางธุรกิจได้

3 — เป็นปริญญาเอก หรือต้องเรียนปริญญาโทถึงจะเข้าทำงานในบริษัทใหญ่ได้หรือมีทักษะเพียงพอที่จะเข้าได้? เช่น. Kaggle ชนะ โครงการส่วนตัว ฯลฯ(โดย Sowjanya)

สิ่งนี้ไม่ได้รับคำสั่งในบริษัทที่คุณต้องการปริญญาเอก หรือปริญญาโทที่จะเข้ารับตำแหน่งพูดตามตรง แม้ว่าอาจมีบางบริษัทที่ขอวุฒิการศึกษาขั้นสูงเหล่านี้ แต่บริษัทส่วนใหญ่ก็ไม่ได้ต้องการปริญญาเหล่านี้ ฉันอยากจะแนะนำให้ใช้แพลตฟอร์มออนไลน์เช่น Datacamp, Coursera และ Udacity เพื่อทำความเข้าใจโดเมนนี้ คุณสามารถสร้างโปรไฟล์ของคุณผ่านการส่งผลงาน Kaggle โครงการส่วนตัวได้เช่นกัน ซึ่งจะช่วยให้คุณได้เปรียบเหนือผู้สมัครคนอื่นๆ

หมายเหตุจากผู้เขียน: Kaggle เป็นแพลตฟอร์มที่ยอดเยี่ยม เต็มไปด้วยหลักสูตรฟรี บทช่วยสอนและการแข่งขัน คุณสามารถเข้าร่วมการแข่งขัน ฟรี และสร้างทีมเพื่อทำงานร่วมกับผู้คนที่น่าทึ่ง การแข่งขันทำให้คุณมีปัญหาในการแก้ไขและข้อมูลเพื่อให้บรรลุเป้าหมาย คุณเพียงแค่ดาวน์โหลดข้อมูล อ่านเกี่ยวกับปัญหา และเริ่มเขียนโค้ดทันที! คุณยังสามารถสร้างรายได้จากการแข่งขันเหล่านี้ได้ และถือเป็นสิ่งที่ยอดเยี่ยมมากที่ควรมีในเรซูเม่ของคุณ นี่อาจเป็นวิธีที่ดีที่สุดในการรับประสบการณ์พร้อมเรียนรู้มากมายฟรี และยังสร้างรายได้อีกด้วย!

4 — อะไรคือโครงการที่ดีที่สุดในพอร์ตโฟลิโอของคุณเพื่อรับงานแรกในด้านวิทยาศาสตร์ข้อมูล (โดย Rephawl Roriz)

มีโครงการมากมายที่สามารถช่วยคุณสร้างโปรไฟล์ของคุณในฐานะ Data Scientist แต่ขอย้ำอีกครั้งว่า Data Science เป็นงานที่ทำหน้าที่แทนงานจำนวนมาก เช่น การล้างข้อมูล การรวบรวมข้อมูล การสร้างภาพข้อมูล หรือการสร้างแบบจำลอง จากหมวดหมู่เหล่านี้ คุณสามารถเลือกโปรเจ็กต์ต่างๆ เช่น การสำรวจข้อมูลตลาดสกุลเงินดิจิทัลของ Bitcoin การคาดการณ์การอนุมัติบัตรเครดิต การวิเคราะห์ข้อความของโปรไฟล์ Twitter ของบุคคลที่มีชื่อเสียง สามารถรับหัวข้อโครงการอื่นๆ อีกมากมายได้ที่ https://www.datacamp.com/projects/

5 — ภาษาการเขียนโปรแกรมที่ดีที่สุดในการเริ่มต้นเป็นนักวิทยาศาสตร์ข้อมูลคืออะไร (โดย Deep)

สิ่งที่ฉันชอบเป็นการส่วนตัวคือ R ตลาดไม่ได้ชั่งน้ำหนัก R มากกว่า Python มีบริษัทหนึ่งที่กำลังมองหา R อยู่เสมอ และอีกบริษัทหนึ่งกำลังมองหา Python ตามกรณีการใช้งานของพวกเขา แต่ฉันแนะนำ Python ได้เนื่องจากมีการอัปเดตแพ็คเกจจำนวนมากสำหรับภาษานี้ และแพ็คเกจการแสดงภาพก็ค่อนข้างยอดเยี่ยมสำหรับ Python เช่นกัน R มีแนวโน้มไปทางสถิติหรืองานที่มุ่งเน้นการวิจัยสำหรับผู้ใช้มากกว่า ในขณะที่ Python อนุญาตให้สร้างผลงานของคุณและปรับขนาดไปยังเครื่องมืออื่นๆ ในองค์กรของคุณ
แต่สิ่งสำคัญที่สุดที่ได้รับจากอาชีพของฉันคือคุณควรเรียนรู้ SQL และสิ่งนี้ ควรจัดลำดับความสำคัญตั้งแต่เริ่มต้น ทุกบริษัทคาดหวังว่า Data Scientist หรือ Data Analysts จะรู้วิธีใช้ SQL เพื่อจัดรูปแบบข้อมูล R และ Python มาเป็นอันดับสอง

6 — เกณฑ์การคัดเลือกสำหรับผู้สรรหาคืออะไร? พวกเขามองหาทักษะใด (โดย Sowjanya)

นายหน้าส่วนใหญ่มองหา SQL องค์กรใดก็ตามในแต่ละวันใช้การจัดเก็บข้อมูล คุณต้องสามารถดึงข้อมูลจากแหล่งข้อมูลเหล่านี้ได้ก่อนที่จะดำเนินการจัดการหรือสร้างแบบจำลองข้อมูลใดๆ บริษัทต่างๆ สตรีมข้อมูลมูลค่า TB ทุกวัน และข้อมูลเหล่านี้ไม่สามารถนำมาใช้โดยตรงโดยใช้ R หรือ Python ดังนั้น คุณต้องรวบรวมข้อมูลในรูปแบบที่สะดวกที่สุด ซึ่งเป็นที่ที่คุณต้องรู้ SQL
นอกเหนือจาก SQL แล้ว พวกเขาคาดหวังให้คุณรู้จัก R/Python และเครื่องมือแดชบอร์ด เช่น Power BI/ ฉาก/Metabase.

7 — จะเริ่มอ่านงานวิจัยและค้นหางานวิจัยที่ดีที่สุดได้อย่างไร ในเมื่อมีจำนวนงานวิจัยที่เกี่ยวข้องกับสาขานี้เป็นจำนวนมาก (โดย Avhijit)

อภิจิตร ถามดี. หลังจากทำงานวิจัยมา 7 ชิ้นและตีพิมพ์ภายใต้ชื่อของฉันแล้ว ฉันคิดว่าฉันมีคำตอบที่ดีสำหรับคำถามนี้ ฉันเริ่มตีพิมพ์บทความในปี 2559 และสิ่งหนึ่งที่ฉันได้เรียนรู้ก็คือ คุณต้องมีหัวข้อที่ชัดเจนก่อนที่จะเริ่มเขียนรายงาน คุณต้องมีความคิดเกี่ยวกับสิ่งที่คุณต้องการทำหรือการวิจัยใหม่ ฉันรู้ว่ามีเอกสารเป็นล้านๆ ฉบับ แต่เมื่อคุณมีหัวข้อที่ต้องการทำแล้ว ล้านฉบับก็จะกลายเป็นหลักพันแล้ว เมื่อทำงานในหัวข้อย่อย พันนั้นก็กลายเป็นร้อยไปเรื่อยๆ ตอนนี้คุณมีเอกสารหลายร้อยฉบับให้เลือกและทำความเข้าใจก่อนที่จะเริ่มเขียนบทความของคุณเอง ตัวอย่างเช่น ฉันต้องการทำความเข้าใจและเขียนรายงานเกี่ยวกับโดเมนการค้าปลีก ฉันเริ่มอ่านเอกสาร 30 ฉบับเกี่ยวกับนวัตกรรมและการวิจัยในภาคการค้าปลีก นี่คือตอนที่ฉันมีแนวคิดเกี่ยวกับการนำเสนอกรอบงานของตัวเอง และเริ่มเขียนรายงานฉบับแรก

8 — โดยปกติงานแรกที่ได้รับมอบหมายให้กับนักวิทยาศาสตร์ข้อมูลหลังจากที่คุณได้รับการว่าจ้างคืออะไร (โดย Anab Akhtar)

ดังนั้น นักวิเคราะห์หรือนักวิทยาศาสตร์ข้อมูลที่ร่วมงานกับบริษัทจะไม่ถูกขอให้เริ่มวิเคราะห์ข้อมูลหรือเริ่มสร้างแบบจำลอง/คาดการณ์ สิ่งแรกที่มืออาชีพต้องทำคือเชื่อมต่อกับจุดติดต่อที่เกี่ยวข้องทั้งหมดภายในบริษัทเพื่อทำความเข้าใจธุรกิจ นักวิทยาศาสตร์ข้อมูลจำเป็นต้องเข้าใจว่าธุรกิจทำงานอย่างไร ไม่เช่นนั้นข้อมูลเพียงอย่างเดียวจะไม่สมเหตุสมผล เขาต้องสอดคล้องกับผลลัพธ์ทางธุรกิจและเป้าหมายของทีมหรือบริษัท เมื่อเขาเข้าใจพื้นที่แล้ว เขาจะเริ่มดูแหล่งข้อมูลทั้งหมดและทำความเข้าใจว่าข้อมูลมีลักษณะอย่างไร และ DB ทั้งหมดเก็บข้อมูลประเภทใด ทันทีที่คุณพร้อมในการผลิต คุณจะเริ่มเขียนสคริปต์ของคุณเองเพื่อวิเคราะห์ข้อมูลจำนวนมหาศาลและทำความเข้าใจข้อมูลเหล่านั้น แม้ว่าการสร้างแบบจำลองและการทำนายจะเกิดขึ้นในขั้นตอนหลังของงานของเขาก็ตาม

9 — คนที่มาจากภูมิหลังที่แตกต่างจากวิทยาการคอมพิวเตอร์สามารถเข้าสู่กระแสวิทยาศาสตร์ข้อมูลได้หรือไม่ ถ้าใช่ เขาต้องเรียนรู้อะไรเพื่อให้บรรลุเป้าหมายนั้น (โดย Salman)

สิ่งที่ยอดเยี่ยมเกี่ยวกับโดเมนนี้คือคุณสามารถเป็น Data Scientist ได้ไม่ว่าคุณจะสำเร็จการศึกษาระดับใดและเชี่ยวชาญวิชาใด Data Scientist จะต้องรู้จักเครื่องมือและเทคโนโลยีบางอย่างก่อนที่จะได้รับการว่าจ้าง ซึ่งบางส่วนเป็นสถิติขั้นพื้นฐาน-ระดับกลาง , SQL, R หรือ Python สิ่งเหล่านี้เป็นพื้นฐานที่คุณต้องรู้ และส่วนที่เหลือจะราบรื่นขึ้นเล็กน้อยสำหรับคุณ ฉันมีเพื่อนร่วมงานที่เชี่ยวชาญสาขาต่างๆ เช่น เศรษฐศาสตร์ ปรัชญา ฯลฯ และเริ่มทำงานเป็นนักวิเคราะห์ข้อมูลและไต่เต้าขึ้นมาเป็นนักวิทยาศาสตร์ข้อมูล

10 — อะไรทำให้คุณแตกต่างจากนักวิทยาศาสตร์ข้อมูลคนอื่นๆ (โดย Haswanth)

ปัจจุบันฉันเป็นนักวิเคราะห์ผลิตภัณฑ์ที่ทำงานให้กับทีมวิทยาศาสตร์ข้อมูล ในขณะที่ Data Scientist ทำงานเกี่ยวกับการวิเคราะห์ข้อมูล จากนั้นจึงสร้างแบบจำลองและเครื่องมือที่พร้อมสำหรับการผลิต ฉันจะต้องสามารถเข้าใจงานของพวกเขาได้ดี เพื่อที่ฉันจะสามารถติดตามตัวชี้วัดประสิทธิภาพของเครื่องมือของพวกเขาได้ ฉันเชื่อมต่อกับผู้มีส่วนได้ส่วนเสียจำนวนมาก รวมถึงลูกค้าเพื่อทำความเข้าใจความต้องการของพวกเขาและแปลงเป็นรูปแบบที่ตีความได้ง่ายเพื่อให้นักวิทยาศาสตร์ข้อมูลนำไปใช้และสร้างผลิตภัณฑ์ของตนตามนั้น

11 — เขาพบว่าบทบาทของสถิติในการทำงานในแต่ละวันของคุณมีความสำคัญเพียงใด (โดย Normalized Nerd)

สถิติมีความสำคัญมากสำหรับบทบาทของคุณ ครั้งหนึ่งฉันต้องทำการทดสอบ A/B กับฟีเจอร์สำหรับผลิตภัณฑ์ที่เราเผยแพร่ให้ผู้ชมของเรา ในการดำเนินการทดสอบ A/B เราจำเป็นต้องทราบความแตกต่างระหว่างการใช้วิธี Frequentist และวิธี Bayesian หากคุณต้องการใช้แนวทาง Frequentist คุณต้องเข้าใจความแตกต่างของค่า t-test และ p-value เพื่อให้สามารถยอมรับหรือปฏิเสธสมมติฐานว่างได้สำเร็จ ในทางกลับกัน หากคุณต้องการใช้แนวทางแบบเบย์ คุณจำเป็นต้องรู้ทฤษฎีความน่าจะเป็นก่อนหน้าและหลัง รวมถึงทฤษฎีบทเบย์ และสรุปผลการทดสอบ A/B ของคุณ นี่เป็นเพียงตัวอย่างว่าเทคนิคทางสถิติจำเป็นต่อกรณีการใช้งานของฉันอย่างไร อาจมีกรณีและข้อกำหนดอื่นๆ อีกมากมาย ดังนั้นสถิติจึงมีความสำคัญมากสำหรับบทบาทนี้

12 — อะไรคือส่วนที่ยากที่สุดของงาน Data Science

ส่วนที่ยากที่สุดประการหนึ่งของงานคือการทำความเข้าใจธุรกิจและข้อกำหนดให้ดีก่อนที่คุณจะเริ่มทำงานกับข้อมูล หากผู้มีส่วนได้ส่วนเสียมาพร้อมกับความต้องการของเขา/เธอ คุณต้องเข้าใจอย่างชัดเจนว่าพวกเขาต้องการอะไรจากข้อมูล เนื่องจากคุณจะต้องพยายามแก้ไขปัญหานั้นในอีกสองสามวันข้างหน้า (หรือแบบเร่งด่วน) หากคุณตีความข้อกำหนดไม่ถูกต้อง มูลค่างานทั้งสัปดาห์จะสูญเปล่า และบริษัทต่างๆ ก็มีกรอบเวลาที่เข้มงวดในการทำงานของคุณให้สำเร็จ

บทสรุป

นั่นมัน! ฉันหวังว่าคำตอบเหล่านี้จะช่วยให้คุณเข้าใจว่านักวิทยาศาสตร์ข้อมูลคืออะไร และอาจช่วยไขปริศนาบางอย่างที่คุณมีอยู่ในใจได้! ขอขอบคุณ "Kashyap" อีกครั้งสำหรับเวลาและคำตอบดีๆ ของคุณ อย่าลังเลที่จะติดต่อกับเขาทาง "LinkedIn"!

เข้าร่วม ชุมชน Discord เรียนรู้ AI ร่วมกัน คำถามที่ถูกถามบ่อยที่สุด 12 ข้อนี้นำมาจากสมาชิกผู้ชื่นชอบ AI ในปัจจุบันจำนวน 5,800 ราย! เป็นสถานที่ที่ดีที่สุดในแบ่งปันโครงการ เอกสาร หลักสูตรที่ดีที่สุด ค้นหาเพื่อนร่วมทีม Kaggle ถามคำถาม และอื่นๆ อีกมากมาย!

หากคุณชอบงานของฉันและต้องการสนับสนุนฉัน ฉันจะยินดีเป็นอย่างยิ่งหากคุณติดตามฉันบนช่องทางโซเชียลมีเดียของฉัน:

  • วิธีที่ดีที่สุดในการสนับสนุนฉันคือการติดตามฉันใน ปานกลาง
  • สมัครรับข้อมูล "ช่อง YouTube" ของฉัน
  • ติดตามโครงการของฉันได้ที่ LinkedIn.
  • เรียนรู้ AI ด้วยกัน เข้าร่วม ชุมชน Discord ของเรา แบ่งปันโครงการ เอกสาร หลักสูตรที่ดีที่สุด ค้นหาเพื่อนร่วมทีม Kaggle และอื่นๆ อีกมากมาย!

อ้างอิง

[1] Kashyap Barua นักวิทยาศาสตร์ข้อมูลมืออาชีพ https://www.linkedin.com/in/kashyap-barua-4ab640b6/

[2] ชุมชน "เรียนรู้ AI ร่วมกัน", Discord, "https://discord.gg/learnaitogether"

[3] MiQ ปรึกษาเมื่อวันที่ 14 ธันวาคม 2020 https://www.wearemiq.com/

[4] สถาบันเทคโนโลยีอุตสาหกรรม Kalinga ปรึกษาเมื่อวันที่ 14 ธันวาคม 2020 https://kiit.ac.in/

[5] Coursera, ปรึกษาเมื่อวันที่ 14 ธันวาคม 2020, https://www.coursera.org/