ความเข้าใจทางธุรกิจ

ศิลปิน โปรดิวเซอร์ และค่ายเพลงหลายแห่งในวงการเพลงมุ่งมั่นที่จะสร้างเพลงฮิต แต่อะไรคือความสมดุลที่สมบูรณ์แบบของความสามารถในการเต้น พลังงาน จังหวะ ระยะเวลา และปัจจัยอื่นๆ ที่สามารถรับประกันความนิยมได้ ตามรายงานของ Business Insider ศิลปินมักจะมีรายได้ระหว่าง 0.003 ถึง 0.005 เหรียญสหรัฐฯ ต่อการสตรีม ซึ่งหมายความว่าต้องใช้เวลาประมาณ 250 สตรีมจึงจะมีรายได้เพียง 1 เหรียญสหรัฐฯ เงินนี้มาจากค่าธรรมเนียมการสมัครสมาชิกของ Spotify และรายได้ที่รวบรวมจากการแสดงโฆษณา โปรดิวเซอร์พบว่าเส้นทางที่ชัดเจนที่สุดในการสร้างรายได้ที่สูงขึ้นจากการสตรีมคือการทำให้แน่ใจว่าเพลงจะกลายเป็นเพลงฮิต ซึ่งนำไปสู่จำนวนการสตรีมที่สูงขึ้น ฉันจะตั้งเป้าที่จะคาดการณ์ความนิยมของเพลงที่ยังไม่ได้เผยแพร่โดยพิจารณาจากพารามิเตอร์ที่จับต้องได้ต่างๆ ที่มีอยู่ (ช่องที่กล่าวถึงในชุดข้อมูล) นอกจากนี้ ฉันยังตั้งเป้าที่จะจัดกลุ่มเพลงยอดนิยมตามพารามิเตอร์ที่แตกต่างกัน และระบุพารามิเตอร์ที่มีบทบาทสำคัญในความนิยมของเพลง โซลูชันการขุดข้อมูลสามารถสร้างแบบจำลองที่สามารถกำหนดส่วนผสมของปัจจัยเพลงที่แตกต่างกันได้อย่างแม่นยำ เพื่อรับประกันเพลงฮิต และรับประกันแหล่งรายได้ที่แข็งแกร่งสำหรับศิลปินที่ใช้โมเดลนี้ผ่านการชดเชยสตรีม Spotify

การทำความเข้าใจและการสร้างแบบจำลองข้อมูล

ฉันใช้ภาษาการเขียนโปรแกรม R เพื่อล้างข้อมูล การวิเคราะห์เชิงสำรวจ และการสร้างแบบจำลองการเรียนรู้ของเครื่อง ต่อไปนี้เป็นขั้นตอนในการปฏิบัติตาม:

1. การนำเข้าไลบรารีและชุดข้อมูล (41,106 เพลง, 20 คุณสมบัติ)

2. การวิเคราะห์ข้อมูลเชิงสำรวจ

3. โมเดลแมชชีนเลิร์นนิงที่ไม่ได้รับการดูแล — PCA, K-Means

4. โมเดลแมชชีนเลิร์นนิงที่ได้รับการดูแล — การวิเคราะห์เชิงคาดการณ์

5. การประเมินผล

6. การปรับใช้

ขั้นตอนที่ 1: การนำเข้าชุดข้อมูล

ตัวแปร 20 ตัวในข้อมูล ได้แก่ แทร็ก, ศิลปิน, uri (ตัวระบุเฉพาะของ Spotify), ความสามารถในการเต้น, พลังงาน, คีย์, ความดัง, โหมด, เสียงพูด, ความอะคูสติก, เครื่องดนตรี, ความมีชีวิตชีวา, วาเลนซ์, จังหวะ, ระยะเวลา (เป็นมิลลิวินาที), ลายเซ็นเวลา, คอรัส การเข้าชม ส่วน เป้าหมาย และปี ตัวแปรทั้งหมดเป็นตัวเลข ยกเว้นแทร็ก ศิลปิน และ uri คำอธิบายคุณสมบัติเพลงโดยละเอียดทั้งหมดแสดงอยู่ในภาคผนวก

ขั้นตอนที่ 2: การวิเคราะห์ข้อมูลเชิงสำรวจ

ข้อมูลถูกจัดเตรียมในขั้นแรกโดยการตรวจสอบค่า Null และล้างค่าเหล่านั้นออก จากนั้น ฉันจึงทำการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อทำความเข้าใจข้อมูลให้ดีขึ้น และดูว่าตัวแปรใดมีผลกระทบต่อความนิยมมากที่สุด วิธีการที่ใช้ ได้แก่ การแสดงภาพบ็อกซ์พล็อต เวิร์ดคลาวด์ แผนภาพสหสัมพันธ์ กราฟแท่ง และแผนภาพกระจาย ขั้นแรก ฉันสร้างเวิร์ดคลาวด์โดยใช้ชื่อเพลงเพื่อให้เห็นภาพคำที่ใช้บ่อยที่สุดในชื่อเพลง จากคำนี้ จะเห็นได้ง่ายว่า "ความรัก" เป็นคำที่ใช้มากที่สุดในชื่อเพลง ตามด้วย "don't", "rock", "live", "blue" และ "remast" ประการที่สอง ฉันสร้างพล็อตความสัมพันธ์กับตัวแปรทุกตัวที่ไม่ใช่แทร็ก ศิลปิน และ uri เนื่องจากตัวแปรเหล่านี้เป็นตัวแปรอักขระ จากแผนภาพความสัมพันธ์ ฉันตัดสินใจพิจารณาตัวแปรที่ดูเหมือนจะมีความสัมพันธ์เชิงบวกหรือเชิงลบต่อกันมากที่สุด

ท่อนและระยะเวลามีความสัมพันธ์เชิงบวกอย่างมากที่ 0.89 ซึ่งหมายความว่าเพลงที่มีท่อนต่างๆ มากกว่าปกติก็จะยิ่งมีความยาวมากขึ้นเท่านั้น ชุดข้อมูลจะกำหนดส่วนให้เป็นส่วนหนึ่งของเพลงที่แตกต่างกัน เช่น ท่อนท่อนต่างๆ คอรัส และท่อนบริดจ์ ต่อไป ฉันอยากจะพิจารณาพลังงานและเสียงของเพลงให้ละเอียดยิ่งขึ้น ซึ่งมีความสัมพันธ์กันที่ -0.72 เมื่อดูแผนภาพกระจาย เราจะเห็นความสัมพันธ์เชิงลบอย่างมากระหว่างตัวแปรทั้งสองนี้ โดยทั่วไปแล้ว สิ่งนี้สมเหตุสมผลดีที่เพลงที่มีพลังงานสูงจะไม่มีลักษณะอะคูสติก เช่น กีตาร์ช้า และจะมีซินธ์และจังหวะไฟฟ้ามากกว่า

ขั้นตอนที่ 3: การเรียนรู้ของเครื่องแบบไม่มีผู้ดูแล — PCA และการทำคลัสเตอร์

เพื่อให้เข้าใจข้อมูลได้ดีขึ้น ฉันจึงตัดสินใจทำการวิเคราะห์องค์ประกอบหลักกับคุณลักษณะของเพลงทั้งหมด (โดยไม่มีตัวแปรความนิยม) เพื่อจัดประเภทเพลงออกเป็นกลุ่มฉันพบว่าเราสามารถอธิบาย 49.30% ของเพลงทั้งหมดโดยใช้เพียง 4 องค์ประกอบเท่านั้น ซึ่ง เราได้กำหนดไว้ด้านล่าง:

· เพลงที่ดังและมีพลังสูง

·เพลงยาวที่มีหลายส่วน

· เพลงที่เต้นได้น้อย ความสามารถต่ำ (เศร้า)

· เพลงในโหมดรองที่มีจังหวะต่ำต่อนาที

เมื่อเข้าใจคุณสมบัติของเพลงที่ทำให้เพลงแตกต่าง ฉันจึงตัดสินใจจัดกลุ่มเคมีนเพื่อจัดกลุ่มเพลงออกเป็นส่วนๆ ฉันพบว่า 3 กลุ่มสามารถแยกเพลงออกเป็นกลุ่มต่างๆ ที่มีลักษณะคล้ายกันในแง่ของคุณลักษณะ กลุ่มเพลงสอดคล้องกับองค์ประกอบหลักที่อธิบายไว้ข้างต้น ด้านล่างนี้คือแผนผังบ็อกซ์พล็อต 3 รายการของความจุเพลงและพลังงานของเพลง และความแตกต่างอย่างมากระหว่างกลุ่มที่สร้างจากการจัดกลุ่มแบบเคมีน

ขั้นตอนที่ 4: การวิเคราะห์เชิงคาดการณ์ — การเรียนรู้ของเครื่องภายใต้การดูแล

ข้อมูลมี 20 คุณสมบัติตามที่กล่าวไว้ข้างต้น ตัวแปรที่กำหนดว่าเพลงนั้นถูกตีบนแพลตฟอร์มหรือไม่เรียกว่า 'เป้าหมาย' เป้าหมายจะมีป้ายกำกับเป็น 1 หากเป็นเพลงฮิต หรือ 0 หากเพลงนั้นไม่ใช่เพลงฮิต คุณสมบัติต่างๆ เช่น แทร็ก ศิลปิน และ Uri ล้วนแต่เป็นตัวแปรอักขระ ดังนั้นฉันจึงยกเลิกฟีเจอร์เหล่านี้เพื่อทำให้ชุดข้อมูลเข้ากันได้กับการวิเคราะห์เชิงคาดการณ์ ด้านล่างนี้คือโมเดลต่างๆ ที่เราใช้เพื่อดูว่าเพลงดังกล่าวจะเป็นเพลงฮิตหรือเพลงไม่ฮิต

· แบบจำลองการถดถอยแบบโลจิสติก — ข้อมูลนี้ช่วยให้เราทราบ (โอกาส) ว่าเพลงจะได้รับความนิยมหรือไม่

· แบบจำลองการหดตัวและการเลือกแบบสัมบูรณ์น้อยที่สุด (LASSO) — แบบจำลองนี้ทำงานเนื่องจากเรามีตัวแปรอิสระที่แตกต่างกัน 16 ตัว ซึ่งจะต้องได้รับการปรับปรุงให้เป็นปกติเพื่อหลีกเลี่ยงอคติและความแปรปรวนที่พอดี (หลีกเลี่ยงการใส่มากเกินไปและพอดีน้อยเกินไป ของตัวแปร) โมเดลนี้ดำเนินการเพื่อพิจารณา พหุคอลลิเนียริตี้ ระหว่างตัวแปรอิสระที่ต่างกัน

· โมเดล Post-Lasso — โมเดลนี้เหมือนกับ Lasso แต่จะพิจารณาเฉพาะจำนวนการโต้ตอบขั้นต่ำระหว่างฟีเจอร์ของเพลงเท่านั้น

· แบบจำลองต้นไม้การจำแนกประเภท —แบบจำลองนี้ใช้วิธีการจำแนกต้นไม้แบบไบนารีเพื่อจัดประเภทข้อมูลออกเป็นส่วน ๆ

· โมเดลเฉลี่ย — โมเดลนี้สร้างขึ้นโดยใช้การคาดการณ์เฉลี่ยของโมเดลข้างต้นทั้งหมด หรือที่เรียกว่าโมเดลว่าง

แนวคิดคือการรันโมเดลต่อไปนี้เพื่อรับการคาดการณ์ และใช้โมเดลว่างสำหรับการอนุมานพื้นฐานของความแม่นยำและประสิทธิภาพ ฉันตรวจสอบเมตริกนอกตัวอย่างต่างๆ เพื่อเปรียบเทียบโมเดลข้างต้น และเลือกโมเดลที่จะใช้ในการทำนายความน่าจะเป็นของ is_hit_song ในส่วนถัดไป ฉันยังวิเคราะห์ด้วยว่าค่าที่ดีที่สุดของเกณฑ์จะเป็นเท่าใดในการแปลงความน่าจะเป็นให้เป็นตัวแปรไบนารี่

การประเมินผล

หลังจากดำเนินการตรวจสอบข้าม 10 เท่า ฉันได้ประเมินตัววัดเฉลี่ยต่อไปนี้เพื่อเปรียบเทียบแต่ละโมเดล ได้แก่ Logistic Regression, Lasso Regression, Post Lasso Regression, Classification Tree, Average model และ Null Model

· ความแม่นยำนอกตัวอย่าง — จากรูปด้านล่าง จะเห็นว่า Lasso Regression ให้ความแม่นยำสูงสุดนอกตัวอย่าง (67.76%)

· ค่า R-squared นอกตัวอย่าง — เช่นเดียวกับความแม่นยำโดยเฉลี่ยของการตรวจสอบข้าม 10 เท่า ค่า R-squared นอกตัวอย่างโดยเฉลี่ยของ Lasso Regression จะสูงที่สุด (30.29%)

· เส้นโค้ง ROC — นอกเหนือจากความแม่นยำและ R-squared แล้ว ฉันยังพล็อต ROC ของโมเดลทั้งหมดด้วย (ซึ่งทำหลังจากการฝึกอบรมข้อมูลบนชุดข้อมูลทั้งหมด) และใครๆ ก็สามารถเห็นรูปแบบที่คล้ายกันของการถดถอยแบบ Lasso ที่มีประสิทธิภาพเหนือกว่า รุ่นอื่นๆ และมีพื้นที่ใต้โค้งที่ใหญ่ที่สุด

เกณฑ์การตัดสินใจ: สำหรับคำแนะนำทางธุรกิจ ไม่มีใครยอมสูญเสียเพลงซึ่งอาจเป็นเพลงฮิตได้ พูดให้แตกต่างออกไป — สิ่งสำคัญคือเราต้องเพิ่มการคาดเดาที่ถูกต้องสำหรับเพลงฮิตให้ได้มากที่สุด ดังนั้นเราจึงตัดสินใจที่จะมุ่งเน้นไปที่การเพิ่มประสิทธิภาพอัตราบวกที่แท้จริง หากเรามีการคาดการณ์ที่ผิดพลาด เรายังสามารถทุ่มงบประมาณการตลาดเพื่อทำให้บันทึกได้ผล จากเมทริกซ์ความสับสนและ ROC เราจะได้ตารางค่าเกณฑ์ต่อไปนี้:

ฉันเลือกค่าเกณฑ์ 0.45 ซึ่งตรงกับความคาดหวังทางธุรกิจ ฉันเลือกที่จะก้าวไปข้างหน้าด้วยโมเดล Logistic Regression พร้อมฟีเจอร์ Lasso Reduction เมื่อใช้การลด LASSO ฉันได้คุณสมบัติที่โดดเด่น (รวมถึงการโต้ตอบ) ซึ่งอธิบายความแปรผันของชุดข้อมูล 86% ดังนั้นฉันจึงสร้างสมการของมูลค่าที่คาดหวังของ is_hit_song พร้อมด้วยค่าเบต้าของคุณสมบัติเด่นทุกรายการเพื่อตัดสินความนิยมของเพลง ด้วยสมการนี้ เราสามารถทำนายความคาดหวังของอัตราต่อรองได้ และความน่าจะเป็นของเพลงที่ยังไม่ได้เผยแพร่ ในขณะที่เราสรุปโมเดลการถดถอยโลจิสติกของเราด้วยฟีเจอร์แบบลดเชือก เรามีการโต้ตอบ 10 อันดับแรกที่ต่ำกว่าและผลกระทบเล็กน้อยต่อบันทึก (ราคาต่อรอง) ของเพลงฮิต หมายเหตุเพิ่มเติมบางประการเกี่ยวกับคุณสมบัติเพลงเมื่อคุณสมบัติอื่นๆ คงที่

· ความไพเราะที่เพิ่มขึ้น (จำนวนคำพูด) ส่งผลให้ความนิยม ลดลง อย่างมาก (โอกาส) แต่จะเกิดขึ้นก็ต่อเมื่ออุปกรณ์และพลังงานเพิ่มขึ้นเช่นกัน สิ่งเหล่านี้ถือเป็นคำอธิบายของเพลงที่มีถ้อยคำรุนแรงและมีพลังสูง

· พลังงานที่เพิ่มขึ้นนำไปสู่การเพิ่มขึ้น อย่างมากในบันทึก (โอกาส) ของความนิยม แต่จะเกิดขึ้นเมื่อเสียงและความสามารถในการเต้นเพิ่มขึ้นเท่านั้น สิ่งเหล่านี้คือคำอธิบายของดนตรีอิเล็กทรอนิกส์แดนซ์

· ความจุที่เพิ่มขึ้น (ความสุขของเพลง) นำไปสู่การเพิ่มขึ้น อย่างมากในบันทึก (โอกาส) ของความนิยม แต่จะเกิดขึ้นก็ต่อเมื่อดนตรีและพลังงานเพิ่มขึ้นเช่นกัน สิ่งเหล่านี้คือคำอธิบายของเพลงที่ให้ความรู้สึกมีความสุข

การปรับใช้

การนำโมเดลของเราไปใช้ตามที่กล่าวไว้ในปัญหาทางธุรกิจนั้นมีไว้สำหรับนักแต่งเพลง โปรดิวเซอร์ และศิลปินในการทำความเข้าใจวิธีการรับประกันเพลงฮิต และใช้ประโยชน์จากข้อมูลนี้เพื่อเพิ่มรายได้และผลกำไร จากกลุ่มที่เราพบผ่าน PCA ค่ายเพลงสามารถใช้ประโยชน์จากกลุ่มเพื่อดึงดูดกลุ่มประชากรต่างๆ ที่ชื่นชอบคุณสมบัติบางอย่างในเพลง เช่น ผู้ที่ชอบเพลงเศร้าที่ใช้พลังงานต่ำ และผู้ที่ชอบเพลงที่มีระดับเสียงสูงและจังหวะที่ดัง

ค่ายเพลงปัญหาหลักควรทราบเกี่ยวกับการปรับใช้โมเดลนี้คือการตอบสนองที่ Spotify จะมี หากกระแสโดยรวมเพิ่มขึ้น Spotify จะเริ่มสูญเสียเงิน ซึ่งอาจส่งผลเสียต่อธุรกิจ พวกเขาอาจตอบโต้ด้วยการลดเงินดอลลาร์ต่ออัตราการสตรีม ซึ่งบ่อนทำลายประสิทธิภาพของโมเดลของเรา

ความเสี่ยงประการหนึ่งที่เกี่ยวข้องกับการนำโมเดลนี้ไปใช้ก็คือมีแนวโน้มที่จะเพิ่มการแข่งขันระหว่างหน่วยงานในอุตสาหกรรมเพลง เห็นได้ชัดว่าศิลปินต้องการสร้างค่าจ้างที่สามารถดำรงชีวิตได้ และหากเส้นทางที่ชัดเจนที่สุดในการทำเช่นนี้คือการประกันความนิยม ก็ไม่มีเหตุผลที่จะไม่ใช้โมเดลนี้และสร้างเพลงฮิตและเพิ่มจำนวนการสตรีม เราสามารถบรรเทาปัญหานี้ได้ด้วยการลดการเข้าถึงโมเดลนี้ให้เหลือน้อยที่สุด บางทีอาจขายในราคาที่สูงหรือทำงานร่วมกับศิลปินที่ยังไม่ได้รับความนิยมเท่านั้น

ความเสี่ยงอีกประการหนึ่งคือหลายเพลงมีศักยภาพที่จะฟังดูเหมือนกัน ตัวอย่างเช่น หากค่ายเพลงหลายแห่งตัดสินใจใช้โมเดลนี้ในกระบวนการแต่งเพลง เพลงของพวกเขาก็จะมีคุณลักษณะที่เหมือนกันทุกประการ ทำให้เพลงใหม่จากค่ายเพลงดูเหมือนตัดคุกกี้และคาดเดาได้ง่ายมาก อย่างไรก็ตาม โมเดลของเราเหลือพื้นที่ไว้สำหรับความแปรปรวนในแง่ของเครื่องดนตรี คีย์ โหมด จังหวะ และลายเซ็นเวลา ดังนั้นโครงสร้างของเพลงจึงไม่จำเป็นต้องฟังดูเข้ากับโมเดลทั้งหมดเสมอไป

สุดท้ายนี้ ความเสี่ยงประการหนึ่งสำหรับโมเดลของเราคือเราละเว้นปัจจัยใดๆ ที่เกี่ยวข้องกับชื่อศิลปิน เนื่องจากเราต้องการให้โมเดลของเรานำเสนอโอกาสที่เท่าเทียมกันสำหรับศิลปิน โดยไม่คำนึงถึงความนิยม เพื่อทำความเข้าใจประเภทของดนตรีที่จะได้รับความนิยม

ภาคผนวก

1. คำอธิบายคุณสมบัติของเพลง

· ความสามารถในการเต้น: ความสามารถในการเต้นจะอธิบายถึงความเหมาะสมของเพลงสำหรับการเต้นโดยพิจารณาจากองค์ประกอบทางดนตรีผสมผสานกัน รวมถึงจังหวะ ความเสถียรของจังหวะ ความแข็งแกร่งของจังหวะ และความสม่ำเสมอโดยรวม ค่า 0.0 คือค่าที่สามารถเต้นได้น้อยที่สุด และ 1.0 คือค่าที่สามารถเต้นได้มากที่สุด

· พลังงาน: พลังงานเป็นหน่วยวัดตั้งแต่ 0.0 ถึง 1.0 และแสดงถึงการวัดความรุนแรงและกิจกรรมในการรับรู้ โดยทั่วไปแล้ว เพลงที่มีพลังจะรู้สึกเร็ว ดัง และอึกทึกครึกโครม ตัวอย่างเช่น เดธเมทัลมีพลังสูง ในขณะที่เพลงโหมโรงของบาคมีคะแนนต่ำเมื่อเทียบกับสเกล คุณลักษณะการรับรู้ที่มีส่วนทำให้เกิดคุณลักษณะนี้ ได้แก่ ช่วงไดนามิก ความดังที่รับรู้ เสียงต่ำ อัตราการโจมตี และเอนโทรปีทั่วไป

· คีย์: คีย์โดยรวมโดยประมาณของแทร็ก แผนที่จำนวนเต็มกับระดับเสียงโดยใช้สัญกรณ์ Pitch Class มาตรฐาน เช่น. 0 = C, 1 = C?/D?, 2 = D และอื่นๆ หากตรวจไม่พบคีย์ ค่าจะเป็น -1

· ความดัง: ความดังโดยรวมของแทร็กในหน่วยเดซิเบล (dB) ค่าความดังจะเป็นค่าเฉลี่ยทั่วทั้งแทร็ก และมีประโยชน์สำหรับการเปรียบเทียบความดังสัมพัทธ์ของแทร็ก ความดังคือคุณภาพของเสียงที่มีความสัมพันธ์ทางจิตวิทยาเบื้องต้นกับความแข็งแกร่งทางกายภาพ (แอมพลิจูด) โดยทั่วไปค่าจะอยู่ระหว่าง -60 ถึง 0 dB

· โหมด: โหมดบ่งบอกถึงกิริยา (เมเจอร์หรือไมเนอร์) ของแทร็ก ประเภทของสเกลที่มาจากเนื้อหาอันไพเราะ Major แทนด้วย 1 และ minor แทนด้วย 0

· ความสามารถในการพูด: ความสามารถในการพูดจะตรวจจับการมีอยู่ของคำพูดในแทร็ก ยิ่งการบันทึกมีลักษณะเหมือนคำพูดเป็นพิเศษ (เช่น รายการทอล์คโชว์ หนังสือเสียง บทกวี) ค่าแอตทริบิวต์ก็จะยิ่งเข้าใกล้ 1.0 มากขึ้นเท่านั้น ค่าที่สูงกว่า 0.66 อธิบายถึงแทร็กที่อาจสร้างจากคำพูดทั้งหมด ค่าระหว่าง 0.33 ถึง 0.66 อธิบายแทร็กที่อาจมีทั้งดนตรีและคำพูด ไม่ว่าจะในส่วนหรือแบบเลเยอร์ รวมถึงกรณีต่างๆ เช่น เพลงแร็พ ค่าที่ต่ำกว่า 0.33 มักจะแสดงถึงเพลงและแทร็กอื่นๆ ที่ไม่ใช่คำพูด

· ความอะคูสติก: การวัดความมั่นใจตั้งแต่ 0.0 ถึง 1.0 ว่าแทร็กเป็นแบบอะคูสติกหรือไม่ 1.0 แสดงถึงความมั่นใจสูงว่าแทร็กเป็นแบบอะคูสติก

· ความเป็นเครื่องดนตรี: คาดการณ์ว่าแทร็กไม่มีเสียงร้องหรือไม่ เสียง “Ooh” และ “aah” ถือเป็นเสียงดนตรีในบริบทนี้ เพลงแร็พหรือคำพูดเป็นเพลง "แกนนำ" อย่างชัดเจน ยิ่งค่าเครื่องดนตรีเข้าใกล้ 1.0 มากเท่าใด แทร็กที่ไม่มีเนื้อหาเสียงร้องก็จะยิ่งมีมากขึ้นเท่านั้น ค่าที่สูงกว่า 0.5 มีวัตถุประสงค์เพื่อแสดงเพลงบรรเลง แต่ความเชื่อมั่นจะสูงขึ้นเมื่อค่าเข้าใกล้ 1.0

· ความมีชีวิตชีวา: ตรวจจับการมีอยู่ของผู้ชมในการบันทึก ค่าความมีชีวิตชีวาที่สูงขึ้นแสดงถึงความน่าจะเป็นที่เพิ่มขึ้นที่แทร็กจะถูกแสดงสด ค่าที่สูงกว่า 0.8 แสดงถึงความเป็นไปได้สูงที่แทร็กนั้นจะมีการเผยแพร่อยู่

· ความจุ: การวัดจาก 0.0 ถึง 1.0 ที่อธิบายถึงแง่บวกทางดนตรีที่ถ่ายทอดผ่านแทร็ก แทร็กที่มีความจุสูงจะให้เสียงเชิงบวกมากกว่า (เช่น มีความสุข ร่าเริง ร่าเริง) ในขณะที่แทร็กที่มีความจุต่ำจะให้เสียงเชิงลบมากกว่า (เช่น เศร้า หดหู่ โกรธ)

· จังหวะ: จังหวะโดยประมาณโดยรวมของแทร็กเป็นจังหวะต่อนาที (BPM) ในคำศัพท์ทางดนตรี จังหวะคือความเร็วหรือจังหวะของท่อนเพลงที่กำหนดและได้มาจากระยะเวลาจังหวะเฉลี่ยโดยตรง

· Duration_ms: ระยะเวลาของแทร็กเป็นมิลลิวินาที

· time_signature: ลายเซ็นเวลาโดยรวมโดยประมาณของแทร็ก ลายเซ็นเวลา (เมตร) เป็นรูปแบบสัญลักษณ์เพื่อระบุจำนวนจังหวะในแต่ละแถบ (หรือหน่วยวัด)

· chorus_hit: นี่เป็นการประมาณที่ดีที่สุดของผู้เขียนว่าจะเริ่มขับร้องเมื่อใด เป็นการประทับเวลาของการเริ่มต้นส่วนที่สามของแทร็ก (หน่วยเป็นมิลลิวินาที) คุณลักษณะนี้ดึงมาจากข้อมูลที่ได้รับจากการเรียก API สำหรับการวิเคราะห์เสียงของแทร็กนั้น

· ส่วน: จำนวนส่วนที่แทร็กนั้นมี คุณลักษณะนี้ดึงมาจากข้อมูลที่ได้รับจากการเรียก API สำหรับการวิเคราะห์เสียงของแทร็กนั้น

· เป้าหมาย: ตัวแปรเป้าหมายสำหรับแทร็ก อาจเป็น '0' หรือ '1' ก็ได้ '1' หมายถึงเพลงนี้ได้นำเสนอในรายการรายสัปดาห์ (ออกโดย Billboards) ของเพลง Hot-100 ในทศวรรษนั้นอย่างน้อยหนึ่งครั้ง ดังนั้นจึงเป็น 'เพลงฮิต' '0' หมายความว่าแทร็กนั้นเป็น 'ล้มเหลว'

การสนับสนุนขั้นตอนการเรียนรู้ของเครื่อง