ฉันกำลังพยายามคำนวณการแจกแจงของตัวแปรสุ่มหลายตัวล่วงหน้า โดยเฉพาะอย่างยิ่ง ตัวแปรสุ่มเหล่านี้เป็นผลลัพธ์ของฟังก์ชันที่ประเมิน ณ ตำแหน่งต่างๆ ในจีโนม ดังนั้นค่าแต่ละค่าจะเรียงลำดับกัน 10^8 หรือ 10^9 ค่า ฟังก์ชั่นค่อนข้างราบรื่น ดังนั้นฉันไม่คิดว่าฉันจะสูญเสียความแม่นยำไปมากนักโดยการประเมินแค่ทุกๆ 2/10/100 เท่านั้น? พื้นฐานหรือประมาณนั้น แต่ไม่ว่าจะมีตัวอย่างจำนวนมากก็ตาม แผนของฉันคือการคำนวณตารางควอนไทล์ล่วงหน้า (อาจเป็นเปอร์เซ็นต์ไทล์) สำหรับแต่ละฟังก์ชัน และอ้างอิงตารางเหล่านี้ในการดำเนินการของโปรแกรมหลักของฉัน เพื่อหลีกเลี่ยงการคำนวณสถิติการกระจายเหล่านี้ในทุกการรัน
แต่ฉันไม่เห็นจริงๆ ว่าจะทำสิ่งนี้ได้อย่างไร: การจัดเก็บ การเรียงลำดับ และลดอาร์เรย์ 10^9 โฟลตนั้นเป็นไปไม่ได้จริงๆ แต่ฉันไม่สามารถคิดถึงวิธีอื่นที่ไม่สูญเสียข้อมูลเกี่ยวกับ การกระจาย. มีวิธีวัดควอนไทล์ของการกระจายตัวอย่างที่ไม่จำเป็นต้องจัดเก็บสิ่งทั้งหมดไว้ในหน่วยความจำหรือไม่?