ฉันมีไฟล์ FASTA สองไฟล์ที่มีลำดับ DNA ที่เข้ารหัสสำหรับโปรตีนสองชนิดที่แตกต่างกัน ฉันต้องการรวมลำดับของโปรตีนต่างๆ และสปีชีส์เดียวกันเข้าด้วยกันเป็นลำดับยาวๆ ลำดับเดียว
ตัวอย่างเช่น ฉันมี:
Protein 1
>sce
AGTAGATGACAGCT
>act
GCTAGCTAGCT
Protein 2
>sce
GCTACGATCGACT
>act
TACGATCAGCTA
Protein 1+2
>sce
AGTAGATGACAGCTGCTACGATCGACT
>act
GCTAGCTAGCTTACGATCAGCTA
สิ่งที่อาจเป็นปัญหาเล็กน้อยก็คือสปีชีส์ไม่ปรากฏในลำดับเดียวกันในทั้งสองไฟล์และมีลำดับบางอย่างที่พบในไฟล์เดียว แต่ไม่ใช่ในอีกไฟล์หนึ่ง (ไฟล์มีความยาวประมาณ 110 สปีชีส์ โดยมี ความคลาดเคลื่อนของ 4 หรือ 5)
ความพยายามครั้งแรกของฉันในการเขียนโค้ดคือ:
gamma = open('gamma.fas', 'w')
spc = open("spc98.fas", 'w')
outfile = open("joined.fas", 'w')
for line in gamma:
if line.startswith(">"):
for line2 in spc:
if line2.startswith(">"):
if line == line2:
outfile.write(line)
else:
outfile.write(line)
fh.close()
แต่เนื่องจากลำดับ DNA นั้นยาวมากและกินพื้นที่หลายบรรทัด ฉันจึงไม่รู้ว่าจะเลือกมันอย่างไร
กรุณาช่วย!