У меня есть два файла FASTA с последовательностями ДНК, кодирующими два разных белка. Я хочу объединить последовательности для разных белков и одного вида в одну длинную последовательность.
например, у меня есть:
Protein 1
>sce
AGTAGATGACAGCT
>act
GCTAGCTAGCT
Protein 2
>sce
GCTACGATCGACT
>act
TACGATCAGCTA
Protein 1+2
>sce
AGTAGATGACAGCTGCTACGATCGACT
>act
GCTAGCTAGCTTACGATCAGCTA
Что-то, что может быть проблемой, заключается в том, что виды не появляются в одном и том же порядке в обоих файлах, и есть несколько последовательностей, которые находятся в одном, но не в другом (файлы имеют длину около 110 видов, с несоответствие 4 или 5).
Моя первая попытка написать код для него была:
gamma = open('gamma.fas', 'w')
spc = open("spc98.fas", 'w')
outfile = open("joined.fas", 'w')
for line in gamma:
if line.startswith(">"):
for line2 in spc:
if line2.startswith(">"):
if line == line2:
outfile.write(line)
else:
outfile.write(line)
fh.close()
но поскольку последовательности ДНК очень длинные и занимают много строк в файле, я не знаю, как их выбрать.
Пожалуйста помоги!