Saya ingin mengekstrak konten pesan email. Itu ada dalam konten html, menggunakan BeautifulSoup untuk mengambil Dari, Ke dan subjek. Saat mengambil konten isi, ia mengambil baris pertama saja. Itu meninggalkan baris dan paragraf yang tersisa.
Saya melewatkan sesuatu di sini, cara membaca semua baris/paragraf.
KODE:
email_message = mail.getEmail(unreadId)
print (email_message['From'])
print (email_message['Subject'])
if email_message.is_multipart():
for payload in email_message.get_payload():
bodytext = email_message.get_payload()[0].get_payload()
if type(bodytext) is list:
bodytext = ','.join(str(v) for v in bodytext)
else:
bodytext = email_message.get_payload()[0].get_payload()
if type(bodytext) is list:
bodytext = ','.join(str(v) for v in bodytext)
print (bodytext)
parsedContent = BeautifulSoup(bodytext)
body = parsedContent.findAll('p').getText()
print body
Konsol:
body = parsedContent.findAll('p').getText()
AttributeError: 'list' object has no attribute 'getText'
Ketika saya menggunakan
body = parsedContent.find('p').getText()
Itu mengambil baris pertama konten dan tidak mencetak baris sisanya.
Ditambahkan
Setelah mendapatkan semua baris dari tag html, saya mendapatkan simbol = di akhir setiap baris dan juga   ; , < ditampilkan. Bagaimana cara mengatasinya.
Teks yang diekstraksi:
Yang terhormat pertama, Kami semua di GenWatt senang memiliki xyz sebagai pelanggan. Saya ingin memperkenalkan diri saya sebagai Manajer Akun Anda. Jika Anda = mempunyai pertanyaan, jangan ragu untuk menghubungi saya di atau mengirim email kepada saya di ash= [email protected]. Anda juga dapat menghubungi GenWatt di nomor berikut: Utama: 810-543-1100Penjualan: 810-545-1222Layanan & Dukungan Pelanggan: 810-542-1233Faks: 810-545-1001Saya yakin GenWatt akan melayani Anda dengan baik dan berharap dapat melihat kami hubungan=