ฉันต้องการแยกเนื้อหาข้อความอีเมล มันอยู่ในเนื้อหา HTML ใช้ BeautifulSoup เพื่อดึงข้อมูลจาก จาก ถึง และหัวเรื่อง เมื่อดึงเนื้อหาเนื้อหา จะดึงข้อมูลบรรทัดแรกเพียงอย่างเดียว โดยจะเหลือบรรทัดและย่อหน้าที่เหลือ
ขาดอะไรไปตรงนี้ ต้องอ่านทุกบรรทัด/ย่อหน้ายังไง
รหัส:
email_message = mail.getEmail(unreadId)
print (email_message['From'])
print (email_message['Subject'])
if email_message.is_multipart():
for payload in email_message.get_payload():
bodytext = email_message.get_payload()[0].get_payload()
if type(bodytext) is list:
bodytext = ','.join(str(v) for v in bodytext)
else:
bodytext = email_message.get_payload()[0].get_payload()
if type(bodytext) is list:
bodytext = ','.join(str(v) for v in bodytext)
print (bodytext)
parsedContent = BeautifulSoup(bodytext)
body = parsedContent.findAll('p').getText()
print body
คอนโซล:
body = parsedContent.findAll('p').getText()
AttributeError: 'list' object has no attribute 'getText'
เมื่อฉันใช้
body = parsedContent.find('p').getText()
ดึงข้อมูลบรรทัดแรกของเนื้อหา และไม่ได้พิมพ์บรรทัดที่เหลือ
เพิ่ม
หลังจากได้บรรทัดทั้งหมดจากแท็ก html แล้ว ฉันจะได้ = สัญลักษณ์ที่ท้ายแต่ละบรรทัด และยังแสดง   ; , < วิธีเอาชนะสิ่งเหล่านั้น
ข้อความที่แยกออกมา:
เรียนก่อนอื่น พวกเราทุกคนที่ GenWatt รู้สึกยินดีที่มี xyz เป็นลูกค้า ฉันอยากจะแนะนำตัวเองในฐานะผู้จัดการบัญชีของคุณ หากคุณ = มีคำถามใด ๆ โปรดอย่าลังเลที่จะโทรหาฉันที่หรือส่งอีเมลถึงฉันที่ ash= [email protected] คุณยังสามารถติดต่อ GenWatt ได้ตามหมายเลขต่อไปนี้: หลัก: 810-543-1100ฝ่ายขาย: 810-545-1222ฝ่ายบริการลูกค้าและสนับสนุน: 810-542-1233แฟกซ์: 810-545-1001ฉันมั่นใจว่า GenWatt จะให้บริการคุณอย่างดีและหวังว่าจะได้พบเห็น ความสัมพันธ์=