Saya ingin mengekstrak kata benda_frasa teks Belanda menggunakan model nl_core_news_sm oleh spacy. Ia mengembalikan daftar kosong. Di sisi lain, model bahasa Inggris yang setara en_core_web_sm memang menyediakan daftar noun_chunks (noun_phrases)
Apakah ini perilaku normal? yaitu model bahasa Belanda tidak menyertakan pemisah kata benda_frasa dan model bahasa Inggris menyertakannya? Atau apakah saya melakukan sesuatu yang salah?
string='''In een wereld waarin je wordt overspoeld met informatie, is het prettig om een nieuwsbron te hebben met heldere stukken, die de ruimte laten om je eigen mening te vormen.'''
nlp = spacy.load('nl_core_news_sm')
print(dir(doc))
print(doc.noun_chunks)
list_chunks=[chunk for chunk in doc.noun_chunks]
for chunk in doc.noun_chunks:
print(chunk.text)
Hasilnya di sini adalah list_chunks adalah [] Dan tentu saja tidak ada yang dicetak dalam loop
Saya menggunakan dir(doc) untuk membandingkan metode yang tersedia untuk membandingkan dengan model bahasa Inggris. Mereka sama.
nlp_en = spacy.load('en_core_web_sm')
string='''They normally organises a wide range of activities for kids in the summer holidays. Due to the virus, these have all been cancelled'''
doc2=nlp_en(string)
print(dir(doc2))
print(doc2.noun_chunks)
for chunk in doc2.noun_chunks:
print(chunk.text)
Dalam bahasa Inggris itu berhasil.
Ada ide?