Spacy Dutch noun_phrases mengembalikan daftar kosong menggunakan nl_core_news_sm

Saya ingin mengekstrak kata benda_frasa teks Belanda menggunakan model nl_core_news_sm oleh spacy. Ia mengembalikan daftar kosong. Di sisi lain, model bahasa Inggris yang setara en_core_web_sm memang menyediakan daftar noun_chunks (noun_phrases)

Apakah ini perilaku normal? yaitu model bahasa Belanda tidak menyertakan pemisah kata benda_frasa dan model bahasa Inggris menyertakannya? Atau apakah saya melakukan sesuatu yang salah?

string='''In een wereld waarin je wordt overspoeld met informatie, is het prettig om een nieuwsbron te hebben met heldere stukken, die de ruimte laten om je eigen mening te vormen.'''
nlp = spacy.load('nl_core_news_sm')
print(dir(doc))
print(doc.noun_chunks)
list_chunks=[chunk for chunk in doc.noun_chunks]
for chunk in doc.noun_chunks:
    print(chunk.text)

Hasilnya di sini adalah list_chunks adalah [] Dan tentu saja tidak ada yang dicetak dalam loop

Saya menggunakan dir(doc) untuk membandingkan metode yang tersedia untuk membandingkan dengan model bahasa Inggris. Mereka sama.

nlp_en = spacy.load('en_core_web_sm')
string='''They normally organises a wide range of activities for kids in the summer holidays. Due to the virus, these have all been cancelled'''
doc2=nlp_en(string)
print(dir(doc2))
print(doc2.noun_chunks)
for chunk in doc2.noun_chunks:
    print(chunk.text)

Dalam bahasa Inggris itu berhasil.

Ada ide?

EDIT CATATAN: Di sini saya membandingkan tiga model bahasa: masukkan deskripsi gambar di sini


person JFerro    schedule 11.06.2020    source sumber
comment
apakah kamu bisa mengetahui hal ini? Saya mengalami masalah yang sama, tidak ada cara untuk mengambil kata benda_chunks untuk teks bahasa Belanda   -  person I. Wanderer    schedule 08.08.2020


Jawaban (1)


Saya dapat memberitahu Anda bahwa kata benda chuck tokenizer belum diterapkan dalam model bahasa Belanda tersebut. Itu bukan bug. Itu harus dilakukan. Jadi siapa pun yang membaca ini harap periksa tanggal pertanyaannya. Tentu saja orang-orang spacy akan melakukannya tetapi mungkin memerlukan waktu cukup lama.

person JFerro    schedule 09.08.2020