Я хочу извлечь noun_phrases из голландского текста, используя модель nl_core_news_sm от spacy. Он возвращает пустой список. С другой стороны, эквивалентная английская модель en_core_web_sm действительно предоставляет список noun_chunks (noun_phrases)
Это нормальное поведение? т.е. модель на голландском языке не включает разделитель noun_phrases, а в модели на английском языке есть? Или я что-то не так делаю?
string='''In een wereld waarin je wordt overspoeld met informatie, is het prettig om een nieuwsbron te hebben met heldere stukken, die de ruimte laten om je eigen mening te vormen.'''
nlp = spacy.load('nl_core_news_sm')
print(dir(doc))
print(doc.noun_chunks)
list_chunks=[chunk for chunk in doc.noun_chunks]
for chunk in doc.noun_chunks:
print(chunk.text)
В результате list_chunks равен [] И, конечно же, в цикле ничего не печатается.
Я использовал dir (doc), чтобы сравнить доступные методы с английской моделью. Они одинаковые.
nlp_en = spacy.load('en_core_web_sm')
string='''They normally organises a wide range of activities for kids in the summer holidays. Due to the virus, these have all been cancelled'''
doc2=nlp_en(string)
print(dir(doc2))
print(doc2.noun_chunks)
for chunk in doc2.noun_chunks:
print(chunk.text)
На английском работает.
Какая-то идея?