Просторный голландский noun_phrases возвращает пустой список с использованием nl_core_news_sm

Я хочу извлечь noun_phrases из голландского текста, используя модель nl_core_news_sm от spacy. Он возвращает пустой список. С другой стороны, эквивалентная английская модель en_core_web_sm действительно предоставляет список noun_chunks (noun_phrases)

Это нормальное поведение? т.е. модель на голландском языке не включает разделитель noun_phrases, а в модели на английском языке есть? Или я что-то не так делаю?

string='''In een wereld waarin je wordt overspoeld met informatie, is het prettig om een nieuwsbron te hebben met heldere stukken, die de ruimte laten om je eigen mening te vormen.'''
nlp = spacy.load('nl_core_news_sm')
print(dir(doc))
print(doc.noun_chunks)
list_chunks=[chunk for chunk in doc.noun_chunks]
for chunk in doc.noun_chunks:
    print(chunk.text)

В результате list_chunks равен [] И, конечно же, в цикле ничего не печатается.

Я использовал dir (doc), чтобы сравнить доступные методы с английской моделью. Они одинаковые.

nlp_en = spacy.load('en_core_web_sm')
string='''They normally organises a wide range of activities for kids in the summer holidays. Due to the virus, these have all been cancelled'''
doc2=nlp_en(string)
print(dir(doc2))
print(doc2.noun_chunks)
for chunk in doc2.noun_chunks:
    print(chunk.text)

На английском работает.

Какая-то идея?

ИЗМЕНИТЬ ПРИМЕЧАНИЕ. Здесь я сравнил три языковые модели:  введите описание изображения здесь


person JFerro    schedule 11.06.2020    source источник
comment
Вы смогли это понять? У меня та же проблема, нет ват для получения noun_chunks для голландского текста   -  person I. Wanderer    schedule 08.08.2020


Ответы (1)


Я могу вам сказать, что существительное chuck tokenizer просто еще не реализовано в этой голландской языковой модели. Это не ошибка. Это просто необходимо сделать. Так что, кто бы это ни читал, пожалуйста, проверьте дату вопроса. Очевидно, что просторные парни сделают это, но это может занять некоторое время.

person JFerro    schedule 09.08.2020