python: быстрый поиск слов в словаре с подстановочными знаками*

Учитывая текст, который разбит на список слов, я хочу найти каждое слово в словаре слов, который также читается из текстового файла и split('\n').

Вместо того, чтобы проверять, содержится ли каждое слово в словаре (что ужасно медленно), мне нужно выбрать список элементов, основанный на подстановочных знаках * («*» в конце, т.е. решение перестановки не требуется). Например, решение должно выбирать все элементы словаря, начинающиеся с «dep», без обхода всего списка словарей.

Производительность в данном случае имеет решающее значение. Я хотя и Btree ... но

Какой пакет и тип данных лучше всего подходит для быстрой реализации на Python.
Пожалуйста, предоставьте примеры кода

Lorenz Lo Sauer 03.10.2011 источник

comment

Похоже, вам нужен пакет trie - Voo 03.10.2011

comment

Подстановочный знак всегда будет медленнее наверняка. Дикты работают с хешами (постоянное время доступа). - JBernardo 03.10.2011

comment

@JBernardo: нет, это просто означает, что элементы должны начинаться с того, что стоит перед «звездой». - Lorenz Lo Sauer 03.10.2011

comment

Вот почему вы потеряете постоянный поиск по времени. то есть это будет медленнее. - JBernardo 03.10.2011

Ответы (2)

arrow_upward
2
arrow_downward

Используйте dawg, который более эффективен, чем Trie, с точки зрения пустой траты места. Существует несколько реализаций Python, но для начала посмотрите здесь.

hymloth 03.10.2011

comment

С веб-сайта: ...Если вас не волнует память или скорость[sic!], просто сохраните свои слова... Это быстрее? - Lorenz Lo Sauer; 03.10.2011

comment

Дог однозначно быстрее. Цитата с сайта иронична. просто сохраните свои слова в базе данных SQL или разверните 100 машин в облаке. Я не против. Больше сил вам! - hymloth; 03.10.2011

arrow_upward
2
arrow_downward

Вы хотите попробовать. Используйте пакет PyTrie.

Petr Viktorin 03.10.2011

python: быстрый поиск слов в словаре с подстановочными знаками*

Ответы (2)

Вопросы по теме