Archive for the ‘Полнотекстовый поиск’ Category

rus-ispell — словарь русского языка

Wednesday, March 15th, 2006

Самый обширный из свободно доступных словарей русского языка — rus-ispell Александра Лебедева. Словарь содержит более 136 тысяч базовых слов с указанием их морфологического типа, а также машинно-читабельную таблицу преобразований слов, что позволяет учитывать морфологию русского языка при написании поисковых систем, систем проверки орфографии, проведении статистических исследований текста и т. п. Словарь Лебедева включает также поддержку буквы “ё”.

Свежую версию словаря можно скачать на странице автора: rus-ispell: словарь русского языка.

Google Research Publications

Monday, February 27th, 2006

На сайте Google Labs доступно множество статей, написанных в разное время сотрудниками Google. Среди самых интересных:

  • The Google File System  — архитектурные принципы и внутреннее устройство файловой системы, используемой на серверах Google;
  • MapReduce: Simplified Data Processing on Large Clusters — интересное применение классических функций map и reduce для проведения широкомасштабных вычислений;
  • Web Search for a Planet: The Google Cluster Architecture — практические (местами неожиданные) выводы из технологии устройства вычислительных кластеров в Google;

А. Н. Тихонов “Современный русский язык. Морфемика. Словообразование. Морфология.”

Tuesday, February 7th, 2006

В книге А. Н. Тихонова “Современный русский язык” подробно рассказывается о словообразовании и морфологии русского языка — предметах, необходимых при разработке систем полнотекстового поиска.

Купить книгу на ozon.ru: А. Н. Тихонов “Современный русский язык. Морфемика. Словообразование. Морфология.”

Ian H. Witten, et al., “Managing Gigabytes”

Monday, February 6th, 2006

В книге “Managing Gigabytes” детально описаны базовые алгоритмы создания полнотекстовых индексов и поиска по ним.

Купить на Amazon.com: Managing Gigabytes: Compressing and Indexing Documents and Images