Главная   О компании   Разработки   АТ.Трейдинг  


АТ.Поиск   Сервисы   Форум

Отчет об участии проекта АТ.Поиск в конференции РОМИП 2010.

Илья Зябрев, Олег Пожарков, Ирина Пожаркова



Очная часть РОМИП 2010 состоялась 15 октября в Казани, в рамках конференции RCDL 2010. Труды опубликованы на сайте РОМИП.

Проект АТ.Поиск участвовал в двух дорожках – дорожке классической задачи поиска по запросу в веб-коллекции и в дорожке контекстно-зависимого аннотирования текстовых документов.

Участие в дорожке поиска по веб-коллекции

Основная цель нашего участия в поисковой дорожке – проверка гипотезы о том, что использование реальных распределений встречаемости слов вместо модельных даст более качественное решение поисковых задач. Исходя из полученных результатов, можно утверждать, что гипотеза подтверждается. Было показано, что применение ранжирующей формулы, основанной на спектральных характеристиках лексем (SLM), значительно превосходит классические аналоги с использованием BM25 при меньшей вычислительной сложности. Полученные выводы позволяют говорить о том, что качество ранжирования поисковых методов, основанных на модельных вероятностных метриках, можно повысить путем не сложной замены их на спектральные.

В целом в поисковой дорожке наши алгоритмы, построенные на основе спектральных характеристик, по 34 оценкам были признаны лучшими среди всех участников. При этом, приоритетной целью было исключительно сравнение различных реализаций одного и того же алгоритма, а не высокие результаты. Поэтому обучение наших систем не проводилось, в отличие от других участников. Что подтверждается анализом результатов, проведенным Институтом Системного Анализа РАН, который показал, что наши алгоритмы на множестве запросов, не входящих в обучающую выборку, получили в среднем гораздо более высокие результаты по сравнению с другими системами. Данный факт лишь подчеркивает состоятельность ранжирующих алгоритмов проекта АТ.Поиск, так как при соответствующем обучении системы могли выступить еще лучше.

Результаты нашего участия в данной дорожке отражены в статье «Использование спектральных характеристик лексем для улучшения поисковых алгоритмов».

Участие в дорожке контекстно-зависимого аннотирования

Для участия в дорожке был использован алгоритм, основанный на спектральных характеристиках слов и впервые представленный нами на семинаре РОМИП 2009. Алгоритм был описан в нашей статье «Метод контекстно-зависимого аннотирования документов на основе спектральных оценок лексем». Из-за ряда программных недоработок, связанных с обработкой текстовых данных, наша система показала невысокие оценки по результатам прошлогодней конференции. После устранения указанных недостатков в программной реализации алгоритма, он получил наивысшие среди всех участников оценки по всем метрикам. В частности, асессоры ставили оценку «лучшая аннотация» аннотациями нашей системы вдвое чаще, чем аннотациям других участников. Полученные результаты говорят о высоком качестве алгоритма.

В целом, учитывая поставленные задачи, выступление проекта АТ.Поиск на РОМИП 2010 и полученные результаты можно считать очень успешными. В дальнейшем планируется оптимизировать применяемые алгоритмы с целью улучшения качества решения задач информационного поиска.



Нравится


Поисковые исследования:

Алгоритмы ранжирования Яндекса:


 

Copyright AlterTrader Research Ltd. 2004-2017.
All Rights Reserved.

Design: af@altertrader.com