|
Наш метод контекстно-зависимого аннотирования KGCDA (Kenny-Goodman context-dependent annotation) основан на построении многофакторной модели оценивания фрагментов текста и оптимизации ее параметров при помощи обучающей выборки документов. Алгоритм аннотирования можно условно разделить на два этапа: Оценивание фрагментов текста документа и их дальнейшее ранжирование на базе полученных оценок. В аннотацию последовательно включаются фрагменты с наибольшим рангом до тех пор, пока выполняется ограничение по длине текста. Оценивание фрагментов документа заданной длины производится методом скользящего окна при помощи различных контекстно-зависимых критериев. Далее производится нормализация полученных векторов оценок и аддитивная свертка, по результатам которой выполняется ранжирование фрагментов текста.
Параметры модели оценивания, а именно длина скользящего окна и веса критериев в аддитивной свертке, определяются на основе обучающей выборки документов. Для этого, выбираются критерии качества контекстно-зависимого аннотирования и относительно них решается задача параметрической оптимизации. Полученные таким образом параметры используются в дальнейшем в многофакторной модели оценивания.
Олег Пожарков, Илья Зябрев
Заявка на выступление по статье подана на семинар РОМИП-2009.
|