Главная   О компании   Разработки   АТ.Трейдинг  


АТ.Поиск   Сервисы   Форум

Спектральное оценивание лексических единиц в задачах лингвистического моделирования.

Илья Зябрев, Олег Пожарков

В области лингвистического моделирования неизбежно возникают задачи, связанные с оцениванием лексических единиц. Наиболее распространенной мерой, используемой для этой цели, является обратная частота документа (IDF), равная отношению количества всех документов некоторой коллекции к числу документов, в которых встречается оцениваемая лексема. Основным недостатком данной оценки является ее независимость от частоты слова внутри документа. Частично данная проблема решается использованием TF*IDF, где TF - относительная частота слова внутри оцениваемого документа, но при этом частота слова в других документах не учитывается.

В настоящей статье предлагается метод оценивания лексических единиц, учитывающий их внутренние частоты во всех документах коллекции.

Введем основные определения и обозначения:

  • Лексическая единица (лексема) - слово как самостоятельная единица языка, рассматриваемая во всей совокупности своих форм и значений.
  • Лемма Lk – каноническая форма лексемы k, k=1..M (M-размерность множества лемм коллекции документов).
  • Встречаемость леммы в документе (внутренняя частота леммы IF(Lk,d)) – число вхождений леммы Lk в документ d, где =1..D (D-размерность множества документов коллекции).
  • Условная частота леммы – число документов удовлетворяющих заданным условиям. В данном исследовании будут использоваться следующие условия:
    1. Лемма Lk имеет встречаемость IF(Lk,d)=v:

    CLF(Lk,v)=card(d|IF(Lk,d)=v) (1.1),

    где card(d|A) -число документов коллекции удовлетворяющих условию A, v – целое число. Т.е. CLF(Lk,v) – число документов коллекции, в которых лемма Lk встречается v раз.
    2. Лемма Lk имеет встречаемость IF(Lk,d)>=v

    CLF2(Lk,v)=card(d|IF(Lk,d)>=v) (1.2)

    Т.е. CLF2(Lk, v) – число документов коллекции, в которых лемма Lk встречается не менее v раз.
  • Абсолютная частота слова AF(Lk) – число вхождений леммы некоторого слова во все документы коллекции.
  • Абсолютная документальная частота слова DFk – число документов, в которые некоторая лемма входит не менее 1 раза:

    DF(Lk)=CLF2(Lk,1) (3)

  • Относительная условная частота леммы RCLF – отношение условной частоты леммы некоторого слова к его абсолютной частоте:

    Для примера обычная IDF во введенных понятиях будет равна отношению размерности множества документов коллекции к условной частоте документа вида:

  • По аналогии с обратной частотой документа введем обратную условную частоту леммы:
  • Спектр внутренних частот (встречаемости) лемм – зависимость относительных условных частот от встречаемости леммы в документе:

    F(Lk,v)=RCLF(Lk,v), при v<V
    F(Lk,v)=RCLF2(Lk,v), при v>=V (7),

    где V – предельная встречаемость леммы (глубина построения распределения).

Полученное таким образом распределение (спектр) является векторной оценкой лексем, зависящей от их встречаемости в документе. Еще одной особенностью спектра является то, что диапазон его значений для каждого слова принадлежит интервалу [0,1], что открывает ряд возможностей, таких как сравнительный статистический анализ различных слов, частотная классификация лексем и пр.

Кроме векторной оценки для каждого слова определены две скалярные характеристики: абсолютная частота слова и абсолютная документальная частота слова, которые, по сути, являются мерой распространенности слова в коллекции.

Построим спектры лемм наиболее часто встречающихся в поисковых запросах слов из различных тематических категорий. Для оценивания условных частот будем использовать следующие коллекции документов:

  • Веб коллекция KM.ru 2007. Копия мультипортала www.km.ru объемом 3 000 000 документов.
  • Веб коллекция BY.web 2007. Коллекция представляет собой выборку из страниц домена .by, присутствовавших в индексе поисковой системы Яндекс по состоянию на май 2007 года.

По всем документам из представленных коллекций была построена база данных содержащая для каждой леммы слов, встречающихся в коллекции следующую информацию:

  • Лемма слова Lk
  • Условные частоты леммы CLF(Lk, v), для v=1..50 и CLF2(Lk,51)
  • Абсолютная документальная частота слова DF(Lk)
  • Абсолютная частота слова AF(Lk)

По формулам (4), (5) для каждой леммы был вычислен ее спектр. Далее был проведен корреляционный анализ, целью которого было выявление возможных связей с IDF-метрикой. Результаты анализа представлены в таблице 1.

Таблица 1. Коэффициенты корреляции между различными характеристиками слова
K(DF(L),AF(L))v=0,975011
K(DF(L),CLF(L ,v))10,564844
20,55638
30,046
40,060304
50,052096
60,052595
70,399794
80,555692
90,56094
100,109737
110,002892
120,02938
130,016595
14-0,0063
150,020497
160,026863
170,004784
18-0,01606
190,005197
200,033227

Как видно, тесная связь присутствует только между абсолютной документальной частотой слова и его абсолютной частотой, в остальных случаях связь слабая.

Далее была выполнена кластеризация лемм по их спектрам, на основании которой было получено ограниченное число групп слов со схожими внутригрупповыми спектрами. В зависимости от точности кластеризации число групп варьировалось от 6 (при грубой кластеризации) до 17 (при максимальной точности). Внутри каждой группы был проведен повторный корреляционный анализ, который дал следующие результаты (Таблица 2):

Таблица 2. Коэффициенты корреляции между различными характеристиками слова внутри группы
  Группа
 v=123456
K(DF(L),CLF(L,v))10,7070710,9208730,9184810,609208-0,49772-0,13507
20,8919590,5694390,9890840,9999920,952010,850403
30,827334-0,19016-0,65728-0,9546-0,517290,836151
40,7700260,0891910,585073-0,88583-0,35742-0,08945
50,955471-0,23374-0,43494-0,99921-0,52039-0,27173
60,993078-0,38564-0,60842-0,99825-0,097120,533362
7-0,96120,440281-0,93235-0,80998-0,40116-0,15841
8-0,73911-0,33808-0,45261-0,4935-0,40115-0,11794
9-0,65777-0,35253-0,16187-0,46775-0,38635-0,07628
10-0,75971-0,29328-0,43397-0,77031-0,703190,388013
11-0,545050,724189-0,91976-0,49456-0,1056-0,1529
12-0,62083-0,20582-0,99947-0,648730,072387-0,08126
13-0,3023-0,16279-0,57942-0,70863-0,22094-0,10712
14-0,75156-0,249180,393808-0,49682-0,208360,01214
15-0,61297-0,24711-0,9999-0,911360,1308510,015782
16-0,59532-0,14440,393808-0,796760,703872-0,13067
17-0,501710,0859580,800818-0,49682-0,570660,248112
18-0,52254-0,21731-0,99637-0,496820,149937-0,13474
19-0,53304-0,001430,59914-0,49682-0,55479-0,06876
20-0,534150,2393230,03109-0,496820,7586570,362763

В таблице 2 жирно выделены коэффициенты корреляции, характеризующие сильную положительную связь. Для каждой группы они приходятся на пиковые (модальные) частоты спектра. Выявленная особенность говорит о том, что для документов, встречаемость оцениваемого слова в которых совпадает с пиковыми частотами спектра, IDF-оценка будет эквивалентна оценке построенной на основе спектра слова. Другим словами для таких документов тот факт, что IDF-метрика не использует информацию о встречаемости слова внутри документа будет некритична. А для всех остальных документов IDF-метрика с точки зрения учета внутренних частот лексем будет несостоятельна. При этом в зависимости от группы на пиковые частоты приходится приблизительно от 40% до 80% всех документов коллекций.

Для наглядности сделаем выборку лексем из популярных однословных запросов различных тематических категорий, взятых из рейтингов SeoRate.ru (Таблица 3):
ЗапросОбращений в месяц% в тематикеТематика
покер84 07812.878Азартные игры
слот44 2846.783Азартные игры
казино36 8175.639Азартные игры
киноафиша95 24612.770Афиша (развлечения)
кинотеатры61 2668.214Афиша (развлечения)
клуб49 3816.620Афиша (развлечения)
кредит68 9719.863Банки и кредиты
ипотека38 2005.463Банки и кредиты
автокредит32 6874.674Банки и кредиты
акции32 4195.222Бизнес, финансы, инвестиции
брокер13 6242.194Бизнес, финансы, инвестиции
облигации12 3411.988Бизнес, финансы, инвестиции
авиабилеты156 47010.209Билеты (авиа, жд)
холодильники95 1565.431Бытовая техника
пылесосы43 2672.469Бытовая техника
вытяжка14 7840.844Бытовая техника
грузоперевозки93 77017.153Грузоперевозки
перевозки20 1053.678Грузоперевозки
автоперевозки11 4292.091Грузоперевозки
двери72 34111.336Двери
замки32 6495.116Двери
цветы752 07850.526Доставка цветов
розы251 29316.882Доставка цветов
букеты44 6933.003Доставка цветов
рецепты142 2815.829Здоровье
диета127 7675.234Здоровье
грибы66 0092.704Здоровье
витамины57 0762.338Здоровье
еда55 9052.290Здоровье
знакомства 1 088 01054.306Знакомства
автосалоны 68 9312.304Иномарки
рено 56 7401.896Иномарки

На рисунках 1-6 представлены сгруппированные лексемы по результатам кластерного анализа их спектров.


Рисунок 1. Спектры группы 1
Рисунок 2. Спектры группы 2
Рисунок 3. Спектры группы 3
Рисунок 4. Спектры группы 4
Рисунок 5. Спектры группы 5
Рисунок 6. Спектры группы 6

Если для первых четырех групп характерно максимальное (модальное) значение относительной условной величины при встречаемости равной 1, то для двух последних оно приходится на другие внутренние частоты. Если оценивать «важность» слов по аналогии с IDF-метрикой, т.е. за оценку брать обратную условную частоту лексемы, соответствующую ее встречаемости в исследуемом документе, то для групп 5,6 такая оценка не будет монотонно возрастающей, в отличие от TF-IDF-метрики. И в таких случаях результаты решения задач лингвистического моделирования с использованием спектральных оценок могут существенно отличаться от традиционных.

Предложенные в данной статье характеристики могут использоваться для различных задач лингвистического моделирования, связанных с оцениванием лексем, когда требуется учитывать информацию об их внутренних частотах во всех документах исследуемой коллекции. Спектр лексем может также использоваться в различных классификационных задачах. Возможным направлением для дальнейшего исследования в этой области является построение и анализ двумерного распределения лексем по документам коллекции.



Нравится


Поисковые исследования:

Алгоритмы ранжирования Яндекса:


 

Copyright AlterTrader Research Ltd. 2004-2017.
All Rights Reserved.

Design: af@altertrader.com