 |
Илья Зябрев, Олег Пожарков
В области лингвистического моделирования неизбежно возникают задачи, связанные с оцениванием лексических единиц. Наиболее распространенной мерой, используемой для этой цели, является обратная частота документа (IDF), равная отношению количества всех документов некоторой коллекции к числу документов, в которых встречается оцениваемая лексема. Основным недостатком данной оценки является ее независимость от частоты слова внутри документа. Частично данная проблема решается использованием TF*IDF, где TF - относительная частота слова внутри оцениваемого документа, но при этом частота слова в других документах не учитывается.
В настоящей статье предлагается метод оценивания лексических единиц, учитывающий их внутренние частоты во всех документах коллекции.
Введем основные определения и обозначения:
- Лексическая единица (лексема) - слово как самостоятельная единица языка, рассматриваемая во всей совокупности своих форм и значений.
- Лемма Lk – каноническая форма лексемы k, k=1..M (M-размерность множества лемм коллекции документов).
- Встречаемость леммы в документе (внутренняя частота леммы IF(Lk,d)) – число вхождений леммы Lk в документ d, где =1..D (D-размерность множества документов коллекции).
- Условная частота леммы – число документов удовлетворяющих заданным условиям. В данном исследовании будут использоваться следующие условия:
1. Лемма Lk имеет встречаемость IF(Lk,d)=v:
CLF(Lk,v)=card(d|IF(Lk,d)=v) (1.1),
где card(d|A) -число документов коллекции удовлетворяющих условию A, v – целое число. Т.е. CLF(Lk,v) – число документов коллекции, в которых лемма Lk встречается v раз.
2. Лемма Lk имеет встречаемость IF(Lk,d)>=v
CLF2(Lk,v)=card(d|IF(Lk,d)>=v) (1.2)
Т.е. CLF2(Lk, v) – число документов коллекции, в которых лемма Lk встречается не менее v раз.
- Абсолютная частота слова AF(Lk) – число вхождений леммы некоторого слова во все документы коллекции.
- Абсолютная документальная частота слова DFk – число документов, в которые некоторая лемма входит не менее 1 раза:
DF(Lk)=CLF2(Lk,1) (3)
- Относительная условная частота леммы RCLF – отношение условной частоты леммы некоторого слова к его абсолютной частоте:

Для примера обычная IDF во введенных понятиях будет равна отношению размерности множества документов коллекции к условной частоте документа вида:

- По аналогии с обратной частотой документа введем обратную условную частоту леммы:

- Спектр внутренних частот (встречаемости) лемм – зависимость относительных условных частот от встречаемости леммы в документе:
F(Lk,v)=RCLF(Lk,v), при v<V
F(Lk,v)=RCLF2(Lk,v), при v>=V (7),
где V – предельная встречаемость леммы (глубина построения распределения).
Полученное таким образом распределение (спектр) является векторной оценкой лексем, зависящей от их встречаемости в документе. Еще одной особенностью спектра является то, что диапазон его значений для каждого слова принадлежит интервалу [0,1], что открывает ряд возможностей, таких как сравнительный статистический анализ различных слов, частотная классификация лексем и пр.
Кроме векторной оценки для каждого слова определены две скалярные характеристики: абсолютная частота слова и абсолютная документальная частота слова, которые, по сути, являются мерой распространенности слова в коллекции.
Построим спектры лемм наиболее часто встречающихся в поисковых запросах слов из различных тематических категорий. Для оценивания условных частот будем использовать следующие коллекции документов:
- Веб коллекция KM.ru 2007. Копия мультипортала www.km.ru объемом 3 000 000 документов.
- Веб коллекция BY.web 2007. Коллекция представляет собой выборку из страниц домена .by, присутствовавших в индексе поисковой системы Яндекс по состоянию на май 2007 года.
По всем документам из представленных коллекций была построена база данных содержащая для каждой леммы слов, встречающихся в коллекции следующую информацию:
- Лемма слова Lk
- Условные частоты леммы CLF(Lk, v), для v=1..50 и CLF2(Lk,51)
- Абсолютная документальная частота слова DF(Lk)
- Абсолютная частота слова AF(Lk)
По формулам (4), (5) для каждой леммы был вычислен ее спектр. Далее был проведен корреляционный анализ, целью которого было выявление возможных связей с IDF-метрикой. Результаты анализа представлены в таблице 1.
Таблица 1. Коэффициенты корреляции между различными характеристиками слова
| K(DF(L),AF(L)) | v= | 0,975011 |
| K(DF(L),CLF(L ,v)) | 1 | 0,564844 |
| 2 | 0,55638 |
| 3 | 0,046 |
| 4 | 0,060304 |
| 5 | 0,052096 |
| 6 | 0,052595 |
| 7 | 0,399794 |
| 8 | 0,555692 |
| 9 | 0,56094 |
| 10 | 0,109737 |
| 11 | 0,002892 |
| 12 | 0,02938 |
| 13 | 0,016595 |
| 14 | -0,0063 |
| 15 | 0,020497 |
| 16 | 0,026863 |
| 17 | 0,004784 |
| 18 | -0,01606 |
| 19 | 0,005197 |
| 20 | 0,033227 |
Как видно, тесная связь присутствует только между абсолютной документальной частотой слова и его абсолютной частотой, в остальных случаях связь слабая.
Далее была выполнена кластеризация лемм по их спектрам, на основании которой было получено ограниченное число групп слов со схожими внутригрупповыми спектрами. В зависимости от точности кластеризации число групп варьировалось от 6 (при грубой кластеризации) до 17 (при максимальной точности). Внутри каждой группы был проведен повторный корреляционный анализ, который дал следующие результаты (Таблица 2):
Таблица 2. Коэффициенты корреляции между различными характеристиками слова внутри группы
| | | Группа |
| | v= | 1 | 2 | 3 | 4 | 5 | 6 |
| K(DF(L),CLF(L,v)) | 1 | 0,707071 | 0,920873 | 0,918481 | 0,609208 | -0,49772 | -0,13507 |
| 2 | 0,891959 | 0,569439 | 0,989084 | 0,999992 | 0,95201 | 0,850403 |
| 3 | 0,827334 | -0,19016 | -0,65728 | -0,9546 | -0,51729 | 0,836151 |
| 4 | 0,770026 | 0,089191 | 0,585073 | -0,88583 | -0,35742 | -0,08945 |
| 5 | 0,955471 | -0,23374 | -0,43494 | -0,99921 | -0,52039 | -0,27173 |
| 6 | 0,993078 | -0,38564 | -0,60842 | -0,99825 | -0,09712 | 0,533362 |
| 7 | -0,9612 | 0,440281 | -0,93235 | -0,80998 | -0,40116 | -0,15841 |
| 8 | -0,73911 | -0,33808 | -0,45261 | -0,4935 | -0,40115 | -0,11794 |
| 9 | -0,65777 | -0,35253 | -0,16187 | -0,46775 | -0,38635 | -0,07628 |
| 10 | -0,75971 | -0,29328 | -0,43397 | -0,77031 | -0,70319 | 0,388013 |
| 11 | -0,54505 | 0,724189 | -0,91976 | -0,49456 | -0,1056 | -0,1529 |
| 12 | -0,62083 | -0,20582 | -0,99947 | -0,64873 | 0,072387 | -0,08126 |
| 13 | -0,3023 | -0,16279 | -0,57942 | -0,70863 | -0,22094 | -0,10712 |
| 14 | -0,75156 | -0,24918 | 0,393808 | -0,49682 | -0,20836 | 0,01214 |
| 15 | -0,61297 | -0,24711 | -0,9999 | -0,91136 | 0,130851 | 0,015782 |
| 16 | -0,59532 | -0,1444 | 0,393808 | -0,79676 | 0,703872 | -0,13067 |
| 17 | -0,50171 | 0,085958 | 0,800818 | -0,49682 | -0,57066 | 0,248112 |
| 18 | -0,52254 | -0,21731 | -0,99637 | -0,49682 | 0,149937 | -0,13474 |
| 19 | -0,53304 | -0,00143 | 0,59914 | -0,49682 | -0,55479 | -0,06876 |
| 20 | -0,53415 | 0,239323 | 0,03109 | -0,49682 | 0,758657 | 0,362763 |
В таблице 2 жирно выделены коэффициенты корреляции, характеризующие сильную положительную связь. Для каждой группы они приходятся на пиковые (модальные) частоты спектра. Выявленная особенность говорит о том, что для документов, встречаемость оцениваемого слова в которых совпадает с пиковыми частотами спектра, IDF-оценка будет эквивалентна оценке построенной на основе спектра слова. Другим словами для таких документов тот факт, что IDF-метрика не использует информацию о встречаемости слова внутри документа будет некритична. А для всех остальных документов IDF-метрика с точки зрения учета внутренних частот лексем будет несостоятельна. При этом в зависимости от группы на пиковые частоты приходится приблизительно от 40% до 80% всех документов коллекций.
Для наглядности сделаем выборку лексем из популярных однословных запросов различных тематических категорий, взятых из рейтингов (Таблица 3):
| Запрос | Обращений в месяц | % в тематике | Тематика |
| покер | 84 078 | 12.878 | Азартные игры |
| слот | 44 284 | 6.783 | Азартные игры |
| казино | 36 817 | 5.639 | Азартные игры |
| киноафиша | 95 246 | 12.770 | Афиша (развлечения) |
| кинотеатры | 61 266 | 8.214 | Афиша (развлечения) |
| клуб | 49 381 | 6.620 | Афиша (развлечения) |
| кредит | 68 971 | 9.863 | Банки и кредиты |
| ипотека | 38 200 | 5.463 | Банки и кредиты |
| автокредит | 32 687 | 4.674 | Банки и кредиты |
| акции | 32 419 | 5.222 | Бизнес, финансы, инвестиции |
| брокер | 13 624 | 2.194 | Бизнес, финансы, инвестиции |
| облигации | 12 341 | 1.988 | Бизнес, финансы, инвестиции |
| авиабилеты | 156 470 | 10.209 | Билеты (авиа, жд) |
| холодильники | 95 156 | 5.431 | Бытовая техника |
| пылесосы | 43 267 | 2.469 | Бытовая техника |
| вытяжка | 14 784 | 0.844 | Бытовая техника |
| грузоперевозки | 93 770 | 17.153 | Грузоперевозки |
| перевозки | 20 105 | 3.678 | Грузоперевозки |
| автоперевозки | 11 429 | 2.091 | Грузоперевозки |
| двери | 72 341 | 11.336 | Двери |
| замки | 32 649 | 5.116 | Двери |
| цветы | 752 078 | 50.526 | Доставка цветов |
| розы | 251 293 | 16.882 | Доставка цветов |
| букеты | 44 693 | 3.003 | Доставка цветов |
| рецепты | 142 281 | 5.829 | Здоровье |
| диета | 127 767 | 5.234 | Здоровье |
| грибы | 66 009 | 2.704 | Здоровье |
| витамины | 57 076 | 2.338 | Здоровье |
| еда | 55 905 | 2.290 | Здоровье |
| знакомства | 1 088 010 | 54.306 | Знакомства |
| автосалоны | 68 931 | 2.304 | Иномарки |
| рено | 56 740 | 1.896 | Иномарки |
На рисунках 1-6 представлены сгруппированные лексемы по результатам кластерного анализа их спектров.

Рисунок 1. Спектры группы 1

Рисунок 2. Спектры группы 2

Рисунок 3. Спектры группы 3

Рисунок 4. Спектры группы 4

Рисунок 5. Спектры группы 5

Рисунок 6. Спектры группы 6
Если для первых четырех групп характерно максимальное (модальное) значение относительной условной величины при встречаемости равной 1, то для двух последних оно приходится на другие внутренние частоты. Если оценивать «важность» слов по аналогии с IDF-метрикой, т.е. за оценку брать обратную условную частоту лексемы, соответствующую ее встречаемости в исследуемом документе, то для групп 5,6 такая оценка не будет монотонно возрастающей, в отличие от TF-IDF-метрики. И в таких случаях результаты решения задач лингвистического моделирования с использованием спектральных оценок могут существенно отличаться от традиционных.
Предложенные в данной статье характеристики могут использоваться для различных задач лингвистического моделирования, связанных с оцениванием лексем, когда требуется учитывать информацию об их внутренних частотах во всех документах исследуемой коллекции. Спектр лексем может также использоваться в различных классификационных задачах. Возможным направлением для дальнейшего исследования в этой области является построение и анализ двумерного распределения лексем по документам коллекции.
|
 |