Классика баз данных - статьи

       

в Википедии вручную аннотируются ключевыми


все статьи в Википедии вручную аннотируются ключевыми терминами, поэтому предложенная оценка их реальной информативности является лишь результатом обработки мнений людей.

Вместе с тем, эта оценка может быть ненадёжной в тех случаях, когда используемые для расчётов значения слишком малы. Для решения этой проблемы авторы рекомендуют рассматривать только те термины, которые появляются в Википедии не менее 5 раз.

В заключение обзора методов извлечения ключевых терминов нужно сказать, что для расчёта веса термина в данной работе использовалась формула:
,
(2)
где


  • i — порядковый номер термина;
  • TFi — частота термина в анализируемом сообщении;
  • Ki — информативность термина по данным Википедии.


TF означает частоту термина (Term Frequency). Значение этого компонента формулы равно отношению числа вхождения некоторого термина к общему количеству терминов сообщения. Таким образом, оценивается важность термина ti в пределах отдельного сообщения.


Содержание  Назад  Вперед