все статьи в Википедии вручную аннотируются ключевыми терминами, поэтому предложенная оценка их реальной информативности является лишь результатом обработки мнений людей.
Вместе с тем, эта оценка может быть ненадёжной в тех случаях, когда используемые для расчётов значения слишком малы. Для решения этой проблемы авторы рекомендуют рассматривать только те термины, которые появляются в Википедии не менее 5 раз.
В заключение обзора методов извлечения ключевых терминов нужно сказать, что для расчёта веса термина в данной работе использовалась формула:
,
(2)
где
i — порядковый номер термина;
TFi — частота термина в анализируемом сообщении;
Ki — информативность термина по данным Википедии.
TF означает частоту термина (Term Frequency). Значение этого компонента формулы равно отношению числа вхождения некоторого термина к общему количеству терминов сообщения. Таким образом, оценивается важность термина ti в пределах отдельного сообщения.