Классика баз данных - статьи



         

Извлечение ключевых терминов


Общая архитектура разработанной системы представлена на рис. 1.


Рис. 1. Общая архитектура системы.

Для получения информации о сообщениях пользователя с сервера Twitter использовался Perl-модуль Net::Twitter. Результатом взаимодействия с Twitter API является получение некоторого числа последних сообщений его аккаунта, иначе называемых timeline.

Для решения поставленной задачи был выбран метод statuses/friends_timeline, возвращающий сообщения друзей пользователя. Для тестирования были созданы аккаунты, подписанные на обновления статуса единственного друга. При этом в самом аккаунте не публиковалось никаких сообщений. Таким образом, результат вызова данного метода содержит лишь необходимое количество сообщений одного пользователя Twitter, что и требуется в качестве исходных данных.

В процессе предварительной обработки текста, или препроцессинга, содержимое полученных с сервера Twitter сообщений преобразуется к формату входных данных для алгоритма извлечения ключевых терминов.

Помимо стандартных для этого этапа операций, производится также удаление слэштегов и @-ссылок, а также служебных слов «RT» и «RETWEET», то есть тех элементов специфического синтаксиса Twitter, которые не несут смысловой нагрузки и являются стоп-словами в терминах обработки естественного языка. На этом этапе также производится извлечение хэштегов, которые в последующем обрабатываются наравне с остальными словами.

Очевидно, однако, что для составления списка кандидатов в ключевые термины недостаточно лишь исходной последовательности слов. Исходя из небольшой длины сообщений, представляется возможным сделать алгоритм максимально избыточным с целью повышения полноты результатов, то есть не пропустить ни один возможный ключевой термин, из скольких бы слов он ни состоял. С этой целью производится поиск всех возможных N-грамм, то есть последовательностей идущих друг за другом слов. Количество N-грамм Qk, которые можно получить из k слов (включая N-граммы из одного слова), таким образом, равно:

(3)
<


Содержание  Назад  Вперед