Классика баз данных - статьи




Классификация информации


Индексация — важнейший механизм сокращения пространства поиска при нахождении требуемых данных в крупной базе данных, будь то корпоративная база данных, база данных федерального ведомства или World Wide Web в целом. Системы баз данных создают и поддерживают индексы для указанных пользователем полей в таблице для ускорения поиска, который включает в себя индексированные поля. Аналогично системы извлечения информации создают и поддерживают индексы в виде списка слов, встречающихся в составленных в свободном стиле текстовых документах, чтобы ускорить поиск документов, содержащих определенные слова или их комбинации. Механизмы поиска в Internet создают ключевые слова, представляющие HTML-документы, и используют затем их как индексы в таких документах. Сейчас большой интерес вызывают исследования Semantic Web. Цель таких исследований — дать возможность выполнять поиск на основе семантики пользовательских запросов и хранимых в Web документов.

На промежуточном этапе необходима хорошая методика классификации информации, которая служила бы в качестве мощного механизма индексации «верхнего уровня» для поддержки быстрого и точного поиска текстовых документов, написанных в свободном стиле. Например, документ, который описывает встречу мусульманских активистов и членов «Аль-Каиды», состоявшуюся в Малайзии в 2000 году, может быть отнесен к нескольким, а не к одной теме: категории, касающейся мусульманских активистов, категории, касающейся «Аль-Каиды», категории, описывающие действия исламистов в Малайзии, и так далее. Зачастую, классификация документов только по одной теме приводит к их невозвратной утере. Например, как правило, трудно извлечь даже старые сообщения электронной почты, если они хранятся в определенных папках с именами, которые не дают представления о содержании этих сообщений. Позже вы даже не сможете вспомнить названия этих папок, и можно пытаться лишь вспомнить названия некоторых основных сообщений в этой почте. Современная технология добычи текстов позволяет извлекать параметры (характерные имена и т.д.), поддерживать счетчик ключевых слов, и даже комментировать тексты, написанные в свободном стиле.


Содержание  Назад  Вперед