Классика баз данных - статьи

       

При применении второго подхода, иногда


При применении второго подхода, иногда называемого подходом выявления скрытого контента (surfacing approach), производится предварительное вычисление наиболее уместных вариантов заполнения форм для всех интересных HTML-форм. После этого результирующие URL могут быть проиндексированы подобно любым другим страницам HTML. Важно то, что этот подход позволяет использовать существующую инфраструктуру поисковых машин и, следовательно, допускает органичное включение страниц Глубокой Паутины в результаты поиска в Web. По этим причинам исследователи Google предпочитают опираться на подход выявления скрытого контента. Целью авторов является привлечение нового трафика к сайтам Deep Web, которые до сих пор посещались только в тех случаях, когда люди знали о соответствующих формах, или сами формы появлялись в результатах поиска. Поэтому не слишком существенно получить от этих сайтов ответы на все возможные заполненные формы, достаточно получить столько результатов, чтобы их хватило для увеличения трафика. Кроме того, предварительно вычисленные варианты форм способствуют дальнейшему раскрытию соответствующего сайта: после индексирования начального набора страниц система просмотра страниц Web-сайтов будет автоматически использовать информацию о внутренней структуре сайта для обнаружения других страниц, представляющих интерес.

В Google разрабатывается система обнаружения скрытого контента, которая уже помогла расширить область действия поискового индекса Web-страницами, полученными на основе более миллиона HTML-форм. Имеется возможность выполнения более тысячи запросов в секунду от поисковой страницы Google.com к контенту Глубокой Паутины.

При разработке своего решения авторам пришлось преодолеть несколько проблем. Во-первых, в большом количестве форм имеются поля для ввода текста, и требуется предоставить допустимые вводные данные. Поэтому система должна подобрать для заполнения формы такие варианты наборов значений, которые позволят обнаружить наиболее полезные результирующие страницы.

Содержание  Назад  Вперед