Классика баз данных - статьи

       

Для решения этой проблемы используется


Для решения этой проблемы используется комбинация двух подходов. Для поисковых полей, в которых, главным образом, допускается ввод ключевых слов, возможные ключевые слова подбираются на основе анализа содержимого уже проиндексированных страниц данного Web-сайта. Для типизированных текстовых полей, в которых допускается ввод только правильно определенного набора значений, разработчики стремятся сопоставить тип текстового поля с библиотекой типов, наиболее распространенных в различных прикладных областях, например, с почтовыми индексами США.

Во-вторых, в HTML-формах обычно имеется несколько полей для ввода данных, и поэтому простая стратегия перебора полного Декартова произведения всех возможных вариантов ввода данных в каждое поле может привести к генерации очень большого числа URL. Потребность в обходе слишком большого количества URL приведет к перерасходу ресурсов обходчика Web поисковой машины, а также создаст чрезмерную нагрузку для Web-серверов, поддерживающих HTML-формы. Интересно, что при больших размерах Декартова произведения подача многих заполненных форм приводит к пустому результату, бесполезному с точки зрения индексирования. Например, в поисковой форме сайта cars.com имеется пять полей ввода данных, и при использовании подхода с Декартовым произведением появится более 200 миллионов URL, хотя в продаже на cars.com имеется всего 650000 автомашин. Авторы разработали алгоритм, который разумным образом обходит пространство поиска всех возможных вариантов заполнения формы для определения подмножества вариантов, которые, вероятно, окажутся полезными для индекса поисковой машины. В среднем для каждой формы генерируется несколько сотен вариантов заполнения. Кроме того, авторы полагают, что число генерируемых вариантов заполнения формы должно быть пропорционально размеру базы данных, на которую опирается соответствующий сайт, а не числу полей ввода и потенциально возможных вариантов их заполнения.

В-третьих, решения должны масштабироваться и не зависеть от прикладной области.

Содержание  Назад  Вперед