Классика баз данных - статьи

       

Кроме того, PSVM поддерживает отказоустойчивые


Кроме того, PSVM поддерживает отказоустойчивые вычисления для обеспечения возможности восстановления после отказов компьютеров-узлов.

Что касается вычислительной сложности, то пусть n обозначает число учебных образцов, p – размерность сжатой матрицы после факторизации (p значительно меньше n) и m – число машин. Если сравнивать PSVM с методом внутренних точек (Interior Point Method, IPM), то он позволяет сократить требования к памяти от O(n↑2) до O(np/m) и требует времени вычислений O(np↑2/m). Например, задача, решавшаяся на одной машине семь дней, на основе PSVM решается на 200 машинах за два часа. В настоящее время PSVM используется внутри Google для опознания распространяющих спам и предосудительных Web-сайтов. Поскольку реализация PSVM была сделана общедоступной, широко распространено скачивание кода.

Кроме PSVM, внутри Google доступны для использования параллельные версии алгоритмов SVD, PLSA и LDA. Эти алгоритмы полезны для решения задач классификации и совместного фильтрования (collaborative filtering). Что касается классификации, то PLSA применяется для обеспечения тегов для пользовательских запросов, коротких сообщений и пользовательских постов. В связи с совместным фильтрованием PLSA и LDA используются для поддержки различных средств рекомендаций, например, советов от друзей и экспертов, рекомендаций от форумов и подбора рекламы. Совместно эти два алгоритма применяются в двух продуктах, которые описываются ниже.

Первый продукт – это Knowledge Search, который сначала был запущен в России, потом в Китае [], а теперь запускается в нескольких других странах. Knowledge Search позволяет пользователям публиковать вопросы, а затем подбирает экспертов для своевременного ответа на вопросы. Отличительными чертами этого продукта по сравнению с конкурирующими продуктами являются обеспечение оперативной классификации вопросов, рекомендации родственных вопросов и подбор экспертов с учетом темы вопроса. Все эти возможности поддерживаются вышеупомянутой инфраструктурой машинного обучения.

Второй продукт – это Laiba, средство поддержки социальных сетей, изначально разработанное на основе Orkut. Группа сначала локализовала его, а затем быстро расширила его возможности, относящиеся, в частности, к совместному использованию фотографий и сервисам пользовательских взаимодействий. В Китае система Laiba была запущена в 2007 г. []. Как и Knowledge Search, этот продукт основывается на использовании крупномасштабных алгоритмов интеллектуального анализа данных для поддержки рекомендаций от друзей, сообщества или рекомендаций, основанных на контенте.

В настоящее время группа занимается дальнейшим расширением возможностей Laiba для поддержки платформы Google Open-Social [], которая позволит подключать Laiba и другие средства организации социальных сетей к приложениям сторонних разработчиков.


Содержание  Назад  Вперед