Поиск со смыслом




Powerset тестирует механизм поиска, который, как рассчитывают его создатели, победит Google

10:50 20.05.2008   |   1316 |  Хуан Карлос Перес |

Рубрика Технологии



Компания Powerset предлагает для открытого тестирования разработанный ею механизм поиска, в котором вместо традиционной, основанной на ключевых словах методики используется технология, позволяющая определить смысл Web-страниц.

Если этот механизм действительно справляется со своей задачей, он может кардинально изменить отношение пользователей к поисковикам, предлагая теоретически более интеллектуальные и более эффективные функции.

"Мы меняем подход к поиску информации, выполняя значительно более глубокий анализ индексируемых страниц", - пояснил директор Powerset по продуктам Скотт Превост.

Powerset может делать намного больше, чем выдача привычного разбитого на десятки массива ссылок на результаты поиска

Однако бета-версия Powerset, выдавая впечатляющие результаты, имеет ограниченную область действия и не очень большой индекс, в силу чего пока остается открытым вопрос об использовании ее фантастических возможностей с размахом, равным масштабу использования поисковой системы Google, в которой за основу поиска взяты ключевые слова.

По словам Превоста, поисковики, базирующиеся на ключевых словах, трактуют страницы как набор слов, индексируя их контент без учета его смысла. При этом решение Powerset, применяющее технологию, разработанную в компании, а также лицензированную у Xerox PARC, создает семантическое представление, выполняя грамматический разбор каждого предложения и выделяя его смысл.

Любопытно, что в интервью, которое вице-президент компании Google Марисса Майер дала в октябре службе новостей IDG, она подтвердила, что механизм поиска должен (и со временем это непременно произойдет) преодолеть свою зависимость от ключевых слов.

"Пользователи должны иметь возможность задавать вопросы, а мы должны понимать их смысл, то есть они должны иметь возможность говорить об интересующих их вещах на концептуальном уровне. Пользователи хотели бы спрашивать, о чем страница, а не какие слова на ней употреблены. Многие в качестве возможного решения обратятся к технологиям Semantic Web", - сказала она.

Но она добавила, что механизм поиска Google действует с известной степенью интеллектуальности, так как обрабатывает огромное количество данных.

"При столь большом объеме данных вы в конце концов получите результаты, которые покажутся интеллектуальными, даже если они получены, если можно так выразиться 'методом грубой силы'", - сказала она. В качестве примера Майер привела запрос "GM", который механизм поиска интерпретирует как General Motors, но по запросу "GM foods" поисковик найдет страницы, касающиеся генно-модифицируемых продуктов.

"Поскольку мы обрабатываем очень много данных, для такого рода сокращений накоплен богатый контекст. Иногда создается впечатление, что механизм поиска работает интеллектуально и способен на семантическое восприятие, однако на самом деле это не так", - признала она.

Пока индекс Powerset очень ограничен и содержит лишь миллионы страниц из Wikipedia и Freebase, базирующейся на Web структурированной базы данных с информацией, разработанной компанией Metaweb Technologies. Однако Превост обещает, что этот индекс начнет расти в течение месяца после дебюта поискового механизма и в конечном итоге станет сравним по размеру с индексами Google, Yahoo и других поисковиков.

"Наша технология неограниченно масштабируема", - подчеркнул он.

Пока же работа механизма поиска Powerset производит сильное впечатление и выглядит весьма многообещающей. Powerset может делать намного больше, чем выдача привычного разбитого на десятки массива ссылок на результаты поиска. В частности, этот поисковик способен объединять набор фактов, связанных с запросом, а также комментировать найденную информацию. Он также дает прямые ответы на фактические вопросы.

Поскольку контент из Wikipedia и Freebase может быть переиздан, Powerset находит адекватную информацию после того, как пользователь щелкнул на результат поиска, предоставляя схему для навигации по странице и комментарий фактов. Подобные вещи Powerset, конечно, не может делать с контентом, защищенным авторским правом, но сейчас компания ведет переговоры о партнерстве с издателями, рассчитывая получить разрешение на подобную обработку.

"Мы считаем, что это та ситуация, когда издатели сами хотят, чтобы их контент был представлен таким образом", - заметил Превост.

Аналитик Грег Стерлинг из компании Sterling Market Intelligence назвал возможности Powerset "впечатляющими" и, в частности, особенно ему понравился интерфейс для доступа к результатам поиска.

"То, что они создают, - это не только более качественный механизм поиска для Wikipedia, но и серьезное 'подтверждение концепции' для их алгоритмов и технологии", - сказал он.

"Однако в Powerset должны продемонстрировать, что предлагаемый механизм поиска может масштабироваться, работать с индексом, содержащим миллиарды и миллиарды Web-страниц, и обслуживать одновременно миллионы конечных пользователей. Но реализовать для всей Сети то, что Powerset сделала для Wikipedia, мне представляется очень сложной задачей, которая требует времени и огромных дополнительных ресурсов", - считает Стерлинг.

Превост признал, что такого рода глубокая обработка потребует больших вычислительных ресурсов, хотя после индексации информация с полученных страниц не создает никаких особых проблем.

Powerset сталкивается с теми же самыми трудностями, что и любая другая начинающая технологическая компания, в том числе связанными с получением прибыли и решением задач, возникающих по мере развития. Компания уже пережила реорганизацию в управлении, объявив в ноябре об увольнении одного из основателей и директора по операциям Стива Ньюкомба. После этого ей пришлось начать поиск нового генерального директора, поскольку второй основатель компании, Барни Пелл, сменил данный пост на должность директора по операциям. "Поиски генерального директора все еще продолжаются, но у нас есть устойчивая внутренняя структура управления и совет директоров", - заметил Превост.

Он также подчеркнул, что инвесторы компании не отказались от сотрудничества с нею и считают, что ей необходимы ресурсы для масштабирования механизма поиска так, чтобы он индексировал 20 млрд страниц.

Предполагаемая бизнес-модель Powerset построена на рекламе, однако первоначально механизм поиска не будет предлагать пользователям рекламные объявления. "Мы очень многое можем делать в рекламном пространстве, устанавливая соответствие между смыслом запросов и адекватными рекламными объявлениями, но это вопрос отдаленной перспективы", - считает он.

Сначала механизм поиска будет ограничен общим поиском текстовой информации в Web, но впоследствии Powerset планирует добавить специальные поисковики для таких вещей, как изображения и видео, а также для конкретных предметных областей - здоровье, обзоры продуктов и путешествия.

"Мы показали пока только вершину айсберга в области языкового анализа", - сказал он.


Теги: