Яндекс раскрыл тайну шестой страницы |
|
|
18:06:2009 г. |
В четверг 18 июня поисковая компания Яндекс провела семинар на тему развития и совершенствования поисковых сервисов Яндекс-ньюс и Яндекс блоги, на которой сотрудники Яндекса поделились информацией о некоторых неочевидных свойствах системы и ответили на вопросы, которых было много (мероприятие продлилось более трёх часов).
Офис Яндекса представляет собой старинную крепость похожую на знаменитый «Винзавод», расположенную в том же районе близ Курского вокзала и имеющей ту же историю: в советское время в ней выпускали водку «Кристалл», а в досоветское – ткали. Конференц-зал состоял из двух неравных частей, которые при желании можно было разделить занавеской-гармошкой на два зала, у каждого – своя дверь с надписью соответственно «ГДР» и «ФРГ» (по дороге мы ещё успели заметить два смежных полукруглых зала «Ян» и «Инь»). Зал был чрезвычайно удобным – впереди стоящий стул можно было лёгким движением рычага «вывернуть наизнанку» и превратить в комфортабельный столик для потребления кофе с печеньем. Но воспользоваться этим успели всего трое или четверо счастливцев, поскольку зал персон на 70-80 был полон (и это притом, что более половины бэйджиков, заготовленных на всех приглашённых, так и остались лежать невостребованными на ресепшн).
На семинар в принципе мог попасть любой, но наибольший интерес к нему (в том числе в задавании вопросов) проявили работники новостных сайтов и активные (не топовые, но активно к тому стремящиеся) блоггеры. Больше всего вопросов задала молодая сотрудница «Спорт-экспресса». Особое оживление в зале вызвал вопрос «Как нам попасть в топ?» (по словам девушки, в первую десятку общей выдачи Яндекса по запросам «футбол» и даже «Аршавин» попадают какие-то ненужные магазины спорттоваров, а не её замечательная газета).
Слайд-презентации «Как работают Яндекс.Новости» и «Как устроен поиск по блогам», вероятно, вскоре появятся на сайте компании, так что перечислим только самые интересные из ставших нам известных фактов.
Всё, что может делать робот – делает робот. Модераторы принимают минимальное участие в конфигурировании новостных и блого-поисковых страниц компании. Яндекс не является СМИ и не хочет им становиться. На странице поиска вверху – пять «не жёлтых» заголовков (топ ньюс), а внизу – три «жёлтых» (топ блогов), так есть и так будет. То есть сегодняшняя заглавная ссылка блогов «Обама убил муху» принимается компанией как данность. Новости же ранжируются по трём критериям, один из которых – «вес» издания. Вот первая десятка топа авторитетных, с точки зрения Яндекса, новостных источников:
Ведомости; Газета.ру; Интерфакс; КоммерсантЪ; РИА Новости; Спорт-Экспресс; Эхо Москвы; Би-Би-Си Россия; Лента.ру; Регнум.
ИТАР-ТАСС в рейтинг не попал, т.к. чрез три дня свои новости засекречивает, убирая из открытого доступа. Рейтинг пересматривается каждые 2 месяца.
Блогосфера – это уже почти миллиард из 5 миллиардов страниц Рунета, то есть 20%. 33% записей – спам в чистом виде. В день Яндекс индексирует 30.000 новостей и 300.000 блоговых записей, что предопределяет разный подход к технологии отбора информации.
Основной недостаток рейтинга блогов – «большие растут быстро, а маленькие – почти не растут». Чтобы сгладить его Яндекс делает несколько рейтингов по разным основаниям и намерен развивать это дальше.
Поисковая выдача по блогам выстроена не по релевантности, а хронологически. Пяоскольку подавляющее большинство ходит только по первым 10 ссылкам, в ответ на запрос по блогам Яндекс выдаёт для начала содержимое базы только за последний месяц. Это отражается и в количестве найденных сайтов, которое отражается в самой верхней строке. Чтобы узнать количество найденных записей за всю историю – надо перейти на 6-ю страницу выдачи. Мы проэкспериментировали с первым попавшимся словом «Трансильвания» и получили на 1-й странице – 5800 найденных вхождений, на шестой – 15098.
Яндекс намерен продолжать открытые семинары, о расписании которых можно будет узнать из корпоративного блога компании – http://clubs.ya.ru/company/
|