.. / Какой у гугл-бота "броузер"? Эксперименты №2,3,4...

  1. seo

Эксперимент #1 показал, что Google не просто выполняет JS, но выполняет его в контексте всей страницы с учетом CSS. Сразу возник вопрос- на каком мониторе и в каком броузере бот считывает страницу? Вопрос кажется идиотским, но поскольку бот в предыдущем эксперименте ловко обработал meda-query, стало интересно, что попадет в индекс, если для каждого разрешения будет свой контент, а заодно насколько продвинут "броузер" - какие у него него плагины, шрифты, и библиотеки

Эксперимент #2. Как Google обрабатывает media-query

Тестовая страница находится по адресу http://ga.x9.ru/4.htm На ней в зависимости от разрешения экрана меняется содержимое самой первой строки, в которой цифра означает сетку разрешений от 200 до 1400px c шагом 200. Если ни одно из расширений не подойдет, выведется значение "Default"

Итак, что проиндексирует бот и что он выведет в результаты поиска?

  1. Конкретное разрешение
  2. Проигнорирует media-query и выведеn default
  3. Все и сразу

Эксперимент #3. Какие шрифты установлены у Google-бота? А плагины?

Эта идея возникла из методики идентификации юзера по "отпечатку" системы. Вероятность того что у двух продвинутых пользователей один и тот же набор шрифтов, плагинов, параметров монитора и т.п. близка к нулю. На этом принципе вместе с другими параметрами идентификации можно построить систему защиты от форумных троллей.

На этом этапе я попробую определить есть ли в "броузере" бота хоть какие шрифты. Если для него нет разницы между

#font1 {float:left;font-family: Arial, Helvetica, sans-serif;font-size:14px;}
#font2 {float:left; font-family:"Courier New", Courier, monospace;font-size:14px;}
длина обоих div будет одинаковой. В зависимости от этого условия будет формироваться контент в блоках, обведенных красной рамкой.

Можно было бы попытаться использовать более продвинутый алгоритм - с определением тех же плагинов, но это пока подождет.
Хотя я на 100% уверен, что стандартные плагины Windows у бота не установлены. Но времена не те - 30-40% аудитории юзают Android, SymbianOS, IOS и др.

UPD. Ну и так на всякий случай посмотрим что у бота с плагинами. Правда пока непонятно что с этим делать.

Эксперимент #4. Как Google обрабатывает связку JS+XSLT

этот эксперимент посвящен моей любимой теме - обработке XSLT на клиенте. В чистом виде Google так и не научился выполнять XSLT преобразование на клиенте. Если скормить XML под видом HTML. А что он будет делать если преобразование будет выполнено с использованием Javascript? Встроен ли в движок XSLT-библиотека? А вдруг в Google на этом сэкономили?

Если эксперменты #2 и #3 продиктован скорее чистым любопытством, эксперимент #4 спокойно позволит прятать ссылки и контент от вездесущего бота.

Для XSLT преобразования используется JS/XSLT-библиотека Йогана Буркарда в тесте - последняя строка над квадратом получена в результате перестановок узлов XML

Прим.

  1. Традиционно текст представляет собой тройной машинный перевод произведений советских писателей на африкаанс. Если что Гугль сам виноват - переводить нужно лучше.
  2. Про идентификацию пользователя можно почитать здесь: http://panopticlick.eff.org/ Например вероятность совпадения моего броузера с броузером другого пользователя только по установленным плагинам равна 3*10-7

Результаты эксперимента 20.05

  1. Между индексацией статического и динамического контента прошло три недели.
  2. Ширина "броузера" Googl'а 1000-1199px. Требуется уточнение. В новый эксперимент нужно вывести значение screen.width
  3. Google способен проводить XSLT преобразование на клиенте, если оно выполняется через JS
  4. "Броузер" Google имеет единственный плагин - Shockwave Flash. И это теоретически позволяет вытащить из него все что угодно.
  5. "Броузер" Google натурально парсит текст с обычным и полужирным написанием, и определяет ширину текста и с тем и с другим написанием.

UPDATE 15.06.2003

Google научился индексировать клиентский XSLT в полном объеме.

  1. 2013-04-26
  2. seo
  1. erum.ru/116.htm - Ajax-контент индексация Google´м. Эксперимент №1
Go Index Test