Стандартные модули работы с документами ELiS умеют корректно публиковать заголовок, авторов и т.д., чтобы поисковые сервисы правильно определяли основные метаданные документов, загруженных в ELiS. Также можно установить модуль xmlsitemap для генерации карты сайта и возможности указания карты в инструментах вебмастеров поисковых сервисов.
Однако данного функционала в ряде случаев может быть недостаточно для повышения видимости в поисковых сервисах.
Содержание
Как происходит индексирование сайтов поисковиками[править]
В начале надо кратко рассказать, как поисковые сервисы индексируют сайт.
- Сервисы узнают о сайте библиотеки по пользовательской активности, ссылках на других сайтах или в результате регистрации сайта в инструментах вебмастеров.
- Поисковый сервис создаёт задачу на индексирование сайта поисковым роботом.
- Поисковый робот приходит на известные ранее страницы, сканирует их, ищет ссылки на другие страницы по сайту, добавляет другие страницы в задачу на индексирование и непосредственно разбирает текст на текущей странице и помещает его в поисковый индекс.
- Текст (изображения/видео тоже), попавшие в поисковый индекс становятся видимы пользователям при поиске в поисковом сервисе.
- Поисковый робот за раз сканирует не весь сайт, а только его какую-то часть.
- Поисковый робот сравнивает новую сканируемую страницу с уже сохранёнными и не помещает её в индекс, если она сильно похожа на уже проиндексированные страницы.
- Часть ранее проиндексированных страниц вымывается из индекса при переиндексировании, если поисковый сервис считает, что информация на странице устарела или не пользуется популярностью.
Файл sitemap, генерируемый модулем xmlsitemap, указывает роботу какие URL на сайте доступны, однако робот не обязательно обойдет все указанные в файле URL. Sitemap для поискового робота - один из источников информации об URL сайта, не единственный источник и не основной. Чем больше документов на сайте, тем больше вероятность, что часть документов не попадёт в поисковый индекс вообще.
Почему документ может не попасть в индекс?
Поисковый сервис хочет индексировать страницы с уникальным контентом, но зачастую страницы сайта отличаются друг от друга с точки зрения текстового содержания доступного поисковику несущественно.
Когда робот приходит на разные страницы документа, то т.к. он не видит сами страницы и текст на них, то для него две разные страницы отличаются только URL и заголовком. Поэтому если на сайте 1000 книг в каждой из которых 100 страниц, робот видит 1000*100 = 100 тыс. разных адресов, из которых 99 тыс. являются почти неотличимыми друг от друга, а более-менее уникальными только 1 тыс. (за счет заглавий и, может быть, аннотаций). Робот может посчитать, что ходит по одним и тем же документам по циклу и прекратить сканирование, в том числе новых загруженных документов.
Вторая причина связана с возможностью закрытия доступа к части документов. Если доступ к документу закрыт, робот по адресу документа ничего не увидит, что также будет препятствовать индексированию не только документов с закрытым доступом, но и открытых документов (робот увидит, что значительная часть страниц сайта в закрытом доступе и может понизить свою активность).
Модуль ELiS SEO[править]
Бороться с обоими отрицательными моментами помогает модуль ELiS SEO.
Модуль для двух популярных поисковых сервисов Yandex и Google корректно определяет приход роботов и подкладывает роботам вместо оригинальных страниц сайта с книжными плеерами текст со страниц книг, к которым поисковики приходят.
Текст подкладывается под каждую страницу книги (т.е. если на сайте 1000 книг по 100 страниц в каждой и в каждой странице есть текст, все 1000 * 100 = 100 тыс. URL будут содержать более-менее уникальное содержимое.
ELiS SEO игнорирует ограничения доступа на документы и выдает упомянутым двум поисковым роботам содержимое документов даже если документ помещён в ограниченный доступ.
Конечно, проиндексированный документы в ограниченном доступе попадут в поисковый индекс и текст этих документов будет виден в поиске, т.е. полного сокрытия содержимого документов от пользователей не будет. Но во многих случаях это и не требуется.
Когда использовать ELiS SEO[править]
Используйте модуль:
- если у вас нет документов в ограниченном доступе;
- если документы в ограниченном доступе есть, но вы правообладатель документов и стремитесь их продать и хотите использовать поисковые сервисы для привлечения трафика.
Когда не надо использовать ELiS SEO[править]
Не включайте модуль:
- если ни при каких условиях нельзя, чтобы текст в документах был виден тем, кто не имеет к нему доступ (т.к. поисковики отобразят проиндексированный текст в результатах поиска).
- если вы не являетесь правообладателем текстов и можете получить претензии из-за видимости текста в поисковых сервисах.
Настройка ELiS SEO[править]
Модуль настраивать не надо. Его надо просто включить.
Безопасность[править]
А что будет, если хитрый пользователь подделает запись userAgent, представившись поисковым роботом? Он получит страницу сайта как и обычный пользователь. ELiS проверяет IP-адрес, с которого пришёл запрос, на то, что он принадлежит индексирующим роботам упомянутых двух поисковых систем.
Настройка Sitemap при активации ELiS SEO[править]
Если модуль ELiS SEO не используется, обычно рекомендуется настраивать модуль xmlsitemap так, чтобы ноды страниц книги в sitemap не входили (чтобы не получить эффекта, что поисковики отказываются индексировать сайт т.к. менее 1% сайта имеет уникальное содержимое).
При включении ELiS SEO, страницы книги можно добавить в Sitemap с меньшим приоритетом по сравнению с книгами.