home

Позиции научных статей в поисковой выдаче: сайт журнала, ЭБС вуза, КиберЛенинка - кто выше?

Предположим есть научный журнал открытого доступа (под Creative Commons).

Он публикуется на сайте журнала (под управлением Joomla!), в ЭБС выпускающего вуза (под управлением ELiS) и в КиберЛенинке.

Т.к. выпуски и статьи одни и те-же, возникает вопрос как распределятся позиции между собой этих разных сайтов при поиске в Google и Яндекс, попадающим в этот журнал.

Для этого был проведен полуторогодовой эксперимент.

Был взят журнал "Юридический вестник Пермского университета", включенный в WoS Core Collection.

Сайты с выпусками[править]

Обратите внимание, что ELiS и сайт журнала находятся в одном домене второго уровня (psu.ru), это важно т.к. поисковики могут выполнять дедубликацию с учетом домена (это и увидим в случае с Яндексом). Еще один важный момент, каждая страница статьи в ЭБС ELiS имеет активную гиперссылку на страницу этой же статьи на сайте журнала (так требует Creative Commons), а вот сайт журнала ссылки на ELiS не имеет. Поисковики это могут воспринимать так, что есть два сайта с одним ресурсом и есть одна ссылка, с сайта ЭБС на сайт журнала, а значит главным из этих двух ресурсов является сайт журнала.

В ЭБС ELiS в целях эксперимента загружен не весь журнал, а выпуски (1/2018, 1/2019). К моменту загрузки этих двух выпусков в КиберЛенинке журнал уже был опубликован. Возникла гипотеза, что трафик может отправляться с учетом того, кто первый опубликовал, чтобы ее проверить был взят выпуск 2/2019 и опубликован в ЭБС ELiS на несколько месяцев раньше, чем КиберЛенинка. Т.о. если выпуск 2/2019 покажет существенную разницу между ELiS и КиберЛенинкой, значит приоритет публикации имеет значение.

Особенности описания[править]

Сайт журнала имеет самые подробные метаданные на двух языках. Плеера нет. Разрешено скачивание PDF.

Сайт ELiS имеет меньше метаданных (на аннотация включена). Плеер есть. Разрешено скачивание PDF.

Сайт КиберЛенинки явно выделяет еще меньшее число метаданных, но на одной странице со статьей выдает и весь ее текст. Плеер есть. Разрешено скачивание PDF.

Т.е. есть определенная специфика по тому, что видят поисковики.

Методика[править]

После публикации последнего выпуска в ELiS был выждан год перед съемом результатов.

Поиск по заглавию[править]

В эксперименте 1 в Google и Яндекс в браузере отправлялся поисковый запрос, состоящий в точности из заглавия журнала. Чтобы уменьшить влияние региональности, запрос отправлялся из соседнего журналу региона. Для уменьшения персонализации выдачи, поиск осуществлялся из приватной вкладки. Результаты были провалидированы в Яндексе в TOR Browser и не показали значительных отличий в распределении мест между испытуемыми сайтами.

Эксперимент 1 имеет недостаток: заглавия у хорошо оптимизированных сайтов имеют тег h1, считаются основными метаданными поисковиками и не являются полнотекстовым запросом. Вместе с тем поисковые типичные запросы могут попадать не только в заглавия, но и в текст и поиск по заглавию (как показал эксперимент 2) не эквивалентен поиску по тексту.

Поиск по тексту[править]

Для рассмотрения соотношения сайтов при полнотекстовом поиске проведен эксперимент 2, в котором поисковый запрос не должен был бы попадать в метаданные.

С поиском таких метаданных возникал проблема т.к. журнал юридический и если взять абзац и подставить в поиск, можно найти много чего похожего с посторонних сайтов, но не статью, из которой взят абзац. Нужно было что-то, что явно позволит найти в поиске на первой странице именно нужную статью, а не что-то другое со схожими термами. В качестве такого уникального фрагмента текста выбран DOI, присвоенный каждой статье. У DOI есть недостаток - на сайте журнала он виден на странице статьи в метаданных (поэтому на сайте журнала это все еще поиск по метаданным), но эксперимент показал, что при поиске по DOI выдача на сайте журнала всегда вела на PDF, а не на страницу с метаданными. Поэтому можно допустить, что DOI пригоден для симуляции полнотекстового поиска, попадающего в статью (хотя это допущение специально не доказывается и является неподтвержденной гипотезой).

Число выдач[править]

У ELiS и КиберЛенинки пожно посмотреть число просмотра ресурсов и число скачиваний.

Просуммировав, можно получить выдачу за все время.

Но в отличие от поиска, здесь имеется погрешность, что выпуск 1/2018 и 1/2019 в КиберЛенинке появились раньше чем в ELiS и поэтому будут иметь большую выдачу, а 2/2019 вначале опубликован в ELiS и затем в КиберЛенинке. Причем даты появления выпусков в КиберЛенинке не известны, поэтому нельзя пронормировать выдачу на дни.

Результаты[править]

Попутно было выяснено куда поисковики в ELiS посылают трафик: на страницы плеера или на страницу с метаданными (на страницу с метаданными несколько чаще, чем на страницу PDF, но часто отображает в выдаче и то и другое).

Результаты поиска по заглавию[править]

search_by_title_results.png

При поиске по заглавию безоговорочно лидирует КиберЛенинка. Даже не смотря на более позднее размещение выпуска 2/2019. КиберЛенинка первая и в Яндексе и в Гугле.

Дальнейшие второе и третье место зависят от использованного поиска.

В Google чаще ЭБС ELiS опережает сайт журнала на Joomla, при этом когда ELiS опережает, в больше чем половине случаев сайт журнала вообще не попадает на первую страницу выдачи. Здесь можно сделать предположение, что связано это с дедубликацией (поиск находит и на сайте журнала и в ELiS, но отдает предпочтение ELiS, а сайт журнала часто не показывает вообще).

В Яндекс ситуация полностью обратная: ЭБС ELiS там вообще не отображается т.к. (видимо) дедублицируется по причине домена и схожих метаданных.

Важно отметить, что и в случае с Яндексом и в случае с Гуглом все три перечисленных сайта если на первой странице в выдачу попадают, то обычно занимают 1-3 позиции. Т.е. реально в топе выдачи вы видите одну и туже статью, просто находящуюся на разных сайтах.

Результаты поиска по тексту[править]

search_by_doi_results.png

При поиске по DOI (симуляция поиска по тексту) распределение мест существенно меняется не в пользу КиберЛенинки.

КиберЛенинка примерно в половине запросов вообще не попала в выдачу на первой странице (хотя DOI есть на том же URL статьи в виде текста). В тех же случаях когда КиберЛенинка таки попадает в первую страницу выдачи, то в Google она устойчиво занимает 6 позицию в выдаче, а среди участвующих в сравнении сайтов обычно занимает второе или третье место.

В сравнении ЭБС ELiS и сайта журнала ситуация повторилась: Google любит ELiS и в нем ELiS всегда занимает первое место (и первую позицию в выдаче), но у ELiS хуже дела в Яндексе и часто Яндекс дедублицирует выдачу в пользу сайта журнала на Joomla!.

Сайт журнала напротив, лидирует в Яндексе (в подавляющем большинстве случаев занимая первое место и первую позицию в выдаче), а в Google расположен на второй позиции выдачи (сразу после ELiS) или не попадает на первую страницу выдачи вовсе.

При этом важный момент: Яндекс на сайте журнала при поиске по DOI всегда отправляет в PDF (а не на страницу статьи с метаданными, на которой DOI тоже есть). А в случае с ELiS всегда выдача велась в плеер (а не в PDF).

Выдача[править]

views_cyberleninka_vs_elis.png

Как видим, выдача КиберЛенинки превышает выдачу ELiS в 1-111 раз с медианным превышением в 4 раза.

Причем явно выделяется самый старый выпуск 2018 года.

Если же учитывать только два выпуска за 2019 год, то медианное превышение КиберЛенинки составляет в 2 раза.

Применимость результатов[править]

Результаты имеют ограниченную применимость, т.к. исследование провелось только на одном журнале гуманитарной направленности. Кроме того, недостаточно большая выборка статей, а гипотеза о возможности использования поиска по DOI может не отражать реальное поведение при поиске по тексту (здесь требуется дополнительное исследование, но его надо проводить не на юридическом журнале).

Также надо понимать, что сравнивались три конкретных сайта с их структурой, описанием метаданных, особенностями SEO, поэтому такие результаты вряд ли можно автоматически переносить, например, на использование в качестве сайта журнала OJS.

Обсуждение результатов[править]

Результаты показали существенное различие в положении сайтов в выдаче.

КиберЛенинка безоговорочно побеждает при поиске по заглавию. Но также безоговорочно проигрывает при поиске по тексту.

В сравнении ЭБС ELiS и сайта журнала на Joomla! предположительно сильно влияет размещение в одном домене и выдача порою дедублицируется.

Очевидно Google отдает предпочтение ELiS, а Яндекс отдает предпочтение сайту журнала.

В любом случае, и КиберЛенинка и ELiS и сайт журнала обычно занимают высшие позиции в выдаче и идут кучно друг к другу, тем самым повышая вероятность, что пользователь кликнет хоть по одной из ссылок и прочитает таким образом статью.

Но т.к. они идут друг за другом, наличие или отсутствие одного из сайтов в целом для журнала не является принципиальным. Если бы журнал не загружался в один из сервисов, то остальные все равно обеспечили бы нахождение в топе поисковой выдачи. Поэтому для журнала в целом этот вопрос (включаться в ЭБС или в КиберЛенинку) не является принципальным.

Но вот того же самого для конкретного автора сказать нельзя. Нашлась одна статья, которая на первой странице выдачи была только в ELiS и если бы ELiS не использовалась, такая статья могла бы оказаться не найденной. Да, таких ситуаций не очень много, но в любом случае авторы заинтересованы, чтобы их статьи распространялись в как можно большем числе электронных библиотек. Эти библиотеки улучшают видимость.

Теперь про организации: не секрет, что некоторые библиотеки хотят видеть трафик именно на своем сайте, поэтому не хотят отдавать книги КиберЛенинке и другим организациям, но свободно распространяют их со своих сайтов. Да, такие опасения (что КиберЛенинка или другие сайты недодадут трафик на сайт издателя или образовательной организации) не беспочвенны.

Касательно гиперссылок, ведущих с ELiS на сайт журнала: очевидно для Google это оказалось не слишком значимым. В случае с Яндексом сказать сложнее, возможно значимо (т.к. Яндекс отдает предпочтение ресурсу на который ссылаются), а может и нет (надо не забывать, что есть еще фактор, что сайт журнала по времени всегда раньше публикует ресурсы, чем ELiS).

А общий вывод такой: поисковики себя очень по разному ведут с одним и тем же контентом на разных сайтах, поэтому нельзя сказать "отдайте журнал КиберЛенинке и не думайте о SEO" или "надо делать ЭБС вуза, а сайт журнала не нужен" или даже "пусть будет только сайт журнала, а остальное бесполезно". Можно ожидать, что вот такое совершенно разнообразное поведение будет и в случае с другими журналами и другим ПО.

Очевидных причин, почему в одном случае вверх поднимается одно, а в другом другое - исследование не выявило. Поэтому нельзя говорить о "предсказательной силе" результатов.

Кроме позиций по двум крайним запросам (по метаданным и по тексту) сделан анализ по числу выдач. Сравнивались только ELiS и КиберЛенинка и КиберЛенинка имеет заметно больше выдач с аномально большим числом выдач в 2018 году. Медианное превышение числа выдач: 4 раза для всех трех выпусков и 2 раза для выпусков за 2019 год. Но в виду таких скачков, результаты следует считать сомнительными и требуется накопление большей статистики.

По расширению исследования: на первую страницу поисковой выдачи часто попадала EBSCO (обычно на более низких из трех приведенных сайтов позициях) и иногда eLIBRARY.RU (обычно ниже EBSCO).

Результаты в LibreOffice Calc: https://elibsystem.ru/sites/default/files/user/ars/blog/jurvestnik-vs-elis-vs-cyberleninka/elis-vs-cyberleninka-vs-joomla-jurvestnik-on-google-yandex-search-results.ods