home

Обзор бесплатных электронных библиотек: Dspace, Rescarta, Greenstone

Введение[править]

Я решил начать небольшой цикл статей по электронным библиотекам (ЭБ). В ходе цикла я буду выбирать некоторую тему и рассказывать как по ней сейчас обстоят дела в различных библиотеках и в моей в частности. Я не претендую на истину в последней инстанции и приглашаю к обсуждению статьи. Отдельно благодарю за уместную критику или важные уточнения, если они будут :). Если вам статья понравится, поделитесь ею в соц. сетях :).

Но чтобы друг друга понимать в обсуждении особенностей различных подходов, вначале я сделаю небольшой обзор по существующим библиотекам. Начну с бесплатных, как самых интересных широкому кругу людей :).

dspace_logo.pngrescarta-logo.jpgeprints-logo.png

На сегодня не существует бесплатных облачных библиотек, где бы библиотека предоставлялась как сервис. Все библиотеки устанавливаются на оборудовании библиотеки. Самих библиотек, про которые мне известно, относительно немного.

Dspace[править]

dspace_logo.png

Самая известная ЭБ. Dspace - институциональный репозитарий открытых научных текстов. Переведу на простой язык: Dspace используется вузами и институтами для публикации в открытом доступе научных статей.

История Dspace[править]

Dspace написан на Java в MIT при сотрудничестве с HP лет 14 назад. В качестве БД используется PostgreSQL. Система очень популярна и имеет более 1000 инсталляций по миру. В том числе есть инсталляции и в экс-СССР. Сходу могу назвать самые ранние инсталляции в экс-СССР в УрФУ, БелГУ, ЯрГУ. Только среди отечественных вузов не менее 15 установок. Иногда Dspace используют и публичные библиотеки для незащищенного контента.

Установка и обновление Dspace[править]

Установка типична для Java, когда запускается maven и он собирает Dspace из исходных кодов, загружая зависимости с внешних серверов. К сожалению, установка обещает значительные сложности для незнакомых с Java-миром специалистов. Осложняется это все наличием большого числа настроек в текстовых файлах, которые надо крутить чтобы Dspace заработал. Ну и обновление сопряжено тоже с некоторыми трудностями, связанными прежде всего с тем, чтобы не затереть уже готовые настройки при обновлении. Большинство инсталляций Dspace в вузах на неподдерживаемой ветке 1.x при актуальной 4.х. Думаю, не последнюю роль в этом сыграли трудности с обновлением.

Модификация[править]

Исходный код открыт под лицензией BSD*. Уже развернутую систему можно модифицировать под свою инсталляцию. В основном подвергаются изменению цвета/фоны и встраиваются логотипы. У меня сложилось впечатление, что разработчики Dspace ожидают изменения в коде Dspace. Скажем даже так, после установки ваш Dspace вас не устроит и потребуется некоторая модификация. Например, при поиске по автору Dspace для быстрой навигации выводит список первых букв фамилий. Первые буквы английские, конечно. Если захотите добавить кириллицу, надо будет нужные буквы нарисовать в jsp-файле.

dspace-manual-correction.png

Локализация[править]

Dspace локализован на русский (в версии 1.5)* и поддерживает указание множества языков для метаинформации :). Правда, залезть в код Dspace в некоторых местах все равно придется. Полную локализацию можно провести самостоятельно.

DRM-защита[править]

Dspace не обладает возможностью DRM-защиты. При помощи Dspace нельзя как-либо защитить книги от копирования. Но можно защитить от скачивания (и просмотра).

Типовая ситуация в институтах - есть статьи, которые надо показать миру. И есть статьи, которые должны быть доступны только сотрудникам. При этом к сотрудникам полное доверие, т.е. ожидается от них добросовестное использование документов Dspace без наложения на них защиты. Такая частая ситуация для институтов решается с помощью Dspace т.к. можно задать видимость документа только авторизованными пользователями. Dspace имеет несколько методов аутентификации пользователей. Самые популярные, думаю, это LDAP и на основе почтового сервера (в качестве логина - почтовый ящик, в качестве пароля - пароль от почты института/университета). Есть возможность авторизации на основе ip-адреса.

(* См. замечания IdeaFix что все не так)

Хранимые типы документов[править]

Dspace может хранить практически любые документы. Но! Но хранит их он просто как набор байтов. Это хорошо для научных статей, но не годится, к примеру, для видео. Качать 2 ГБ видео, чтобы понять что ты не хочешь его смотреть - во времена засилия YouTube такой функционал не вдохновляет. Аналогично с презентациями, которые тоже часто хранятся в Dspace с различных конференций.

Есть платное расширение для Dspace позволяющее отображать видео в браузере. Но оно требует видео в определенном формате, построено на Flash и не умеет мультибитрейтность.

Также я не рекомендую использовать Dspace для оцифрованных книг, т.к. пользователи не будут качать 200-500 МБ PDF-файлы чтобы посмотреть пару страниц и понять что это им не интересно. Про доступ с мобильных устройств и говорить не приходится.

Каталог[править]

Встроенный каталог позволяет создавать коллекции. Коллекции существуют двух типов: "раздел" и "коллекция"*. Коллекции могут вкладываться друг в друга, но у одной коллекции может быть только одна родительская коллекция. Любой документ может помещаться в несколько* коллекций. По тому в какой коллекции он находится, до документа будут строиться хлебные крошки. В целом, каталог в Dspace сделан хорошо.

Метаинформация[править]

Dspace не нуждается во внешних каталогах и всю метаинформацию хранит внутри себя в формате Dublin Core. Внешние сборщики метаинформации могут цепляться к Dspace по OAI-PMH. Протокол Z39.50 не поддерживается. Dspace совместим с Google Scholar (для размещения статей из Dspace в Google Scholar требуется связаться с Google), что очень выгодно как раз для открытых научных репозитариев. При использовании Dspace придется решать вопрос, будете ли вы дублировать метаинформацию в основной каталог АБИС.

Workflow[править]

В Dspace можно разрешить зарегистрированным пользователям публиковать статьи, но назначить предмодераторов. Предмодераторы могут назначаться на коллекции с извещением о новом поступлении на e-mail.

Постоянные ссылки[править]

Dspace построен так, что вам надо будет купить за 50$ в год сервис http://handle.net для публикации постоянных ссылок на загруженные в Dspace документы. Можно и не покупать, но тогда Dspace будет повсюду показывать неправильную постоянную ссылку.

Поиск[править]

Dspace умеет извлекать полный текст из загруженных документов с помощью популярной библиотеки Apache Tika. Поддерживается огромное число форматов текстовых файлов. Извлеченный текст индексируется Apache Lucene - еще одной популярной библиотекой на Java для полнотекстового поиска. Недостаток тут простой - проблема с поддержкой русской морфологии, характерная для всех поисковиков на Lucene уже много лет. С другой стороны, для многих других европейских языков проблем с морфологией нет. Но другие языки для нас не очень актуальны.

Скорость работы поиска высокая, как и у большинства систем с выделенным специализированным поисковым движком.

Интерфейс[править]

Dspace имеет два основных интерфейса: jspui, xmlui. Первый выглядит современнее и в последних версиях получил адаптивный дизайн для работы на мобильных устройствах, второй совсем устаревший. Во времена dspace 1.x большинство выбирало jspui. Но с выходом современного Dspace 4.x интерфейс настолько изменился, что там, на мой вкус, забыли выделить главное от второстепенной информации и пользоваться таким интерфейсом не удобно. Некоторые стали выбирать xmlui.

До определенных пределов интерфейс можно изменить, главное не потерять изменения при обновлении.

С точки зрения usability надо понимать, что Dspace рассчитан на хранение тысяч научных статей. Научные статьи отличаются от остальных книг длинными названиями и отсутствием обложек. Поэтому внешний вид Dspace не привлекателен - простой список из названий книг. Ни обложек, ни чего-то другого. Но это недостаток только если рассматривать Dspace в качестве публичной библиотеки, если говорить о нем как об репозитарии научных текстов - примерно такой интерфейс и должен быть.

Скорость генерации страницы хорошая, в пределах 100-300 мс.

Социальное продвижение и комментарии[править]

Этому в Dspace не уделяется какого-либо внимания. Ладно хоть есть внешний модуль комментариев.

Совместимость с поисковыми системами[править]

Dspace умеет генерировать xmlsitemap и все свои статьи скармливать поисковикам. Тем не менее, из-за большого числа поисковых форм, поисковые роботы индексируют большое число одних и тех-же страниц, прийдя на них из поисковых форм Dspace разными путями :(.

Заключение[править]

Dspace создан для предоставления в общий доступ научных статей институтами и вузами. Эту задачу он отлично выполняет и именно для этой цели его и стоит использовать.

Использование Dspace публичными библиотеками мне видется нецелесообразным. Его интерфейс не способствует желанию пользователя возвращаться к библиотеке и прочитать другие размещенные книги. Отсутствие обложек и простой и понятной навигации приведут к тому, что основным источником трафику будут поисковые системы уже на конкретную книгу. Получив книгу, пользователь уйдет. Отсутствие DRM-защиты - следствие open-source природы Dspace, не позволит вам размещать в Dspace купленные книги или книги, доступ к которым разрешен только из стен библиотеки.


Eprints[править]

С ним я не работал. Идейный аналог Dspace, с несколько иной схемой публикации материалов в репозитарии. Тоже достаточно распространен, но менее популярен Dspace.

Greenstone[править]

Еще одна система, позиционируемая как универсальная электронная библиотека. В текущий момент в состоянии альфы находится третья версия Greenstone и стабильная вторая версия. Я рассматривал третью версию.

catalog.PNG

Библиотека достаточно взрослая, но для своего возраста и открытого кода не слишком распространенная. Бекэнд написан на Java с частичным использованием Perl и других инструментов. Веб-сайт работает под Tomcat. Администрирование и наполнение библиотеки осуществляется с помощью "толстого" Java-клиента. Библиотека мультиплатформенная. Установка под Windows очень простая.

Мультиязычность[править]

Система построена с поддержкой мультиязычности как в плане интерфейса сайта и Java-клиента, так и метаинформации.

Защита документов[править]

Коллекция может быть общедоступной или нет. На уровне документов права не устанавливаются.

Метаинформация[править]

В качестве основной схемы используется Dublin Core. Схема расширена дополнительными атрибутами Greenstone, например, разрешением на печать. Метаинформацию можно вносить и править в Java-клиенте. Согласно документации, поддерживается импорт из других форматов, но сторонние форматы нельзя править. Автодополнение при правке полей Dublin Core нет, что увеличивает вероятность ошибок.

metadata.png

Интересным является поведение метаинформации с папками. Если создать папку и задать ей некоторую метаинформацию (автора, издателя и т.п.) то все вложенные папки унаследуют эту метаинформацию. Наследники могут переопределить метаинформацию, но не могут ее стереть.

Загрузка документов[править]

Вначале пользователь загружает документ из локального диска или по ссылке с внешнего сайта. Имеется встроенный паук, который может рекурсивно с заданной глубиной обходить сайты и готовит найденные страницы и документы в библиотеку. Это может быть полезно в ситуации импорта документов с существующего сайта, но метаинформацию придется заполнять самостоятельно.

Затем библиотекарь заполняет метаинформацию в виде текстовых полей и размещает документ в коллекции.

Документ при помощи ghostscript конвертируется в HTML-страницу. Именно эта страница будет отображаться на сайте.

Текст и метаинформация помещаются в индекс.

document-html.PNG

Поддержка типов документов[править]

Greenstone поддерживает относительно небольшое число типов документов. Это pdf, docx, xlsx и ряд других. Видео, EPUB и аудио среди поддерживаемых документов не значатся. Для поддержки остальных типов документов можно написать плагины.

Темизация коллекции[править]

У каждой коллекции в отдельности можно модифицировать шаблон вывода. В том числе имеется возможность локализации.

Управление правами доступа[править]

Веб-интерфейс позваляет назначать пользователю три роли: администратор, редактор всех коллекций, редактор определенной коллекции.

Заключение по Greenstone[править]

Последний шаг создания коллекции у меня на версии 3.06 закончился ошибкой, так что обзор неполон и сделан на основе демонстрационных данных в коллекциях.

Веб-интерфейс greenstone3 развит на уровне 2002 года и написан на HTML4. Это означает отсутствие оптимизаций для чтения на мобильных устройствах.

Еще одним недостатком является использование конвертации документов в HTML-страницы. С одной стороны - это логичный шаг чтобы привлечь к себе на сайт роботов и упростить просмотр документов пользователями без скачивания, но с другой стороны надо подробнее рассказать как работает ghostscript в таком сценарии. В PDF-документах все буквы не собираются в абзацы, а жестко находятся на определенных позициях с точными координатами. Т.е. в отличие от HTML, где есть абзацы, в PDF нет понятия абзац или строка, а есть куча букв, каждая из которых находится в заданной координате. Конвертер ghostscript в таком виде и создает HTML-документ, в котором каждая буква задана своими координатами. Конечно, как и в PDF у такого документа будет жестко задана ширина и высота каждой страницы. Конечно, документы с фиксированный шириной и высотой будут плохо отображаться на мобильных устройствах.

В качестве достоинства непременно следует отметить возможности локализации метаинформации, описания коллекций и веб-интерфейса.

Плохая проработка интерфейса сайта Greenstone для 2014 года, некоторые функциональные недоработки Java-клиента, ограниченный список поддерживаемых документов явились причиной слабого распространения Greenstone в библиотеках. В текущем виде я бы не стал рекомендовать Greenstone в качестве универсальной библиотеки пока система не сделает рывок по улучшению пользовательского интерфейса. После этого уже можно будет рассматривать ее сильные и слабые функциональные стороны. Однако, по активности в баг-трекере, можно сделать выводы о низкой активности в развитие проекта.

Полезные ссылки по Greenstone[править]

Список Greenstone библиотек в качестве примера.

Дорожная карта для понимания куда развивается библиотека.

Баг-трекер.

Rescarta[править]

http://www.rescarta.org/

rescarta-collection.png

Очень простая система для публикации оцифрованных книг. Очень простая, впрочем, не означает очень плохая. Библиотека сконцентрировалась на задаче представления в удобном для чтения виде оцифрованных изданий. Это как раз то, что плохо делает Dspace и его аналоги. Rescarta позволяет не скачивать огромный файл, а смотреть книгу по страницам в виде рисунков в удобном просмоторщике. Просмоторщик умеет загружать большие рисунки частями, что ускоряет отображение очень больших картинок.

Демонстрационная версия поможет оценить возможности системы. Инсталляция в СПбГУ.

Также Rescarta подходит для хранения рисунков и аудио-файлов.

Rescarta может обрабатывать метаинформацию и выводить ее для пользователей. Есть простой поиск.

Интерфейс Rescarta не поддерживает адаптивный дизайн. Пользоваться на мобильных устройствах неудобно.

Социального продвижения тоже нет.

Выводы по Rescarta[править]

На меня Rescarta произвела благоприятное впечатление. Я предлагаю использовать Rescarta там, где есть относительно-небольшое число оцифрованных книг (сотни или пара тысяч) или рисунков, но нет и не предвидится задач по распространению полноценных текстовых PDF-файлов.

Может возникнуть желание использовать Rescarta параллельно с Dspace. Во многих случаях это будет плохая идея. Плохая идея - иметь несколько совершенно друг с другом не связанных электронных библиотек. Пользователи не хотят изучать кучу интерфейсов библиотеки. Пользователи не понимают где что за поиск и когда каким пользоваться. Более того, они не хотят этого понимать.

Ссылки по Rescarta[править]

  1. Обзор Rescarta Михаилом Шварцманом.


Invenio[править]

Invenio похож на Dspace и разработан в CERN.

invenion-firstpage.png

ЦЕРН хранит в нем более миллиона документов. Invenio предназначен для институциональных репозитариев, поэтому рассматривать его стоит с учетом недостатков Dspace, а именно эта система не подходит для публичных библиотек и предназначена для публикации научных статей.

Демонстрации можно посмотреть здесь. Есть демонстрация с интерфейсом с адаптивным дизайном (работает на мобильных устройствах).

invenio-bootstrap.png

У большинства инсталляций интерфейс морально устарел. Для научных статей до некоторой степени это не критично, особенно если ты размером с CERN, для остальных это повод критично подойти к этой системе. Я бы предложил эту систему рассматривать как конкурента Dspace в очень больших инсталляциях.


Drupal SOPAC[править]

drupal-sopac-logo.png

Реализация концепции Social Open Public Access Catalog на основе популярной системы управления контентом Drupal6.

Эта система рассмотрена в следующей статье.