Введение[править]
Я решил начать небольшой цикл статей по электронным библиотекам (ЭБ). В ходе цикла я буду выбирать некоторую тему и рассказывать как по ней сейчас обстоят дела в различных библиотеках и в моей в частности. Я не претендую на истину в последней инстанции и приглашаю к обсуждению статьи. Отдельно благодарю за уместную критику или важные уточнения, если они будут :). Если вам статья понравится, поделитесь ею в соц. сетях :).
Но чтобы друг друга понимать в обсуждении особенностей различных подходов, вначале я сделаю небольшой обзор по существующим библиотекам. Начну с бесплатных, как самых интересных широкому кругу людей :).
На сегодня не существует бесплатных облачных библиотек, где бы библиотека предоставлялась как сервис. Все библиотеки устанавливаются на оборудовании библиотеки. Самих библиотек, про которые мне известно, относительно немного.
Содержание
- 1 Введение
- 2 Dspace
- 2.1 История Dspace
- 2.2 Установка и обновление Dspace
- 2.3 Модификация
- 2.4 Локализация
- 2.5 DRM-защита
- 2.6 Хранимые типы документов
- 2.7 Каталог
- 2.8 Метаинформация
- 2.9 Workflow
- 2.10 Постоянные ссылки
- 2.11 Поиск
- 2.12 Интерфейс
- 2.13 Социальное продвижение и комментарии
- 2.14 Совместимость с поисковыми системами
- 2.15 Заключение
- 3 Eprints
- 4 Greenstone
- 5 Rescarta
- 6 Invenio
- 7 Drupal SOPAC
Dspace[править]
Самая известная ЭБ. Dspace - институциональный репозитарий открытых научных текстов. Переведу на простой язык: Dspace используется вузами и институтами для публикации в открытом доступе научных статей.
История Dspace[править]
Dspace написан на Java в MIT при сотрудничестве с HP лет 14 назад. В качестве БД используется PostgreSQL. Система очень популярна и имеет более 1000 инсталляций по миру. В том числе есть инсталляции и в экс-СССР. Сходу могу назвать самые ранние инсталляции в экс-СССР в УрФУ, БелГУ, ЯрГУ. Только среди отечественных вузов не менее 15 установок. Иногда Dspace используют и публичные библиотеки для незащищенного контента.
Установка и обновление Dspace[править]
Установка типична для Java, когда запускается maven и он собирает Dspace из исходных кодов, загружая зависимости с внешних серверов. К сожалению, установка обещает значительные сложности для незнакомых с Java-миром специалистов. Осложняется это все наличием большого числа настроек в текстовых файлах, которые надо крутить чтобы Dspace заработал. Ну и обновление сопряжено тоже с некоторыми трудностями, связанными прежде всего с тем, чтобы не затереть уже готовые настройки при обновлении. Большинство инсталляций Dspace в вузах на неподдерживаемой ветке 1.x при актуальной 4.х. Думаю, не последнюю роль в этом сыграли трудности с обновлением.
Модификация[править]
Исходный код открыт под лицензией BSD*. Уже развернутую систему можно модифицировать под свою инсталляцию. В основном подвергаются изменению цвета/фоны и встраиваются логотипы. У меня сложилось впечатление, что разработчики Dspace ожидают изменения в коде Dspace. Скажем даже так, после установки ваш Dspace вас не устроит и потребуется некоторая модификация. Например, при поиске по автору Dspace для быстрой навигации выводит список первых букв фамилий. Первые буквы английские, конечно. Если захотите добавить кириллицу, надо будет нужные буквы нарисовать в jsp-файле.
Локализация[править]
Dspace локализован на русский (в версии 1.5)* и поддерживает указание множества языков для метаинформации :). Правда, залезть в код Dspace в некоторых местах все равно придется. Полную локализацию можно провести самостоятельно.
DRM-защита[править]
Dspace не обладает возможностью DRM-защиты. При помощи Dspace нельзя как-либо защитить книги от копирования. Но можно защитить от скачивания (и просмотра).
Типовая ситуация в институтах - есть статьи, которые надо показать миру. И есть статьи, которые должны быть доступны только сотрудникам. При этом к сотрудникам полное доверие, т.е. ожидается от них добросовестное использование документов Dspace без наложения на них защиты. Такая частая ситуация для институтов решается с помощью Dspace т.к. можно задать видимость документа только авторизованными пользователями. Dspace имеет несколько методов аутентификации пользователей. Самые популярные, думаю, это LDAP и на основе почтового сервера (в качестве логина - почтовый ящик, в качестве пароля - пароль от почты института/университета). Есть возможность авторизации на основе ip-адреса.
(* См. замечания IdeaFix что все не так)
Хранимые типы документов[править]
Dspace может хранить практически любые документы. Но! Но хранит их он просто как набор байтов. Это хорошо для научных статей, но не годится, к примеру, для видео. Качать 2 ГБ видео, чтобы понять что ты не хочешь его смотреть - во времена засилия YouTube такой функционал не вдохновляет. Аналогично с презентациями, которые тоже часто хранятся в Dspace с различных конференций.
Есть платное расширение для Dspace позволяющее отображать видео в браузере. Но оно требует видео в определенном формате, построено на Flash и не умеет мультибитрейтность.
Также я не рекомендую использовать Dspace для оцифрованных книг, т.к. пользователи не будут качать 200-500 МБ PDF-файлы чтобы посмотреть пару страниц и понять что это им не интересно. Про доступ с мобильных устройств и говорить не приходится.
Каталог[править]
Встроенный каталог позволяет создавать коллекции. Коллекции существуют двух типов: "раздел" и "коллекция"*. Коллекции могут вкладываться друг в друга, но у одной коллекции может быть только одна родительская коллекция. Любой документ может помещаться в несколько* коллекций. По тому в какой коллекции он находится, до документа будут строиться хлебные крошки. В целом, каталог в Dspace сделан хорошо.
Метаинформация[править]
Dspace не нуждается во внешних каталогах и всю метаинформацию хранит внутри себя в формате Dublin Core. Внешние сборщики метаинформации могут цепляться к Dspace по OAI-PMH. Протокол Z39.50 не поддерживается. Dspace совместим с Google Scholar (для размещения статей из Dspace в Google Scholar требуется связаться с Google), что очень выгодно как раз для открытых научных репозитариев. При использовании Dspace придется решать вопрос, будете ли вы дублировать метаинформацию в основной каталог АБИС.
Workflow[править]
В Dspace можно разрешить зарегистрированным пользователям публиковать статьи, но назначить предмодераторов. Предмодераторы могут назначаться на коллекции с извещением о новом поступлении на e-mail.
Постоянные ссылки[править]
Dspace построен так, что вам надо будет купить за 50$ в год сервис http://handle.net для публикации постоянных ссылок на загруженные в Dspace документы. Можно и не покупать, но тогда Dspace будет повсюду показывать неправильную постоянную ссылку.
Поиск[править]
Dspace умеет извлекать полный текст из загруженных документов с помощью популярной библиотеки Apache Tika. Поддерживается огромное число форматов текстовых файлов. Извлеченный текст индексируется Apache Lucene - еще одной популярной библиотекой на Java для полнотекстового поиска. Недостаток тут простой - проблема с поддержкой русской морфологии, характерная для всех поисковиков на Lucene уже много лет. С другой стороны, для многих других европейских языков проблем с морфологией нет. Но другие языки для нас не очень актуальны.
Скорость работы поиска высокая, как и у большинства систем с выделенным специализированным поисковым движком.
Интерфейс[править]
Dspace имеет два основных интерфейса: jspui, xmlui. Первый выглядит современнее и в последних версиях получил адаптивный дизайн для работы на мобильных устройствах, второй совсем устаревший. Во времена dspace 1.x большинство выбирало jspui. Но с выходом современного Dspace 4.x интерфейс настолько изменился, что там, на мой вкус, забыли выделить главное от второстепенной информации и пользоваться таким интерфейсом не удобно. Некоторые стали выбирать xmlui.
До определенных пределов интерфейс можно изменить, главное не потерять изменения при обновлении.
С точки зрения usability надо понимать, что Dspace рассчитан на хранение тысяч научных статей. Научные статьи отличаются от остальных книг длинными названиями и отсутствием обложек. Поэтому внешний вид Dspace не привлекателен - простой список из названий книг. Ни обложек, ни чего-то другого. Но это недостаток только если рассматривать Dspace в качестве публичной библиотеки, если говорить о нем как об репозитарии научных текстов - примерно такой интерфейс и должен быть.
Скорость генерации страницы хорошая, в пределах 100-300 мс.
Социальное продвижение и комментарии[править]
Этому в Dspace не уделяется какого-либо внимания. Ладно хоть есть внешний модуль комментариев.
Совместимость с поисковыми системами[править]
Dspace умеет генерировать xmlsitemap и все свои статьи скармливать поисковикам. Тем не менее, из-за большого числа поисковых форм, поисковые роботы индексируют большое число одних и тех-же страниц, прийдя на них из поисковых форм Dspace разными путями :(.
Заключение[править]
Dspace создан для предоставления в общий доступ научных статей институтами и вузами. Эту задачу он отлично выполняет и именно для этой цели его и стоит использовать.
Использование Dspace публичными библиотеками мне видется нецелесообразным. Его интерфейс не способствует желанию пользователя возвращаться к библиотеке и прочитать другие размещенные книги. Отсутствие обложек и простой и понятной навигации приведут к тому, что основным источником трафику будут поисковые системы уже на конкретную книгу. Получив книгу, пользователь уйдет. Отсутствие DRM-защиты - следствие open-source природы Dspace, не позволит вам размещать в Dspace купленные книги или книги, доступ к которым разрешен только из стен библиотеки.
Eprints[править]
С ним я не работал. Идейный аналог Dspace, с несколько иной схемой публикации материалов в репозитарии. Тоже достаточно распространен, но менее популярен Dspace.
Greenstone[править]
Еще одна система, позиционируемая как универсальная электронная библиотека. В текущий момент в состоянии альфы находится третья версия Greenstone и стабильная вторая версия. Я рассматривал третью версию.
Библиотека достаточно взрослая, но для своего возраста и открытого кода не слишком распространенная. Бекэнд написан на Java с частичным использованием Perl и других инструментов. Веб-сайт работает под Tomcat. Администрирование и наполнение библиотеки осуществляется с помощью "толстого" Java-клиента. Библиотека мультиплатформенная. Установка под Windows очень простая.
Мультиязычность[править]
Система построена с поддержкой мультиязычности как в плане интерфейса сайта и Java-клиента, так и метаинформации.
Защита документов[править]
Коллекция может быть общедоступной или нет. На уровне документов права не устанавливаются.
Метаинформация[править]
В качестве основной схемы используется Dublin Core. Схема расширена дополнительными атрибутами Greenstone, например, разрешением на печать. Метаинформацию можно вносить и править в Java-клиенте. Согласно документации, поддерживается импорт из других форматов, но сторонние форматы нельзя править. Автодополнение при правке полей Dublin Core нет, что увеличивает вероятность ошибок.
Интересным является поведение метаинформации с папками. Если создать папку и задать ей некоторую метаинформацию (автора, издателя и т.п.) то все вложенные папки унаследуют эту метаинформацию. Наследники могут переопределить метаинформацию, но не могут ее стереть.
Загрузка документов[править]
Вначале пользователь загружает документ из локального диска или по ссылке с внешнего сайта. Имеется встроенный паук, который может рекурсивно с заданной глубиной обходить сайты и готовит найденные страницы и документы в библиотеку. Это может быть полезно в ситуации импорта документов с существующего сайта, но метаинформацию придется заполнять самостоятельно.
Затем библиотекарь заполняет метаинформацию в виде текстовых полей и размещает документ в коллекции.
Документ при помощи ghostscript конвертируется в HTML-страницу. Именно эта страница будет отображаться на сайте.
Текст и метаинформация помещаются в индекс.
Поддержка типов документов[править]
Greenstone поддерживает относительно небольшое число типов документов. Это pdf, docx, xlsx и ряд других. Видео, EPUB и аудио среди поддерживаемых документов не значатся. Для поддержки остальных типов документов можно написать плагины.
Темизация коллекции[править]
У каждой коллекции в отдельности можно модифицировать шаблон вывода. В том числе имеется возможность локализации.
Управление правами доступа[править]
Веб-интерфейс позваляет назначать пользователю три роли: администратор, редактор всех коллекций, редактор определенной коллекции.
Заключение по Greenstone[править]
Последний шаг создания коллекции у меня на версии 3.06 закончился ошибкой, так что обзор неполон и сделан на основе демонстрационных данных в коллекциях.
Веб-интерфейс greenstone3 развит на уровне 2002 года и написан на HTML4. Это означает отсутствие оптимизаций для чтения на мобильных устройствах.
Еще одним недостатком является использование конвертации документов в HTML-страницы. С одной стороны - это логичный шаг чтобы привлечь к себе на сайт роботов и упростить просмотр документов пользователями без скачивания, но с другой стороны надо подробнее рассказать как работает ghostscript в таком сценарии. В PDF-документах все буквы не собираются в абзацы, а жестко находятся на определенных позициях с точными координатами. Т.е. в отличие от HTML, где есть абзацы, в PDF нет понятия абзац или строка, а есть куча букв, каждая из которых находится в заданной координате. Конвертер ghostscript в таком виде и создает HTML-документ, в котором каждая буква задана своими координатами. Конечно, как и в PDF у такого документа будет жестко задана ширина и высота каждой страницы. Конечно, документы с фиксированный шириной и высотой будут плохо отображаться на мобильных устройствах.
В качестве достоинства непременно следует отметить возможности локализации метаинформации, описания коллекций и веб-интерфейса.
Плохая проработка интерфейса сайта Greenstone для 2014 года, некоторые функциональные недоработки Java-клиента, ограниченный список поддерживаемых документов явились причиной слабого распространения Greenstone в библиотеках. В текущем виде я бы не стал рекомендовать Greenstone в качестве универсальной библиотеки пока система не сделает рывок по улучшению пользовательского интерфейса. После этого уже можно будет рассматривать ее сильные и слабые функциональные стороны. Однако, по активности в баг-трекере, можно сделать выводы о низкой активности в развитие проекта.
Полезные ссылки по Greenstone[править]
Список Greenstone библиотек в качестве примера.
Дорожная карта для понимания куда развивается библиотека.
Rescarta[править]
Очень простая система для публикации оцифрованных книг. Очень простая, впрочем, не означает очень плохая. Библиотека сконцентрировалась на задаче представления в удобном для чтения виде оцифрованных изданий. Это как раз то, что плохо делает Dspace и его аналоги. Rescarta позволяет не скачивать огромный файл, а смотреть книгу по страницам в виде рисунков в удобном просмоторщике. Просмоторщик умеет загружать большие рисунки частями, что ускоряет отображение очень больших картинок.
Демонстрационная версия поможет оценить возможности системы. Инсталляция в СПбГУ.
Также Rescarta подходит для хранения рисунков и аудио-файлов.
Rescarta может обрабатывать метаинформацию и выводить ее для пользователей. Есть простой поиск.
Интерфейс Rescarta не поддерживает адаптивный дизайн. Пользоваться на мобильных устройствах неудобно.
Социального продвижения тоже нет.
Выводы по Rescarta[править]
На меня Rescarta произвела благоприятное впечатление. Я предлагаю использовать Rescarta там, где есть относительно-небольшое число оцифрованных книг (сотни или пара тысяч) или рисунков, но нет и не предвидится задач по распространению полноценных текстовых PDF-файлов.
Может возникнуть желание использовать Rescarta параллельно с Dspace. Во многих случаях это будет плохая идея. Плохая идея - иметь несколько совершенно друг с другом не связанных электронных библиотек. Пользователи не хотят изучать кучу интерфейсов библиотеки. Пользователи не понимают где что за поиск и когда каким пользоваться. Более того, они не хотят этого понимать.
Ссылки по Rescarta[править]
- Обзор Rescarta Михаилом Шварцманом.
Invenio[править]
Invenio похож на Dspace и разработан в CERN.
ЦЕРН хранит в нем более миллиона документов. Invenio предназначен для институциональных репозитариев, поэтому рассматривать его стоит с учетом недостатков Dspace, а именно эта система не подходит для публичных библиотек и предназначена для публикации научных статей.
Демонстрации можно посмотреть здесь. Есть демонстрация с интерфейсом с адаптивным дизайном (работает на мобильных устройствах).
У большинства инсталляций интерфейс морально устарел. Для научных статей до некоторой степени это не критично, особенно если ты размером с CERN, для остальных это повод критично подойти к этой системе. Я бы предложил эту систему рассматривать как конкурента Dspace в очень больших инсталляциях.
Drupal SOPAC[править]
Реализация концепции Social Open Public Access Catalog на основе популярной системы управления контентом Drupal6.
Эта система рассмотрена в следующей статье.
- - спасибо IdeaFix за ценные исправления (См. http://irbis.gpntb.ru/read.php?53,59257 ).