lucas_v_leyden (lucas_v_leyden) wrote,
lucas_v_leyden
lucas_v_leyden

  • Music:

Продолжение вчерашних размышлений об оцифровке фондов РГБ

     На сайте РБК опубликована более подробная заметка, в которую включены фрагменты интервью нескольких заинтересованных лиц. Оттуда узнаются новые интересные подробности.
     Во-первых, озвучена смета мероприятия: «В «Крок» сообщили, что стоимость работ составила около 20 млн рублей. По словам Вислого <директор по информатизации РГБ>, всего в год на развитие концепции выделяется порядка 50 млн рублей» (надеюсь, что под развитием концепции подразумевается все-таки не чистая теория, а немножко и практики). Учитывая, что розничная цена сканирования одного разворота в Москве что-то около 3-х рублей, понятно, что на 50 миллионов в год насканировать можно немало, даже учитывая местные реалии и обычаи.
     Во-вторых, подтвердились худшие догадки: «Сейчас книги в цифровом формате в виде постраничного изображения без преобразования в текст доступны лишь в помещении библиотек, с которыми установлены партнерские отношения. В стенах РГБ также оборудовано 300 рабочих мест, с помощью которых можно получить доступ к электронному хранилищу».
     В третьих, совершенно замечательным образом отбираются книги для сканирования: «Оцифровка фондов пока проводится выборочно. Например, сейчас приоритет отдается книгам по тематике российского государства и государственности — сказывается тесное сотрудничество с Президентской библиотекой им. Б.Н.Ельцина».
     Нынешняя риторика подразумевает обязательное кидание камней в шайтана, т.е. поиски врага. И как вы думаете (в четвертых) – что сильнее всего мешает этой чудесной деятельности? А вот: «Александр Вислый считает, что проект будет максимально полезен для читателей тогда, когда очередь дойдет до современной, наиболее востребованной литературы, а также учебников, монографий и справочников. Тем не менее, пока реализовать эту задачу не представляется возможным — благие намерения вступают в противоречии с российским законодательством. Согласно 4 части Гражданского кодекса РФ, оцифровать эти издания невозможно без предварительной договоренности с автором.      Получить такие согласования по всем представленным в фондах книгам — попросту нереально. «Эффективность проекта пока невысока именно из-за этого противоречия. Мы активно сотрудничаем с Государственной Думой и планируем вести дальнейшую работу в области законодательства. О существующей проблеме властям известно. К сожалению, от этого пока мало толку», — рассказал CNews Александр Вислый».
     Просто класс. Удивительно все-таки, как можно до такой степени ничего не понимать в своем предмете. Давайте представим (как я представил сегодня, гуляя с собакой по лесу), как могла бы выглядеть идеальная программа оцифровки фондов РГБ.
     1. Интуитивно понятно, что у нее должны быть две основные практические задачи: а) сбережение редких, ветхих и наличествующих в одном экземпляре единиц хранения; б) облегчение доступа к наиболее часто спрашиваемым книгам, прежде всего справочного характера.
     2. Два попутных замечания. А) Распознавание текста при этом, т.е. отход от голых графических pdf-ов в направлении pdf-ов текстовых крайне желателен, но не является абсолютно важным условиям. Б) В принципе, книги, являющиеся субъектом авторского права, можно пока вообще не рассматривать, ибо с момента введения понятия обязательного экземпляра они присутствуют в фондах РГБ в неугрожающем их сохранности количестве.
     3. Что касается редкости, то можно действовать при помощи глуповатого, но на больших массивах работающего хронологического принципа. Вначале – русские книги XVIII века – они все выявлены и их список конечен, их около 10-ти тысяч. При среднем объеме в 300 страниц – 150 разворотов (я упрощаю) все мероприятие обойдется в 4,5 млн. руб. (Это если делать все по-дорогому, а не на собственных сканерах со своими сотрудниками). Но после этого весь фонд оригиналов XVIII века, по сути, оказывается в полной неприкосновенности, а пользование им максимально упрощается. Ну и так далее, в том же хронологическом порядке; там дальше возникнут трудности, но скорее рабочего характера.
     4. Гораздо интереснее придумать способ, которым можно выявить наиболее часто спрашиваемые книги других эпох, при том, что никакой статистики запросов не ведется. Можно, конечно, просматривать формуляры – где больше выдач, та книга и нужна чаще. Но есть способ изысканнее – быстрое пролистывание картотеки читательского каталога в поиске наиболее потрепанных карточек. Выглядит дико, но работает безотказно – проверьте сами.
     5. Ну и конечно – в идеале кооперация с Google Books, в неидеале – просто выкладка в сеть с пристойным (не скажу хорошим) поисковым интерфейсом.
     Вот, собственно, и вся концепция. Любой человек, видевший в своей жизни и книгу, и компьютер, мог бы ее сформулировать за полчаса, благо интуитивно она очевидна. А вот что делают ответственные за этот процесс господа – понять, кажется, не дано.
Tags: Трудолюбивый муравей
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 8 comments