В общем так, мои каторжные дни по оцифровке "Астраханских Епархиальных Ведомостей" подходят к концу! Теперь процесс обработки облегчён тем, что я скачиваю флешки онлайн просмотра и вытягиваю из них информацию. Ах, знать бы раньше, как это делать, я бы все 42 года "Астраханских Епархиальных Ведомостей" выложил бы ещё в прошлом году. Ну, ничего. Коротко расскажу (без особых технических подробностей) процедуру обработки информации. На примере подшивки за 1876 год. Сумасшедшие технические подробности 1. Захожу на сайт с онлайн просмотром периодики. Весь 1876 год находится на этой странице. 2. Далее запускаю снифер http протокола. Я делаю это через плагин HttpFox для браузера Firefox. 3. Нахожу в снифере сумасшедший адрес leb.nlr.ru/ws/docserver/document/8b865064844672b261a5e3c6f5e630b2/part/1. Это только одна часть из годовой подшивке. в 1876 году этих частей 5, а есть года, где частей 9-10. 4. Вставляю ссылку в даунлоад менеджер (лично я пользуюсь FlashGet и очень давно) и скачиваю все части. 5. В итоге я получаю непонятный файл без расширения, который можно раскулачить через определённый скрипт интерпретатора языка "Перл". Так сильно я ещё не копал. А, ведь, пришлось... Да ещё и через командную строку. 6. Но это ещё не всё))) Я получаю файлы swf, по одному на каждую страницу. В принципе, можно и остановиться, но всё же у меня конечная цель - готовый pdf. 7. Пакетно обрабатываю все файлы swf через Sothink SWF Decompiler, используя маску графических файлов и получаю кучу bmp файлов (иногда бывают иjpg). 8. Через IrfanView пакетно перевожу bmp в jpg. 9 Последний шаг сшиваю jpg страницы одного номера в pdf через Image to PDF Converter Free. Получаю готовые файлы pdf. 10 Заключительный этап - заливаю файлы на astinform.ru. Поскольку мало времени, то заливаю без описания и картинки. И вот, в итоге, я рад сообщить, что ВСЕ 52 номера и указатель "Астраханских Епархиальных Ведомостей" залиты на astinform.ru. Ссылка. Кстати, все старые заливки номеров за 1876 год (я успел выложить 16) мной удалены, ввиду более качественной замены.
|