Зарегистрироваться
Восстановить пароль
FAQ по входу

Сканирование научно-технической литературы: советы начинающим

Прочитав Подробное руководство (с иллюстрациями) по созданию электронных книг из бумажных понял, что всё я делаю неправильно. Тем не менее, ни с кем не полемизируя, решил поделиться с массами своими приёмами работы. Человеки, я не несу вам свет истины и не призываю делать так, только так, и никак иначе, я просто делюсь багажом накопленных знаний. Пожалуйста, не пишите в комментариях, что всё-то я делаю неправильно — я сам это знаю.
Эти рекомендации основаны на многолетнем опыте создания цифровых книг (электронных книг, е-книг) и отражают мои личные воззрения и пристрастия. Всё нижесказанное мной нельзя рассматривать как истину в последней инстанции, тем более, что эти рекомендации привязаны к сканерам фирмы Epson. Меняется оборудование, меняется софт — меняются приёмы работы, меняются рекомендации. Экспериментируйте!
Для примера рассмотрим сканирование книги с чёрно-белым (ч/б) текстом, штриховыми и полутоновыми (серыми и цветными) рисунками и цветной обложкой; все страницы одного размера (вклейки большого размера отсутствуют). Цель сканирования научно-технического издания — создание е-книги в виде многостраничного PDF- или DJVU-файла, содержащего изображение с текстовым слоем и, при необходимости, интерактивым оглавлением (закладками).
Все сканируемые страницы должны быть одного размера, даже если при этом большая часть страницы будет пустой; это же касается небольших по размеру вклеек (типа списка опечаток). И даже если страница пустая, всё равно её нужно сканировать и вставлять в книгу — счёт страниц должен быть непрерывным и ни у кого просто не должно возникать вопроса, а что было на отсутствующей странице. Желательно, чтобы эта страница была пронумерована, пусть даже сделанной от руки надписью типа «стр. 17» (естественно, на отдельном листке, подсунутом под сканируемую пустую страницу книги).
Формат выходного файла при сканировании: если есть возможность выбора, то рекомендую PNG-формат с максимальным сжатием (минимальный размер файла без потери качества и изменения цветности); JPG — только в безвыходных ситуациях. При сканировании обложек может оказаться полезным GIF-формат с его ограничением 256 цветами (начинаем думать о снижении размера выходного файла!). Что касается часто рекомендуемого TIF-формата, то он имеет большое количество разновидностей, и если вы знаете, чем многостраничный TIF CCITT Fax 4 отличается от других вариантов TIF-формата, то мои рекомендации вам не требуются, а если не знаете, то лучше вам этим форматом не пользоваться. Основной недостаток ВМР-формата — большой размер файлов; если дисковое пространство вас не ограничивает, то этот формат вполне можно использовать.
Моя программа для сканирования — IrfanView. После установки компилятора GPL Ghostscript этот вьювер воспринимает PDF-файлы как обычные изображения (можно использовать панель рисования с полезными для нас инструментами типа «Ластик», «Штамп» и т.п.).
У меня сканер Epson с бортиком, поэтому перед сканированием нескольких страниц я выполняю точное кадрирование и при обработке сканов проблема полей часто просто не возникает. Для книги я в любом случае буду выполнять ручную обрезку полей страниц, поэтому границы области сканирования выбираю с небольшим запасом (+5–10 мм).
Стандартную рекомендацию на параметры сканирования (оттенки серого, 300 dpi), относящуюся к случаю создания книги на основе полностью распознанного текста, игнорируем: для научно-технических текстов не следует к некоторому количеству ошибок в бумажном издании добавлять огромное количество собственных ошибок распознавания (см. Почему текстовые файлы офисного формата не подходят на роль цифровых книг научно-технического содержания?). Они, конечно, будут и у нас, вот только в глаза бросаться не будут, ибо мы не будем создавать е-книгу в одном из офисных или специализированных (типа FB2) форматов, а будем делать многостраничное изображение с текстовым слоем, т.е. создавать PDF- или DJVU-файлы (в силу разных причин несколько книг я оформил в виде многостраничных TIF-файлов, т.е. текстовый слой в них отсутствует).
Основная ошибка начинающих букмейкеров — неправильный выбор цветности при сканировании, обычно связанный с использованием дефолтных настроек программы сканирования. Завышенная цветность ведёт к неприемлемо большим размерам книги при её приличном качестве, либо к заниженному качеству книги при разумных размерах файла.
При сканировании книги со цветной обложкой, цветными и ч/б полутоновыми иллюстрациями, ч/б штриховыми рисунками и ч/б текстом не стоит использовать единые настройки для всей книги. Для каждого типа страниц желательно применять собственные настройки, сохраняемые в пресетах. Выигрыш — в размере конечного файла книги. Итак, для получения выходного файла минимального размера сканирование выполняем отдельно для изображений разных типов, а цветность и разрешение для каждого типа изображения снижаем до минимально необходимого.
1) Обложка обычная. Разрешение 200 точек на дюйм, цветность 8 бит (достигается выбором для выходного файла GIF-формата или последующим программным понижением цветности картинки с изображением обложки), максимальное аппаратное повышение резкости при сканировании.
1а) Обложка высококачественная. Разрешение 300 точек на дюйм, цветность 24 бита, максимальное аппаратное повышение резкости при сканировании.
2) Цветные иллюстрации сканируем так же, как высококачественную обложку.
3) Цветной текст без иллюстраций и цветную штриховую графику сканируем с разрешением 300 точек на дюйм, цветностью 8 бит и максимальным аппаратным повышением резкости.
4) Чёрно-белые полутоновые иллюстрации (фотографии, например) сканируем в оттенках серого с разрешением 300 точек на дюйм и максимальным аппаратным повышением резкости.
5) Чёрно-белый текст и ч/б штриховые рисунки сканируем в режиме сканера «Тип изображения: Чёрно-белый» с повышенным разрешением (600 dpi; для крупного шрифта иногда можно понизить разрешение до 400 dpi). На дефолтные настройки не надеемся и в обязательном порядке подбираем яркость. По моим наблюдениям, чем хуже качество бумаги, на которой напечатана книга, тем меньше должна быть установка яркости. Рекомендую для каждой книги делать несколько пробных сканов типичной страницы, каждый раз меняя яркость на 10%, и остановиться на том значении яркости, когда и буквы не слишком бледные, и мусора относительно немного. Чем меньше яркость, тем меньше мусора убирать, главное — не перегнуть палку, снижая яркость. После несколько пробных сканирований с разными значениями яркости следует выбрать лучший результат: элементы букв не должны ни сливаться, ни быть слишком бледными. Сам я руководствуюсь таким правилом. При сканировании разворота книги между страницами всегда видна чёрная полоса. Делаю несколько сканирований с разными значениями яркости, выбираю результат, при котором эта полоса столь широка, что начинает наезжать на буквы, и результат, когда эта полоса исчезает либо превращается в тонкую ниточку; устраивающий меня результат лежит примерно посерёдке между найденными таким путём крайними значениями яркости. У меня сканер фирмы Epson и значения яркости лежат почти всегда в пределах от 70% (книга на низкокачественной газетной бумаге) до 100% (книга на бумаге высокого качества). Для обычных книг значение яркости обычно составляет 80–85%. Пробные сканы, особенно для толстых книг, следует делать там, где они получаются хуже всего; обычно это середина книги.
Для цветных и полутоновых ч/б (в оттенках серого) изображений выполняем несколько раз пробное сканирование с различными настройками яркости, контрастности, цветопередачи, разными типами тональных кривых. Оно стоит того — выигрыш во времени на постобработку всё компенсирует! Повышаем резкость сканируемого изображения до максимума, проверяем действие опции автоматического удаления дефектов изображения (иногда очень помогает, иногда — наоборот). Не доверяйте без проверки дефолтным настройкам! Интересный факт: у меня настройки по умолчанию прекрасно работают с импортной печатной продукцией высокого качества.
Понижаем, при необходимости, цветность поминавшихся выше картинок, загружаем сканы всех страниц в Файнридер и редактируем изображения страниц. Если книга большая и страниц много, загружаемые изображения полезно предварительно обработать программой Scan Tailor (см. Scan Tailor. Руководство пользователя, Примерная методика работы с программой Scan Tailor; Видеоуроки по Scan Tailor от его разработчика Иосифа Арцимовича). При работе с ней помните, что 1) она не любит изображения в TIF-формате (TIF-, DJVU- , и PDF-файлы я загружаю в Скантелор из Файридера, а обработанные Скантелором файлы вновь загружаю в Файнридер для окончательной обработки) и, 2) требуется визуальный контроль за результатами работы программы и, при необходимости, ручная корректировка резки страниц и границ полезной области. Боковые поля и поле над/под колонтитулом при обработке я обрезаю почти полностью, а другое нижнее/верхнее поле выбираю по высоте равным высоте колонтитула. При создании PDF-файла я задаю размер страницы таким, чтобы получить желаемый размер полей. Размер обложки подгоняю под установленный мной размер страницы либо простой обрезкой в Файнридере, либо изменением размера в фоторедакторе IrfanWiev.
Распознаём текст и сохраняем е-книгу как PDF-файл. Перед сохранением следует определиться с основным критерием, которому должен отвечать выходной файл, а именно, должен ли файл соответствовать некоторому субъективно понимаемому критерию качества (размер — какой получится), либо же размер файла не должен превышать выбранной юзером максимальной величины (качество — какое получится). Параметры сохранения задаём вручную: размер изображения (ширина, высота); сохранение текстового слоя под изображением страницы; цветность (задаётся при сканировании или предварительной обработке сканов) при сохранении лучше не менять; потерю качества разрешаем, устанавливаем качество не выше 97%. Проверяем нумерацию страниц и качество созданного файла; если размер полученного файла слишком велик, снижаем требования к качеству и повторяем создание файла. Мусор в виде «хвостов» строк распознанного текста на полях устраняем, возвращаясь к изображению нужной страницы в Файнридере и изменяя границы распознаваемой в виде текста области изображения (частью распознаваемого текста при этом приходится жертвовать). Исправленную версию книги сохраняем. Документ Файнридера архивируем и храним какое-то время на случай появления потребности в дополнительном редактировании созданной книги (например, если после загрузки книги на сайт на неё пошли жалобы от пользователей).
С помощью одного из PDF-редакторов (ABBYY FineReader последних версий, Adobe Acrobat, Foxit PhantomPDF, PDF-XChange Editor и др.) создаём закладки. Всё, электронная книга в PDF-формате готова. Конвертируем её в DJVU-файл программой Pdf 2 Djvu Converter (не проверял, не знаю, может в последней версии Файнридера и устранили проблему буквы «н», но привык уже к такому способу создания DJVU-книг хорошего качества).
Когда рука набита, описание поминаемых выше операций занимает больше времени, чем выполнение самих действий, а выигрыш в качестве и размере полученной книги с лихвой окупит затраты времени на усложнение процедуры сканирования: на фоне усилий, затрачиваемых на постобрабоку сканов, эти трудозатраты выглядят несерьёзно.
Дерзайте, и всё у вас получится. «Ещё 10 000 вёдер, и золотой ключик наш!»
Вопрос. Как сканировать: страницы по одной или разворот по две страницы?
Ответ. Как Вам удобнее — программная резка разворотов не представляет проблемы. Лучшие результаты получаются, когда поверхность страницы полностью плотно прилегает к предметному стеклу сканера; на сканерах без боковых бортиков это достигается сгибом разворота книги на 90 градусов (половина книги висит сбоку от сканера).
Вопрос. Нужно ли сканировать форзацы?
Ответ. Форзацы сканируют, если там имеются рисунки. Если форзац монотонный цветной, то, с моей колокольни, сканировать его желательно, но не обязательно; возможны ситуации, когда желательно сканирование белых (серых) форзацев, например, из-за автографа владельца или автора.
Вопрос. Как быть со вклейками большого размера?
Ответ. Имел как-то дело с изображением (генеалогического дерева) на бумажном листе, размер которого превышал размер предметного стекла моего сканера. Пришлось сложить лист пополам, сканировать обе половинки по отдельности, с помощью IrfanWiev собрать из них панорамное изображение (при необходимости его размер можно уменьшить), сохранить его как PDF-файл и вставить в е-книгу посредством программы Nitro.
Вопрос. Не лучше ли для сканирования текста выбрать режим с разрешением 300 dpi? Потом при обработке можно программно увеличить разрешение до 600 dpi, иначе сканирование в 600 dpi может превратиться в наказание: длительность сканирования одной страницы заметно увеличивается.
Ответ. Вы, безусловно, правы, говоря об увеличении времени сканирования при переходе к разрешению 600 dpi, и вопрос в том, насколько велики и насколько оправданы дополнительные затраты времени. Если исходить из получившей широкое распространение (и де факто ставшей уже стандартом) рекомендации по сканированию в оттенках серого или в цвете с целью создания е-книги в виде текстового документа с полутоновыми картинками, то в данном случае сканирование с разрешением 600 в подавляющем большинстве случаев не требуется с точки зрения распознавания текста, резко увеличивает затраты времени на сканирование и ведёт к непомерно большим размерам выходного файла. Я же в своих рекомендациях ориентируюсь на создание е-книги в виде многостраничного преимущественно черно-белого изображения с текстовым слоем; обложку, серые и цветные изображения сканируют отдельно и добавляют в книгу на стадии её сборки из чёрно-белых и полутоновых изображений. Сканирование в чёрно-белом режиме с разрешением 600 требует вполне приемлемых затрат времени; в итоге мы имеем выходной файл разумного размера с реально высоким качеством, включая запас качества на редактирование. «Париж стоит мессы!» Понизить при необходимости размер выходного файла (за счёт качества, естественно) на стадии создания е-книги никакого труда не составляет. Программное увеличение разрешения с 300 до 600 для улучшения визуального восприятия текста на картинке есть паллиатив, и я рекомендую такой приём использовать только в безвыходных ситуациях, когда доступ к бумажному оригиналу отсутствует и пересканирование с высоким разрешением невозможно: «на безрыбье и рак рыба».
Дополнительные материалы по теме. Имейте в виду, что некоторые советы из статьи на djvu-soft.narod.ru сохраняют актуальность, некоторые уже устарели, а с некоторыми я принципиально не согласен.

Комментарии

на сканерах без боковых бортиков это достигается сгибом разворота книги на 90 градусов
Здравствуйте. Можете указать какую-нибудь модель подобного сканера
Сергей Васильевич, разъясните, пожалуйста, разницу между текстовым слоем и OCR. Дело в том, что некоторые современные издательства, например Lambert, создают файлы pdf, где текст выделяется, но не копируется, в отличие от, например djvu файла /file/2402726/ , то есть он не распознан. Каким образом в этом случае получить файл, возможность индексирования которого в поисковиках, при условии свободного доступа будет реальной? Понимаю, что это, вероятно, целая тема, но Вы имеете в этом опыт и, буду очень благодарен, если ответите в двух словах, и приведёте примеры программ, с помощью которых можно осуществить конверсию уже готового, но неполноценного файла, например pdf.
Пояснения я дам на примере самодельной книги, подразумевая, что когда Вы разберётесь с тем, что я попытаюсь сказать, поведение издательских файлов перестанет быть загадочным.
Итак, после сканирования мы имеем либо набор отдельных изображений (картинок), либо эти же картинки в виде одного многостраничного графического файла. Загружаем картинки в программу Файнридер и выполняем распознавание содержимого страниц полученного документа. Финальный этап — сохранение документа в виде е-книги. В настройках Файнридера при создании DJVU-файлов предусмотрено два режима сохранения выходного файла: «Текст под изображением страницы» и «Только изображение». Выбрав первый вариант сохранения, мы получим е-книгу в DJVU-формате в виде многостраничного изображения с текстовым слоем. Отказавшись от распознавания, мы можем сохранить е-книгу в виде DJVU-файла, представляющего собой многостраничное изображение без текстового слоя. Для DJVU-файла выполнение OCR — оптического распознавания символов — означает создание текстового слоя в файле.
В настройках Файнридера при создании PDF-файлов предусмотрено несколько режимов сохранения выходного файла, из которых нас сейчас интересуют два режима: «Текст под изображением страницы» и «Только текст и картинки». Выбрав первый вариант сохранения, мы получим е-книгу в виде многостраничного изображения с текстовым слоем. Выбрав второй вариант сохранения, мы получим е-книгу в виде файла-контейнера, содержащего распознанный текст и выбранные картинки. Отказавшись от распознавания, мы можем сохранить е-книгу в виде PDF-файла, представляющего собой многостраничное изображение без текстового слоя. В этом случае просмотрщики PDF-файлов копируют в буфер обмена изображение.
Обратите внимание, что в формате PDF/A предусмотрена защита от копирования содержимого файла: распознанный текст выделяется, но в буфер обмена не копируется. Снять защиту от копирования можно, например, программой Wondershare PDF Password Remover.
Таким образом, без дополнительной информации упоминание о выполнении OCR не позволяет для PDF-файла сделать вывод о том, имеем ли мы дело с многостраничным изображением с текстовым слоем, либо же речь идёт о файле-контейнере, содержащем распознанный текст и картинки.
Универсальный способ добавить текстовый слой в PDF- или DJVU-файл состоит в загрузке этих файлов в Файнридер, распознавании полученного документа и воссоздании е-книги уже в виде файла с текстовым слоем.
Существуют PDF-редакторы, имеющие функцию создания текстового слоя в уже имеющемся файле средствами самого редактора, например ABBYY FineReader последних версий, Adobe Acrobat, Foxit PhantomPDF, PDF-XChange Editor и др.
Фенкс! как будеm прuнmер - буду пользоваmьcя вашей справкой
В этом разделе нет комментариев.