Infanata.org Copyright© 2005-2010

Поиск на сайте:
 Расширенная форма поиска 
 Показать/скрыть результаты 
 Показать/скрыть результаты 
Управление:
+ все     Разделы:     - все
Напишите нам:
Реклама:
Реклама:
Календарь:
«    Сентябрь 2010    »
ПнВтСрЧтПтСбВс
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
 
Популярные статьи:
Статистика:
Спасибо за помощь в развитии сайта
Infanata » НОВОСТИ » ВОПРОСЫ и ОТВЕТЫ » Создание в djvu-файле текстового слоя и интерактивного содержания
« НОВОСТИ » ВОПРОСЫ и ОТВЕТЫ »
Создание в djvu-файле текстового слоя и интерактивного содержания
Создание в djvu-файле текстового слоя и интерактивного содержания
Ни для кого не секрет преимущества качественно сделанного djvu над pdf, особенно если это чёрно-белый файл.
Это прежде всего намного меньший объём при том же качестве изображения.
Но есть у djvu-книг ещё одно очень существенное преимущество перед pdf.
Это OCR, то есть распознанный текст книги. При сохранении книги в pdf для достижения качественного результата книгу необходимо вычитать, проверить на наличие ошибок, ибо тот кому эта книга достанется без исходных изображений уже ничего не сможет сделать.
И такие книги испорченные корявым OCR-ом часто встречаются.

В книгах сделанных в формате djvu этой проблемы нет. Текст сохраняется одновременно с оригинальным файлом. И даже если OCR невычитан, текст можно всегда подправить сравнив с оригиналом.

19.02.2008 вышла новая версия программы DjvuOCR 2.3 от нашего болгарского друга gencho, с помощью которой, имея FineReader 8.0 или 7.0 даже неискущённый пользователь может сделать OCR-слой для djvu.
Создание в djvu-файле текстового слоя и интерактивного содержания

Скачать её можно .

Порядок действий следующий:

1. Нажимаем кнопку Декодирование djvu файла
2. Добавляем нужный файл
3. Выбираем папку для сохранения результатов
Создание в djvu-файле текстового слоя и интерактивного содержания
4. Нажимаем кнопку обработка
Создание в djvu-файле текстового слоя и интерактивного содержания

В результате получаем книгу разложенную на страницы в формате .tif, пригодные для обработке FineReader'е.

Открываем полученные страницы в FineReader'е.
Создание в djvu-файле текстового слоя и интерактивного содержания
Страницы распознаём, при необходимости текст подправляем. Полученый результат сохраняем как пакет.
Создание в djvu-файле текстового слоя и интерактивного содержания

В DjvuOCR 2.3 выбираем Ручной режим OCR manager.
Создание в djvu-файле текстового слоя и интерактивного содержания
При выборе папки с проектом FineReader выбираем сохранённый ранее пакет.
Выбираем сохранить OCR в txt файл, указываем любое название. Он создаётся автоматически.
В строке выбора djvu-файла выбираем тот файл, который мы ранее декодировали для распознавания в FineReader'е.
Нажимаем обработка.
После процесса обработки,
Создание в djvu-файле текстового слоя и интерактивного содержания
получаем готовую djvu-книгу с текстовый OCR-слоем.

Для того чтобы наслаждение от книги, а также удобство пользования ей было более сильным, делаем для неё интерактивное содержание.

Сделать это довольно просто с помощью программы DjVu Hyperlinks Editor. Я пользуюсь версией 0.78.
Скачать её можно .

Эта программа предназначена для автоматического создания гиперссылочного оглавления (и/или алфавитного указателя) в многостраничных DjVu-файлах.

Принцип действия программы:

1. Программа работает только с такими DjVu-книгами, которые содержат внедрённый текстовый OCR-слой (желательно программой DjVu OCR 2.1-2.3).
2. Пользователь указывает программе местонахождение страниц DjVu-книги, содержащих сканированное изображение содержания (или оглавления) исходной бумажной книги, а также вводит мелкие опции.
3. Затем программа полностью автоматически делает следующее:
А. Считывает внедрённый текстовый OCR-слой из указанных страниц "оглавления" DjVu-книги.
Б. Анализирует эту информацию, генерирует на её основе гиперссылки.
В. Вставляет эти гиперссылки в данные страницы "оглавления" DjVu-книги.

В результате получается навигационный механизм для работы с DjVu-книгой - на страницах со сканированными изображениями оглавления исходной бумажной книги появляются гиперссылки для перехода на соответствующие страницы DjVu-книги.

Тем самым также достигается наибольшее приближение к использованию оглавления исходной бумажной книги.

Порядок работы с DjVu Hyperlinks Editor:

1. Делаем предварительную настройку будущего содержания. В поле "Смещение" - разница между номером страницы в бумажной книге и DjVu-книге. Здесь же в какую сторону смещать ("плюс" и "минус"), а также "делить на 2" - для неразрезанных книг, сканированных разворотом.
2. Выставляем страницы содержания "с ___ по ____" - счёт идёт по страницам DjVu-книги.
Создание в djvu-файле текстового слоя и интерактивного содержания
3. Выбираем внешний вид для гиперссылок ("Тип границы", "Цвет" и т.д.).
Создание в djvu-файле текстового слоя и интерактивного содержания
4. Поскольку Содержание и Алфавитный указатель различаются по алгоритму, то лучше выбрать и "Тип работы".

Нажимаем кнопку Создать.

По неясным пока причинам в некоторых книгах программа напрочь отказывается делать гиперссылки. Там их можно сделать вручную воспользовавшись программой Document Express Editor.

Всякий раз после использования программы необходимо проверять результат её работы - правильность внедрения гиперссылок оглавления. Нередкие ошибки распознавания приводят к соответствующим ошибкам внедрения гиперссылок оглавления.

В таких случаях необходимо вручную корректировать внедрённые гиперссылки посредством Document Express Editor.
Создание в djvu-файле текстового слоя и интерактивного содержания
Я использую версию 5.0. Скачать её можно .

С помощью Document Express Editor гиперссылки можно делать и вручную. В программе они называются аннотациями.
Чтобы добавить гиперссылку заходим в меню сервис, далее аннотации, там выбираем вид аннотации.
Создание в djvu-файле текстового слоя и интерактивного содержания

В результате всех этих манипуляций получаем весьма привлекательную, удобную книгу с возможностью поиска по тексту, его копирования и удобные переходы между страницами.

Обращение к авторам публикующим книги на сайте:
Предлагаю стандартизировать название файлов книг. А то скачиваешь файл, а он обозван какой-нибудь абракадаброй вроде 123, или kniga.vasya или просто одно слово из названия. Приходится постоянно тратить время и обзывать их в более удобной форме.
Предлагаю частично воспользоваться формой используемой в eMule. Например:

Кёниг Э., Мy Б. - Эффективное программирование на C++ (2002)(T)
Бишоп Дж., Хорспул Н. - C# в кратком изложении (2005)(S),

где T-это значит что книга распознана, S-книга представляет собой обычный скан.
Для журналов предлагаю так: название, год, текущий номер, номер за все годы. Например

Популярная механика.2007_09(59)

Когда книги имеют такие названия, по ним намного проще производить поиск на компьютере.
Кстати, такой порядок названия можно закрепить в качестве рекомендуемого в .
Спасибо за помощь в развитии сайта

21/05/2008 11:52
#1


foto

Когда у книги слишком длинное название, то оно бывает не вмешается в строку, что изрядно мешает просматривать каталог с книгами.

Я думаю достаточно фамилии автора (если есть) и названия.
Всё остальное люди сами каталогизируют, если они вообще это делают.

И еще, для ч/б изображения в djvu можно задать степень сжатия/сглаживания ( losslevel в терминах стандарта djvu ), который задаётся в диапазонах от 0 до 200 (0 -- без сглаживания)
Не ставьте, пожалуйста, больше 100, а то текст в на экране становится нечётким.
Группа: Посетители
Регистрация: 21.07.2006
Публикации: 178
Комментарии: 282
ICQ: vadiml[at]jabber.ru

21/05/2008 12:38
#2


foto

При сохранении книги в pdf для достижения качественного результата книгу необходимо вычитать, проверить на наличие ошибок, ибо тот кому эта книга достанется без исходных изображений уже ничего не сможет сделать.
И такие книги испорченные корявым OCR-ом часто встречаются.

В книгах сделанных в формате djvu этой проблемы нет. Текст сохраняется одновременно с оригинальным файлом. И даже если OCR невычитан, текст можно всегда подправить сравнив с оригиналом.

Допустим, и в pdf эта проблема решаема smile - OCR средствами Acrobat при установке Searchable Image
Группа: Местные
Регистрация: 09.04.2006
Публикации: 980
Комментарии: 289
Репутация: -1

21/05/2008 12:56
#3


foto

Ankalagon_Black
Предлагаю частично воспользоваться формой используемой в eMule. Например:
Кёниг Э., Мy Б. — Эффективное программирование на C++ (2002)(T)
Бишоп Дж., Хорспул Н. — C# в кратком изложении (2005)(S),
где T-это значит что книга распознана, S-книга представляет собой обычный скан.
Для журналов предлагаю так: название, год, текущий номер, номер за все годы. Например
Популярная механика.2007_09(59)
Когда книги имеют такие названия, по ним намного проще производить поиск на компьютере.


vadiml
Когда у книги слишком длинное название, то оно бывает не вмешается в строку, что изрядно мешает просматривать каталог с книгами.


Согласен насчет стандартизации или хотя бы унификации.
Давно уже свой каталог пополняю, и при просмотре в любом файловом менеджере (а иногда даже и в раскрытом на весь монитор проводнике windows) длинные имена файлов невозможно понять, особенно, когда неизвестные авторы идут в начале названия, например:

Иванов,Петров,Сидоров,Козлов,Мордоворотов. Термодинамика. 1987.pdf

Предлагаю название книги ставить в начале имени файла, а уже потом всех авторов и подробности:

Термодинамика. Иванов,Петров,Сидоров,Козлов,Мордоворотов. 1987.pdf

При таком поименовании файлов у меня каталог, который я долго не мог разобрать, быстро оформился в стройную систему директорий по тематике книг, что оказалось очень удобным.

Ankalagon_Black см.ниже +2
Эта проблема решается так:

Иванов и др. - Термодинамика (1987)

Сортировка именно по автору имеет большие преимущества, когда есть несколько книг одного автора. Получается, что все сразу вместе будут.


Среди авторов очень часто встречаются однофамильцы, да и один человек частенько пишет на разные темы. Поэтому уже давно ушел от каталогизации по авторам, зная фамилию поиском можно найти все книги автора, а вот тема не всегда четко в названии отражена, зато открываешь тематическую директорию - и все книги одной тематики перед глазами.
Группа: Посетители
Регистрация: 22.05.2006
Публикации: 1
Комментарии: 2393
Репутация: +1

21/05/2008 13:03
#4


foto

Ни для кого не секрет преимущества качественно сделанного djvu над pdf, особенно если это чёрно-белый файл

Преимущества, наоборот, особенно проявляются на цветных сканах. При одинаковом качестве книга в djvu размером 10Мб в pdf может весить более ста мегабайт, а то и несколько сотен.
Я видел всего несколько научных цветных scan-книг в pdf с ocr-слоем. Они были размером от 300 до 500 Мб каждая!! А про тормоза при присмотре такой "книги" я и не говорю, система кэширования windows находится в состоянии, близком к клиническому.
Группа: Посетители
Регистрация: 23.11.2005
Публикации: 97
Комментарии: 186
Репутация: -2

21/05/2008 13:19
#5


foto

Цитата: trion
Иванов,Петров,Сидоров,Козлов,Мордоворотов. Термодинамика. 1987.pdf

Эта проблема решается так: Иванов и др. - Термодинамика (1987)

Сортировка именно по автору имеет большие преимущества, когда есть несколько книг одного автора. Получается, что все сразу вместе будут.
Группа: Местные
Регистрация: 13.12.2006
Публикации: 443
Комментарии: 785

21/05/2008 13:36
#6


foto

2bga
Цитата: bga
видел всего несколько научных цветных scan-книг в pdf с ocr-слоем. Они были размером от 300 до 500 Мб каждая!!

Большой объем там занимает не ocr, а картинки.
Группа: Посетители
Регистрация: 21.03.2006
Публикации: 8
Комментарии: 57

21/05/2008 13:50
#7


foto

Те принципы именования, которые встречаются в EMule, на самом деле впервые были разработаны несколько лет назад членами б-ки колx03. Помимо автора и года издания, обязательно указывается издательство (его имя о многом говорит, например я с удовольствием скачаю любую книгу, изданную в Бином или Эксмо, и вряд ли буду тратить время на скачивание скореее всего лажи возможно с похожим названием, но изданную каким-нибудь издательством-однодневкой), количество страниц (встречаются разные варианты одной и той же книги, указание кол-ва страниц помогает выбирать наиболее полный), и номер издания (вряд ли кому понадобится качать 1-е издание, если имеется более старшее).
Т.е. при современном уровне наполнения интернета эл. книгами наиболее полная информация о книге, данная в самом ее названиии, просто жизненно необходима. Чтобы не тратить время и трафик на всякий хлам, дубли и проч. Как я сужу по именам файлов выкладываемых здесь книг, многим все-таки ближе по душе держать на своем компе свалку-барахолку из файлов типа ebook.pdf, binder1.pdf, v12.djvu, книга.djvu и т.п.
Помимо выходных данных, в именовании, например, колx03ных книг, опционально указывался и метод создания книги: (K)-сделано с помощью сканкромсатора, (KA)-сделано с помощью any2djvu. Но это было важно только для одного: чтобы было ясно, к какой проге предъявлять претензии по качеству :)

Цитата: nursus
Большой объем там занимает не ocr, а картинки

Возможно. Не буду спорить, но почему-то из сотни виденных мною цветных pdf-сканов без ocr ни одна из них не имела такого огромного объема
Группа: Посетители
Регистрация: 23.11.2005
Публикации: 97
Комментарии: 186
Репутация: -2

21/05/2008 14:59
#8


foto

Спасибо за инструкции по djvu+OCR; как раз хотел у Вас спросить, как Вы это делаете.

У меня все книги перед распределением по каталогам обязательно переименовываются в форму «Название [Авторы] год» или, если это выходит слишком длинно, то «Название [1-й_автор+] год». Таким образом имя автора чётко отделяется от названия (точки от trion в этом плане существенно хуже); приоритет отдаётся названию, а не имени автора (сортировка мне важна не так уж часто, и мне вполне хватает команды файл-менеджера «выбор по маске»). Если книг данного автора много, то для них создаётся отдельный подкаталог. Если есть серия (МРБ, Квант и т.п.), книги котрой относятся к разным каталогам (темам), то она ставится в конец, после года:
K:/BOOKS/SCIENCE/ASTRONOM/В мире двойных звёзд [Липунов] 1987 Квант-52.djvu
Есть по крайней мере три причины ставить название на первое место:
1. Для технической и научной литературы (в отличие от художественной) название, как правило, важнее и лучше запоминается;
2. Имени автора иногда вообще нет. В результате в каталоге получается мешанина, требующая от мозга лишней работы при разборе названий.
3. Упомянуто выше trion.
Из-за проблемы «123, или kniga.vasya» такая каталогизация занимает немало времени, и на данный момент у меня лежит мёртвым грузом уже 2000 архивов. Поэтому всегда радуют публикации Ankalagon_Black и других стремящихся к стандартизации: я легко преобразую их систему в свою несколькими нажатиями клавиш по предварительно сохранённым «выражениям», и мне не надо открывать файл и набирать имя вручную.
Определённое неудобство создают также некоторые слишком кривые транслитерации (когда один и тот же «игрек» выступает то как «ы», то как «й», то вообще «ay» означает «я», а «ii» — «ый», и т.д.
Я все названия транслитерирую (чтобы читались в неуникодовских программах не только под русским, но и под ивритским Windows; для россиян вряд ли это имеет смысл), но обязательно привожу их к стандартному виду:
c=[ц], e=[э], g=[г], h=[х], j=[й], q=[ч], v=[в], w=[ш], x=[ж], y=[ы], z=[з], `=(мягкость согласной); йотированные гласные передаются как j+гласная или как `+гласная, в зависимости от позиции (как при чтении).
Для перевода кириллицы в «мой транслит» мне достаточно нажать всего одну клавишу.
Группа: Посетители
Регистрация: 05.05.2006
Публикации: 19
Комментарии: 477
ICQ: 58407477

21/05/2008 16:13
#9


foto

Как уже неоднократно говорилось "всё придумано украдено до нас!" Для именования книг по так называемому "колхозному" стандарту, с правильной транслитерацией, есть небольшая утилитка "NameCreator", и раз уж если делать ОЦР, то с помощью копипаста правильное название генерится за 15 секунд работы.
Группа: Посетители
Регистрация: 18.11.2006
Публикации: 98
Комментарии: 88
Репутация: -1

21/05/2008 16:35
#10


foto

Уважаемый All!
А как получить максимальное "наслаждение от книги" в .djvu с текстом - как (и чем) ее можно просматривать чтобы можно было выполнять поиск по тексту, копировать его?
У меня стоит - WimDjView v.0.2.1, м.б. пользоваться другой программой?
Благодарю за ответ
Группа: Посетители
Регистрация: 24.05.2006
Публикации: 14
Комментарии: 9

21/05/2008 16:48
#11


foto

Цитата: vassia
А как получить максимальное "наслаждение от книги" в .djvu с текстом - как (и чем) ее можно просматривать чтобы можно было выполнять поиск по тексту, копировать его?
У меня стоит - WimDjView v.0.2.1, м.б. пользоваться другой программой?

Я пользуюсь WinDjView-0.5, у неё намного больше возможностей. Скачать можно .
Цитата: 4u4undr
есть небольшая утилитка "NameCreator"

Но нужен не транслит, а русское название для файла книги.
Группа: Местные
Регистрация: 13.12.2006
Публикации: 443
Комментарии: 785

21/05/2008 17:07
#12


foto

to
Цитата: Ankalagon_Black
Я пользуюсь WinDjView-0.5, у неё намного больше возможностей. Скачать можно здесь.

Спасибо!
Группа: Посетители
Регистрация: 24.05.2006
Публикации: 14
Комментарии: 9

21/05/2008 19:23
#13


foto

Я в последнее время пользуюсь для просмотра файлов djvu, pdf и картинок в формате tiff бесплатной смотрелкой STDU Viewer.
Группа: Посетители
Регистрация: 26.10.2006
Публикации: 4
Комментарии: 1

21/05/2008 20:09
#14


foto

А я бы лучше стандартизировал минимальное (наихудшее качество)
А то, бывает, выкладывается такое, особенно невычитанное после OSR,
что читаешь и думаешь: верить "написанному" или не верить?
А имена файлов у себя на компьютере поменять несложно - способов можно найти много.
Единственное, пожалуй, ограничение - не использовать кирилицу - не все файловые
хранилища ее правильно воспринимают.
Группа: Посетители
Регистрация: 26.11.2005
Публикации: 0
Комментарии: 223

21/05/2008 20:50
#15


foto

loia
вот для этого книга с русским названием и запаковывается в архив с латинскими буквами + контроль четности при закачке, чтоб архив не был битым
Группа: Посетители
Регистрация: 21.07.2006
Публикации: 178
Комментарии: 282
ICQ: vadiml[at]jabber.ru

22/05/2008 01:52
#16


foto

Поражался обилию последнее время в коментах к новостям книг от Ankalagon_Black, переделанных в djvu. Для меня подготовка книги в djvu продолжает оставаться большой загадкой. Спасибо, что поделились как это делается.

Свои 5 копеек по именованию книг. Придерживаюсь такого порядка:
- Имена обязательно кирилицей, т.к. пользуются много людей далеких от компьютера и тем паче от транслитерации.
- Придерживаюсь этого варианта:
Цитата: Ankalagon_Black
Эта проблема решается так: Иванов и др. - Термодинамика (1987)

- Для тематики (типа "Термодинамика") можно воспользоваться в файловой системе NTFS прямыми линками и разложить книги по тематическим папкам (в FAR'e alt+F6).

Присоединяюсь к

Цитата: vadiml
вот для этого книга с русским названием и запаковывается в архив с латинскими буквами + контроль четности при закачке, чтоб архив не был битым


Большое спасибо!!
Группа: Посетители
Регистрация: 21.10.2006
Публикации: 5
Комментарии: 195

22/05/2008 10:39
#17


foto

Цитата: 4u4undr
есть небольшая утилитка "NameCreator"

что это за утилита? Где ее можно раздобыть?
Группа: Местные
Регистрация: 08.02.2006
Публикации: 47
Комментарии: 42
Репутация: +2

22/05/2008 11:13
#18


foto

chainick
Группа: Посетители
Регистрация: 18.11.2006
Публикации: 98
Комментарии: 88
Репутация: -1

23/05/2008 04:19
#19


foto

Народ, Вы какие то проблемы себе придумываете. Как вам надо так и называете, файл что у вас храниться будет. А за Собственно новость - Огромное спасибо, будет время займусь перекопкой библиотеки.
Группа: Посетители
Регистрация: 22.05.2006
Публикации: 7
Комментарии: 135

23/05/2008 16:53
#20


foto

Проблемы обсуждают те, кто выкладывает книги для других, и в процессе этого и именует их. Те, кто ничего не выкладывает, конечно же проблем не имеет, просто отдыхает.
Группа: Посетители
Регистрация: 23.11.2005
Публикации: 97
Комментарии: 186
Репутация: -2
Информация
Alert Посетители, находящиеся в группе Гости, не могут оставлять комментарии в данной новости.