Как я понял, указываются следующие плюсы DjVu (т.е. где DjVu лучше, чем PDF, а не просто отличается):
1. "установить DjVu плагин для браузера - несравнимо быстрее, чем Acrobat Reader"
2. "DjVu показывают популярные гляделки - ACDSee и Irfan Viewer"
3. DjVu при сохранении картинок текста компактнее, чем PDF при сохранении картинок текста
4. DjVu лучше работает с русским языком.
5. Есть бесплатная программа записи файлов в формате DjVu. Бесплатный некоммерческий энкодер
Не будем пока касаться сравнения PDF vs. HTML.
Возражения:
1. время установки программы поддержки формата - не очень важно. Кроме того, если включить время поиска программы на Интернете, то мне неочевидно, что DjVu проще найти, чем PDF (честно говоря, очевидно обратное, но это субъективно). Я предпочитаю файл скачивать отдельно, так проще файл сохранять, а потом смотреть без браузера, чтобы работало быстрее, но это мои предпочтения, у других могут быть другие, или работать может лучше в браузере, чем у меня. Поддерживает ли модуль DjVu печать? В целом, мне кажется, PDF тут несколько предпочтительней, но это субъективное мнение. Однако так же можно считать, что преимущество DjVu - субъективно.
2. Некоторые популярные программы просмотра, вполне возможно, лучше работают с DjVu. Однако в целом, думаю, никто спорить не будет, что PDF больше распространён, а значит, больше распространены средства его просмотра. Опять же, я едва слышал про ACDSee и совсем не слышал про Irfan Viewer - для меня они не то что непопулярны, а и просто почти неизвестны. Мы же хотим иметь ресурс подоступнее. В частности, не только для москвичей, но и жителей, например, Израиля, США
, Австралии, разве нет? В целом, мне кажется, здесь PDF выигрывает - как более популярная платформа.
Но эти два довода вроде бы не очень существенны? Следующий поважнее.
3. DjVu лучше жмет графический текст, чем PDF.
Не надо жать текст в графике. Предлагается переводить исходные сосканированные изображения в текст - OCR - и, сохраняя шрифт, т.е. начертания букв, а также расположение всего на странице - там и картинки бывают - делать "электронную копию". При сжатии одних и тех же букв - не изображений букв, а их кодов - сжатие должно быть существенно лучше. Идея состоит в том, чтобы каждый мог отпечатать себе подшивку вырезок из "ТМ" - без клякс времени, о которых заботится DjVu, а так, каким они были в далёких восьмидесятых.
Здесь, мне кажется, способности DjVu не должны использоваться. Сжимать не графику, а текст - в кодах (но при этом не HTML, а свёрстанные страницы).
4. Русский язык
Я не работал с PDF в русском языке. Adobe пишет, что поддержка стандартная - т.е. не нужно изобретать кодировки, способы хранения нестандартных букв, мучится с обработкой в программе просмотра... Надо найти человека, который работал с русскими буквами в PDF, и спросить. Для DjVu такой проблемы нет, поскольку хранятся изображения (хотя буквы и отделяются от фона алгоритмически). Крон, если ты с таким человеком общался, или сам таким являешься, поведай результат
. Пока что неясно...
5. Бесплатная программы записи файлов нужного формата. Тут возразить нечего. Точно, пробовал сам как-то искать программы записи PDF - ничего подходящего. Согласен, это может быть серьёзным аргументом против PDF. Хотя в Москве, возможно, и удастся найти копии адобовских программ, всё же это неважное решение.
Мои выводы: по основным пунктам, за исключением средств записи файлов, PDF лучше.
HTML - замечателен, только он не сохраняет расположение на странице. Будет примерно как у Мошкова - что очень даже неплохо. Для начала так бы сделать... но в итоге хочется "иметь Вещь" .
Насчёт перекодировки английских PDF в текст - я пользуюсь pdftotext,
отсюда.
Давай, Крон, свои возражения