• Что такое PDF, чем его открыть и редактировать. Какими бывают PDF или виды pdf файлов

    Я имею дело с PDF не только как пользователь, а, прежде всего, как разработчик софта, умеющего его читать и писать (возможно, вы сталкивались с продуктами компании ABBYY, работающими с PDF – ABBYY FineReader, ABBYY PDF Transformer). Я предполагаю, что вы прочитали статью habrahabr.ru/company/abbyy/blog/105006 и далее пишу только про некоторые особенности и ограничения PDF, которые больше интересны продвинутым пользователям. Никаких сложных технических деталей при этом не буду касаться, так что программистам, желающим научиться читать или писать PDF, лучше сразу перейти к чтению спецификацию версии 1.7 со страницы www.adobe.com/devnet/pdf/pdf_reference_archive.html :)

    Назначение и особенности PDF
    Изначально формат PDF задумывался компанией Adobe ещё в конце 80х годов прошлого века как «электронная твёрдая копия» странично-структурированных документов, которую можно просматривать и печатать в виде, идентичном оригинальному, на разных машинах и платформах, но который не предполагается редактировать. Это определение отличает PDF от большинства других форматов хранения и распространения человеко-читаемых документов. За прошедшие годы PDF сильно эволюционировал, являясь в настоящее время контейнером для самого разнообразного контента (текст, векторная и растровая графика, интерактивные элементы, формы, аудио, видео, аннотации разных видов), но его исходное предназначение до сих пор остаётся источником как его возможностей, так и многочисленных ограничений.

    Так, форматы текстовых документов (DOC, RTF, DOCX и т.д.) в основном ориентированы не на просмотр, а на редактирование документов. Созданный разумным пользователем:) документ логично реагирует на вставку/замену/удаление текста, картинок, таблиц в разных местах, изменение размеров и полей страниц, изменение форматирования фрагментов текста любого размера и тому подобные действия. Интернет страницы в формате HTML не слишком ориентированы на редактирование (хотя и допускают его), но при условии прямых рук автора нормально переносят отображение не только на экране монитора своего создателя, но и на устройствах с совершенно другими экранами и взаимодействием с пользователем.

    PDF-принтер переводит GDI(«интерфейс графических устройств»)-команды вывода в нужные места символов, линий, кривых, прямоугольников, растровых изображений и прочих геометрических примитивов в соответствующие им PDF-команды с сохранением в файл. При этом, разумеется, сохраняются количество и размер страниц, на которое выполнялась печать.

    Такое преобразование способно очень точно передать внешний вид того, что получилось, перед печатью (например, линии и символы не теряют своей чёткости при любом масштабировании и при этом хранятся достаточно компактно), но совершенно игнорирует устройство документа, из которого это получилось. Например, для подчёркивания слова или другого фрагмента текста в PDF не предусмотрено выделенной команды или атрибута символов – вместо этого отдельно выводятся символы (группами, которые обычно даже не совпадают со словами или строками), а отдельно рисуются линии или тоненькие прямоугольники нужной толщины и цвета в нужных местах страницы. Таблицы, которые человек воспринимает как целостный набор ячеек, для приложения, отображающего PDF, – просто хаотический набор символов и линий, по случайному совпадению образовавших нечто, воспринимаемое человеком как таблица. Гиперссылки, которые в исходном документе можно было использовать как для навигации внутри документа, так и для перехода на Веб-адреса, при печати исчезают как средство навигации, остаются лишь окрашенные и/или подчёркнутые надписи. В общем, сплошные имитация и надувательство. Такие PDF я ниже буду называть «векторными» (как состоящие из векторных команд, к которым относится и рисование символов).

    Другой способ получения PDF-документов, ставший особенно популярным в последние годы, – переработка в него отсканированных бумажных страниц. Сейчас большинство сканеров и многофункциональных устройств могут выдавать результат в виде «растровых» PDF – при этом предыдущий способ «имитации печати» не нужен, а драйвер или утилита устройства самостоятельно формирует страницы PDF так, чтобы на каждой из них оказалось нужное «растровое» изображение, благо набор форматов графики, которые можно использовать в PDF, покрывают большинство запросов. Такие «растровые» PDF-документы занимают больше места и выглядят менее качественными, чем «векторные».

    Некоторые современные приложения (в том числе приложения комплекта OpenOffice, Microsoft Office новых версий, ABBYY FineReader и ABBYY PDF Transformer) умеют создавать PDF самостоятельно, пользуясь при этом гораздо большим арсеналом средств, чем PDF-принтеры, ибо знают об исходном документе гораздо больше, чем нужно передать принтеру. Это позволяет сохранить, например, гиперссылки как таковые (а не просто как окрашенный и/или подчёркнутый текст) или описать некоторые элементы структуры документа для его переформатирования и показа на экранах малых разрешений. Такие документы со структурной информацией называются «тегированными» или «tagged» PDF. По замыслу Adobe, «тегирование», добавленное начиная с Acrobat 5, призвано скрыть наиболее вопиющие недостатки ранних версий PDF. Например, для нетегированных документов не гарантируется корректная работа механизма копирования фрагментов текста в буфер обмена Windows (всем привычный Copy-Paste). При этом даже сегодня тегированными являются не все создаваемые PDF, в том числе из-за ограниченных возможностей программ-генераторов (или незнания пользователями, где включить нужную для этого галочку в настройках), или просто из-за большего размера таких PDF, когда остро стоит вопрос экономии дискового пространства при хранении больших архивов.

    Преобразование PDF-документов в другие форматы
    Желание отредактировать содержимое PDF-документа или преобразовать его в другие, желательно редактируемые форматы (как для немедленного редактирования, так и для хранения с возможностью поиска/редактирования «когда-нибудь»), возникает по разным причинам. Простейшие средства извлечения текстового содержимого предоставляет любое приложение, отображающее PDF – я имею привычный Copy-Paste, который работает довольно примитивно – как правило, теряется символьное и абзацное форматирование, игнорируются таблицы и сложная вёрстка PDF-документа. Есть приложения, которые позволяют «точечно» редактировать PDF без преобразования в другие форматы – но их арсенал средств редактирования очень ограничен, ну просто никакого сравнения с привычными текстовыми процессорами:) В дорогущем Adobe Acrobat для многих документов единственным работающим видом редактирования является «аннотирование» – есть инструменты для добавления комментариев, выделения текста маркером, зачёркивания и т.п. Да, более продвинутое редактирование как бы есть, но вы, случайно, не встречали забавного сообщения «All or part of the selection has no available system font. You cannot add or delete text using the currently selected font.» при невинной попытке удалить символ или слово из «хорошего», «векторного» PDF-документа в Акробате? А не пробовали заменить фрагмент строки на более длинный, грустно наблюдая уползающие вправо хвосты строк? Если нет, значит любовь к продуктам Adobe у вас ещё впереди! К простым и привычным для текстовых процессоров задачам – например, «заменить за несколько секунд по всему документу слово «MS» на «Microsoft», с изменением размещения текста по колонкам и страницам» – такое «редактирование» и близко не стоит.

    Неслучайно в софтверной индустрии сформировалась целая отрасль, производящая средства конверсии с лучшей функциональностью. Из написанного выше (и особенно – ниже), должно стать понятно, насколько это непростая задача. Большинство пользователей, не читавших этого креатива, так не считают – поэтому я его и пишу:)

    Основные проблемы при преобразовании PDF в другие форматы
    Часто в обсуждении связанных с PDF вопросов употребляется понятие «текстового слоя». Интуитивно многими пользователями предполагается, что в PDF-файлах есть такие выделенные части, где логично и понятно описаны все нужные характеристики видимого текста – или невидимого, но находимого поиском или выделяемого мышью. Хочу открыть вам страшную тайну (вероятно, с риском в ближайшее время получить пулю от киллера, подосланного авторами формата PDF и их отделом маркетинга) – никакого текстового слоя в указанном смысле в PDF нет! На деле для каждой страницы есть общий поток команд её рисования, в котором совершенно произвольно перемешаны разнотипные команды – задания областей отсечения, смены текущих толщины, цвета и шаблона пунктирности линий, изменения системы координат, смены шрифта, рисования прямых и кривых (с текущими атрибутами), вывода группы символов с текущими атрибутами и указанными «номерами глифов» (глиф – описание изображение символа, без учёта других его характеристик), вывода растровых картинок и т.п. То есть даже специальные текстовые команды – это просто один из многих инструментов рисования, не выделенный в отдельные потоки.

    Хуже другое – даже в пределах одной страницы PDF можно использовать (слишком) широкий набор средств изображения похожего глазу текста: буквы могут быть видны как части растрового изображения – например, в логотипах (задача их распознавания – в чистом виде задача OCR-приложений, того же ABBYY FineReader), как результат рисования кривыми Безье или специальными текстовыми командами. Этот последний случай – самый лучший для обработки, но даже здесь не обязательно указываются общепринятые коды символов из Unicode или других кодировок – ибо в PDF-файл можно записывать особые шрифты из подмножества только реально использованных символов и ссылаться на символы по совершенно условным «номерам глифов», а не по кодам. То есть не всегда просто как обнаружить символы в нужном месте, так и определить их коды! С форматированием, в том числе с выбором похожего шрифта при отсутствии точного аналога, всё ещё хитрее.

    Символы, даже если их присутствие и коды тем или иным способом установлены, своим порядком вывода на страницу очень часто никак не соответствуют исходной последовательности их размещения и чтения на странице. Например, на двухколоночной странице команды вывода текста из правой и левой колонок могут быть произвольно перемешаны. На такой странице нужно выделить области, в каждой из которых размещён логически связный текст – это тоже задача, много лет решаемая OCR -приложениями. Некоторую помощь даёт структурная информация из тегированных PDF – но часто даже у сделанных сейчас PDF эта информация либо отсутствует – как при выводе через PDF-принтер – либо бывает недостаточно полна.

    Когда мы решили, что в некоторых местах страницы есть связный текст (а где-то даже поняли, как он сгруппирован в таблицы – это очень нетривиальная задача!), и нашли, какие символы и в какие строчки складываются, нужно преобразовать эти строчки в абзацы и более высокоуровневые элементы, привычные пользователям как текстовых процессоров, так и HTML – колонки, таблицы, врезки. Данных об абзацном форматировании в PDF обычно нет, так что все эти характеристики тоже нужно вычислять – как при всём том же распознавании. Если пытаться игнорировать элементы текста сложнее строчек или абзацев, то, выведя всё в коротких врезках, получим документ, который выглядит как настоящий, но почти не редактируется – помните задачу о замене по всему документу слова «MS» на «Microsoft»? Это очень хороший тест на редактируемость. Для редактируемого документа важна способность текста перетекать из одних зон в другие – в нужных случаях, которые ещё надо суметь отличить от ненужных.
    Добавить метки

    Любой человек, работающий с компьютером, рано или поздно сталкивается с PDF-файлом . Перед ним неизбежно возникает вопрос —

    Что такое PDF?!

    PDF Portable Document Format - на текущий момент это стандартный формат для электронных документов, для чего изначально и разрабатывался программистами компании Adobe Systems , перед которыми была поставлена цель оптимизировать способ хранения и отображения текстовых документов и полиграфических изданий. Второе, не менее важное условие, которое ставилось перед разрабочиками — универсальность. То есть, реальная кроссплатформенность — PDF-файл можно открыть в любой операционной системе (разумеется при наличии соответствующей программы) и распечатать практически на любом принтере.
    К плюсам электронного формата PDF можно добавить:
    — формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки.
    — формат PDF поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap и несколько типов сжатия растровой информации.
    — формат PDF имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3.
    — формат PDF включает механизм электронных подписей для защиты и проверки подлинности документов.
    — формат PDF поддерживает дополнительные настройки параметров безопасности документа.
    Надо отметить, что именно в формате PDF распространяется большинство литературы и технической документации . Подавляющее количество учебников для школ и ВУЗов так же в формате PDF , из-за чего этот формат называют ещё студенческим. Во многом это стало возможным в первую очередь потому, что корпорация Adobe сделала этот формат бесплатным и выпустила бесплатный вариант утилиты для просмотра PDF-файло в.

    Как открыть PDF-файл?

    PDF-файл — это файл с расширением .pdf Как и в случае с любым другим форматом, чтобы открыть файл PDF должна быть установлена соответствующая программа . Отсюда вытекает следующий вопрос:

    Чем открыть PDF-файл?!

    Программ для работы с файлами PDF очень много, я кратко расскажу лишь о самых распространенных утилитах.

    1.Adobe Acrobat Reader

    На первом месте стоит самая распространенная, мощная фирменная программа от разработчика формата PDF — Adobe Systems.
    Эта программа создана ещё в 1993 году, обладает самым большим набором инструментов и позволяет делать с PDF-документами все что угодно . К особенностям программы можно добавить возможность использовать специальное хранилище, открывающее доступ к документам с разных компьютеров. На сегодняшний день Adobe Acrobat Reader распространяется бесплатно. К минусам программы можно отнести тяжеловесность — она ест немало системных ресурсов.
    Самую последнюю версию программы Adobe Acrobat Reader можно бесплатно скачать отсюда — ссылка .

    2. Foxit PDF Reader

    Бесплатная, быстрая и весьма функциональная программа для работы с PDF документами . Является отличной альтернативой программе от Adobe. Не требовательна к системным ресурсам.
    Бесплатно с качать Foxit PDF Reader можно отсюда — ссылка .

    Sumatra PDF Reader

    Простая и быстрая читалка PDF-документов . Подходит для 75% пользователей. Помимо файлов PDF, программа умеет работать ещё и с DjVu, FB2, ePub, MOBI, CHM, XPS, CBR/CBZ. Программа разрабатывается на базе движка MuPDF, имеет открытый исходный код и свободно распространяется на условиях лицензии GNU GPL. Sumatra PDF Reader имеет портативную версию, которая запускается с USB флеш-накопителей без предварительной установки.
    Бесплатно скачать Sumatra PDF Reader можно отсюда

    Свойства PDF-документа и действия, которые можно с ним выполнять, зависят от программы, в которой он был создан. Поэтому в некоторых PDF-документах всегда поддерживается копирование и поиск по тексту, а иногда это возможно только в программе ABBYY FineReader.

    Можно выделить следующие типы PDF-документов:

    PDF (только изображение)

    PDF-документ такого типа получается при сканировании бумажных документов без распознавания текста. Каждая страница такого документа является изображением и не содержит текстового слоя. В документах PDF (только изображение) невозможны поиск, копирование и редактирование текста вне зависимости от программы для просмотра PDF-документов.

    PDF-документы с возможностью поиска

    Такие документы обычно содержат видимое изображение страницы и невидимый текстовый слой под ним. Документ такого типа чаще всего является отсканированной копией бумажного документа, к которому применили распознавание, и распознанный текст был записан под страницы.

    Программа FineReader при открытии документов такого типа определяет, содержит ли данный PDF текстовый слой, и может его использовать при работе с PDF-документом. Подробнее см. "Режимы распознавания PDF ". Наличие текстового слоя обеспечивает возможность поиска и копирования текста вне зависимости от программы для просмотра PDF-документов. Редактирование текста в PDF такого типа доступно в FineReader, но может не поддерживаться в других редакторах.

    С помощью FineReader документы такого типа можно получить:

    1. При добавлении текстового слоя к PDF (только изображение).
    2. При конвертации PDF или любых файлов изображений. Для этого выберите > Текст под изображением страницы . Подробнее см. настройки формата PDF .

    PDF-документы, созданные в других приложениях

    Документ такого типа получается при создании PDF из редактируемых форматов (например, из Microsoft Word или других офисных приложений) и является одним из видов PDF-документа с возможностью поиска. Он содержит текстовый слой и иллюстрации. В таком документе возможны поиск и копирование текста вне зависимости от программы для просмотра PDF-документов, а текст и картинки доступны для редактирования. Для выполнения этих действий у пользователя должны быть соответствующие права в данном документе.

    PDF-документ такого типа можно получить:

    1. При сохранении исходного документа в формате PDF непосредственно в программе, в которой он был создан.
    2. При конвертации PDF-документа другого типа или файла другого формата в программе FineReader при выборе в настройках сохранения Настройки PDF с возможностью поиска >Только текст и картинки . Подробнее см. настройки формата PDF .

    В результате форматирование документа может отличаться от исходного, но при редактировании такого документа можно получить более качественные результаты.

    Суть формата PDF (Portable Document Format) состоит в том, что он преобразует документы в электронный вид без каких-либо потерь, то есть, как исходник выглядит, так он и будет отображаться. Единственное исключение составляются изображения, которые несколько теряют в качестве при преобразовании.

    Изначально этот формат, разработанный компанией Adobe, предназначался для властей США, которые использовали его для хранения документов. На текущий момент документы в PDF получили широкое распространение в Сети.

    Плюсы документов в формате PDF

    • Вне зависимости аппаратных средств и установленного программного обеспечения сохраняется структура оригинала и присущие ему шрифты и цвета.
    • Документ в формате PDF может включать в себя интерактивные элементы, например, ссылки. Также доступно добавление изображений, водяных знаков и комментариев. Кроме этого, осуществлена поддержка звуков и программ на JavaScript.
    • Рассматриваемый формат отличается хорошими параметрами безопасности с использованием 40- и 128-битных ключей, что предполагает возможность установки пароля на документ.

    Что касается минусов, то здесь можно упомянуть обязательность установки специальной программы для чтения и отсутствие возможности полноценного редактирования документа.

    Чем читать PDF?

    Если вы будете искать программу для открытия файла с расширением.pdf, то вам в первую очередь, конечно, посоветуют Adobe Reader, так как это самая мощная программа, дополненная множеством утилит. Но всем ли нужен монстр, отличающийся достаточно большим объемом и относительно медленным запуском? Скорее всего, далеко не всем, так как основной массе пользователей требуется только прочитать документ и ничего более. Поэтому стоить обратить свое внимание на небольшие бесплатные программы, отличающиеся быстротой работы.

    Легкое и быстрое приложение Foxit Reader является наиболее успешным конкурентом Adobe Reader, которое позволяет добавлять к документам аннотации, но в то же время не дает возможность редактировать файлы.

    Компактная и достаточно быстрая программа, поглощающая минимум системных ресурсов. Способна работать в любых операционных системах и отличается наличием портативной версии, которую можно запускать с флешки. Также ей присуща корректная работа во время масштабирования черно-белых изображений, что отличает Sumatra от большинства подобных программных решений.


    Наилегчайший игрок на поле формата PDF. Данная программа обусловливается наличием необходимого инструментария для просмотра документов, а также их сохранения и печати. Еще можно упомянуть интересную опцию, позволяющую конвертировать рассматриваемый формат в PNG, GIF, JPG, TXT и т. д.

    Как перевести в формат PDF?

    Преобразование документа в формат PDF можно достичь несколькими способами. Во-первых, создать документ в Microsoft Word, который затем сохранить в формате PDF. Во-вторых, обратиться к возможностям онлайн-сервисов, например, к такому ресурсу, как , на котором внизу представлена специальная форма.

    В-третьих, доступно использование специальных программ, преобразующих ваши файлы. В частности, неплохим решением является бесплатная программа для чтения формата PDF получившая название doPDF, которая устанавливается в вашу систему в виде виртуального драйвера для принтера, поэтому вы сможете обнаружить в списке принтеров новое устройство. В данном случае преобразование заключается в том, что вы выводите документ на печать, но выбираете принтер doPDF и указываете место сохранения.

    Как конвертировть из DjVu в PDF?

    Если по каким-либо причинам вам потребовалось преобразовать документ в таком формате, как DjVu, то это можно сделать с помощью программ конверторов. В данном случае существует как платные, так и бесплатные решения этой задачи. Мы остановимся на бесплатном конверторе DjVuLibre, который отличается простотой в использовании.

    Чтобы на практике осуществить преобразование рассматриваемого вида, надо лишь открыть исходный файл в программе, а затем выбрать в меню пункт «Экспорт» и дождаться окончания процесса.

    Привет, друзья. В это раз я решил написать о формате документов, которым мы пользуемся очень долго, но некоторые ведь и не задумывались узнать, а что это за формат такой – PDF.

    Представим такую ситуацию, что вы долго и упорно печатали документ в Word. Версия особо не важна, вы могли писать текст, как в Word 2003 или 2007, так и 360 (Office в Windows 10). Потом вы документ естественно сохранили и отправили, например, другу. Тот его открывает, через какой-либо другой текстовый редактор, а сейчас их очень много. Например, это мог быть LibreOffice или OpenOffice. Каков же итог? Показываться текст в другом редакторе может совершенно иначе, а иногда и с безобразным стилем оформления.

    Из выше сказанного вытекает следующее – документ, открытый в разных текстовых редакторах будет выглядеть по-разному. Автор в этом, конечно, не виноват и знакомый или коллега, которому вы перекинули документ естественно тоже. И как тогда быть?

    Есть несколько вариантов решения данной проблем и все они актуальны, но у каждого есть какие-то недостатки:
    • Распечатка документа на бумажный носитель. Не всегда разумное решение, если документ имеет не один десяток листов или человек, которому документ должен быть передан живет в другом городе или стране;
    • Отправка информации по факсу. Иногда это может быть невозможно из-за отсутствия факса на той стороне;
    • Сохранение документа в другой формат, например, PDF.

    Что такое PDF?

    Если вкратце, то формат PDF – универсальный формат для многих текстовых редакторов и операционных систем. Другими словами, файл такого формата вы можете открыть на любом устройстве и редакторе, который его поддерживает. Существуют и специальные программы для просмотра PDF. Самым популярным просмотрщиком является Adobe Reader и Foxit Reader.

    Чтобы показать, как выглядит документ в формате PDF я буду , но ничего сверхъестественного вы не увидите. Кстати, я в указанной программе нашел режим чтения вслух. Об этой функции можно почитать в . Там я разобрал очень много методов по озвучиванию текста.



    Как я сказал, у всех 3-х пунктов решения проблемы с документами есть недостатки. У PDF файлов они тоже есть и заключаются в следующем:
    • Текст документа редактировать невозможно, но можно использовать специальные для этого средства;
    • Если вы все-таки решили редактировать PDF-файл, то наверняка там не будет тех шрифтов, которые вы хотите использовать, поэтому придется их встраивать;
    • Чтобы изображения при печати выглядели как положено, то нужно использовать в документе качественные растровые картинки. Недостаток в том, что весить они будут довольно много.

    Но есть и плюсы этого формата:

    • Простота;
    • Одинаковое отображение на любом устройстве и текстовом редакторе.

    О том, как пользоваться или редактировать формат я расскажу в следующей статье. Вы наверное заинтересованы в том,