Во-первых, вы должны понять, что такое PDF. PDF-файлы предназначены для имитации распечатанной страницы, и они предназначены только в качестве выходного, а не входного формата. PDF-файл - это, по сути, карта, содержащая точное расположение символов (отдельных букв или знаков препинания и т.д.) или изображений. В большинстве случаев_ PDF даже не хранит информацию о том, где заканчивается одно word и начинается другое, гораздо меньше таких вещей, как мягкие паузы против жестких пауз для окончаний абзацев.
(В некоторых недавних PDF-файлах действительно хранится некоторая информация об этом, но это новая технология, и вам повезет, если вы найдете PDF-файлы в таком формате. Даже если бы вы это сделали, ваша программа просмотра PDF может не знать об этом.)
В любом случае, это зависит от вашего программного обеспечения, чтобы реализовать своего рода “искусственный интеллект”, чтобы извлечь просто из расположения отдельных символов, что такое слово, что такое абзац, и так далее. Различные программы будут делать это лучше, чем другие, и это также будет зависеть от того, как PDF был сделан. В любом случае, вы должны never ожидать идеальных результатов. Иметь выходной PDF не то же самое, что иметь исходный документ. Гораздо лучше попытаться получить это, если вы можете.
Стандартным решением вашей проблемы является использование Adobe Acrobat Professional (дорогой, а не бесплатный читатель) для преобразования PDF в HTML. Даже это не даст идеальных результатов.
Существует свободное программное обеспечение, которое может быть использовано для извлечения текста из PDF-файлов с некоторыми форматирования нетронутыми, но опять же, не ожидайте идеальных результатов. Смотрите, например, калибр (который может конвертировать в формат RTF), pdftohtml/pdfreflow или текстовый процессор AbiWord (с включенными плагинами импорта/экспорта). Есть также плагин для импорта PDF для OpenOffice.
Но, пожалуйста, не ожидайте совершенства с любым из этих результатов. Здесь вы идете против зерна. PDF просто не предназначен для редактируемого формата ввода.