2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000
40
40

Как скопировать текст из PDF без потери форматирования?

Когда я копирую текст из PDF файла в текстовый редактор, это заканчивается различными способами. Форматирование полужирным шрифтом и курсивом теряется; мягкие разрывы строк внутри абзаца текста преобразуются в жесткие разрывы строк; тире на разрыв слова на две строки сохраняются, даже если они не должны быть; и одинарные и двойные кавычки заменяются знаками ?.

В идеале, я хотел бы иметь возможность скопировать текст из PDF и преобразовать форматирование в HTML-коды, “умные кавычки” преобразуются в “ и ”, и разрывы строк сделаны правильно". Есть ли какой-нибудь способ сделать это?

Ответы (9)

54
54
54
2010-10-11 21:30:12 +0000

Во-первых, вы должны понять, что такое PDF. PDF-файлы предназначены для имитации распечатанной страницы, и они предназначены только в качестве выходного, а не входного формата. PDF-файл - это, по сути, карта, содержащая точное расположение символов (отдельных букв или знаков препинания и т.д.) или изображений. В большинстве случаев_ PDF даже не хранит информацию о том, где заканчивается одно word и начинается другое, гораздо меньше таких вещей, как мягкие паузы против жестких пауз для окончаний абзацев.

(В некоторых недавних PDF-файлах действительно хранится некоторая информация об этом, но это новая технология, и вам повезет, если вы найдете PDF-файлы в таком формате. Даже если бы вы это сделали, ваша программа просмотра PDF может не знать об этом.)

В любом случае, это зависит от вашего программного обеспечения, чтобы реализовать своего рода “искусственный интеллект”, чтобы извлечь просто из расположения отдельных символов, что такое слово, что такое абзац, и так далее. Различные программы будут делать это лучше, чем другие, и это также будет зависеть от того, как PDF был сделан. В любом случае, вы должны never ожидать идеальных результатов. Иметь выходной PDF не то же самое, что иметь исходный документ. Гораздо лучше попытаться получить это, если вы можете.

Стандартным решением вашей проблемы является использование Adobe Acrobat Professional (дорогой, а не бесплатный читатель) для преобразования PDF в HTML. Даже это не даст идеальных результатов.

Существует свободное программное обеспечение, которое может быть использовано для извлечения текста из PDF-файлов с некоторыми форматирования нетронутыми, но опять же, не ожидайте идеальных результатов. Смотрите, например, калибр (который может конвертировать в формат RTF), pdftohtml/pdfreflow или текстовый процессор AbiWord (с включенными плагинами импорта/экспорта). Есть также плагин для импорта PDF для OpenOffice.

Но, пожалуйста, не ожидайте совершенства с любым из этих результатов. Здесь вы идете против зерна. PDF просто не предназначен для редактируемого формата ввода.

8
8
8
2013-01-24 07:05:37 +0000

Другой вариант - скачать и начать использовать бесплатный просмотрщик pdf, Foxit (это хорошо). Затем вы можете “Сохранить как” и выбрать .txt, чтобы преобразовать его в текстовый файл. Это позволит сохранить все форматирование. Не знаю, сможете ли вы сделать то же самое в Adobe, потому что я перестал использовать его некоторое время назад, когда преобразовал в Foxit.

5
5
5
2012-12-01 13:48:55 +0000

Откройте PDF-файл с помощью браузера (Google хрома и Firefox протестированы), а затем скопируйте ваш текст там.

5
5
5
2012-12-01 14:29:34 +0000

Существует очень хороший онлайн-инструмент под названием Sej-da. Он имеет дело с Advanced PDF Manipulation. Нет программного обеспечения для скачивания. Как это new онлайн-инструмент он в настоящее время все еще в бета-версии. Он позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF http://www.sejda.com/

Краткий видео обзор функций sejda был сделан 14-го Ноября 2012 года в редакции 3 он может быть найден здесь: http://revision3.com/tzdaily/sejda-online-pdf

4
4
4
2012-09-06 19:00:19 +0000

Для этого можно использовать Adobe Acrobat Pro.

Для таблиц: В Acrobat 9/10 есть возможность выбора таблиц. С Acrobat X вы можете просто нажать Сохранить как > Электронная таблица > Excel. Она даже объединяет страницы в одну длинную электронную таблицу. Потрясающая функция.

Для текста: Аналогичная функция существует и для экспорта в MS Word. Сохранить как > Word > Word Doc.

Источники:

0
0
0
2015-04-13 11:19:56 +0000

Foxit будет переключаться между отображением исходного файла в виде обычного PDF или в виде текста, нажимая Ctrl + 6 (При небольшой скрипке с уровнем масштабирования в текстовом режиме не так уж много скачков в положении туда-сюда между чтением и копированием)

0
0
0
2017-02-25 23:17:51 +0000

Я нашел это очень полезным ( [ Удаление обрывов строк ):

Вот полезная уловка для быстрого решения этой проблемы без необходимости удалять все обрывы строк вручную. По сути, все, что он делает, это автоматически заменяет все ненужные разрывы строк одним пробелом, заставляя весь текст объединиться в один абзац:

1- скопируйте нужный текст из PDF.

2- вставьте в новый документ Word.

3- нажмите “редактировать”, а затем “заменить”

4- убедитесь, что вы находитесь в “найти что” поле

5- нажмите “больше”, а затем “специальные”

6- выберите “пункт отметить” (вверху списка)

7- нажмите на “заменить на” поле

8- нажмите на пробел один раз

9- нажмите “заменить все”

10 нажмите “хорошо”, а затем закройте окно “найти и заменить”.

-1
-1
-1
2016-01-22 16:15:08 +0000

Я пытался сохранить текст и формат pdf, который был организован в виде таблицы. В Acrobat Professional я понял, что есть опция “Сохранить как”, позволяющая сохранять как документ excel. Это хорошо сработало для моих нужд. Я также заметил, что есть опция “Сохранить как документ”. Однако я не стал пробовать.

-1
-1
-1
2015-12-11 04:23:43 +0000

Вы можете скопировать из программы Adobe Reader в MS Excel и формат (таблицу) так, как вам нужно, а затем скопировать и вставить из Excel. Это решение отлично работает. Вам не нужно покупать дорогую профессиональную копию adobe.

Похожие вопросы

19
12
9
13
2