2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000
26
26

PDF искажает текст при копировании вставки

Я пытаюсь скопировать и вставить текст из PDF файла.

Однако всякий раз, когда я вставляю исходный текст, это огромный беспорядок искаженных символов. Текст выглядит следующим образом (это всего лишь один небольшой отрывок):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Я пробовал это как в Adobe, так и в Foxit PDF Reader. Я сделал “Сохранить как текст” в Adobe Reader и получившийся текстовый файл является тем же самым искаженным текстом.

Есть идеи, как вытащить этот текст без искажений? (Кроме ручного набора… есть много текста, который нужно извлечь.)

Ответы (11)

11
11
11
2011-04-08 14:40:29 +0000

Самый простой способ обойти это - открыть файл в рекордной версии Google Chrome со встроенным плагином для чтения PDF. Тогда вы можете использовать функцию поиска Chrome, чтобы найти текст, и копирование-вставки работает правильно. 0x2 и 0x2 и я хотел бы проголосовать до комментария пипита на ответ Шики, но у меня нет кредо :( Проблема может быть заказной кодировки шрифта, а не шифрования. В Acrobat, нажмите Файл -> Свойства, затем нажмите на вкладку Шрифты, чтобы увидеть кодировку, и на вкладку Безопасность, чтобы увидеть, является ли она зашифрованной.

4
4
4
2012-03-18 14:36:54 +0000

Есть еще один очень простой способ обходного пути :)

Просто распечатайте документ с помощью CutePdf, принтера Adobe 2 Pdf или любого другого подобного материала. Суть в том, что вам нужно распечатать в формате pdf.

Во многих случаях это легко устранит проблему.

4
4
4
2010-05-18 22:18:44 +0000

Я обнаружил эту проблему с PDF-файлами, которые я создал, и я думаю, что я отследил источник проблемы: использование Mac OS X’s Preview для уменьшения размера PDF-файла. Я создал несколько кварцевых фильтров с помощью утилиты Colorsync для сжатия изображений в PDF, чтобы уменьшить общий размер файла PDF с изображениями. Как описано здесь: http://www.macosxhints.com/article.php?story=20031106133852693

Я обнаружил, что могу легко скопировать и вставить текст из оригинального (несжатого) PDF-файла, но после запуска этого PDF-файла через созданный мною фильтр Уменьшить размер файла, получившийся сжатый PDF не копирует вставку четко (выходит похожим на строки, которые вы разместили). 0x2 и 0x2 и Тем не менее, запустив этот же оригинальный PDF через документ Adobe Acrobat Pro > Уменьшить размер файла функции, в результате чего сжатый PDF может успешно копировать и вставлять текст.

Таким образом, это не совсем полезно в вашем случае, предполагая, что ваш PDF файл был получен из другого места, и вы не можете добраться до исходной версии, если она действительно была сжата каким-то образом. Но это может быть объяснением - что файл был каким-то образом искажен в попытке уменьшить размер файла.

Это может быть полезно для создателей контента, сталкивающихся с аналогичными проблемами копирования и вставки текста из PDF-файлов - будьте осторожны, используя кварцевые фильтры OS X, чтобы уменьшить PDF-файлы!

–редактирование– Я также заметил эту проблему при объединении PDF-файлов с Предварительным просмотром. Два исходных PDF-файла могут быть скопированы и вставлены прекрасно, но при перетаскивании страницы из одного файла в другой файл, а затем сохранение комбинированного PDF-файла, текст в комбинированном документе не может быть скопирован/вставлен. Это два документа, оба созданы в то же время с Filemaker Pro 11 на Mac - я не могу представить, что они будут иметь различные кодировки или любой такой вещи.

3
3
3
2013-01-03 20:36:58 +0000

Решение, которое сработало на меня:

  • Загрузить документ на Google Drive/Docs
  • Google будет импортировать его (по состоянию на 2013 год) в формате PDF
  • Откройте просмотр PDF и выберите Файл > Откройте с > Документы Google
  • Это займет около минуты, чтобы экспортировать документ

Результаты не были идеальными, но получил меня 80% пути туда и предоставить мне достаточно текста, что я не должен был переписывать все!

2
2
2
2013-03-24 23:59:49 +0000

Решено: (работал на меня под Windows 8, Acrobat XI, Office 2010)

Вариант 1:

  1. Печать из Acrobat с помощью “Microsoft XPS Document Writer” Выходной файл - “Microsoft XPS Document Writer”: “имя вашего файла.oxps”
  2. Откройте “…oxps” с помощью XPS Viewer. * (см. ссылку на скачивание в комментариях ниже)
  3. Печать в PDF (Acrobat PDF, или CutePDF), с максимальным разрешением (600 DPI).
  4. Откройте с помощью Acrobat и используйте опцию OCR (Поисковое изображение (Точное)).

BINGO!

Комментарии:

  • Используя высокое разрешение и Поисковое изображение (Точное), вы сохраните текст, не теряя при этом его чистый вид. Низкое разрешение сделает ваш текст читабельным, но дерьмовым.
  • Скачать Microsoft XPS (файлы): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Если вы не знаете, что такое OCR, или где найти Поисковое изображение (точное), или Как распечатать с помощью “Microsoft XPS Document Writer”, PLEASE, Google его на свой собственный, для вашего собственного лучшего опыта.

*Загружайте, только если у вас не установлен XPS.

Вариант 2:

Сделайте то же самое, но сохраните как изображение (png, tiff, …), тогда вам придется объединить все страницы обратно в один “PDF” файл.

1
1
1
2011-10-26 18:58:50 +0000

Один из моих пользователей только что сообщил о такой же проблеме (PDF был создан с помощью Distiller for Windows), что скопированный текст - это только искаженный текст, и он не мог искать его внутри документа. Я примерял Mac и не нашел никакой проблемы. Оказалось, что я использовал приложение Apple Preview, в то время как он использовал Adobe Reader на его машине Windows. Затем я попробовал Adobe Reader на своем Mac и столкнулся с тем же эффектом. По-моему, это выглядит так:

  • Adobe Reader выполняет коипирование и поиск в сохраненном тексте.

  • Apple Preview скопирует и выполнит поиск после применения вектора кодировки.

Я не могу сказать это точно, но это объяснило бы мое наблюдение. И это действительно позволило бы сделать все виды кодировок при сохранении комбинированных/сокращенных файлов, как описано в другой заметке здесь: с помощью Preview Вы все еще можете вытащить текст снова.

Сначала я подумал, что было бы логичнее кодировать встроенный подмножество шрифтов как сопрягаемые записи, вместо того, чтобы оставлять дыры внутри и использовать исходное расположение символов. Но потом я понял, что при использовании вектора кодирования к подмножеству шрифтов с оригинальными записями, символы, которые часто используются, могут иметь в байте меньше битов, установленных в 1, и могут быть лучше сжаты (это может снизить энтрофию всего текста таким образом).

1
1
1
2010-06-21 20:51:02 +0000

Существует риск, что информацию вообще не удастся извлечь. PDF-документы - это, по сути, один документ, лежащий поверх другого, один простой текст, другой - картинка. Когда вы копируете и вставляете из документа, вы отмечаете текст, глядя на картинку, но то, что копируется в буфер обмена - это соответствующий фрагмент текста.

В зависимости от способа создания документа качество и доступность текстовой части могут сильно отличаться. Если вы сохраните документ в формате PDF, используя Acrobat, Word, драйвер PDF-принтера или любой другой метод, то качество, как правило, будет отличным, так как текстовый файл может быть создан из текста оригинала. Некоторые специальные символы могут искажаться, но простой текст, как правило, хорошо. 0x2 и 0x2 и Если документ создается из отсканированного изображения, однако, текстовая часть, как правило, создается путем OCR обработки изображения, что может привести к довольно печальным результатам, особенно если оригинал является менее чем оптимальным для этой цели.

Плохая программа, используемая для создания PDF, или неправильные настройки, также может привести к тому, что текстовая часть станет полностью искаженной, как это могло бы, по-видимому, некоторые виды шифрования запускаются на файле после его создания.

Суть в том, что если текстовая часть документа действительно плохо, нет способа сделать его лучше. Лучшим вариантом будет полное удаление текстовой части документа, а также повторное OCR-процесс, выполняемый программой. Я думаю, что это может быть сделано изнутри Acrobat, но я не совсем уверен.

1
1
1
2010-06-24 14:23:21 +0000

Одной из возможных причин этого может быть то, что при встраивании шрифта в PDF используется пользовательская кодировка, которая применяется некорректно при копировании текста из PDF.

Вы можете применять различные методы, чтобы избавить себя от ручного набора всего содержимого.

  1. Пытались ли вы извлечь текст с помощью одного из инструментов ‘pdftotext.exe’, загружаемого по сети? (Я бы порекомендовал тот, который включен в ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. В последней версии Acrobat Reader есть опция “Сохранить как текст…”. Она не использует “copy'n'paste” (которая дала вам искаженный текст), но, вероятно, использует те же самые программные процедуры, которые используются для rendering текста на экране, и может дать более полезные результаты.
  3. Если “2.” не работает, и у вас есть доступ к Acrobat Professional: попробуйте передискретизировать PDF, используя один из профилей дистиллятора с вложенным шрифтом.
  4. Если ‘3.’ не работает, несмотря на то, что у вас есть доступ к Acrobat Professional: попробуйте заново записать PDF, но на этот раз воспользуйтесь опцией ‘Печать как изображение’ (доступно с помощью кнопки ‘Дополнительно’ в левом нижнем углу главного диалога печати). Убедитесь, что вы используете 600 точек на дюйм (хотя это может привести к созданию огромного файла). Полученный PDF-файл вы затем снова откроете в Acrobat Pro. Теперь применяйте к файлу алгоритм ‘OCR’ в Acrobat, в результате чего получится встроенный текст (не используется для рендеринга на экране в Reader, а используется для поиска и подсветки строк). Теперь вы можете попробовать еще раз извлечь текст из этого PDF-файла, используя любой из вышеописанных методов.
1
1
1
2013-03-15 21:19:30 +0000

Я не пробовал использовать опцию Документы Google, так как она до сих пор не поддерживается в моем офисе. Тем не менее, распечатав файл в “ScanSoft PDF Create!” из “Acrobat 9” (печатает весь файл на изображение) и открыв распечатанный файл в “Nuance PDF Converter” (он подсказал мне, если я хочу сделать файл изображения с возможностью поиска и редактирования, которые я выбрал), я смог иметь документ Word, который я могу легко скопировать и вставить из. Это не идеально, хотя только с точностью около 80-90%. Но, эй, у вас все еще есть оригинальный PDF файл для сравнения и смещения тех частей, которые просто не могут быть исправлены. Экономия времени от набора всего этого. Мой 2c.

1
1
1
2012-10-02 19:05:44 +0000

Загрузка в Документы Google и с помощью опции Просмотр > Простой HTML , дает текст, поддающийся копированию корректно около 80% с небольшим количеством пробелов. Это поток с принятым ответом на составную проблему объясняет это рабочим примером.

0
0
0
2011-10-16 21:34:19 +0000

I

Похожие вопросы

10
19
12
9
4