Описание тега ubuntu-wiki
Я добавил ваш пример содержимого в файл на диске по имени файла , а затем показать содержимое файла с помощью кот
команду. Затем с помощью awk и
на файл
я, по сути, вырезать детали вы призваний теги и распечатали два куска данных в с разделителями табуляции формат. Это то, что вы ищете?
файл $ кот
1731 0 параметр obj
<</Стр. 250/тип/Анно/подтип/выделить/поворота 0/Вильный[ 95.4715 347.644 337.068 362.041]/NM(929cd95c-f962-4fa3-b734-2e0e67d7b321)/T(iPad)/CreationDate(D:20160818145053Z00'00')/M(D:20160818145204Z00'00')/C[ 0.454902 0.501961 0.988235]/ка-1/QuadPoints[ 95.4715 362.041 337.068 362.041 95.4715 347.644 337.068 347.644]/содержание(пример текста, который должен быть извлечен)/Ф. 4/Предмет(Выделить)>>
endobj
$ у awk '{суб(/\<\<\//, "")};{суб(/\/тип.*\/Содержание\(/, "\Т")};{подпункт(/\)\/Ф.*$/, "")};/страницы [0-9]/{печать} файл'
Страница 250 пример текста, чтобы быть извлечены
$
Что на awk
программа делает:
/Страницы [0-9]/
ищет строки, содержащие, например, 'страница' пространство, затем количество, например,страницы 250
. Я предполагаю, чтотекст должен быть извлечен
не содержат этот шаблон. Не думаю, что это важно, хотя код может быть легко изменен, чтобы приспособить это.суб(/\<\<\//, "")
полосы:<</
суб(/\/тип.*\/Содержание\(/, "\Т")
- это заменить все, что между/тип
и/содержание(
с вкладкой.суб(/\)\/Ф.*$/, "")
обнажает все от)/Ф
на конце линии.
Так что осталось то, что распечатал. Два куска хотели данные разделены символом табуляции.
Я знаю, что это не покрывает все аспекты вы упомянули, однако другие требования не достаточно ясно. Это просто один файл нужно обработать или умножается файлов. В любом случае, вы хотите, чтобы все извлеченные данные в один файл и отсортировать данные, как именно и т. д.
Так что, если вы могли бы уточнить, что я могу, наверное, написать баш скрипт , чтобы скрыть это.
Очевидно, с того, как awk
программы я предоставил, вы можете просто перенаправить вывод в файл outfile и продолжают процесс его сортировки
команду. на awk
можно сделать сортировку однако тоже получать целевые данные в одной командной строке было то, что я могу предложить , как awk
, на данный момент.