Потратил дикое количество времени на казалось бы простую вещь - выдернуть из pdf определённые, легко определяемые грамматикой, кусочки.
Ну, во-первых, со скальным парсером не справился, т.к. не нашел, какой парсер, какой сканер или какой лексер не будет жрать токены, а даст мне самому определить грамматику на уровне букав. Документации-то нету, есть только примитивные примеры, или офигенного размера интерфейсы. Хрен с ним, написал руками, мне всего-то надо учитывать открывающиеся и закрывающиеся скобки.
Во-вторых, обнаружил, довольно поздно, что пидиэф же надо раззиповывать типа. Вздохнул, скачал pdfbox, стал смотреть, чего там. Потом подумал, да ё, мне ж нужен текст, ну-ка я тем же пидиэфбоксом извлеку текст, его и буду сканировать. Ну конечно, сорсы не соответствуют классам, и мейн требует какую-то команду, незадокументированную. А другому мейну нужен ещё какой-то манифест.
И тогда дошло, что самым простым способом извлечения текста из пидиэф является китайский: copy-and-paste.
Тяжело быть русским программистом - вместо того, чтобы по колее фигачить, всё заносит куда-то в сумрачный лес. Утратив правый путь во тьме долины.
Ну, во-первых, со скальным парсером не справился, т.к. не нашел, какой парсер, какой сканер или какой лексер не будет жрать токены, а даст мне самому определить грамматику на уровне букав. Документации-то нету, есть только примитивные примеры, или офигенного размера интерфейсы. Хрен с ним, написал руками, мне всего-то надо учитывать открывающиеся и закрывающиеся скобки.
Во-вторых, обнаружил, довольно поздно, что пидиэф же надо раззиповывать типа. Вздохнул, скачал pdfbox, стал смотреть, чего там. Потом подумал, да ё, мне ж нужен текст, ну-ка я тем же пидиэфбоксом извлеку текст, его и буду сканировать. Ну конечно, сорсы не соответствуют классам, и мейн требует какую-то команду, незадокументированную. А другому мейну нужен ещё какой-то манифест.
И тогда дошло, что самым простым способом извлечения текста из пидиэф является китайский: copy-and-paste.
Тяжело быть русским программистом - вместо того, чтобы по колее фигачить, всё заносит куда-то в сумрачный лес. Утратив правый путь во тьме долины.