Feb. 14th, 2013
regesp, nuclear lice!
Feb. 14th, 2013 10:41 pmСегодня устыдился безобразия, при котором я получаемый html, довольно фиксированной структуры, парсю регекспом, и переписал на скальный XML; ну тут сразу выяснилось, что, как и у
ygamа, эчтиэмэль мой совершенно невалидный; поэтому перед парсингом стал его шкрябать, просто выкидывая предисловие и <meta>; ну и вот. Но тот код, что производит html из pdf, у меня в нём была вставлена нычка, чтобы кусочки внутри параграфа разделять с помощью nbsp,   ну а эти энтити скальный парсер как-то не понимает (он думает, у него аски, а у него не аски, ну и т.д.); поэтому я заменил разделитель кусочеков на простую палочку |, чеченскую букву, можно сказать.
И вот, получая текст, я писал
(подсказка под кутом)
( Read more... )
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
И вот, получая текст, я писал
val fragments = text split separator
, и я поменял сепаратор с "0xa0" на "|". Ну и шо бы вы думали? При наличии недостаточного количества юниттестов, показывающих каждому его дурость, я провёл приятные полдня, пытаясь понять, какого хрена у меня текст теперь разбивается не на фрагменты, а на буквы.(подсказка под кутом)
( Read more... )