Feb. 14th, 2013

juan_gandhi: (VP)
Сегодня устыдился безобразия, при котором я получаемый html, довольно фиксированной структуры, парсю регекспом, и переписал на скальный XML; ну тут сразу выяснилось, что, как и у [livejournal.com profile] ygamа, эчтиэмэль мой совершенно невалидный; поэтому перед парсингом стал его шкрябать, просто выкидывая предисловие и <meta>; ну и вот. Но тот код, что производит html из pdf, у меня в нём была вставлена нычка, чтобы кусочки внутри параграфа разделять с помощью nbsp, &#160; ну а эти энтити скальный парсер как-то не понимает (он думает, у него аски, а у него не аски, ну и т.д.); поэтому я заменил разделитель кусочеков на простую палочку |, чеченскую букву, можно сказать.

И вот, получая текст, я писал val fragments = text split separator, и я поменял сепаратор с "0xa0" на "|". Ну и шо бы вы думали? При наличии недостаточного количества юниттестов, показывающих каждому его дурость, я провёл приятные полдня, пытаясь понять, какого хрена у меня текст теперь разбивается не на фрагменты, а на буквы.

(подсказка под кутом)
Read more... )

Profile

juan_gandhi: (Default)
Juan-Carlos Gandhi

October 2025

S M T W T F S
    1 23 4
5 678 9 1011
12 13 1415 161718
1920 2122 23 2425
26 2728 293031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Oct. 31st, 2025 01:48 am
Powered by Dreamwidth Studios