Feb. 14th, 2013

juan_gandhi: (VP)
Сегодня устыдился безобразия, при котором я получаемый html, довольно фиксированной структуры, парсю регекспом, и переписал на скальный XML; ну тут сразу выяснилось, что, как и у [livejournal.com profile] ygamа, эчтиэмэль мой совершенно невалидный; поэтому перед парсингом стал его шкрябать, просто выкидывая предисловие и <meta>; ну и вот. Но тот код, что производит html из pdf, у меня в нём была вставлена нычка, чтобы кусочки внутри параграфа разделять с помощью nbsp, &#160; ну а эти энтити скальный парсер как-то не понимает (он думает, у него аски, а у него не аски, ну и т.д.); поэтому я заменил разделитель кусочеков на простую палочку |, чеченскую букву, можно сказать.

И вот, получая текст, я писал val fragments = text split separator, и я поменял сепаратор с "0xa0" на "|". Ну и шо бы вы думали? При наличии недостаточного количества юниттестов, показывающих каждому его дурость, я провёл приятные полдня, пытаясь понять, какого хрена у меня текст теперь разбивается не на фрагменты, а на буквы.

(подсказка под кутом)
Read more... )

Profile

juan_gandhi: (Default)
Juan-Carlos Gandhi

August 2025

S M T W T F S
      12
3456789
10 11 12 13141516
171819 20212223
24252627282930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Aug. 24th, 2025 10:31 am
Powered by Dreamwidth Studios