2013-02-14

juan_gandhi: (VP)
2013-02-14 10:41 pm

regesp, nuclear lice!

Сегодня устыдился безобразия, при котором я получаемый html, довольно фиксированной структуры, парсю регекспом, и переписал на скальный XML; ну тут сразу выяснилось, что, как и у [livejournal.com profile] ygamа, эчтиэмэль мой совершенно невалидный; поэтому перед парсингом стал его шкрябать, просто выкидывая предисловие и <meta>; ну и вот. Но тот код, что производит html из pdf, у меня в нём была вставлена нычка, чтобы кусочки внутри параграфа разделять с помощью nbsp, &#160; ну а эти энтити скальный парсер как-то не понимает (он думает, у него аски, а у него не аски, ну и т.д.); поэтому я заменил разделитель кусочеков на простую палочку |, чеченскую букву, можно сказать.

И вот, получая текст, я писал val fragments = text split separator, и я поменял сепаратор с "0xa0" на "|". Ну и шо бы вы думали? При наличии недостаточного количества юниттестов, показывающих каждому его дурость, я провёл приятные полдня, пытаясь понять, какого хрена у меня текст теперь разбивается не на фрагменты, а на буквы.

(подсказка под кутом)
Read more... )