Juan-Carlos Gandhi (
juan_gandhi) wrote2014-06-11 02:25 pm
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Entry tags:
дыбр за полтора дня
Вчера притащился на работу еле к пол-одиннадцатого, на стендап; пообещал к пятнице Мурманский полуостров Массачусетс, и сел программировать.
Ну и оказалось, что ни одного целого аккаунта для опытов. Понаписал всем письма, кто может помочь, плюнул на это, переключился на мастер бранч, замержил туда что было и давай разбираться, что там не работало. Одна лавочка уже неделю не парсится; стал глядеть. А у них там укрепили оборону, у них на странице два айфрейма, и в одном из них нужно форму заполнить и кликнуть сабмит.
И вот я оставшееся время, до буквально пять минут назад, трахался с этим всем делом; Селениум на айфрейм почему-то ни хрена не пускает, ну и т.д. Фреймы нормально.
Так; а в полседьмого поехал на встречу наших активистов Скалабея. В Гочи Тапе, японском прибамбасном ресторане, оказалось, что если не зарезервировал так и хренушки. Прямо Нью Йорк какой-то; оставили записку и пошли в Лафонтена на Кастро же. Сидели языками чесали про машин лернинг, про функциональщину, про то, что выступать что-то некому стало. В десятом часу разошлись.
Так что уже не писал никакого дыбра.
Утречком же меня что-то торкнуло почти в пять; встал и дорисовал план лекции про топосную логику; потом позавтракали да пошли по холмам гулять; погода сегодня не жаркая, хорошо. Никого не встретили; нашли только красивое перо птицы, но оно куда-то потерялось, как это обычно происходит.
Потом я позаделывал дефекты покрашенной стенки; высохнет, подмажу-подшкурю, и подкрашу.
На работу притащился в пол-одиннадцатого, но стендапа не было, и пожаловаться на то, что все сломато, некому было. Ну как все сломато. Частично.
Обед принесли на работу, из ближайшей греческой столовки. Я лично употребил хориатики салат и шашлык из баранины; там было еще много всяких видов еды, но мне нельзя.
После обеда до меня дошло - да я вообще обойду все эти формы, пойду прям на нужную страницу - мы ж залогинились уже, так чо.
Не работает. Выкидывает. Бля. Придется изучать вопрос... (гуглить я умею)
Ну и оказалось, что ни одного целого аккаунта для опытов. Понаписал всем письма, кто может помочь, плюнул на это, переключился на мастер бранч, замержил туда что было и давай разбираться, что там не работало. Одна лавочка уже неделю не парсится; стал глядеть. А у них там укрепили оборону, у них на странице два айфрейма, и в одном из них нужно форму заполнить и кликнуть сабмит.
И вот я оставшееся время, до буквально пять минут назад, трахался с этим всем делом; Селениум на айфрейм почему-то ни хрена не пускает, ну и т.д. Фреймы нормально.
Так; а в полседьмого поехал на встречу наших активистов Скалабея. В Гочи Тапе, японском прибамбасном ресторане, оказалось, что если не зарезервировал так и хренушки. Прямо Нью Йорк какой-то; оставили записку и пошли в Лафонтена на Кастро же. Сидели языками чесали про машин лернинг, про функциональщину, про то, что выступать что-то некому стало. В десятом часу разошлись.
Так что уже не писал никакого дыбра.
Утречком же меня что-то торкнуло почти в пять; встал и дорисовал план лекции про топосную логику; потом позавтракали да пошли по холмам гулять; погода сегодня не жаркая, хорошо. Никого не встретили; нашли только красивое перо птицы, но оно куда-то потерялось, как это обычно происходит.
Потом я позаделывал дефекты покрашенной стенки; высохнет, подмажу-подшкурю, и подкрашу.
На работу притащился в пол-одиннадцатого, но стендапа не было, и пожаловаться на то, что все сломато, некому было. Ну как все сломато. Частично.
Обед принесли на работу, из ближайшей греческой столовки. Я лично употребил хориатики салат и шашлык из баранины; там было еще много всяких видов еды, но мне нельзя.
После обеда до меня дошло - да я вообще обойду все эти формы, пойду прям на нужную страницу - мы ж залогинились уже, так чо.
Не работает. Выкидывает. Бля. Придется изучать вопрос... (гуглить я умею)
no subject
У нас парсерами, селениумом и прочим занимаются студенты на полставки, за ту пару парсеров что написали те кто на фуллтайм, нам еще сказали, что фигней занимаетесь, вы типо слишком ценные кадры.
no subject
Что не так с парсерами, слишком просто? А если я назову это дело ботом? А если NLP?
Где-то между парсером и НЛП бордюр превратится в поребрик?
no subject
Угу. Самые качественные данные добыли менеджеры, договорившись с сайтами - целями.
> Что не так с парсерами, слишком просто?
Много частных случаев. Сложно обобщить. Частые изменения.
Мы те кто в общем то должен уметь обобщать должны решать более вечные вопросы.
> А если я назову это дело ботом?
Ну у нас это тоже роботами называется.
> А если NLP?
NLP это NLP. Под парсингом я скорее понимал очистку данных, перед скармливанием его дальше допустим тому же NLP.
NLTK, насколько я понимаю с чистым HTML не работает он его расстраивает. Ну понятно что я скорее всего не умею его готовить, но очистка, а затем NLP работало гораздо разумнее, те пару раз когда я это делал
Я не про то что это не круто, я про организацию работы скорее, и то что я сижу в какой то Рашке и руковожу студентами которые мучаются с этим селениумом и ифреймами,
а где то через пол шарика есть скала программист знающий непонятные слова, который видимо, в каком то стартапе тоже
возится с ифреймами и селениумом. Типа я актуален.
Тот проект кстати, несмотря на достаточно стройную архитектуру, оптимизированные запросы к БД, continious integration, систему мониторинга и прочие плюшки, сейчас запустить не могут ибо данных либо нет, либо они двоятся, либо как нибудь еще некорректны. Данных нет потому что роботов писали студенты, и сейчас я их как самое страдательное существо , тимлид т.е., дебажу.
no subject
Интересная тема, интересная. Мне всяко интереснее, чем оптимизация базы, тем более, что у нас тут на троих три мнения относительно того, как базу организовывать. А мне спорить исключительно лень; делайте вы нахер как хотите, в немутабельные данные вставляйте таймстамп "когда изменено", всякую такую хрень; а у меня будет прокси, чтоб код не засорять.