дыбр за полтора дня
Jun. 11th, 2014 02:25 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Вчера притащился на работу еле к пол-одиннадцатого, на стендап; пообещал к пятнице Мурманский полуостров Массачусетс, и сел программировать.
Ну и оказалось, что ни одного целого аккаунта для опытов. Понаписал всем письма, кто может помочь, плюнул на это, переключился на мастер бранч, замержил туда что было и давай разбираться, что там не работало. Одна лавочка уже неделю не парсится; стал глядеть. А у них там укрепили оборону, у них на странице два айфрейма, и в одном из них нужно форму заполнить и кликнуть сабмит.
И вот я оставшееся время, до буквально пять минут назад, трахался с этим всем делом; Селениум на айфрейм почему-то ни хрена не пускает, ну и т.д. Фреймы нормально.
Так; а в полседьмого поехал на встречу наших активистов Скалабея. В Гочи Тапе, японском прибамбасном ресторане, оказалось, что если не зарезервировал так и хренушки. Прямо Нью Йорк какой-то; оставили записку и пошли в Лафонтена на Кастро же. Сидели языками чесали про машин лернинг, про функциональщину, про то, что выступать что-то некому стало. В десятом часу разошлись.
Так что уже не писал никакого дыбра.
Утречком же меня что-то торкнуло почти в пять; встал и дорисовал план лекции про топосную логику; потом позавтракали да пошли по холмам гулять; погода сегодня не жаркая, хорошо. Никого не встретили; нашли только красивое перо птицы, но оно куда-то потерялось, как это обычно происходит.
Потом я позаделывал дефекты покрашенной стенки; высохнет, подмажу-подшкурю, и подкрашу.
На работу притащился в пол-одиннадцатого, но стендапа не было, и пожаловаться на то, что все сломато, некому было. Ну как все сломато. Частично.
Обед принесли на работу, из ближайшей греческой столовки. Я лично употребил хориатики салат и шашлык из баранины; там было еще много всяких видов еды, но мне нельзя.
После обеда до меня дошло - да я вообще обойду все эти формы, пойду прям на нужную страницу - мы ж залогинились уже, так чо.
Не работает. Выкидывает. Бля. Придется изучать вопрос... (гуглить я умею)
Ну и оказалось, что ни одного целого аккаунта для опытов. Понаписал всем письма, кто может помочь, плюнул на это, переключился на мастер бранч, замержил туда что было и давай разбираться, что там не работало. Одна лавочка уже неделю не парсится; стал глядеть. А у них там укрепили оборону, у них на странице два айфрейма, и в одном из них нужно форму заполнить и кликнуть сабмит.
И вот я оставшееся время, до буквально пять минут назад, трахался с этим всем делом; Селениум на айфрейм почему-то ни хрена не пускает, ну и т.д. Фреймы нормально.
Так; а в полседьмого поехал на встречу наших активистов Скалабея. В Гочи Тапе, японском прибамбасном ресторане, оказалось, что если не зарезервировал так и хренушки. Прямо Нью Йорк какой-то; оставили записку и пошли в Лафонтена на Кастро же. Сидели языками чесали про машин лернинг, про функциональщину, про то, что выступать что-то некому стало. В десятом часу разошлись.
Так что уже не писал никакого дыбра.
Утречком же меня что-то торкнуло почти в пять; встал и дорисовал план лекции про топосную логику; потом позавтракали да пошли по холмам гулять; погода сегодня не жаркая, хорошо. Никого не встретили; нашли только красивое перо птицы, но оно куда-то потерялось, как это обычно происходит.
Потом я позаделывал дефекты покрашенной стенки; высохнет, подмажу-подшкурю, и подкрашу.
На работу притащился в пол-одиннадцатого, но стендапа не было, и пожаловаться на то, что все сломато, некому было. Ну как все сломато. Частично.
Обед принесли на работу, из ближайшей греческой столовки. Я лично употребил хориатики салат и шашлык из баранины; там было еще много всяких видов еды, но мне нельзя.
После обеда до меня дошло - да я вообще обойду все эти формы, пойду прям на нужную страницу - мы ж залогинились уже, так чо.
Не работает. Выкидывает. Бля. Придется изучать вопрос... (гуглить я умею)
no subject
Date: 2014-06-12 06:21 am (UTC)У нас парсерами, селениумом и прочим занимаются студенты на полставки, за ту пару парсеров что написали те кто на фуллтайм, нам еще сказали, что фигней занимаетесь, вы типо слишком ценные кадры.
no subject
Date: 2014-06-12 03:14 pm (UTC)Что не так с парсерами, слишком просто? А если я назову это дело ботом? А если NLP?
Где-то между парсером и НЛП бордюр превратится в поребрик?
no subject
Date: 2014-06-12 09:59 pm (UTC)Угу. Самые качественные данные добыли менеджеры, договорившись с сайтами - целями.
> Что не так с парсерами, слишком просто?
Много частных случаев. Сложно обобщить. Частые изменения.
Мы те кто в общем то должен уметь обобщать должны решать более вечные вопросы.
> А если я назову это дело ботом?
Ну у нас это тоже роботами называется.
> А если NLP?
NLP это NLP. Под парсингом я скорее понимал очистку данных, перед скармливанием его дальше допустим тому же NLP.
NLTK, насколько я понимаю с чистым HTML не работает он его расстраивает. Ну понятно что я скорее всего не умею его готовить, но очистка, а затем NLP работало гораздо разумнее, те пару раз когда я это делал
Я не про то что это не круто, я про организацию работы скорее, и то что я сижу в какой то Рашке и руковожу студентами которые мучаются с этим селениумом и ифреймами,
а где то через пол шарика есть скала программист знающий непонятные слова, который видимо, в каком то стартапе тоже
возится с ифреймами и селениумом. Типа я актуален.
Тот проект кстати, несмотря на достаточно стройную архитектуру, оптимизированные запросы к БД, continious integration, систему мониторинга и прочие плюшки, сейчас запустить не могут ибо данных либо нет, либо они двоятся, либо как нибудь еще некорректны. Данных нет потому что роботов писали студенты, и сейчас я их как самое страдательное существо , тимлид т.е., дебажу.
no subject
Date: 2014-06-12 10:27 pm (UTC)Интересная тема, интересная. Мне всяко интереснее, чем оптимизация базы, тем более, что у нас тут на троих три мнения относительно того, как базу организовывать. А мне спорить исключительно лень; делайте вы нахер как хотите, в немутабельные данные вставляйте таймстамп "когда изменено", всякую такую хрень; а у меня будет прокси, чтоб код не засорять.