juan_gandhi: (VP)
[personal profile] juan_gandhi
Вчера притащился на работу еле к пол-одиннадцатого, на стендап; пообещал к пятнице Мурманский полуостров Массачусетс, и сел программировать.

Ну и оказалось, что ни одного целого аккаунта для опытов. Понаписал всем письма, кто может помочь, плюнул на это, переключился на мастер бранч, замержил туда что было и давай разбираться, что там не работало. Одна лавочка уже неделю не парсится; стал глядеть. А у них там укрепили оборону, у них на странице два айфрейма, и в одном из них нужно форму заполнить и кликнуть сабмит.

И вот я оставшееся время, до буквально пять минут назад, трахался с этим всем делом; Селениум на айфрейм почему-то ни хрена не пускает, ну и т.д. Фреймы нормально.

Так; а в полседьмого поехал на встречу наших активистов Скалабея. В Гочи Тапе, японском прибамбасном ресторане, оказалось, что если не зарезервировал так и хренушки. Прямо Нью Йорк какой-то; оставили записку и пошли в Лафонтена на Кастро же. Сидели языками чесали про машин лернинг, про функциональщину, про то, что выступать что-то некому стало. В десятом часу разошлись.

Так что уже не писал никакого дыбра.

Утречком же меня что-то торкнуло почти в пять; встал и дорисовал план лекции про топосную логику; потом позавтракали да пошли по холмам гулять; погода сегодня не жаркая, хорошо. Никого не встретили; нашли только красивое перо птицы, но оно куда-то потерялось, как это обычно происходит.

Потом я позаделывал дефекты покрашенной стенки; высохнет, подмажу-подшкурю, и подкрашу.

На работу притащился в пол-одиннадцатого, но стендапа не было, и пожаловаться на то, что все сломато, некому было. Ну как все сломато. Частично.

Обед принесли на работу, из ближайшей греческой столовки. Я лично употребил хориатики салат и шашлык из баранины; там было еще много всяких видов еды, но мне нельзя.

После обеда до меня дошло - да я вообще обойду все эти формы, пойду прям на нужную страницу - мы ж залогинились уже, так чо.

Не работает. Выкидывает. Бля. Придется изучать вопрос... (гуглить я умею)

Date: 2014-06-11 10:57 pm (UTC)
From: [identity profile] orleanz.livejournal.com
" А у них там укрепили оборону, у них на странице два айфрейма, и в одном из них нужно форму заполнить и кликнуть сабмит.

Поразительно, у меня ровно такие же проблемы на прошлой неделе были. Заполняю Селениумом форму - нихера не заполняется, потому что внутри оказался айфрейм, приходится переключаться в него, тогда работает. Причем после субмита нужно делать switchToDefaulFrame. Но вчера например, пришлось даже третий, вложенный айфрейм извлекать. Я их перебираю все какие есть, на всякий случай, и проверяю наличие нужного мне id ("User_First_Name"), пока не находится айфрейм его содержащий. И это не для защиты, а просто большая серьезная фирма (Ауди), и все делается помпезно и монструозно.

Date: 2014-06-11 11:10 pm (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
Ну это да. Надо обратно, руками. Я метод просто нарисовал, onFrame[T](id)(op:frame=>T)

Но у меня дела хуже - ну вот я переключился, и чо. Я не вижу контента совсем.

Короче, сейчас уже тест нарисовал, посмотрю, как оно хотя бы на файлах себя ведет.

Date: 2014-06-12 08:42 am (UTC)
From: [identity profile] orleanz.livejournal.com
во всяком случае, мне это помогло

http://stackoverflow.com/questions/9042040/switching-between-frames-in-selenium-2-with-php-webdriver

после switch_to_default_content -- работаю с исходным документом.

Date: 2014-06-12 03:19 pm (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
Да, заработало у меня вчера; спасибо.

Date: 2014-06-12 12:10 am (UTC)
From: [identity profile] cema.livejournal.com
Или вот в ДжейКвери: $('#iframeId').contents().whatever()

А чего машин лёрнинг?

Date: 2014-06-12 12:50 am (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
Да матрицы вертят, но сначала трансформируют данные... да я не специалист. В смысле матрицы вертеть я и сам раньше умел; но нынешние науки... плюс NLP...

Ну мы просто сидели за столом во французском ресторане, а так как там по-французски долго обслуживают... даже, блин, хлеб принесли минут через 20, я страдал сидел как этот.

Date: 2014-06-14 02:20 am (UTC)
From: [identity profile] cema.livejournal.com
NLP странная штука.

Хлеб через 20 минут! Может, с собой приносить?

Date: 2014-06-14 03:25 am (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
Знал бы, глюкозу бы хотя бы приволок; а то сидел как пень.

Date: 2014-06-12 06:21 am (UTC)
From: [identity profile] lyuden.livejournal.com
Я в шоке если честно.

У нас парсерами, селениумом и прочим занимаются студенты на полставки, за ту пару парсеров что написали те кто на фуллтайм, нам еще сказали, что фигней занимаетесь, вы типо слишком ценные кадры.



Date: 2014-06-12 03:14 pm (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
У некоторых людей есть такое мнение, что вообще все программирование фигня.

Что не так с парсерами, слишком просто? А если я назову это дело ботом? А если NLP?

Где-то между парсером и НЛП бордюр превратится в поребрик?

Date: 2014-06-12 09:59 pm (UTC)
From: [identity profile] lyuden.livejournal.com
> У некоторых людей есть такое мнение, что вообще все программирование фигня.

Угу. Самые качественные данные добыли менеджеры, договорившись с сайтами - целями.

> Что не так с парсерами, слишком просто?

Много частных случаев. Сложно обобщить. Частые изменения.
Мы те кто в общем то должен уметь обобщать должны решать более вечные вопросы.

> А если я назову это дело ботом?

Ну у нас это тоже роботами называется.

> А если NLP?

NLP это NLP. Под парсингом я скорее понимал очистку данных, перед скармливанием его дальше допустим тому же NLP.

NLTK, насколько я понимаю с чистым HTML не работает он его расстраивает. Ну понятно что я скорее всего не умею его готовить, но очистка, а затем NLP работало гораздо разумнее, те пару раз когда я это делал

Я не про то что это не круто, я про организацию работы скорее, и то что я сижу в какой то Рашке и руковожу студентами которые мучаются с этим селениумом и ифреймами,
а где то через пол шарика есть скала программист знающий непонятные слова, который видимо, в каком то стартапе тоже
возится с ифреймами и селениумом. Типа я актуален.

Тот проект кстати, несмотря на достаточно стройную архитектуру, оптимизированные запросы к БД, continious integration, систему мониторинга и прочие плюшки, сейчас запустить не могут ибо данных либо нет, либо они двоятся, либо как нибудь еще некорректны. Данных нет потому что роботов писали студенты, и сейчас я их как самое страдательное существо , тимлид т.е., дебажу.







Date: 2014-06-12 10:27 pm (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
Так в этом-то и проблема. Студент пришел, студент ушел, после него больше мусора, чем результатов. Вот я и обобщаю. Ввел промежуточные структуры для представления знаний. Организую код так, чтобы было ясно, что не работает, если не работает. И чтобы от легких изменений в раскладке страницы у нас ничего не менялось. В новых парсерах оно у меня просто уже ищет на странице некоторые штуки, например, а где это у нас тут был логин?

Интересная тема, интересная. Мне всяко интереснее, чем оптимизация базы, тем более, что у нас тут на троих три мнения относительно того, как базу организовывать. А мне спорить исключительно лень; делайте вы нахер как хотите, в немутабельные данные вставляйте таймстамп "когда изменено", всякую такую хрень; а у меня будет прокси, чтоб код не засорять.

Profile

juan_gandhi: (Default)
Juan-Carlos Gandhi

September 2025

S M T W T F S
 1 2345 6
78 9 10 111213
14 151617181920
21222324252627
282930    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 17th, 2025 05:00 am
Powered by Dreamwidth Studios