juan_gandhi: (VP)
[personal profile] juan_gandhi
Вчера притащился на работу еле к пол-одиннадцатого, на стендап; пообещал к пятнице Мурманский полуостров Массачусетс, и сел программировать.

Ну и оказалось, что ни одного целого аккаунта для опытов. Понаписал всем письма, кто может помочь, плюнул на это, переключился на мастер бранч, замержил туда что было и давай разбираться, что там не работало. Одна лавочка уже неделю не парсится; стал глядеть. А у них там укрепили оборону, у них на странице два айфрейма, и в одном из них нужно форму заполнить и кликнуть сабмит.

И вот я оставшееся время, до буквально пять минут назад, трахался с этим всем делом; Селениум на айфрейм почему-то ни хрена не пускает, ну и т.д. Фреймы нормально.

Так; а в полседьмого поехал на встречу наших активистов Скалабея. В Гочи Тапе, японском прибамбасном ресторане, оказалось, что если не зарезервировал так и хренушки. Прямо Нью Йорк какой-то; оставили записку и пошли в Лафонтена на Кастро же. Сидели языками чесали про машин лернинг, про функциональщину, про то, что выступать что-то некому стало. В десятом часу разошлись.

Так что уже не писал никакого дыбра.

Утречком же меня что-то торкнуло почти в пять; встал и дорисовал план лекции про топосную логику; потом позавтракали да пошли по холмам гулять; погода сегодня не жаркая, хорошо. Никого не встретили; нашли только красивое перо птицы, но оно куда-то потерялось, как это обычно происходит.

Потом я позаделывал дефекты покрашенной стенки; высохнет, подмажу-подшкурю, и подкрашу.

На работу притащился в пол-одиннадцатого, но стендапа не было, и пожаловаться на то, что все сломато, некому было. Ну как все сломато. Частично.

Обед принесли на работу, из ближайшей греческой столовки. Я лично употребил хориатики салат и шашлык из баранины; там было еще много всяких видов еды, но мне нельзя.

После обеда до меня дошло - да я вообще обойду все эти формы, пойду прям на нужную страницу - мы ж залогинились уже, так чо.

Не работает. Выкидывает. Бля. Придется изучать вопрос... (гуглить я умею)

Date: 2014-06-12 06:21 am (UTC)
From: [identity profile] lyuden.livejournal.com
Я в шоке если честно.

У нас парсерами, селениумом и прочим занимаются студенты на полставки, за ту пару парсеров что написали те кто на фуллтайм, нам еще сказали, что фигней занимаетесь, вы типо слишком ценные кадры.



Date: 2014-06-12 03:14 pm (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
У некоторых людей есть такое мнение, что вообще все программирование фигня.

Что не так с парсерами, слишком просто? А если я назову это дело ботом? А если NLP?

Где-то между парсером и НЛП бордюр превратится в поребрик?

Date: 2014-06-12 09:59 pm (UTC)
From: [identity profile] lyuden.livejournal.com
> У некоторых людей есть такое мнение, что вообще все программирование фигня.

Угу. Самые качественные данные добыли менеджеры, договорившись с сайтами - целями.

> Что не так с парсерами, слишком просто?

Много частных случаев. Сложно обобщить. Частые изменения.
Мы те кто в общем то должен уметь обобщать должны решать более вечные вопросы.

> А если я назову это дело ботом?

Ну у нас это тоже роботами называется.

> А если NLP?

NLP это NLP. Под парсингом я скорее понимал очистку данных, перед скармливанием его дальше допустим тому же NLP.

NLTK, насколько я понимаю с чистым HTML не работает он его расстраивает. Ну понятно что я скорее всего не умею его готовить, но очистка, а затем NLP работало гораздо разумнее, те пару раз когда я это делал

Я не про то что это не круто, я про организацию работы скорее, и то что я сижу в какой то Рашке и руковожу студентами которые мучаются с этим селениумом и ифреймами,
а где то через пол шарика есть скала программист знающий непонятные слова, который видимо, в каком то стартапе тоже
возится с ифреймами и селениумом. Типа я актуален.

Тот проект кстати, несмотря на достаточно стройную архитектуру, оптимизированные запросы к БД, continious integration, систему мониторинга и прочие плюшки, сейчас запустить не могут ибо данных либо нет, либо они двоятся, либо как нибудь еще некорректны. Данных нет потому что роботов писали студенты, и сейчас я их как самое страдательное существо , тимлид т.е., дебажу.







Date: 2014-06-12 10:27 pm (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
Так в этом-то и проблема. Студент пришел, студент ушел, после него больше мусора, чем результатов. Вот я и обобщаю. Ввел промежуточные структуры для представления знаний. Организую код так, чтобы было ясно, что не работает, если не работает. И чтобы от легких изменений в раскладке страницы у нас ничего не менялось. В новых парсерах оно у меня просто уже ищет на странице некоторые штуки, например, а где это у нас тут был логин?

Интересная тема, интересная. Мне всяко интереснее, чем оптимизация базы, тем более, что у нас тут на троих три мнения относительно того, как базу организовывать. А мне спорить исключительно лень; делайте вы нахер как хотите, в немутабельные данные вставляйте таймстамп "когда изменено", всякую такую хрень; а у меня будет прокси, чтоб код не засорять.

Profile

juan_gandhi: (Default)
Juan-Carlos Gandhi

September 2025

S M T W T F S
 1 2345 6
78 9 10 111213
14 151617181920
21222324252627
282930    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 16th, 2025 05:26 pm
Powered by Dreamwidth Studios