задача с интервью
Jan. 19th, 2010 04:44 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Есть огромный диск (ну типа gfs); там миллионы фолдеров, короче, большое дерево. Надо построить график, по оси X дата, по оси Y сколько файлов модифицировано в тот день.
Есть несколько машин. Организуйте производство. В смысле, чтобы они трудились эффективно и произвели нужный результат за осмысленное время.
Есть несколько машин. Организуйте производство. В смысле, чтобы они трудились эффективно и произвели нужный результат за осмысленное время.
no subject
Date: 2010-01-20 01:11 am (UTC)no subject
Date: 2010-01-20 01:44 am (UTC)no subject
Date: 2010-01-20 02:20 am (UTC)no subject
Date: 2010-01-20 02:25 am (UTC)wfs - это width first search
Я, кстати, не верю, что будет всё равно, читать ли директории с одной машины или с кучи машин.
no subject
Date: 2010-01-20 08:35 pm (UTC)no subject
Date: 2010-01-20 09:31 pm (UTC)no subject
Date: 2010-01-20 01:12 am (UTC)я бы делал так:
главный процесс раздаёт фолдеры всем машинам из очереди (начальный стейт очереди "/" (root)) ,
на каждой машине клиентский процесс берет фолдер из раздатчика, траверсит, файлы добавляет в локальный мап date/number, фолдеры отдаёт распределяющему процессу.
как очередь кончится, все процессы отдают мапы главному для слияния по датам.
главный процесс может ранниться на одной машине с клиентским, остальные машины - только клиентский.
no subject
Date: 2010-01-20 01:45 am (UTC)no subject
Date: 2010-01-20 03:12 am (UTC)обычный find first/find next только последовательный
no subject
Date: 2010-01-20 01:48 am (UTC)если студент прослушал курс по параллельным системам, он сразу же ответит.
no subject
Date: 2010-01-20 02:26 am (UTC)no subject
Date: 2010-01-20 02:43 pm (UTC)no subject
Date: 2010-01-20 02:46 pm (UTC)no subject
Date: 2010-01-20 02:55 pm (UTC)no subject
Date: 2010-01-20 02:06 am (UTC)no subject
Date: 2010-01-20 02:07 am (UTC)no subject
Date: 2010-01-20 03:21 am (UTC)network drive с несколькими клиентами?
сканируем фолдер, если попался сабфолдер - выкладываем в общую очередь. файлы процессим. по исчерпанию - лезем в общую очередь за очередным фолдером.
no subject
Date: 2010-01-20 06:16 am (UTC)no subject
Date: 2010-01-20 07:40 am (UTC)no subject
Date: 2010-01-20 07:46 pm (UTC)no subject
Date: 2010-01-20 04:02 am (UTC)Re: у GFS директории уже не поделены между машинами?
Date: 2010-01-20 03:36 pm (UTC)По следам GFS: Evolution on Fast-forward:
А метаданные живут под одним мастером на одной ячейке.
А мастер, как известно, загибается.
Зато есть мультиячейки.
no subject
Date: 2010-01-20 04:29 am (UTC)Re: map-reduce обычный?
Date: 2010-01-20 02:53 pm (UTC)http://www.h-online.com/open/news/item/Google-patents-Map-Reduce-908602.html
Re: map-reduce обычный?
Date: 2010-01-20 03:38 pm (UTC)PS: хочется верить, что это действительно defensive.
Re: Как можно запатентовать то, что ты не изобрел
Date: 2010-01-20 03:53 pm (UTC)История кишит такими примерами.
Кто успел, тот и съел!
Ну, дык, они заявляют, что они - белые и пушистые, что никому зла не желают, починяют примус...
А там, конечно, посмотрим, может это - своеобразная форма американского юмора.
Re: Как можно запатентовать то, что ты не изобрел
Date: 2010-01-20 03:59 pm (UTC)no subject
Date: 2010-01-20 02:45 pm (UTC)Это задача на организацию эффективного storage, или задача "как эффективно посчитать количество меченных вершин в дереве"?
Кстати, а симлинки есть?
Re: Кстати, а симлинки есть?
Date: 2010-01-20 03:00 pm (UTC)no subject
Date: 2010-01-31 11:33 am (UTC)