скорость чтения с диска быстрее, чем машины обрабатывают? если нет, лучше одной машиной последовательно читать, чем параллелить и вызывать лишний random seek.
я бы делал так: главный процесс раздаёт фолдеры всем машинам из очереди (начальный стейт очереди "/" (root)) , на каждой машине клиентский процесс берет фолдер из раздатчика, траверсит, файлы добавляет в локальный мап date/number, фолдеры отдаёт распределяющему процессу. как очередь кончится, все процессы отдают мапы главному для слияния по датам. главный процесс может ранниться на одной машине с клиентским, остальные машины - только клиентский.
no subject
Date: 2010-01-20 01:12 am (UTC)я бы делал так:
главный процесс раздаёт фолдеры всем машинам из очереди (начальный стейт очереди "/" (root)) ,
на каждой машине клиентский процесс берет фолдер из раздатчика, траверсит, файлы добавляет в локальный мап date/number, фолдеры отдаёт распределяющему процессу.
как очередь кончится, все процессы отдают мапы главному для слияния по датам.
главный процесс может ранниться на одной машине с клиентским, остальные машины - только клиентский.