juan_gandhi | (Reply)

From:

softmaster.livejournal.com

скорость чтения с диска быстрее, чем машины обрабатывают? если нет, лучше одной машиной последовательно читать, чем параллелить и вызывать лишний random seek.

я бы делал так:
главный процесс раздаёт фолдеры всем машинам из очереди (начальный стейт очереди "/" (root)) ,
на каждой машине клиентский процесс берет фолдер из раздатчика, траверсит, файлы добавляет в локальный мап date/number, фолдеры отдаёт распределяющему процессу.
как очередь кончится, все процессы отдают мапы главному для слияния по датам.
главный процесс может ранниться на одной машине с клиентским, остальные машины - только клиентский.