Относно изпита - задача "Watermarks detection"

Спрях се на решаване на задачата предложена от Данчо - Watermarks detection, така че въпросите са ми главно към него, но пиша тук за да може и ако някой друг се чуди и на него да му стане ясно:

1. Размера на сета за терниране на алгоритъма не по-голям от 500 000 изображения това ок, но от къде? Рових се из нета за такъв готов и нещо не успявам да намеря или са много по-малки 20 000 бр. с нормална резолюция или са много изображения но с малка резолюция 32*32 което предполагам няма да свърши работа.

2. Тези сетове, готовите не са с водни знаци, но да предположим че по някакъв начин на част от тях сложим. Въпроса е дали някъде има готов такъв сет?

3. Обмислях и въпроса за scraping, но незнам дали няма да се пренатовари сървара на сайта поне на мен 500 000 заявки за теглене на изображения ми се виждат много и може да стане проблем. Предполагам че ако се вгради някакъв таймер, който да регулира броя на заявките в минута ще е ок, но на колко да е той, така че да е ок 60/500/1000 в минута? Ако числото е търде малко това това ще отнеме твърде много време(60 в минута за да достигме 500 000 са над 130 часа).

4. При оценяване как ще бъдат подавани изображенията като масив от jpg файлове или като текстов файл в който има масиви от пиксели? Трябва ли да се погрижим за някакво конвертиране? Тоест ще окажеш път към папка с изображения или към текстови файл?

Благодаря за отговорите.