Нужно программа для обработки файлов прайсов форматов в форматах xls, xlsx, csv, txt. совокупный объем уникальных строк находится в пределах от 0,5 до 1 млн строк. Неуникальных строк всего - 3-5млн.
Все файлы содержат одинаковые данными, но в различном порядке. Иногда файлы лежат в виде архива. Для каждого файла обрабатываемого отдельный блок настроек - что за файл, из каких строк что брать.
в процессе обработки нужно сделать следующие действия (порядок не строгий, будет согласован на финальном обсуждении задачи от алгоритма обработки):
1. Считать 4-10 файлов разных форматов из заданной папки в единый массив
2. выполнить унификацию данных, содержащих наименования производителей
3. Объединить полученные идентичные строки по идентичным признакам (например, если один и тот же товар встречается дважды, то его количества сложить, стоимость взять среднюю или наименьшую)
4. по полученным данным рассчитать значения по заданным формулам.
5. Всю информацию сохранить в базе данных и настроить возможность получения отчетов из этой базы с возможностью их сохранения в виде xlsx иди csv файлов. (пример отчета и мое понимание необходимой структуры базы данных предоставлю)
Основное требование к программе - скорость обработки до 5минут, задействовать по максимуму все ядра процессора и оперативную память. На каком языке будет написана не принципиально - главное скорость, в код я сам лезть не намерен.
Второе - какой-то простой интерфейс чтобы формировать отчеты по заданным параметрам.