На митапе обсудим, как оптимизировать обработку больших данных, минимизировать нагрузку на вычислительную среду и улучшить качество данных.
Вы узнаете о подходах к реализации ежедневной обработки петабайтного массива данных без shuffle, новых оптимизациях Apache Spark для повышения производительности ETL и эффективных методах DQ-проверок в DataLakeHouse.
Мероприятие будет полезно инженерам данных и аналитикам, работающим с большими объёмами данных и стремящимся к оптимизации ETL-процессов.
Расписание:
16:30 Сбор участников
17:00 Начало
17:10 Эволюция ежедневного расчёта на 1 Пб данных: от ClickHouse к shuffle-free Spark (Петр Югай, Руководитель группы разработки аналитических решений, Честный ЗНАК)
17:50 Кофе-брейк
18:00 Демократизация DQ-проверок в DataLakeHouse (Сергей Шеремета, Staff DWH Engineer, AliExpress Russia)
18:30 Перерыв
18:40 Использование оптимизаций Apache Spark. Storage-Partitioned Join и ее производные в регулярных ETL (Дмитрий Вертлиб, Ведущий программист разработчик, Честный ЗНАК)
19:10 Нетворкинг и афтепати.
Присоединяйтесь к нашему телеграмм каналу чтобы быть в курсе всех новостей по мероприятию:
https://t.me/chestnyznak_bigdata
Также в канале будет ссылка на трансляцию.
Напоминаем, что для того чтобы восстановить билет организатору можно не писать.
Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.