Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.
Всем привет! Июбрь подошёл к концу и, предвкушая настоящее жаркое лето, мы проводим Moscow Spark #8. В программе у нас, как всегда, много всего интересного и не только про Spark. Новые и закалённые в боях докладчики. Ну и, как обычно, душевный приём, еда и напитки от нашей замечательной площадки.
Как подружить Spark и Hive 3
Ксения Шишканова, архитектор Big Data решений @ Accenture
С версии HortonWorks 3.x метасторы Hive и Spark разделились, и возникла необходимость настраивать интеграцию через LLAP. В рамках доклада мы рассмотрим как поменялся процесс чтения и записи данных, кейсы использования Hive Warehouse Connector, через какие баги и неочевидные вещи нужно пройти, чтобы настроить, казалось бы, элементарный пайплайн обработки данных.
Пишем Spark-приложения в промышленных масштабах: как сделать из прототипа сервис
Арсений Ташоян, инженер Big Data @ МегаФон
Пожалуй, главная фишка Apache Spark – это применимость в равной степени и для исследовательской работы, и для промышленной разработки. Мы делаем быстрые прототипы на Spark, пробуем новые идеи, находим наилучшую модель. Затем мы упаковываем наш код в сервис и выкатываем в production. Тот же самый код, тот же самый Spark. Стоп! Насколько сложно найти и устранить в этом сервисе дефект? А добавить новую функцию? Как насчёт юнит-тестов? А совместим ли этот сервис с версией Spark, установленной в кластере? А можно ли проапгрейдить вон ту библиотечку? На эти и многие другие вопросы мы должны ответить, когда из быстрого прототипа мы делаем сервис коммерческого уровня. Об этом и поговорим.
Python vs Scala для Apache Spark: можно ли сэкономить на железе?
Дмитрий Бугайченко, инженер-аналитик @ OK.ru
Apache Spark на сегодняшний день является, пожалуй, наиболее популярной платформой для анализа данных большого объема. Немалый вклад в её популярность вносит и возможность использования из-под Python. При этом все сходятся на том, что в рамках стандартного API производительность кода на Python и Scala/Java сопоставима, но касательно пользовательских функций (User Defined Function, UDF) единой точки зрения нет. Попробуем разобраться в том, насколько увеличиваются накладные расходы в этом случае на реалистичных задачах.
We flood empty (data) lakes
Андрей Жуков, главный инженер данных @ С7 Техлаб
Какой стек даталейки модный в этом сезоне? Поговорим об опыте S7 в построении самого лучшего DataLake на свете (спойлер: пятилетку в три года не осилить). Попробуем разобраться с тем, зачем нужен DeltaLake, кому на S3 жить хорошо, кто у данных Steward и Governer, зачем и чем виртуализовывать данные и как не устроить страх и ненависть в КХД.
Как добраться?
На 1-м этаже будет регистрация. Для того, чтобы попасть на конференцию необходимо иметь при себе паспорт, после регистрации, следуя указателям подняться на 4-й этаж через лифтовую группу B. На 4-м этаже, также следуя указателям, пройти в атриум.