• 15 августа 2019, четверг
  • Москва, Оружейный переулок, 41. Офис МегаФон.

Moscow Spark #8

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

1716 дней назад
15 августа 2019 c 19:00 до 22:00
Москва
Оружейный переулок, 41. Офис МегаФон.

Всем привет! Июбрь подошёл к концу и, предвкушая настоящее жаркое лето, мы проводим Moscow Spark #8. В программе у нас, как всегда, много всего интересного и не только про Spark. Новые и закалённые в боях докладчики. Ну и, как обычно, душевный приём, еда и напитки от нашей замечательной площадки.

Как подружить Spark и Hive 3

Ксения Шишканова, архитектор Big Data решений @ Accenture

С версии HortonWorks 3.x метасторы Hive и Spark разделились, и возникла необходимость настраивать интеграцию через LLAP. В рамках доклада мы рассмотрим как поменялся процесс чтения и записи данных, кейсы использования Hive Warehouse Connector, через какие баги и неочевидные вещи нужно пройти, чтобы настроить, казалось бы, элементарный пайплайн обработки данных.

Пишем Spark-приложения в промышленных масштабах: как сделать из прототипа сервис

Арсений Ташоян, инженер Big Data @ МегаФон

Пожалуй, главная фишка Apache Spark – это применимость в равной степени и для исследовательской работы, и для промышленной разработки. Мы делаем быстрые прототипы на Spark, пробуем новые идеи, находим наилучшую модель. Затем мы упаковываем наш код в сервис и выкатываем в production. Тот же самый код, тот же самый Spark. Стоп! Насколько сложно найти и устранить в этом сервисе дефект? А добавить новую функцию? Как насчёт юнит-тестов? А совместим ли этот сервис с версией Spark, установленной в кластере? А можно ли проапгрейдить вон ту библиотечку? На эти и многие другие вопросы мы должны ответить, когда из быстрого прототипа мы делаем сервис коммерческого уровня. Об этом и поговорим.

Python vs Scala для Apache Spark: можно ли сэкономить на железе? 

Дмитрий Бугайченко, инженер-аналитик @ OK.ru

Apache Spark на сегодняшний день является, пожалуй, наиболее популярной платформой для анализа данных большого объема. Немалый вклад в её популярность вносит и возможность использования из-под Python. При этом все сходятся на том, что в рамках стандартного API производительность кода на Python и Scala/Java сопоставима, но касательно пользовательских функций (User Defined Function, UDF) единой точки зрения нет. Попробуем разобраться в том, насколько увеличиваются накладные расходы в этом случае на реалистичных задачах.

We flood empty (data) lakes

Андрей Жуков, главный инженер данных @ С7 Техлаб

Какой стек даталейки модный в этом сезоне? Поговорим об опыте S7 в построении самого лучшего DataLake на свете (спойлер: пятилетку в три года не осилить). Попробуем разобраться с тем, зачем нужен DeltaLake, кому на S3 жить хорошо, кто у данных Steward и Governer, зачем и чем виртуализовывать данные и как не устроить страх и ненависть в КХД.

Как добраться?

Адрес офиса МегаФон – Оружейный переулок, 41. Вход с Садового кольца. Мероприятие будет проходить на 4-м этаже (Атриум).

На 1-м этаже будет регистрация. Для того, чтобы попасть на конференцию необходимо иметь при себе паспорт, после регистрации, следуя указателям подняться на 4-й этаж через лифтовую группу B. На 4-м этаже, также следуя указателям, пройти в атриум.

Партнеры

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше