Новости по тегу "bigdata"
Подборка публикаций, содержащих тег "bigdata". Актуальные темы и важные события.

Соединение SortMergeJoin в Apache Spark
Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика...

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице
Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. Один из наших ключевых инструментов – M42, сервис для...

Построение платформы данных: подход и стек
Привет, меня зовут Ольга, и в этой статья я хочу поделиться с вами опытом по выбору стека для построения решений в области данных. Как CDO я...

RAG‑агент для автоматизации инцидент‑менеджмента
Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со...

SRE в инженерии данных: профессия и ее перспективы
Всем привет! Меня зовут Александр Андреев, я старший SRE инженер данных. Сегодня я хочу рассказать о необычной, но набирающей обороты роли в...

Китайская ИИ-революция и развитие BI: чему нам стоит поучиться
Привет, Хабр! На связи Business Intelligence GlowByte. Три года назад мы в GlowByte провели первую конференцию, на которой рассказали о китайском...

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса
Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и...

Максимизация производительности ScyllaDB
ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что...

Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов
В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования...

Пакетная репликация данных в аналитическом ландшафте ХД
Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и...

Ну ты это, заходи если чё: как сделать единую систему авторизации в корпоративных ботах
Привет, Хабр! На связи команда данных «МосТрансПроекта». Недавно мы рассказывали про бот «Информатум», в котором хранятся служебные презентации....

Ну ты это, заходи если чё: как сделать единую систему авторизации в корпоративных ботах
Привет, Хабр! На связи команда данных «МосТрансПроекта». Недавно мы рассказывали про бот «Информатум», в котором хранятся служебные презентации....