Новости по тегу "hadoop"

Подборка публикаций, содержащих тег "hadoop". Актуальные темы и важные события.

Нет изображения

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество...

11.06.2025 09:50
2
Нет изображения

Пишем движок SQL на Spark. Часть 8: CREATE FUNCTION

В предыдущих сериях ( 1 • 2 • 3 • 4 • 5 • 6 • 7 • Ы ) рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного...

05.06.2025 13:20
6
Нет изображения

Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика...

02.06.2025 13:09
10
Нет изображения

Иногда приходится¹ копаться² в кишках³ Apache Spark

¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует. ² и да, довольно-таки глубоко. ³ нет, серьёзно!...

27.05.2025 12:54
11
Нет изображения

Как я удалил clickstream, но его восстановили из небытия

Всем привет! Я Дмитрий Немчин из Т-Банка. Расскажу не очень успешную историю о том как я удалил данные и что из этого вышло.В ИТ я больше 12 лет,...

19.05.2025 14:15
8
Нет изображения

Пакетная репликация данных в аналитическом ландшафте ХД

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и...

13.05.2025 06:29
14
Нет изображения

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей...

24.04.2025 12:42
14
Нет изображения

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью...

23.04.2025 10:56
19