Новости по тегу "большие данные"
Подборка публикаций, содержащих тег "большие данные". Актуальные темы и важные события.

Российский новый университет подключился к «РосНавыку»
9 июля для ректората Российского нового университета (РосНОУ) при поддержке Университетского консорциума исследователей больших данных прошёл...

Большие данные для карт в реальном времени. Inception
Возникла необходимость зафиксировать опыт с последнего проекта по прокачке производительности картографического сервиса. Так сказать, чтобы 2 раза...

Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark
Всем привет! Меня зовут Алексей Николаев, я работаю дата-инженером в команде ETL-платформы MWS Data (ex DataOps). Часто сталкиваюсь с тем, что в...

Проблемы данных ритейла и их решение через BI-систему
Представьте ситуацию: у вас есть доступ ко всем данным компании – о каждом клиенте, каждой транзакции, каждом движении товара. Но когда нужно...

Соединение SortMergeJoin в Apache Spark
Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика...

Чем опасен apply() и почему его стоит заменить
Привет, Хабр!Сегодня рассмотрим почему DataFrame.apply() — это так себе инструмент в 2025 году, чем его заменять и как писать dataframe-логику...

[Перевод] Смартфон не прослушивает вас в фоновом режиме. Истина куда страшнее
Почему соцсети показывают рекламу так, словно читают мысли? Как случайная фраза превращается в недели демонстрируемого контента? Действительно ли...

Со скоростью кометы: ускоряем Spark без переписывания кода
Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами...

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся
20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из...