Новости по тегу "vllm"

Подборка публикаций, содержащих тег "vllm". Актуальные темы и важные события.

Нет изображения

Где живут LLM: разбираем инференс-кластер YADRO и тестируем его производительность

Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации...

30.07.2025 08:44
8
Нет изображения

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно,...

27.06.2025 08:19
19
Нет изображения

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и...

14.05.2025 08:00
31