Токены летят быстрее, а результат — медленнее: парадокс квантизации DeepSeek-R1. Замеры 4 версий модели доказали: уменьшение размера ускоряет генерацию отдельных токенов, но что происходит с общим временем ответа?
Читать далееУскорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости