Как LLM выучивают факты и почему они галлюцинируют?

🔬 Почему языковые модели "знают" факты… и почему они врут? Новое исследование от Google DeepMind раскрывает секреты обучения LLM

Вы когда-нибудь задумывались, как огромные языковые модели (LLM) превращают триллионы слов из интернета в четкие факты? И почему иногда они так уверенно выдают полную чушь? 🤔

В Google DeepMind решили покопаться в этой загадке и провели детальное исследование процессов, которые стоят за обучением моделей. Они взяли синтетические биографии шести вымышленных людей и наблюдали, как модель шаг за шагом переходит от хаотичного предсказания токенов к формированию точных ассоциаций — например, связывает имя человека с его датой рождения или профессией.

📈 А если интересно глубже...Узнайте, как распределение данных влияет на скорость обучения, какие стратегии учебной программы работают лучше всего и почему слишком частое повторение одних и тех же примеров может быть опасным.

Исследуйте вместе с нами 🚀

Читать далее
5