🔬 Почему языковые модели "знают" факты… и почему они врут? Новое исследование от Google DeepMind раскрывает секреты обучения LLM
Вы когда-нибудь задумывались, как огромные языковые модели (LLM) превращают триллионы слов из интернета в четкие факты? И почему иногда они так уверенно выдают полную чушь? 🤔
В Google DeepMind решили покопаться в этой загадке и провели детальное исследование процессов, которые стоят за обучением моделей. Они взяли синтетические биографии шести вымышленных людей и наблюдали, как модель шаг за шагом переходит от хаотичного предсказания токенов к формированию точных ассоциаций — например, связывает имя человека с его датой рождения или профессией.
📈 А если интересно глубже...Узнайте, как распределение данных влияет на скорость обучения, какие стратегии учебной программы работают лучше всего и почему слишком частое повторение одних и тех же примеров может быть опасным.
Исследуйте вместе с нами 🚀
Читать далее