Привет, Хабр! В этой статье рассмотрим невинный на первый взгляд параметр shuffle=True
в train_test_split
.
Под «перемешать» подразумевается применение псевдо‑рандомного пермутационного алгоритма (обычно Fisher‑Yates) к индексам выборки до того, как мы режем её на train/test. Цель — заставить train‑и-test быть независимыми и одинаково распределёнными (i.i.d.). В scikit‑learn эта логика зашита в параметр shuffle
почти всех сплиттеров. В train_test_split
он True
по умолчанию, что прямо сказано в документации — «shuffle bool, default=True
».