Задача нахождения неточных дубликатов текстовых строк - удивительно часто встречается на практике.
Нахождение неточных дубликатов позволяет лучше понять структуру списка, повысить его качество (удаление дубликатов), провести техническую кластеризацию (выделить группы похожих). Всё это видно на графе выше.
Но приключения начинаются, когда список становится размером несколько миллионов строк. В статье разберем что с этим можно сделать.
Читать далее