Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгений Журин (Segmento)
Приглашаем на конференцию HighLoad++ 2025, которая пройдет 6 и 7 ноября в Москве! Программа, подробности и билеты по ссылке: ________ HighLoad++ 2015 Презентация и тезисы: Segmento DMP хранит сотни миллионов анонимных профилей пользователей интернета. Часть из задач отдела Data Science связана с их кластеризацией и поиском нечетких дубликатов. Для успешного решения этих задач необходимо вычислить метрики сходства между профилями. Brute force подход на таких объемах данных уже не сработает, поэтому мы выбрали другой путь. ...