Практикум по кластеризации

Модуль 1. Основы кластеризации

Понятие кластеризации, признаки, расстояния и геометрия данных.

Novice
Quiz

Распознать задачу кластеризации

Проверьте, отличаете ли вы кластеризацию от классификации, регрессии и ручной сегментации. В каждом пункте выберите лучший ответ.

Кластеризация Решить
Novice
Quiz

Почему нет единственного разбиения

Проверьте, понимаете ли вы, почему кластеризация зависит от постановки задачи.

Кластеризация Решить
Novice
Quiz

Качество разбиения: компактность и разделенность

Кластеризация не сводится к красивой картинке. Нужно понимать, какие свойства делают разбиение полезным и какие требования являются ложными.

Кластеризация Решить
Beginner
Code

Силуэт одного объекта

Напишите функцию silhouette_for_point(a, b), где a — среднее расстояние до объектов своего кластера, а b — среднее расстояние до ближайшего …

Коэффициент силуэта Решить
Beginner
Quiz

Выбор признаков для сегментации

Перед кластеризацией важно определить объект анализа, признаки и цель группировки. Разберите несколько ситуаций и выберите решение, которое делает постановку задачи …

Кластеризация Решить
Novice
Code

Вычисление евклидова расстояния

Напишите функцию euclidean_distance(p1, p2), которая принимает две точки [x, y] и возвращает расстояние между ними.Проверяются разные случаи: классический треугольник 3-4-5, …

Расстояние между точками (Евклидово) Решить
Novice
Quiz

Когда масштаб признаков мешает

Проверьте, понимаете ли вы, как масштаб признаков влияет на расстояния и почему нормализация является частью постановки задачи.

Расстояние между точками (Евклидово) Решить
Novice
Code

Min-max нормализация признака

Напишите функцию minmax_scale(values), которая принимает список чисел и возвращает список значений, приведенных к диапазону от 0 до 1.Если все значения …

Расстояние между точками (Евклидово) Решить
Beginner
Code

Назначение к ближайшему центру

Напишите функцию nearest_centroid_label(point, centroids). Словарь centroids хранит названия кластеров и координаты центров. Верните название ближайшего к точке центра.Это минимальная версия …

Алгоритмы разбиения (Partitioning) Решить
Beginner
Quiz

Определение геометрии данных

В этом задании нужно связать форму данных с ограничениями алгоритмов, которые используют центр кластера и прямое расстояние.

Произвольная (сложная) геометрия Решить
Beginner
Quiz

Геометрия как сигнал риска

Научитесь видеть по форме данных, где простые центроидные методы могут дать красивый, но неправильный результат.

Произвольная (сложная) геометрия Решить
Beginner
Quiz

Итоговый кейс: спроектировать первую кластеризацию

Финальная проверка первого модуля. Представьте, что вы готовите первую кластеризацию клиентов для аналитического отчета: нужно выбрать признаки, подготовить расстояния, оценить …

Кластеризация Решить
Beginner
Quiz

Что показывает инерция

Разберитесь, что означает целевая функция K-Means и чего она не гарантирует.

Критерий качества кластеризации Решить
Hard
Code

Посчитать инерцию разбиения

Напишите функцию total_inertia(points, centroids, labels). Она должна вернуть сумму квадратов расстояний от каждой точки до центроида назначенного ей кластера.

Критерий качества кластеризации Решить
Beginner
Quiz

Elbow и силуэт при выборе K

Проверьте, почему при выборе числа кластеров полезно смотреть не только на инерцию.

Коэффициент силуэта Решить
Beginner
Quiz

Когда DBSCAN уместен

Оцените ситуации, где плотностный подход особенно полезен.

Произвольная (сложная) геометрия Решить
Hard
Quiz

Выбор иерархического критерия

Выберите разумный linkage-критерий или метод под практическую ситуацию.

Критерий качества кластеризации Решить
Hard
Quiz

Выбор метода пятого модуля

Выберите метод под задачу и ограничения данных.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый кейс пятого модуля

Финальный кейс: сравните методы пятого модуля и выберите корректную интерпретацию.

Критерий качества кластеризации Решить
Hard
Quiz

Выбрать метод под ситуацию

Финальная задача на сопоставление формы данных, цели анализа и подходящего семейства алгоритмов.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый аудит кластеризации

Проведите финальную диагностику результата: метрики, параметры, интерпретация и ограничения.

Критерий качества кластеризации Решить

Модуль 2. Центроидные методы

Центроиды, инерция, выбор числа кластеров и масштабируемые варианты.

Beginner
Code

Силуэт одного объекта

Напишите функцию silhouette_for_point(a, b), где a — среднее расстояние до объектов своего кластера, а b — среднее расстояние до ближайшего …

Коэффициент силуэта Решить
Beginner
Quiz

Шаги алгоритма K-Means

Проверьте, понимаете ли вы, что именно происходит на итерации K-Means.

K-Means Решить
Beginner
Code

Назначить точки ближайшим центроидам

Напишите функцию assign_points(points, centroids). Она должна вернуть список номеров ближайших центроидов для каждой точки. Нумерация центроидов начинается с нуля.

K-Means Решить
Beginner
Code

Пересчитать центроид кластера

Напишите функцию compute_centroid(points), которая возвращает среднее положение точек кластера. Точки могут быть двумерными или многомерными.

K-Means Решить
Hard
Code

Одна итерация K-Means

Напишите функцию kmeans_step(points, centroids). Нужно назначить точки ближайшим центроидам и вернуть новые центроиды в том же порядке.

K-Means Решить
Beginner
Code

Посчитать ошибку кластера

Напишите функцию cluster_sse(points, centroid), которая считает сумму квадратов расстояний от точек до центроида.

K-Means Решить
Beginner
Quiz

Когда K-Means ошибается

Выберите ситуации, где результат K-Means нужно проверять особенно внимательно.

K-Means Решить
Beginner
Quiz

Инициализация и локальный оптимум

Разберите, почему один запуск K-Means не всегда достаточно надежен.

K-Means Решить
Beginner
Code

Веса выбора k-means++

В k-means++ следующая стартовая точка выбирается с вероятностью, пропорциональной квадрату расстояния до ближайшего уже выбранного центра. Напишите функцию kmeanspp_weights(points, centers), …

K-Means Решить
Beginner
Quiz

MiniBatch K-Means: скорость и точность

Проверьте, когда MiniBatch K-Means полезнее полного K-Means.

MiniBatch K-Means Решить
Hard
Code

Обновить центроид по мини-батчу

Напишите функцию minibatch_update(old_centroid, batch_points, learning_rate). Сначала найдите среднее мини-батча, затем сдвиньте старый центроид по формуле old + learning_rate * (batch_mean …

MiniBatch K-Means Решить
Beginner
Quiz

Логика Bisecting K-Means

Проверьте, чем Bisecting K-Means отличается от обычного K-Means.

Bisecting K-Means Решить
Beginner
Code

Выбрать кластер для разбиения

Напишите функцию choose_split_cluster(sse_values), которая получает список ошибок кластеров и возвращает индекс кластера с максимальной ошибкой.

Bisecting K-Means Решить
Hard
Quiz

Итоговый кейс: выбрать вариант K-Means

Выберите подходящий вариант алгоритма для разных ситуаций.

K-Means Решить
Beginner
Quiz

Что показывает инерция

Разберитесь, что означает целевая функция K-Means и чего она не гарантирует.

Критерий качества кластеризации Решить
Hard
Code

Посчитать инерцию разбиения

Напишите функцию total_inertia(points, centroids, labels). Она должна вернуть сумму квадратов расстояний от каждой точки до центроида назначенного ей кластера.

Критерий качества кластеризации Решить
Beginner
Quiz

Выбор K по кривой ошибки

Оцените несколько значений K по динамике инерции.

Число кластеров (k) Решить
Beginner
Quiz

Elbow и силуэт при выборе K

Проверьте, почему при выборе числа кластеров полезно смотреть не только на инерцию.

Коэффициент силуэта Решить
Beginner
Code

Найти самый сильный спад ошибки

Напишите функцию best_drop_k(inertias). Список содержит инерцию для K=1,2,3,... Верните значение K, при переходе к которому ошибка упала сильнее всего.

Число кластеров (k) Решить
Beginner
Quiz

Форма и размеры кластеров

Проверьте, какие геометрические структуры подходят K-Means, а какие требуют осторожности.

Выпуклая геометрия Решить
Beginner
Quiz

Масштабируемость K-Means

Выберите подходящий вариант K-Means с учетом размера данных.

Высокая масштабируемость Решить
Beginner
Quiz

K-Means как сжатие данных

Проверьте, понимаете ли вы применение K-Means как набора прототипов.

Векторное квантование (Сокращение данных) Решить
Beginner
Code

Заменить точки центроидами

Напишите функцию replace_with_centroids(labels, centroids). Она должна вернуть список центроидов, соответствующих меткам объектов.

Векторное квантование (Сокращение данных) Решить
Hard
Quiz

Выбор иерархического критерия

Выберите разумный linkage-критерий или метод под практическую ситуацию.

Критерий качества кластеризации Решить
Hard
Quiz

Выбор метода пятого модуля

Выберите метод под задачу и ограничения данных.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый кейс пятого модуля

Финальный кейс: сравните методы пятого модуля и выберите корректную интерпретацию.

Критерий качества кластеризации Решить
Beginner
Quiz

Масштабируемость методов

Выберите метод с учетом размера данных и вычислительной стоимости.

Высокая масштабируемость Решить
Hard
Quiz

Выбрать метод под ситуацию

Финальная задача на сопоставление формы данных, цели анализа и подходящего семейства алгоритмов.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый аудит кластеризации

Проведите финальную диагностику результата: метрики, параметры, интерпретация и ограничения.

Критерий качества кластеризации Решить

Модуль 3. Плотностные методы

Окрестности, локальная плотность, шумовые точки и кластеры сложной формы.

Beginner
Quiz

Определение геометрии данных

В этом задании нужно связать форму данных с ограничениями алгоритмов, которые используют центр кластера и прямое расстояние.

Произвольная (сложная) геометрия Решить
Beginner
Quiz

Геометрия как сигнал риска

Научитесь видеть по форме данных, где простые центроидные методы могут дать красивый, но неправильный результат.

Произвольная (сложная) геометрия Решить
Novice
Quiz

Центроидная или плотностная идея

Проверьте, понимаете ли вы отличие плотностных методов от центроидных.

Плотностные алгоритмы Решить
Novice
Quiz

Термины DBSCAN

Сопоставьте параметры и типы точек в DBSCAN с их смыслом.

DBSCAN Решить
Novice
Code

Найти ε-соседей точки

Напишите функцию epsilon_neighbors(index, points, eps). Она должна вернуть индексы всех точек, расстояние от которых до точки points[index] не больше eps. …

Размер окрестности ($\epsilon$) Решить
Beginner
Code

Определить ядровые точки

Напишите функцию core_point_indices(points, eps, min_pts), которая возвращает индексы ядровых точек DBSCAN. Точка является ядровой, если в ее ε-окрестности, включая саму …

Мин. объектов (MinPts) Решить
Beginner
Quiz

Как параметры меняют DBSCAN

Выберите, как изменение параметров влияет на результат DBSCAN.

Размер окрестности ($\epsilon$) Решить
Novice
Code

Выделить шумовые точки

В DBSCAN шумовые точки часто помечают меткой -1. Напишите функцию noise_point_indices(labels), которая возвращает индексы всех шумовых точек.

Поиск аномалий и удаление шума Решить
Beginner
Code

Ядро, граница или шум

Напишите функцию dbscan_point_role(neighbor_count, min_pts, is_neighbor_of_core). Если число соседей не меньше min_pts, верните 'core'. Если точка не ядровая, но лежит в …

DBSCAN Решить
Beginner
Quiz

Когда DBSCAN уместен

Оцените ситуации, где плотностный подход особенно полезен.

Произвольная (сложная) геометрия Решить
Beginner
Code

Расстояние до k-го соседа

Для подбора ε полезно смотреть расстояния до k-го ближайшего соседа. Напишите функцию k_distance_squared_values(points, k), которая для каждой точки находит квадрат …

Расстояния до ближайших точек Решить
Beginner
Quiz

Как движется ФОРЭЛЬ

Проверьте понимание механики алгоритма ФОРЭЛЬ.

Алгоритм ФОРЭЛЬ Решить
Beginner
Code

Один сдвиг центра FOREL

Напишите функцию forel_shift(center, points, radius). Она должна взять все точки внутри радиуса от текущего центра и вернуть новый центр как …

Алгоритм ФОРЭЛЬ Решить
Beginner
Quiz

Семейство плотностных методов

Сравните методы третьего модуля: какие идеи лежат в основе DBSCAN, ФОРЭЛЬ, Mean Shift, OPTICS и HDBSCAN.

Плотностные алгоритмы Решить
Beginner
Code

Один шаг Mean Shift

Напишите функцию mean_shift_step(center, points, bandwidth). Она должна выбрать точки на расстоянии не больше bandwidth от текущего центра и вернуть новый …

Mean-shift Решить
Beginner
Quiz

Зачем нужен OPTICS

OPTICS в этом модуле рассматривается как расширение идеи DBSCAN для данных, где один глобальный радиус плохо описывает все кластеры.

OPTICS Решить
Beginner
Code

Расстояние достижимости

В упрощенной форме reachability-distance — это максимум из core-distance текущей точки и расстояния до соседней точки. Напишите функцию reachability_distance(core_distance, point_distance).

OPTICS Решить
Beginner
Quiz

Идея HDBSCAN

HDBSCAN в этом модуле рассматривается как современное расширение плотностного подхода: важно понять идею устойчивых кластеров разной плотности, а не детали …

HDBSCAN Решить
Hard
Quiz

Выбор плотностного метода

Выберите метод под описание данных. Основные методы модуля — DBSCAN и ФОРЭЛЬ; OPTICS и HDBSCAN используются как расширения для случаев …

Плотностные алгоритмы Решить
Hard
Quiz

Диагностика плотностной кластеризации

Финальный кейс модуля: оцените результат плотностного алгоритма и выберите разумное действие.

Выделение множества микро-кластеров Решить
Beginner
Code

Single linkage

Напишите функцию single_linkage_distance(cluster_a, cluster_b, distance_matrix). Она должна вернуть минимальное попарное расстояние между объектами двух кластеров.

Расстояния до ближайших точек Решить
Beginner
Quiz

Эффект цепи

Single linkage может объединять группы через цепочку близких точек. Проверьте, понимаете ли вы этот риск.

Расстояния до ближайших точек Решить

Модуль 4. Иерархические методы

Агломеративная кластеризация, критерии связи, метод Уорда и дендрограммы.

Novice
Code

Вычисление евклидова расстояния

Напишите функцию euclidean_distance(p1, p2), которая принимает две точки [x, y] и возвращает расстояние между ними.Проверяются разные случаи: классический треугольник 3-4-5, …

Расстояние между точками (Евклидово) Решить
Novice
Quiz

Когда масштаб признаков мешает

Проверьте, понимаете ли вы, как масштаб признаков влияет на расстояния и почему нормализация является частью постановки задачи.

Расстояние между точками (Евклидово) Решить
Novice
Code

Min-max нормализация признака

Напишите функцию minmax_scale(values), которая принимает список чисел и возвращает список значений, приведенных к диапазону от 0 до 1.Если все значения …

Расстояние между точками (Евклидово) Решить
Beginner
Quiz

Что показывает инерция

Разберитесь, что означает целевая функция K-Means и чего она не гарантирует.

Критерий качества кластеризации Решить
Hard
Code

Посчитать инерцию разбиения

Напишите функцию total_inertia(points, centroids, labels). Она должна вернуть сумму квадратов расстояний от каждой точки до центроида назначенного ей кластера.

Критерий качества кластеризации Решить
Beginner
Code

Расстояние до k-го соседа

Для подбора ε полезно смотреть расстояния до k-го ближайшего соседа. Напишите функцию k_distance_squared_values(points, k), которая для каждой точки находит квадрат …

Расстояния до ближайших точек Решить
Novice
Quiz

Что строит иерархический метод

Проверьте, чем иерархическая кластеризация отличается от одного фиксированного разбиения.

Иерархические алгоритмы Решить
Novice
Code

Найти ближайшую пару

В агломеративном алгоритме на каждом шаге выбирается ближайшая пара кластеров. Напишите функцию closest_pair(distance_matrix), которая получает квадратную матрицу расстояний и возвращает …

Agglomerative clustering Решить
Novice
Quiz

Шаги агломеративного алгоритма

Выберите правильные утверждения о порядке работы агломеративной кластеризации.

Agglomerative clustering Решить
Beginner
Code

Single linkage

Напишите функцию single_linkage_distance(cluster_a, cluster_b, distance_matrix). Она должна вернуть минимальное попарное расстояние между объектами двух кластеров.

Расстояния до ближайших точек Решить
Beginner
Code

Complete linkage

Напишите функцию complete_linkage_distance(cluster_a, cluster_b, distance_matrix). Она должна вернуть максимальное попарное расстояние между объектами двух кластеров.

Иерархические алгоритмы Решить
Beginner
Code

Average linkage

Напишите функцию average_linkage_distance(cluster_a, cluster_b, distance_matrix). Она должна вернуть среднее попарное расстояние между объектами двух кластеров.

Иерархические алгоритмы Решить
Beginner
Quiz

Какой linkage выбрать

Проверьте, как разные правила расстояния между кластерами влияют на результат.

Иерархические алгоритмы Решить
Beginner
Quiz

Эффект цепи

Single linkage может объединять группы через цепочку близких точек. Проверьте, понимаете ли вы этот риск.

Расстояния до ближайших точек Решить
Hard
Code

Пересчет Ланса-Уильямса

Напишите функцию lance_williams_distance(d_ac, d_bc, d_ab, alpha_a, alpha_b, beta, gamma), которая считает расстояние от объединенного кластера A∪B до кластера C по …

Иерархические алгоритмы Решить
Beginner
Quiz

Зачем нужна формула пересчета

Проверьте смысл общей формулы пересчета расстояний в агломеративных методах.

Иерархические алгоритмы Решить
Beginner
Code

Стоимость объединения Уорда

Напишите функцию ward_merge_cost(size_a, size_b, squared_centroid_distance). Она должна вернуть увеличение критерия Уорда: size_a * size_b / (size_a + size_b) * squared_centroid_distance.

Ward hierarchical clustering Решить
Beginner
Quiz

Метод Уорда и компактность

Проверьте, чем метод Уорда отличается от простых linkage-критериев.

Ward hierarchical clustering Решить
Beginner
Code

Сколько кластеров при разрезе

Дана дендрограмма в виде списка высот объединений. Напишите функцию cluster_count_at_height(n_objects, merge_heights, cut_height), которая возвращает число кластеров после горизонтального разреза на …

Иерархические алгоритмы Решить
Beginner
Quiz

Чтение дендрограммы

Проверьте, правильно ли вы интерпретируете высоты объединений и разрез дендрограммы.

Иерархические алгоритмы Решить
Hard
Quiz

Выбор иерархического критерия

Выберите разумный linkage-критерий или метод под практическую ситуацию.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый кейс по дендрограмме

Финальный кейс модуля: выберите корректную интерпретацию результата иерархической кластеризации.

Иерархические алгоритмы Решить
Hard
Quiz

Выбор метода пятого модуля

Выберите метод под задачу и ограничения данных.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый кейс пятого модуля

Финальный кейс: сравните методы пятого модуля и выберите корректную интерпретацию.

Критерий качества кластеризации Решить
Hard
Quiz

Выбрать метод под ситуацию

Финальная задача на сопоставление формы данных, цели анализа и подходящего семейства алгоритмов.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый аудит кластеризации

Проведите финальную диагностику результата: метрики, параметры, интерпретация и ограничения.

Критерий качества кластеризации Решить

Модуль 5. Вероятностные и графовые методы

Вероятностные модели, EM-алгоритм, граф сходства и методы представителей.

Beginner
Quiz

Что показывает инерция

Разберитесь, что означает целевая функция K-Means и чего она не гарантирует.

Критерий качества кластеризации Решить
Hard
Code

Посчитать инерцию разбиения

Напишите функцию total_inertia(points, centroids, labels). Она должна вернуть сумму квадратов расстояний от каждой точки до центроида назначенного ей кластера.

Критерий качества кластеризации Решить
Beginner
Quiz

Масштабируемость K-Means

Выберите подходящий вариант K-Means с учетом размера данных.

Высокая масштабируемость Решить
Hard
Quiz

Выбор иерархического критерия

Выберите разумный linkage-критерий или метод под практическую ситуацию.

Критерий качества кластеризации Решить
Novice
Quiz

Мягкая принадлежность GMM

Проверьте, чем мягкая кластеризация отличается от жесткого назначения объектов.

Gaussian mixtures Решить
Novice
Code

Нормировать ответственности

На E-шаге EM сырые оценки компонент нормируют так, чтобы их сумма для объекта была равна 1. Напишите функцию normalize_responsibilities(scores), которая …

Gaussian mixtures Решить
Beginner
Code

M-шаг: взвешенное среднее

Напишите функцию weighted_mean_1d(values, weights), которая возвращает взвешенное среднее. Это упрощенная версия пересчета среднего компоненты на M-шаге EM.

Gaussian mixtures Решить
Novice
Code

Жесткие метки из вероятностей

Иногда мягкие вероятности переводят в обычные метки по максимальной ответственности. Напишите функцию hard_labels(responsibilities), которая для каждой строки возвращает индекс максимального …

Gaussian mixtures Решить
Beginner
Quiz

E-шаг и M-шаг

Проверьте, правильно ли вы понимаете логику EM-алгоритма.

Gaussian mixtures Решить
Beginner
Quiz

GMM против K-Means

Сравните вероятностную смесь и центроидный подход.

Gaussian mixtures Решить
Beginner
Quiz

Идея спектральной кластеризации

Проверьте, зачем спектральная кластеризация строит граф похожести.

Spectral clustering Решить
Beginner
Code

RBF-похожесть

Напишите функцию rbf_similarity(squared_distance, gamma), которая возвращает exp(-gamma * squared_distance). Это простая формула веса ребра в графе похожести.

Spectral clustering Решить
Beginner
Code

Степени вершин графа похожести

Напишите функцию graph_degrees(adjacency), которая возвращает сумму весов ребер для каждой вершины графа.

Графовое расстояние Решить
Beginner
Quiz

Параметры графа похожести

Проверьте, как параметры графа влияют на spectral clustering.

Spectral clustering Решить
Beginner
Quiz

Представители Affinity Propagation

Проверьте, чем представители Affinity Propagation отличаются от центроидов.

Affinity propagation Решить
Novice
Code

Выбрать лучшего представителя

Упрощенно exemplar можно выбрать как объект с наибольшей суммарной похожестью к другим объектам. Напишите функцию best_exemplar(similarity_matrix), которая возвращает индекс строки …

Affinity propagation Решить
Beginner
Quiz

BIRCH и микрокластеры

Проверьте, зачем BIRCH сжимает данные в микрокластеры.

BIRCH Решить
Beginner
Code

CF-запись микрокластера

Напишите функцию cf_entry(points), которая возвращает словарь {'n': N, 'ls': LS, 'ss': SS}. LS — покоординатная сумма, SS — покоординатная сумма …

BIRCH Решить
Hard
Quiz

Выбор метода пятого модуля

Выберите метод под задачу и ограничения данных.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый кейс пятого модуля

Финальный кейс: сравните методы пятого модуля и выберите корректную интерпретацию.

Критерий качества кластеризации Решить
Beginner
Quiz

Масштабируемость методов

Выберите метод с учетом размера данных и вычислительной стоимости.

Высокая масштабируемость Решить
Hard
Quiz

Выбрать метод под ситуацию

Финальная задача на сопоставление формы данных, цели анализа и подходящего семейства алгоритмов.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый аудит кластеризации

Проведите финальную диагностику результата: метрики, параметры, интерпретация и ограничения.

Критерий качества кластеризации Решить

Модуль 6. Оценка и выбор метода

Метрики качества, условия применения и выбор алгоритма под структуру данных.

Beginner
Quiz

Что показывает инерция

Разберитесь, что означает целевая функция K-Means и чего она не гарантирует.

Критерий качества кластеризации Решить
Hard
Code

Посчитать инерцию разбиения

Напишите функцию total_inertia(points, centroids, labels). Она должна вернуть сумму квадратов расстояний от каждой точки до центроида назначенного ей кластера.

Критерий качества кластеризации Решить
Beginner
Quiz

Масштабируемость K-Means

Выберите подходящий вариант K-Means с учетом размера данных.

Высокая масштабируемость Решить
Hard
Quiz

Выбор иерархического критерия

Выберите разумный linkage-критерий или метод под практическую ситуацию.

Критерий качества кластеризации Решить
Hard
Quiz

Выбор метода пятого модуля

Выберите метод под задачу и ограничения данных.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый кейс пятого модуля

Финальный кейс: сравните методы пятого модуля и выберите корректную интерпретацию.

Критерий качества кластеризации Решить
Novice
Quiz

Алгоритм, параметр или применение

Разделите базовые элементы постановки задачи: метод, настройку метода и цель применения.

Алгоритм кластеризации Решить
Beginner
Quiz

Индуктивный и трансдуктивный сценарий

Проверьте, понимаете ли вы, когда кластеризация работает как исследование одной выборки, а когда нужна модель для новых объектов.

Тип вывода (Inference Type) Решить
Novice
Quiz

Внутренняя или внешняя метрика

Определите, какие метрики можно применять без эталонных меток, а какие требуют внешней разметки.

Метрика качества кластеризации Решить
Beginner
Quiz

Когда можно использовать внешнюю оценку

Проверьте условие применения внешних метрик качества.

Известны истинные метки классов Решить
Beginner
Code

Согласованность пар объектов

Напишите функцию pair_agreement_counts(true_labels, pred_labels). Она должна вернуть список из четырех чисел: пары вместе в обоих разбиениях, вместе только в истинных …

Согласованность с эталонным разбиением Решить
Hard
Code

Скорректированный индекс Рэнда

Реализуйте adjusted_rand_index(true_labels, pred_labels) для небольших списков меток. Верните значение, округленное до трех знаков.

Скорректированный индекс Рэнда Решить
Beginner
Quiz

Как читать ARI

Проверьте смысл значений скорректированного индекса Рэнда.

Скорректированный индекс Рэнда Решить
Hard
Code

Индекс Калински-Харабаша для 1D

Напишите функцию calinski_harabasz_1d(values, labels) для одномерных данных. Верните значение, округленное до трех знаков.

Индекс Калински-Харабаша Решить
Hard
Code

Индекс Дэвиса-Болдина для двух групп

Напишите функцию davies_bouldin_1d(values, labels) для двух одномерных кластеров. Разброс кластера считайте как среднее абсолютное отклонение от центра. Верните значение, округленное …

Индекс Дэвиса-Болдина Решить
Beginner
Quiz

Когда метрики спорят

Выберите корректную стратегию, если разные метрики качества дают разные рекомендации.

Условие применения метрики качества Решить
Beginner
Code

Диагональное расстояние Махаланобиса

Напишите функцию mahalanobis_diag_distance(x, y, variances). Для диагональной ковариации используйте формулу sqrt(sum((x_i-y_i)^2 / variance_i)). Верните результат, округленный до трех знаков.

Расстояние Махаланобиса Решить
Beginner
Quiz

Готовая матрица расстояний

Проверьте, когда полезна произвольная попарная матрица расстояний.

Любая попарная матрица расстояний Решить
Beginner
Code

Следующий центр по максимину

Напишите функцию maximin_next_center(points, centers) для одномерных точек. Нужно вернуть точку, у которой расстояние до ближайшего уже выбранного центра максимально.

Алгоритм Максимина Решить
Beginner
Quiz

Параметр как причина ошибки

Определите, какой параметр вероятнее всего нужно проверить при типичной ошибке результата.

Параметры Решить
Beginner
Code

Число кластеров по порогу расстояния

В агломеративной иерархии есть n исходных объектов и список высот объединения merge_distances. Напишите clusters_by_threshold(n, merge_distances, threshold): объединения с расстоянием не …

Порог расстояния (Threshold) Решить
Beginner
Quiz

Bandwidth, damping и branching factor

Сопоставьте параметры с алгоритмами и типичными эффектами.

Ширина окна (Bandwidth) Решить
Novice
Code

Оценить число листьев CF-дерева

Напишите функцию estimate_birch_leaves(subclusters, branching_factor), которая возвращает минимальное число листьев, если в каждом листе помещается не больше branching_factor микрокластеров.

Фактор ветвления Решить
Beginner
Quiz

Масштабируемость методов

Выберите метод с учетом размера данных и вычислительной стоимости.

Высокая масштабируемость Решить
Hard
Quiz

Выбрать метод под ситуацию

Финальная задача на сопоставление формы данных, цели анализа и подходящего семейства алгоритмов.

Критерий качества кластеризации Решить
Hard
Quiz

Итоговый аудит кластеризации

Проведите финальную диагностику результата: метрики, параметры, интерпретация и ограничения.

Критерий качества кластеризации Решить