# Проект II


## Анализ исторической вспышки холеры в Лондоне

#### **Цель:**

В рамках этого проекта мы предлагаем использовать современные методы пространственного анализа для изучения исторической вспышки холеры в Лондоне, в 1854 г.. Цель работы – проанализировать пространственное распределение случаев холеры и выявить закономерности, включая расположение относительно
колодцев с питьевой водой - потенциального источника заражения.

#### **Данные:**

Вам предоставлены два набора данных – местоположения смертельных случаев от холеры и местоположения городских колодцев (водяных насосов) в районе вспышки. Эти данные получены из карты Джона Сноу 1854 года.

#### **Требования к итоговому результату:**

- В Jupyter Notebook должны быть последовательно выполнены и отражены все шаги анализа. Код должен быть воспроизводимым, с правильной загрузкой данных и выполнением гео-операций для каждого этапа.
- К каждому ключевому результату должен быть дан **комментарий**: что именно показано на карте или графике
- Итоговая работа должна содержать **выводы**, в которых суммируется выявленная пространственная картина вспышки холеры
- Аккуратное читаемое оформление всегда приветствуется

##### **Формат сдачи задания:**

Файл Jupyter Notebook (`.ipynb`), содержащий весь выполненный анализ и необходимые пояснения. Никакие дополнительные файлы загружать не нужно.

##### **Критерии оценивания (max. 10 баллов):**

- **2 балла** – Корректная загрузка и первичное обследование данных, начальная карта с исходными точками случаев и колодцев.
- **2 балла** – Расчет плотности случаев/смертей по регулярной сетке и наглядная визуализация результата; правильно выделены районы высокой/низкой концентрации и даны им пояснения.
- **2 балла** – Построение диаграммы Вороного и определение числа случаев холеры для каждого колодца; корректное выявление колодца с максимальным числом смертей и обсуждение этого результата.
- **2 балла** – Расчет индекса ближайшего соседа и построение гистограммы расстояний; правильная интерпретация значения NNI и характера распределения расстояний (кластеризация vs. случайность).
- **2 балла** – Качество оформления работы: полнота и ясность выводов, наличие необходимых комментариев к каждому этапу, структурированность ноутбука, а также корректность визуализаций (оформление карт и графиков).


##### **Шаги работы**

### Шаг 1.1. Чтение данных

Загрузите данные о случаях холеры и о колодцах в GeoPandas. Убедитесь, что данные считаны корректно (например, посмотрите первые несколько строк). Задайте соответствующую систему координат (широта/долгота, EPSG:4326) при чтении, если необходимо.


### Шаг 1.2. Изучение данных

Проанализируйте структуру данных:

- Сколько записей (случаев заболевания/смертей) содержится в наборе?
- Какие атрибуты присутствуют (например, может быть адрес или количество случаев по адресу)?
- Сколько колодцев отмечено на карте, и где они расположены относительно очагов заболевания?


### Шаг 2.1. Плотность случаев холеры

Оцените пространственное распределение холеры по плотности, аналогично тому, как мы считали плотность кафе:

- Постройте регулярную сетку, покрывающую район исследования.
- Выполните spatial join, чтобы определить количество случаев (точек) холеры в каждой ячейке.
- Вычислите **плотность случаев холеры** (количество случаев на км²) для каждой ячейки.
- Постройте карту плотности случаев. Где концентрация случаев наиболее высокая?


### Шаг 2.2. Плотность смертельных случаев

Если в данных случаи уже агрегированы (например, указано количество смертей по адресу), повторите анализ, учитывая вес точек:

- Рассчитайте плотность **смертей** (например, суммарное число смертей на км² в пределах каждой ячейки).
- Сравните с картой плотности точек из шага 2.1. Отличаются ли результаты? (Если данные уже представлены как одна смерть = одна точка, этот шаг аналогичен 2.1.)


### Шаг 2.3. Сравнение результатов

Опишите, что показывают карты плотности:

- Совпадают ли районы с наибольшим числом точек случаев и наибольшим числом смертей?
- Какие области можно назвать эпицентром вспышки по этим картам?


### Шаг 3. Диаграмма Вороного (зоны ближайшего колодца)

Постройте диаграмму Вороного для колодцев:

- Обрежьте получившиеся полигоны границами района вспышки (чтобы зоны влияния ограничивались областью анализа). Можно для простоты использовать bounding box данных или границу района из карты.
- Постройте карту, где показаны полигоны Вороного вокруг каждого колодца.


### Шаг 4. Случаи холеры в зоне каждого колодца

Используя полученные полигоны Вороного, определите, сколько случаев (и отдельно – смертей) холеры пришлось на область каждого колодца:

- Выполните spatial join между точками случаев и полигонами Вороного, чтобы присвоить каждому случаю ближайший колодец.
- Просуммируйте количество случаев для каждого полигона (колодца).
- Определите, возле какого колодца произошло максимальное число случаев.


### Шаг 5. Nearest Neighbour Index для случаев холеры

Рассчитайте **индекс ближайшего соседа** для случаев холеры (используя координаты всех индивидуальных случаев или всех смертей):

- Выполните шаги, аналогичные примеру с пабами: найдите среднее расстояние от случая холеры до ближайшего соседнего случая.
- Сравните с ожидаемым средним расстоянием при случайном распределении (формула с площадью области и количеством случаев).
- Полученное значение NNI – меньше 1, около 1 или больше 1? Что это говорит о характере распределения случаев холеры (кластеризованы ли они)?


### Шаг 6. Выводы

Подведите итог проделанного анализа. На основе всех полученных результатов:

- **Где** находился эпицентр эпидемии холеры?
- Связан ли он с каким-либо конкретным колодцем (если да, укажите с каким)?
- Что говорит индекс ближайшего соседа о пространственном характере вспышки?
- Какой метод анализа показался наиболее наглядным для данного кейса и почему?


---

**Примечание:** Исторически Джон Сноу обнаружил, что большинство случаев сконцентрировались вокруг одного водяного насоса на Брод-стрит, что позволило ему предположить водный путь распространения болезни. Ваш анализ должен подтвердить или уточнить эту классическую гипотезу с помощью современных инструментов геоаналитики. Удачи!
