Проект II#

Анализ исторической вспышки холеры в Лондоне#

Цель:#

В рамках этого проекта мы предлагаем использовать современные методы пространственного анализа для изучения исторической вспышки холеры в Лондоне, в 1854 г.. Цель работы – проанализировать пространственное распределение случаев холеры и выявить закономерности, включая расположение относительно колодцев с питьевой водой - потенциального источника заражения.

Данные:#

Вам предоставлены два набора данных – местоположения смертельных случаев от холеры и местоположения городских колодцев (водяных насосов) в районе вспышки. Эти данные получены из карты Джона Сноу 1854 года.

Требования к итоговому результату:#

  • В Jupyter Notebook должны быть последовательно выполнены и отражены все шаги анализа. Код должен быть воспроизводимым, с правильной загрузкой данных и выполнением гео-операций для каждого этапа.

  • К каждому ключевому результату должен быть дан комментарий: что именно показано на карте или графике

  • Итоговая работа должна содержать выводы, в которых суммируется выявленная пространственная картина вспышки холеры

  • Аккуратное читаемое оформление всегда приветствуется

Формат сдачи задания:#

Файл Jupyter Notebook (.ipynb), содержащий весь выполненный анализ и необходимые пояснения. Никакие дополнительные файлы загружать не нужно.

Критерии оценивания (max. 10 баллов):#

  • 2 балла – Корректная загрузка и первичное обследование данных, начальная карта с исходными точками случаев и колодцев.

  • 2 балла – Расчет плотности случаев/смертей по регулярной сетке и наглядная визуализация результата; правильно выделены районы высокой/низкой концентрации и даны им пояснения.

  • 2 балла – Построение диаграммы Вороного и определение числа случаев холеры для каждого колодца; корректное выявление колодца с максимальным числом смертей и обсуждение этого результата.

  • 2 балла – Расчет индекса ближайшего соседа и построение гистограммы расстояний; правильная интерпретация значения NNI и характера распределения расстояний (кластеризация vs. случайность).

  • 2 балла – Качество оформления работы: полнота и ясность выводов, наличие необходимых комментариев к каждому этапу, структурированность ноутбука, а также корректность визуализаций (оформление карт и графиков).

Шаги работы#

Шаг 1.1. Чтение данных#

Загрузите данные о случаях холеры и о колодцах в GeoPandas. Убедитесь, что данные считаны корректно (например, посмотрите первые несколько строк). Задайте соответствующую систему координат (широта/долгота, EPSG:4326) при чтении, если необходимо.

Шаг 1.2. Изучение данных#

Проанализируйте структуру данных:

  • Сколько записей (случаев заболевания/смертей) содержится в наборе?

  • Какие атрибуты присутствуют (например, может быть адрес или количество случаев по адресу)?

  • Сколько колодцев отмечено на карте, и где они расположены относительно очагов заболевания?

Шаг 2.1. Плотность случаев холеры#

Оцените пространственное распределение холеры по плотности, аналогично тому, как мы считали плотность кафе:

  • Постройте регулярную сетку, покрывающую район исследования.

  • Выполните spatial join, чтобы определить количество случаев (точек) холеры в каждой ячейке.

  • Вычислите плотность случаев холеры (количество случаев на км²) для каждой ячейки.

  • Постройте карту плотности случаев. Где концентрация случаев наиболее высокая?

Шаг 2.2. Плотность смертельных случаев#

Если в данных случаи уже агрегированы (например, указано количество смертей по адресу), повторите анализ, учитывая вес точек:

  • Рассчитайте плотность смертей (например, суммарное число смертей на км² в пределах каждой ячейки).

  • Сравните с картой плотности точек из шага 2.1. Отличаются ли результаты? (Если данные уже представлены как одна смерть = одна точка, этот шаг аналогичен 2.1.)

Шаг 2.3. Сравнение результатов#

Опишите, что показывают карты плотности:

  • Совпадают ли районы с наибольшим числом точек случаев и наибольшим числом смертей?

  • Какие области можно назвать эпицентром вспышки по этим картам?

Шаг 3. Диаграмма Вороного (зоны ближайшего колодца)#

Постройте диаграмму Вороного для колодцев:

  • Обрежьте получившиеся полигоны границами района вспышки (чтобы зоны влияния ограничивались областью анализа). Можно для простоты использовать bounding box данных или границу района из карты.

  • Постройте карту, где показаны полигоны Вороного вокруг каждого колодца.

Шаг 4. Случаи холеры в зоне каждого колодца#

Используя полученные полигоны Вороного, определите, сколько случаев (и отдельно – смертей) холеры пришлось на область каждого колодца:

  • Выполните spatial join между точками случаев и полигонами Вороного, чтобы присвоить каждому случаю ближайший колодец.

  • Просуммируйте количество случаев для каждого полигона (колодца).

  • Определите, возле какого колодца произошло максимальное число случаев.

Шаг 5. Nearest Neighbour Index для случаев холеры#

Рассчитайте индекс ближайшего соседа для случаев холеры (используя координаты всех индивидуальных случаев или всех смертей):

  • Выполните шаги, аналогичные примеру с пабами: найдите среднее расстояние от случая холеры до ближайшего соседнего случая.

  • Сравните с ожидаемым средним расстоянием при случайном распределении (формула с площадью области и количеством случаев).

  • Полученное значение NNI – меньше 1, около 1 или больше 1? Что это говорит о характере распределения случаев холеры (кластеризованы ли они)?

Шаг 6. Выводы#

Подведите итог проделанного анализа. На основе всех полученных результатов:

  • Где находился эпицентр эпидемии холеры?

  • Связан ли он с каким-либо конкретным колодцем (если да, укажите с каким)?

  • Что говорит индекс ближайшего соседа о пространственном характере вспышки?

  • Какой метод анализа показался наиболее наглядным для данного кейса и почему?


Примечание: Исторически Джон Сноу обнаружил, что большинство случаев сконцентрировались вокруг одного водяного насоса на Брод-стрит, что позволило ему предположить водный путь распространения болезни. Ваш анализ должен подтвердить или уточнить эту классическую гипотезу с помощью современных инструментов геоаналитики. Удачи!