Проект II#
Анализ исторической вспышки холеры в Лондоне#
Цель:#
В рамках этого проекта мы предлагаем использовать современные методы пространственного анализа для изучения исторической вспышки холеры в Лондоне, в 1854 г.. Цель работы – проанализировать пространственное распределение случаев холеры и выявить закономерности, включая расположение относительно колодцев с питьевой водой - потенциального источника заражения.
Данные:#
Вам предоставлены два набора данных – местоположения смертельных случаев от холеры и местоположения городских колодцев (водяных насосов) в районе вспышки. Эти данные получены из карты Джона Сноу 1854 года.
Требования к итоговому результату:#
В Jupyter Notebook должны быть последовательно выполнены и отражены все шаги анализа. Код должен быть воспроизводимым, с правильной загрузкой данных и выполнением гео-операций для каждого этапа.
К каждому ключевому результату должен быть дан комментарий: что именно показано на карте или графике
Итоговая работа должна содержать выводы, в которых суммируется выявленная пространственная картина вспышки холеры
Аккуратное читаемое оформление всегда приветствуется
Формат сдачи задания:#
Файл Jupyter Notebook (.ipynb
), содержащий весь выполненный анализ и необходимые пояснения. Никакие дополнительные файлы загружать не нужно.
Критерии оценивания (max. 10 баллов):#
2 балла – Корректная загрузка и первичное обследование данных, начальная карта с исходными точками случаев и колодцев.
2 балла – Расчет плотности случаев/смертей по регулярной сетке и наглядная визуализация результата; правильно выделены районы высокой/низкой концентрации и даны им пояснения.
2 балла – Построение диаграммы Вороного и определение числа случаев холеры для каждого колодца; корректное выявление колодца с максимальным числом смертей и обсуждение этого результата.
2 балла – Расчет индекса ближайшего соседа и построение гистограммы расстояний; правильная интерпретация значения NNI и характера распределения расстояний (кластеризация vs. случайность).
2 балла – Качество оформления работы: полнота и ясность выводов, наличие необходимых комментариев к каждому этапу, структурированность ноутбука, а также корректность визуализаций (оформление карт и графиков).
Шаги работы#
Шаг 1.1. Чтение данных#
Загрузите данные о случаях холеры и о колодцах в GeoPandas. Убедитесь, что данные считаны корректно (например, посмотрите первые несколько строк). Задайте соответствующую систему координат (широта/долгота, EPSG:4326) при чтении, если необходимо.
Шаг 1.2. Изучение данных#
Проанализируйте структуру данных:
Сколько записей (случаев заболевания/смертей) содержится в наборе?
Какие атрибуты присутствуют (например, может быть адрес или количество случаев по адресу)?
Сколько колодцев отмечено на карте, и где они расположены относительно очагов заболевания?
Шаг 2.1. Плотность случаев холеры#
Оцените пространственное распределение холеры по плотности, аналогично тому, как мы считали плотность кафе:
Постройте регулярную сетку, покрывающую район исследования.
Выполните spatial join, чтобы определить количество случаев (точек) холеры в каждой ячейке.
Вычислите плотность случаев холеры (количество случаев на км²) для каждой ячейки.
Постройте карту плотности случаев. Где концентрация случаев наиболее высокая?
Шаг 2.2. Плотность смертельных случаев#
Если в данных случаи уже агрегированы (например, указано количество смертей по адресу), повторите анализ, учитывая вес точек:
Рассчитайте плотность смертей (например, суммарное число смертей на км² в пределах каждой ячейки).
Сравните с картой плотности точек из шага 2.1. Отличаются ли результаты? (Если данные уже представлены как одна смерть = одна точка, этот шаг аналогичен 2.1.)
Шаг 2.3. Сравнение результатов#
Опишите, что показывают карты плотности:
Совпадают ли районы с наибольшим числом точек случаев и наибольшим числом смертей?
Какие области можно назвать эпицентром вспышки по этим картам?
Шаг 3. Диаграмма Вороного (зоны ближайшего колодца)#
Постройте диаграмму Вороного для колодцев:
Обрежьте получившиеся полигоны границами района вспышки (чтобы зоны влияния ограничивались областью анализа). Можно для простоты использовать bounding box данных или границу района из карты.
Постройте карту, где показаны полигоны Вороного вокруг каждого колодца.
Шаг 4. Случаи холеры в зоне каждого колодца#
Используя полученные полигоны Вороного, определите, сколько случаев (и отдельно – смертей) холеры пришлось на область каждого колодца:
Выполните spatial join между точками случаев и полигонами Вороного, чтобы присвоить каждому случаю ближайший колодец.
Просуммируйте количество случаев для каждого полигона (колодца).
Определите, возле какого колодца произошло максимальное число случаев.
Шаг 5. Nearest Neighbour Index для случаев холеры#
Рассчитайте индекс ближайшего соседа для случаев холеры (используя координаты всех индивидуальных случаев или всех смертей):
Выполните шаги, аналогичные примеру с пабами: найдите среднее расстояние от случая холеры до ближайшего соседнего случая.
Сравните с ожидаемым средним расстоянием при случайном распределении (формула с площадью области и количеством случаев).
Полученное значение NNI – меньше 1, около 1 или больше 1? Что это говорит о характере распределения случаев холеры (кластеризованы ли они)?
Шаг 6. Выводы#
Подведите итог проделанного анализа. На основе всех полученных результатов:
Где находился эпицентр эпидемии холеры?
Связан ли он с каким-либо конкретным колодцем (если да, укажите с каким)?
Что говорит индекс ближайшего соседа о пространственном характере вспышки?
Какой метод анализа показался наиболее наглядным для данного кейса и почему?
Примечание: Исторически Джон Сноу обнаружил, что большинство случаев сконцентрировались вокруг одного водяного насоса на Брод-стрит, что позволило ему предположить водный путь распространения болезни. Ваш анализ должен подтвердить или уточнить эту классическую гипотезу с помощью современных инструментов геоаналитики. Удачи!