Общее описание
Суть проблемы
Существует достаточное количество количественных открытых данных, связанных с индикаторами внешней среды, представленных в виде разного рода баз данных и/или прямых результатов измерений, - как российских, так и зарубежных.
Ключевая проблема практически всех датасетов - системная несвязность и низкий уровень контроля ошибок и обогащения данных.
Типичным примером можно считать, например, данные автоматических водомерных постов, в которых ввиду особенностей процесса измерения и снятия показаний, не учитываемых на этапе фиксации, постоянно присутствуют системные ошибки: +20 градусов температуры воды зимой, скорость течения ручья, соответствующая скорости воды в Ниагарском водопаде, и т д.
Подавляющее большинство таких ошибок может быть отфильтровано статистическими методами на этапе фиксации при условии понимания особенностей самой процедуры измерения.
Многие методы такой валидации и особенности измерения описаны, например, для погодных данных в любом нормальном курсе климатологии и доступны в виде готовых моделей для анализа датасетов. Подразумевается, что специалисты, работающие с этими данными, используют эти методы для анализа климатических и погодных рядов и вносят соответствующие поправки на этапе анализа.
К сожалению, практика показывает, что это делается далеко не всегда, но особенно важно то, что далеко не все модели коррекции покрывают все возможные ситуации, особенно при потоке открытых данных с современных цифровых датчиков. Типичным примером являются, например, данные с известного сервиса "Народный мониторинг" (narodmon.ru), которые однозначно требуют постоянной ревалидации.
Увы, но даже постоянная ревалидация на основе адекватной стат. модели не может гарантировать качественный результат ввиду отсутствия возможности автокорректировки на основе контроля автокорреляции с альтернативными рядами данных.
Тем не менее, для количественных данных достаточно распространенных наблюдений (уровни, скорость ветра, температура, влажность, давление, радиационная обстановка) задача автовалидации в целом решаема за счет использования максимального количества источников и адекватных стат. моделей.
Для валидации и коррекции данных, например, климатических наблюдений мы используем следующие источники данных:
- данные сетов NCDC после предварительной валидации на ошибки
- данные климата c открытым API - accuweather.com и т д
- выборочные данные narodmon.ru
- данные ГИСметео (при необходимости)
Совершенно другая ситуация складывается с фиксацией КАЧЕСТВЕННЫХ, а не количественных наблюдений, а также с наблюдениями не самых распространенных индикаторов природной среды - например, глубины промерзания грунта, напряженности ЭСП земли, ионизации воздуха и так далее. Охват пунктами наблюдений в этом случае недостаточен.
При этом какой-либо работы по унифицированной фиксации и журналированию данных КАЧЕСТВЕННЫХ наблюдений не ведется.
Типичным примером являются дневники наблюдений по природоведению школьников, ценное знание из которых ныне пропадает навсегда (в отличие от советского времени): даты вскрытия малых рек, даты цветения различных растений и так далее. Но та же проблема касается и других качественных географических наблюдений.
Цели и задачи
Ключевые цели:
-
с использованием ресурсов регионального отделения РГО разработать механизм унифицицированной фиксации результатов качественных наблюдений и привлечь школы для фиксации хотя бы базовых природоведческих наблюдений школьников и энтузиастов по линии самого регионального отделения РГО - в качестве пилотного проекта.
-
разработать проект максимально доступного набора для сборки станций наблюдения собственными силами энтузиастов и организовать фиксацию наблюдений с них. Функциональным аналогом является сервис "Народный мониторинг", но принципиальные отличия заключаются в использовании других типов датчиков и в механизме постоянной валидации потоковых данных, кратко описанном выше. Проще говоря, приоритет планируется отдавать тем данным, сети наблюдений по которым недостаточны: анализ снежного покрова, глубины промерзания почвы, электромагнитных параметров атмосферы, грозовых индикаторов и так далее.
Текущая стадия реализации
Доступны следующие валидированные и нормализованные постоянно обновлямые данные и сервисы:
-
обогащенная экологическими индикаторами база данных сосудистых растений - см. в качестве примера описание в меню
-
база метеонаблюдений NCDC (по конкретному региону): унифицированные данные непосредственно метеостанций международной сети
-
база уровней водохранилищ по версии Русгидро - нормализованная, валидированная - за все время мониторинга
-
база уровней рек - нормализованная, валидированная, покрытая стат. моделями корректировки ошибок водомерных пунктов
-
база растений ecocrop, ныне недоступная в РФ с дополненным механизмом интеграции с отечественными экоиндикаторами
-
базы климатических наблюдений с сервисов, предоставляющих открытые данные (выборочная география)
-
сервисы статистической обработки климатических данных
Набор данных нацелен для использования при решении следующих задач:
-
создание аналитических прогнозов урожайности
-
анализ локальных климатов, климатическая прогнозтика
-
реализация многофакторных моделей поведения экологических систем: например, прогноз оползней
-
создания систем постоянного ситуационного мониторинга
и так далее
Для полноценного решения подобных задач в большинстве случаев недостаточно именно количественных данных, а также, пусть даже и оценочных, но и дополнительных количественных, что и вызывает необходимость реализации проекта.
В настоящее время ведется разработка максимально бюджетных решений для создания различных датчиков для максимально бюджетных систем мониторинга, которые могут быть легко повторены с использованием самых ходовых компонентов наподобие ардуино, дешевых датчиков и так далее.
Демо
http://weather.hh24lock.ru/
Примеры клиентских приложений:
https://asustem.ru/client/Weather/weekly.html
https://asustem.ru/client/Weather/weekly2.html
https://asustem.ru/client/Weather/analise.html
https://leninsup.ru/rivers/