Выбор метода разбиения исходных данных на обучающее и тестовое подмножества в моделях на основе искусственных нейронных сетей (ИНС) – недостаточно изученная проблема непрерывной интерполяции пространственно-временного поля. В частности, выбор наилучшего обучающего подмножества для моделирования пространственного распределения элементов в верхнем слое почвы – нетривиальная задача, поскольку точки отбора проб не эквивалентны. Они содержат разное количество “информации” в каждой конкретной модели, поэтому при моделировании целесообразно задействовать большинство точек, содержащих “полезную” для этой модели информацию. Неправильное разбиение данных может привести к неточным и чрезвычайно изменчивым характеристикам модели, высокой дисперсии и систематической ошибке в сгенерированных результатах. В качестве исходных данных были взяты данные о содержании хрома (Cr) и марганца (Mn) в верхнем слое почвы жилых районов в г. Ноябрьск (субарктическая зона России). Разработан трехэтапный алгоритм извлечения исходных данных с разбиением на обучающее и тестовое подмножества для моделирования пространственного распределения этих тяжелых металлов (ТМ) Для построения модели пространственного распределения содержания ТМ в верхнем слое почвы использовался многослойный персептрон (MLP), который учитывал пространственную неоднородность и правила обучения. Структура MLP была выбрана путем минимизации среднеквадратичной ошибки. Все точки разделились на три класса: “полезные”, “обычные” и “бесполезные”, по количеству попаданий в обучающее подмножество. Учет этой информации на этапе разбиения исходных данных позволяет повысить точность прогностической модели.
Для оценки вариаций пространственного загрязнения тяжелыми металлами верхнего слоя городской почвы использована гибридная модель Land Use Regression (LUR) и регрессионный кригинг (RK). Модель построена на основе данных мониторинга содержания никеля и марганца в верхнем слое почвы арктического г. Тарко-Сале. Предложенный LUR и RK метод моделирования загрязнения автотранспортом верхнего слоя почвы может быть использован для любой территории. Применение RK улучшает точность LUR модели: корреляция тестового и предсказанного наборов увеличилась на 7% для никеля и на 17% для марганца, а относительная среднеквадратическая ошибка RRMSE уменьшалась на 10% для обоих элементов. Результаты гибридного моделирования LUR с регрессионным кригингом позволили определить, что распределение марганца и никеля в верхнем слое почвы города не зависит от автотранспорта. Это свидетельствует о природном происхождении марганца и никеля в городской почве в отсутствие других источников загрязнения. Последовательное включение различных источников загрязнения в модель LUR является способом оценки вклада каждого из выбранных источников в загрязнение выбранным элементом.
Indexing
Scopus
Crossref
Higher Attestation Commission
At the Ministry of Education and Science of the Russian Federation