Journal Search Engine

ISSN : 1229-3857(Print)
ISSN : 2288-131X(Online)

Korean Journal of Environment and Ecology Vol.40 No.3 pp.219-232
DOI : https://doi.org/10.13047/KJEE.2026.40.3.219

Development of an Ensemble Machine Learning Model for Tree Species Classification in National Forests Using Airborne Multi-sensor Data^1a

Sang-In Park², Woo Cho³, Hyun-Jik Lee⁴*

²Ph.D degree, Dept. of Civil Engineering, Graduate School of Sangji University, Woosan 26339 , Korea
³Professor, Dept. of Landscape Architecture and Forest Science, Sangji University., Woosan 26339, Korea
⁴Professor, Dept. of Civil and Environmental Engineering, Sangji University., Woosan 26339, Korea

a 이 논문은 2025년도 교육부 및 강원특별자치도의 재원으로 강원RISE센터의 지원을 받아 수행된 지역혁신중심 대학지원체계(RISE)의 결과입니다.(2025-RISE-10-005)

^* 교신저자 Corresponding author: hjiklee@sangji.ac.kr

Received 25 March 2026 Review 27 April 2026 Accepted 18 May 2026

Abstract

South Korea has 63% of its national territory covered by forests, playing a crucial role in carbon sink management for climate change mitigation. However, existing forest type maps rely on manual field surveys or visual interpretation, resulting in low accuracy and inconsistent quality. This study proposes a method for automated object-based tree species classification by combining Airborne LiDAR (ALS) data and high-resolution aerial orthoimages (RGB, NIR) with AI technology. The study area covers approximately 207 km² of the Garisan Forest Management District in Hongcheon, where five machine learning algorithms (Random Forest, XGBoost, CatBoost, LightGBM, SVM) were compared, and ensemble techniques (Voting and Stacking) were applied to maximize classification accuracy. The Stacking Ensemble model, comprising Random Forest, LightGBM, and CatBoost as base models with Logistic Regression as the meta-model, achieved the highest performance with an F1-score of 0.9330. Additionally, a three-step post-processing procedure using open-source library reduced data volume by approximately 14.58-fold, ensuring practical applicability. This study establishes a workflow for automated tree species classification over large areas and is expected to serve as a fundamental resource for precise forest management and carbon sink monitoring.

Key Words : AIRBORNE LIDAR , ORTHOIMAGE , ENSEMBLE MACHINE LEARNING , TREE SPECIES CLASSIFICATION

항공 멀티센서 데이터를 활용한 국유림의 수종분류를 위한 앙상블 머신러닝 모델 개발^1a

박상인², 조우³, 이현직⁴*

²상지대학교 대학원 토목공학과 박사과정
³상지대학교 조경산림학과 교수
⁴상지대학교 건설환경공학과 교수

초록

우리나라는 국토 면적의 63%가 산림으로 기후변화 대응을 위한 탄소흡수원 관리에 핵심적인 역할을 수행하고 있다. 그러나 기존 산림 임상도는 인력 중심의 현장 조사나 육안 판독에 의존하여 정확도가 낮고 일관성이 부족한 한계가 있다. 본 연구는 항공 LiDAR(ALS) 데이터와 고해상도 항공 정사영상(RGB, NIR)을 결합하고, AI 기술을 활용하여 객체 단위의 수종 분류를 자동화하는 방법을 제안한다. 홍천 가리산 선도산림경영단지 일원(약 207 km²)을 대상으로 하여, Random Forest, XGBoost, CatBoost, LightGBM, SVM 등 5가지 머신러닝 알고리즘을 비교 분석하고, Voting 및 Stacking 앙상블 기법을 적용하여 분류 정확도를 극대화하였다. 그 결과, Random Forest, LightGBM, CatBoost 를 기본 모델로 하고 Logistic Regression을 메타 모델로 구성한 Stacking Ensemble 모델이 F1-score 0.9330으로 가장 높은 성능을 기록하였다. 또한 오픈소스 라이브러리를 활용한 3단계 후처리 과정을 통해 데이터 용량을 약 14.58배 경량화하여 실무적 활용성을 확보하였다. 본 연구는 광역 범위의 수종 분류를 자동화할 수 있는 워크플로우를 정립하여, 정밀한 산림 경영 및 탄소흡수원 관리를 위한 기초 자료로 활용될 수 있을 것으로 기대된다.

키워드 : 항공 LiDAR , 정사영상 , 앙상블 머신러닝 , 수종 분류

This article has been cited by 0 article in crossref

Cited-By

Funding:

서 론

우리나라의 국토 면적 중 산림은 63%(6,298,000 ha)를 차지하며, 탄소흡수원으로서 기후변화 대응과 생물다양성 보전에 핵심적인 역할을 수행하고 있다(Korea Forest Service, 2022). 특히 이상기후 현상이 매년 극심해짐에 따라 산림 면적이 과반 이상을 차지하는 한반도 특성상 산림 재난(산불, 병해충 등)에 취약한 실정이다. 따라서 과학적 방법으로 취득된 고정밀의 산림 구조 정보의 확보가 시급하다.

수종정보는 산림 구조정보의 기반 기초 자료로서 높은 신뢰도가 요구된다. 그러나 기존 공공 산림 임상(수종)관련 주제정보의 품질에 상당한 이슈가 존재한다. 산림청 산림공간정보에서 제공하는 기존 임상도는 광역 산림 현황을 파악하는 데 유용한 기초자료이지만, 일부 지역에서는 실제 산림 현황과의 불일치가 발생할 수 있으며, 혼효림 구분이나 세부 수종 경계 표현에 한계가 있다

수종지도 제작에 관한 초기 연구는 주로 위성영상과 GIS 보조자료를 결합하여 광역 단위의 수종 분포를 분류하는 방향으로 발전해 왔다. 국내 연구에서는 Sentinel-2, PlanetScope, DEM, 임상도 등을 활용하여 주요 수종을 분류하고, Random Forest 기반의 분류 모델을 통해 대면적 산림에 대한 수종지도 작성 가능성을 검토하였다(Lim et al., 2019; Kwon et al., 2021). 이러한 연구들은 분광정보뿐 아니라 수관 질감과 지형 환경 변수를 함께 활용할 때 분류 성능이 향상된다는 점을 보여주었으며(Vorovencii, 2024), 현장 접근이 어려운 지역까지 고려한 실용적 수종지도 구축의 가능성을 제시하였다.

이후 연구는 단일 위성영상 기반 분류를 넘어, LiDAR와 광학영상의 융합을 통한 고정밀 수종분류로 확대되었다. LiDAR는 수고, 수관 형상, 수직 구조와 같은 3차원 구조 정보를 제공하는 반면, 광학영상은 수종별 분광 특성과 생리적 반응을 반영하므로, 두 자료의 결합은 상호보완적인 정보체계를 형성한다. 실제로 항공 정사영상과 LiDAR를 결합한 국내 연구, UAV 기반 초분광-LiDAR 융합 연구, 그리고 LiDAR 점군 기반 딥러닝 분류 연구들은 단일 센서 접근보다 더 정밀한 산림 구조 및 수종 식별이 가능함을 보여주었으며, 고해상도 수종지도 제작을 위한 자료 융합의 필요성을 뒷받침하였다 (Seidel et al., 2021; Zhong et al., 2022; Quan et al., 2023).

기존 수종지도 연구는 위성영상과 GIS 보조자료를 활용한 광역 분류, 또는 LiDAR와 광학자료를 결합한 고정밀 분류로 발전해 왔으나, 몇 가지 한계를 공통적으로 지닌다. 먼저, 위성영상 기반 연구들은 대면적 적용성과 효율성 측면에서는 장점을 보였으나, 공간해상도와 자료 특성상 개체목 수준의 정밀한 수종 식별에는 제약이 있었다. 또한 LiDAR와 광학자료를 융합한 연구들은 단일 센서보다 높은 정확도를 보고하였으나(Hartling et al., 2021), 일부는 산림 수직구조 분류에 초점을 두거나, 초분광과 같은 고비용·고사양 자료에 의존하여 실제 운영형 수종지도 제작 체계로 일반화하는 데 한계가 있었다(Sothe et al., 2020). 아울러 국내 연구의 경우 Random Forest 중심의 단일 분류기 활용이 주를 이루었고, 다중센서 자료를 대상으로 한 분류기 간 비교나 하이브리드 앙상블 설계에 대한 검토는 상대적으로 제한적이었다(Sheykhmousa et al., 2020). 결과적으로 기존 연구들은 자료 융합의 필요성과 가능성을 제시하였으나, 실용적인 광학자료와 LiDAR를 결합하여 고정밀 수종지도를 안정적으로 생산할 수 있는 일반화된 앙상블 기반 방법론은 아직 충분히 정립되지 않았다고 볼 수 있다.

본 연구는 이러한 한계를 보완하기 위하여 항공 LiDAR와 고해상도 항공정사영상을 결합하고, 두 자료로부터 추출한 구조적·분광적·질감적 변수를 통합적으로 활용하는 앙상블 머신러닝 기반 수종지도 제작 알고리즘을 제안한다는 점에서 차별성을 가진다. LiDAR는 수고, 수관 형상, 수직 구조 등 수종 구분에 유효한 3차원 정보를 제공하고, 근적외 정사영상은 식생의 반사 특성과 수관 질감을 효과적으로 반영할 수 있으므로, 본 연구는 기존의 위성영상 기반 광역 분류와 초분광 중심의 고비용 정밀분류 사이를 연결하는 실용적 대안이 될 수 있다. 또한 단일 분류기에 의존하였던 기존 접근과 달리, 서로 다른 특성 공간에 강점을 가지는 복수의 머신러닝 기법을 비교·결합함으로써 분류 안정성과 일반화 성능을 높이고자 한다.

연구방법

본 연구에서는 기존 임상도 제작과정의 비효율성을 대폭 개선하고 항공 LiDAR 데이터 및 항공정사영상을 활용하여 앙상블 머신러닝 기반 수종분류 모델을 개발하고자 하였다. 본 연구의 목적은 항공 LiDAR 데이터와 고해상도 항공정사영상을 결합하고, 앙상블 머신러닝 기법을 적용하여 국유림의 고정밀 수종 분류 모델을 개발하는 것이다. 구체적인 연구 목표는 다음과 같다.

첫째, RIGEL VQ 1560 Ⅱ 멀티센서를 활용하여 취득한 다중 센서 데이터(LiDAR + 정사영상)를 융합하여 수종 분류에 유용한 변수를 추출한다. 둘째, 개별 머신러닝 알고리즘(Random Forest, XGBoost, CatBoost, LightGBM, SVM)의 성능을 비교 분석하여 연구대상지 대표 수종에 대한 수종분류에 적합한 머신러닝 분류기를 선정한다. 셋째, 보팅(Voting) 및 스태킹(Stacking) 앙상블 기법을 적용하여 최적의 앙상블 머신러닝 수종 분류 모델을 구축한다. 넷째, 고정밀 수종 지도를 제작하고 데이터 경량화 등 포스트 프로세싱을 통해 실무 활용성을 확보한다.

Figure 1은 본 연구의 전체적인 추진 흐름을 나타낸 것이다.

1. 연구대상지 특성

본 연구의 실험 대상지는 홍천 가리산 선도산림경영단지이다. 해당 지역은 태백산맥 중부에 위치하여 산림 생태계의 대표적 특성을 보이며, 다양한 수종이 혼재되어 있어 수종 분류 연구에 적합하다.

Figure 2은 연구 대상지의 위치와 범위를 3단계로 보여준다. 홍천 가리산 선도산림경영단지 전역(약 207 km²)에서 데이터를 취득하고, 이 중 1개 도엽(37704066, 6.12 km²)을 테스트베드로 설정하여 실험을 수행하였다. 대상지 좌표계는 동부도원점(EPSG 5187)을 사용하였다(Table 1).

분류 대상 수종은 국유림경영정보를 참조하여 연구대상지 내의 대표 수종으로 선정하였다. 국유림경영정보는 실제 현황 수종 및 목표 조림 수종, 경영 이력 등이 포함되어있는 산림 경영을 위한 주제정보로서, 조림지에 대한 현황 수종을 명확하게 반영하여 본 연구에서는 동부지방산림청의 홍천 국유림관리소에서 제공한 국유림 경영정보를 앙상블 기계학습 모델에 의한 수종분류 결과의 품질분석 시 최확값(Ground Truth)으로 활용하였다.

테스트베드 영역(6.12 km²) 내 총 4,688,031 m²의 산림을 대상으로, 국유림경영정보에 따른 임상 구성은 침엽수림 2,932,545 m²(62.55%), 활엽수림 1,741,677 m²(37.15%), 무림목지 13,809 m²(0.29%)이다. 침엽수 중에서는 잣나무(Pinus koraiensis)가 52.91%, 낙엽송(Larix kaempferi)이 8.81%로 침엽수림 대부분을 차지하며, 활엽수 중에서는 기타활엽수(23.26%)와 신갈나무(Quercus mongolica, 10.23%)가 주요 수종으로 분포한다.

따라서 본 연구에서는 홍천 가리산 선도산림경영단지의 대표 수종으로 침엽수 3종(잣나무, 납엽송, 기타침엽수), 활엽수 2종(기타활엽수, 신갈나무)를 선정하였다. 해당 수종분포 자료는 머신러닝 학습데이터를 제작하기 위한 참조자료(Reference Data) 및 분류 결과의 품질을 평가하기 위한 기준으로 활용하였다(Table 1).

2. 데이터 취득 및 현황

본 연구에서는 RIEGL VQ 1560 II 플랫폼을 사용하여 항공 LiDAR 데이터를 취득하였다. 해당 센서는 듀얼 체널 스캔방식으로 고밀도 포인트클라우드 데이터와 고해상도 항공사진(RGBN)을 동시 취득이 가능하여 고정밀 수종분류 연구에 적합하다. 촬영 날짜는 2025년 6월 25일로 수목의 잎사귀가 활발하게 자라 수종 간 특성을 충분히 반영하기에 적합하다(Hill et al., 2010). 데이터 취득 조건은 Table 2와 같다.

테스트베드(도엽 37704066) 영역에서 총 1,426,433,224개의 포인트가 취득되었으며, 포인트 점밀도는 133 points/m²로 고밀도 포인트클라우드 데이터이다. 항공사진은 RGB사진, NIR(Nir-Infrared)사진을 각각 3,082장 취득하였으며, 공간해상도(Ground Sample Distance, GSD)는 0.076m로 고해상도 사진이다. 취득한 항공 LiDAR와 항공사진은 수종분류를 위한 머신러닝 모델 제작에 있어 학습 데이터 구축에 이용하였다.(Table 3).

3. 항공 LiDAR와 항공 사진의 전처리 과정

LiDAR 데이터를 분석하기 위해서는 전처리 과정이 필수적이다. 본 연구에서는 LiDAR 데이터의 전처리 과정을 수행하기 위하여 Greenvally의 LiDAR 360 SW을 활용하였다.

LiDAR 데이터의 이상치(Noise)를 제거 하기 위하여 통계적 이상치 제거(Statistical Outlier Removal, SOR) 알고리즘을 활용하였다(Rusu et al., 2008). 지면점 분류에서는 PTD(Progressive TIN Densifiacation) 알고리즘을 적용하였다. PTD 알고리즘은 초기 지면 후보점을 기반으로 삼각망(Triangulated Irregular Network, TIN)을 구성한 후, 반복적으로 주변 포인트를 평가하며 지면 조건을 만족하는 점들을 추가하여 지면점을 분류한다(Axelsson, 2000). 항공 LiDAR의 전처리 결과는 Figure 3와 같다.

고해상도 항공정사영상 제작을 위하여 취득한 항공사진을 Bentley iTwin Capture SW에 적용하여 Figure 4와 같은 컴퓨터 비전 해석 과정을 수행하였다. 정사영상 생성에는 SfM(Structure from Motion) 및 AT(Aerial Triangulation) 기법을 활용하였다(Westoby et al., 2012). 11개의 지상기준점(Ground Control Point, GCP)을 사용하여 좌표를 보정했으며(Ulvi, 2021), 최종적으로 GSD 0.076m급의 RGB, NIR 정사영상을 생성하였다. 이후 NIR 밴드와 RGB 밴드를 정합하여 CIR(Color Infrared) 영상을 생성하였다(Figure 5).

4. 머신러닝 실험을 위한 학습 데이터 생성

본 연구에서는 고정밀 수종분류를 위한 앙상블 머신러닝 모델 개발을 위하여 개별 모델 성능 평가에서 앙상블 실험까지 이어지는 실험 과정을 수행하였다. 정량적인 모델의 성능 평가를 위하여 모든 실험에서는 동일한 학습데이터를 활용하였다. 학습 데이터는 ALS 및 항공정사영상을 활용하여 생성한 데이터 셋을 기반으로 생성하였다. 학습 데이터 생성 과정은 다음과 같다.

우선, 다중해상도 영상 분할(Multiresolution Segmentation)을 수행하여 대상지를 객체(Object)화 한다. 그 다음, 홍천국유림관리소의 산림경영정보 내 수종 정보를 참조하여 신뢰할 수 있는 라벨링(Labeling) 데이터를 생성한다. 세 번째로는 ALS와 항공정사영상을 활용하여 라벨링 데이터에 입력할 학습 데이터셋을 구축한다. 마지막으로 라벨링 데이터를 학습 데이터와 중첩(Overlap)하여 위상 분석(Zonal Statistics)을 수행해 각 데이터의 수치값을 추출한다(Figure 6).

ALS와 항공정사영상으로 생성한 데이터셋 현황은 Table 4와 Figure 7와 같다.

정규식생지수(Normalized Difference Vegetation Index, NDVI) 영상은 식생의 생리적 특성과 분광 반응 특성을 기반으로 산출되는 대표적인 식생지수로, 수종 분류에 있어 중요한 입력 인자로 활용된다(Rouse et al., 1973). NDVI는 식생이 적색 파장(Red) 영역에서는 엽록소에 의해 강하게 흡수되고, 근적외선(Near-Infrared, NIR) 영역에서는 세포 구조에 의해 강하게 반사되는 특성을 이용하여 계산한다(Tucker, 1979). 본 연구에서 NDVI는 수종별 생장력 및 반사율이 다른 점을 착안하여, 임상 및 수종 구분에 활용하였다. NDVI는 수식 (1)와 같이 정의된다.

NDVI = \frac{ρ_{nir} - ρ_{red}}{ρ_{nir} + ρ_{red}}

식 (1)

여기서 ρ_nir은 영상의 NIR 밴드를 ρ_red는 Red 밴드를 의미한다

수치수관모델(Canopy Height Model, CHM)은 지표면 높이(DEM)와 수관 표면 높이(DSM)의 차이를 통해 생성되는 모델로, 수목의 상대적 수고(height)를 정량적으로 표현하는 3차원 구조 정보이다(Popescu et al., 2002). CHM는 항공 LiDAR 정보를 활용하여 생성하며, 임상 간의 수고에서 차이가 있는 점을 착안하여 활용하였다(Kwak et al., 2007). CHM은 수식 (2)와 같이 정의된다.

CHM = DSM - DEM

식 (2)

Tree Crown Slope(수관 경사도) 영상은 일반적인 지형 경사가 아닌 수관의 경사를 나타내는 데이터이다. 일반적인 지형 경사도 계산은 수치표고모델(Digital Elevation Model, DEM)을 활용하여 픽셀들의 높이값과 주변 픽셀의 높이값을 이용해 경사를 추정하는 중앙차분법(Central Difference Method)를 활용한다(Horn, 1981). 본 연구에서는 수종 간 수관 밀집도 및 형태가 다른 점에 착안하여 기존의 DEM을 이용한 중앙차분이 아닌 CHM 기반 중앙차분법을 적용하여 수관의 경사도를 계산하였다. 경사도는 수식 (3)와 같이 정의한다.

Tree Crown Slope = \tan^{−1} (\sqrt{{(\frac{\partial z}{\partial x})}^{2} + {(\frac{\partial z}{\partial y})}^{2}})

식 (3)

여기서 ∂x/∂z은 X 방향의 고도 변화율을, ∂y/∂z은 Y 방향의 고도 변화율을 의미한다.

반사강도(Intensity) 영상은 LiDAR 반사강도를 회색조로 표현하여 수종별 반사 특성 차이를 보여준다. 본 연구에서는 LiDAR 반사강도의 수치값을 추출하기 위하여 역거리 가중법(Inverse Distance Weighting, IDW)을 사용하여 반사강도값을 보간하였으며(Shepard, 1968), 이를 통해 연속적인 공간 분포를 가지는 반사강도 래스터를 생성하였다. 반사강도는 식생에서 수종별로 잎의 구조, 수분 함량 등에 민감하게 반응하여 수종분류에 적합하다. 해당 분석에서 사용한 IDW 보간은 수식 (4)와 같이 정의한다.

II = \sum (\frac{I_{i}}{{di}^{p}}) / \sum (\frac{1}{{di}^{p}})

식 (4)

여기서 II은 보간된 반사강도(Interpolation Intensity)를, I_i은 주변 포인트의 Intensity를, d_i은 거리, p는 가중치 지수를 의미한다.

회색조 공분산 행렬(Gray-Level Co-occurrence, GLCM)은 영상 내 픽셀 간의 공간적 관계를 기반으로 텍스쳐(Texture) 특성을 정량화하는 통계적 방법으로, 특정 거리와 방향에서 두 픽셀의 밝기값(Gray Level)이 동시에 발생하는 빈도를 행렬로 표현한다(Haralick et al., 1973). 따라서 GLCM은 래스터 모델의 공간적 패턴과 질감 정보를 정량화하는데 적합하여 수종분류 연구에서 매우 적합하다. 본 연구에서는 GLCM 기반 지표 중 대비(Contrast), Entropy를 사용하였다. Contrast는 픽셀 간 밝기 값 차이의 정도로 영상에 거칠기를 나타내는 지표이며, Entropy는 텍스처의 불확실성 또는 복잡성을 나타내는 지표로 수관 패턴의 질서 및 복잡성을 나타낸다. 일반적으로 Contrast는 식 (5), Entropy는 식 (6)으로 나타낸다.

Contrast = \sum_{i = 0}^{N - 1} \sum_{j = 0}^{N - 1} {(i - j)}^{2} P (i, j)

식 (5)

Entropy = - \sum_{i = 0}^{N - 1} \sum_{j = 0}^{N - 1} P (i, j) \log (P (i, j))

식 (6)

위와 같이 생성한 항공 LiDAR 및 항공정사영상 기반 수치값을 추출하기 위하여 항공정사영상에 다중해상도 영상 분할(Multiresolution Image Segmentation) 기법을 적용하여 286,601개의 객체를 생성하였다(Baatz and Schäpe, 2000). 객체 생성을 위하여 eCognition SW을 활용하였으며 사용된 매개변수는 Table 4와 같으며 Figure 11은 다중해상도 영상 분할의 결과이다.

라벨링 데이터는 홍천 국유림관리소의 국유림경영정보의 수종정보를 참조하여 생성하였다. 데이터 라벨링은 QGIS SW를 활용하였으며, 각 수종별로 라벨링 데이터를 생성하여(SHP) 수종별 번호를 상이하게 입력해 구분하였다. 생성한 라벨링 데이터는 총 4663개로 해당 데이터에 ALS와 항공정사영상을 활용하여 생성한 학습 데이터셋을 입력하였다. 위치기반으로 위상분석을 수행하였으며, 추출 수치값은 각 데이터별로 평균과 표준편차값을 추출하였다. 학습 데이터 생성 결과는 Figure 9와 같다.

5. 수종분류를 위한 최적 머신러닝 앙상블 모델 정립

본 연구에서는 수종분류를 위한 최적 머신러닝 앙상블 모델을 구축하기 위하여 2단계의 실험을 수행하였다,

1단계에서는 각 머신러닝 알고리즘의 성능을 독립적으로 평가하기 위하여 개별 모델 실험을 수행하여 알고리즘의 성능을 평가하였다. 실험에 적용한 알고리즘은 RandomForest, XGBoost, CatBoost, LightGBM, SVM이다. Random Forest는 다수의 결정 트리를 앙상블하여 과적합을 방지하는 모델이며, XGBoost는 병렬 처리가 가능한 고성능 그래디언트 부스팅 모델이다. CatBoost는 범주형 변수 처리에 최적화되어 있으며, LightGBM은 대용량 데이터 처리에 유리한 고속 그래디언트 부스팅 프레임워크이다. SVM은 최적의 결정 경계(초평면)를 찾는 모델이다(Cortes and Vapnik, 1995; Breiman, 2001; Chen and Guestrin, 2016; Ke et al., 2017; Prokhorenkova et al., 2018). 개별 모델 특성 및 입력 파라미터는 Table 6와 같다.

데이터 학습 방식은 공간 독립성 확보를 위하여 공간 블록 분할 방식을 활용하였다. 연구 대상지 전체를 동일 면적의 100개의 Tile로 분할하여 이 중 무작위로 선정된 60%의 타일 내의 학습 데이터를 학습용(Train)으로, 나머지 40%중 무작위로 선정된 20%를 검증용(Validation)으로, 나머지 20%를 시험용(Test)으로 활용하였다.

2단계에서는 5가지의 머신러닝 모델의 성능을 비교하여 상위 3가지의 모델을 활용하여 앙상블 실험을 수행하였다. 수행한 앙상블 유형은 3가지로 다수결 기반의 Hard Voting, 확률 평균 기반의 Soft Voting 앙상블 및 1차 예측의 결과를 메타 모델로 활용하는 Stacking 앙상블이다. 앙상블 시험 또한 연구 대상지 전체를 동일 면적의 100개의 Tile로 분할하여 이 중 무작위로 선정된 60%의 타일 내의 학습 데이터를 학습용(Train)으로, 나머지 40%중 무작위로 선정된 20%를 검증용(Validation)으로, 나머지 20%를 시험용(Test)으로 활용하였다. 앙상블 실험의 과정은 Figure 10와 같다.

결과 및 고찰

1. 개별 머신러닝 모델을 활용한 수종분류 실험 결과

개별 수종 분류 모델의 성능 평가를 위해 혼동행렬(Confusion Matrix) 기반 품질분석 과정을 수행하였다(Sokolova and Lapalme, 2009). 최확값으로 활용하는 국유림경영정보를 참조하여 시험용 데이터셋 중 각 예측 및 비예측 모델별로 1,000개씩의 랜덤 포인트를 생성하였다. 이후 클래스별 오류 체크(TP/FP/TN/FN)를 수행하고,

최종적으로 Recall, Precision, F1-score를 산출하여 분류 정확도를 혼동행렬 기반으로 평가하였다(Powers, 2011).

개별 모델의 성능을 평가한 결과 5가지의 개별 모델의 품질은 Random Forest(F1-0.8907), LightGBM(0.8830), CatBoost(0.8773), XGBoost(0.8764), SVM(0.7972)로 나타나 Random Forest가 가장 우수한 결과로 나타났으며 LightGBM, CatBoost가 뒤를 이어 우수한 성능으로 평가되었다(Table 7).

2. 앙상블 머신러닝 모델을 활용한 수종분류 실험 결과

앙상블 실험에서는 개별 모델 성능 평가에서 가장 우수한 성능을 나타낸 상위 3개의 모델을 활용하여 실험을 수행하였다. Voting 앙상블은 여러 개의 독립적인 개별 모델의 예측을 결합하여 최종 결과를 도출하는 방법으로, 단일 모델보다 안정성과 일반화 성능을 향상시킨다(Kittler et al., 1998).

이 중 Hard Voting은 각 모델의 예측 클래스에 대해 다수결로 최종 결과를 결정하는 방식이다. 구조가 단순하고 확률값이 없는 모델에도 적용 가능하지만, 예측 신뢰도를 반영하지 못하는 한계가 있다. Hard Voting은 수식 (7)와 같이 표현된다.

\hat{y} = mode \{C_{1} (x), C_{2} (x), \dots, C_{n} (x)\}

식 (7)

여기서, C_i(x)은 I번째 모델의 예측 클래스, mode는 가장 많이 나온 값(최빈), ŷ은 최종 예측 결과를 의미한다.

Soft Voting은 각 모델이 출력한 클래스별 확률을 평균하여 가장 높은 확률을 갖는 클래스를 선택하는 방식이다. 이는 단순 다수결을 넘어 모델별 예측 신뢰도를 반영할 수 있어, 일반적으로 Hard Voting보다 우수한 성능을 보인다. Soft Voting은 수학적으로 식 (8)와 같이 표현한다.

\hat{y} = \underset{k}{\arg \max} \sum_{i = 1}^{n} w_{i} \times P_{i} (k | x)

식 (8)

여기서, P_i(k∣x)은 I번째 모델이 클래스 k일 확률, w_i은 각 모델의 가중치, ∑은 모델별 확률의 합산(또는 평균), arg max_k은 가장 큰 값을 가지는 클래스의 선택, ŷ은 최종 예측 결과를 의미한다.

Stacking 앙상블은 Wolpert(1992)가 제안한 메타 학습 기반 기법으로, 서로 다른 모델의 예측 결과를 결합하여 단일 모델보다 높은 성능을 도출하는 방법이다. 기본 모델은 원본 데이터를 학습하고, 메타 모델은 이들의 예측값을 입력으로 활용하여 최종 예측을 수행한다. 일반적으로 과적합을 방지하기 위해 교차검증을 통해 생성된 예측값을 사용하며, 이를 통해 새로운 특징 공간(Level-1 feature set)이 구성된다.

Stacking은 2단계 구조로 이루어지며, 1단계에서는 기본 모델이 학습 및 검증 데이터를 기반으로 예측값을 생성하고, 2단계에서는 이러한 예측값을 입력으로 메타 모델을 학습한다. 이 과정에서 모델 간 상호보완적 특성을 반영하여 일반화 성능을 향상시킬 수 있으며, 특히 다양한 알고리즘을 조합할수록 효과가 높다.

본 연구에서는 Level-0 기본 모델로 Random Forest, LightGBM, CatBoost를 사용하고, Level-1 메타 모델로 Logistic Regression을 적용하였다. 해당 구성은 서로 다른 학습 구조를 기반으로 예측 다양성을 확보하고, 동시에 안정적이고 해석 가능한 최종 모델을 구축하기 위함이다.

1단계 로직의 수학적 표현은 수식 (9), 2단계는 수식 (10)로 정의한다.

Z = [M_{1} (x), M_{2} (x), \dots, M_{n} (x)]

식 (9)

여기서, M_i(x)은 i번째 기본 모델의 예측값, M_meta는 메타 모델의 입력으로 사용되는 새로운 특징 벡터(Level-1 feature set)이다.

\hat{y} = M_{meta} ([M_{1} (x), M_{2} (x), \dots, M_{n} (x)])

식 (10)

여기서, M_i(x)은 i번째 기본 모델의 예측값, M_meta은 메타모델, ŷ은 최종 예측값이다.

본 연구에서는 개별 실험에서 가장 우수한 성능을 보인 Random Forest, LightGBM, CatBoost를 활용하여 3가지 유형의 앙상블 실험을 수행하였으며, 개별 모델 성능 평가에서 활용한 혼동행렬 기반 품질검사 방법을 동일하게 적용하여 개별 모델과 함께 성능을 비교 분석하였다.

성능 분석 결과 Stacking 기반 앙상블이 F1-0.9330, Soft Voting이 F1-0.9120, Hard Voting이 F1-0.8930으로 나타나 Stacking 앙상블이 가장 우수한 성능을 나타냄을 확인하였다. 이는 단일 모델의 최고 성능이었던 Random Forest의 결과인 0.8907 대비 약 4%가량 향상된 결과로 Stacking 앙상블이 수종분류에 가장 적합한 앙상블 기법임을 확인 할 수 있었다.

Stacking Ensemble 모델이 최고 성능을 기록한 이유는 다중 센서 변수(CHM, NDVI, Intensity 등)에 대해 모델별 반응이 상호 보완적으로 작용하였기 때문으로 분석된다. 특히 기타 침엽수나 기타 활엽수와 같은 분류 난이도가 높은 클래스에서 오분류가 감소하고, 재현율(Recall)과 정밀도(Precision)가 동시에 개선되는 효과를 확인하였다. Table 8는 단일 모델 성능 평가와 앙상블 실험의 결과를 비교한 결과표이다.

3. 데이터 후처리 및 고품질 수종지도 제작

본 연구에서는 Stacking 기반 수종분류를 위한 최적 수종분류 모델을 활용하여 생성한 수종 경계에서 객체 단위 분류로 인해 발생하는 과도한 데이터 용량과 복잡한 경계를 개선하기 위해 QGIS 오픈소스 라이브러리를 활용한 3단계 후처리 공정을 수립하였다. 도형 수정(Fix Geometries)을 통해 객체의 기하학적 오류를 제거하고, 벡터 디졸브(Vector Dissolve)를 통해 동일 수종 클래스 폴리곤을 통합하며, 벡터 단순화(Vector Simplify)를 통해 경계 엣지를 단순화하였다.

후처리 결과, 데이터 용량을 약 14.58배 경량화(94,498KB → 6,481KB)하여 공간적 무결성을 유지하면서도 데이터 처리 및 시각화의 효율성을 크게 높여 실무적 활용성을 확보하였다(Figure 11). 최종적으로 생성한 고품질 수종지도는 공간 해상도 0.076m GSD급 초고해상도, 5개 주요 수종 분류, F1-score 0.9330의 분류 정확도를 달성하였다(Table 9).

Figure 12은 최종적으로 생성된 고품질 수종 지도이다.

4. 종합 고찰

본 연구는 항공 LiDAR(ALS) 데이터와 고해상도 항공정사영상(RGB, NIR)을 결합하고 앙상블 머신러닝 기법을 적용하여, 국유림의 고정밀 수종 분류 모델을 개발하고 자동화된 수종지도 제작 워크플로우를 정립하였다. 주요 연구 성과를 요약하면 다음과 같다.

첫째, 다중 센서 데이터(LiDAR + RGB + NIR) 융합을 통해 구조 정보(CHM, Intensity, Slope), 분광 정보(NDVI, RGB, NIR, Elevation), 질감 정보(GLCM Entropy, GLCM Contrast) 등 10개의 분류 변수를 체계적으로 추출하여 수종별 고유한 특성을 종합적으로 반영하였다.

둘째, 5가지 개별 머신러닝 알고리즘과 앙상블 기법의 체계적 비교 실험을 통해, Stacking Ensemble 모델(RF+ LightGBM+CatBoost 기본 모델 + Logistic Regression 메타 모델)이 F1-score 0.9330으로 최고 성능을 달성하였다. 이는 최우수 단일 모델(Random Forest, F1-score 0.8907) 대비 무결성을 유지하면서도 실무 활용성을 확보하였다.

본 연구는 기존 인력 중심의 산림 임상도 제작 방식의 한계를 극복하고, 항공 멀티센서 데이터와 앙상블 AI 기법을 결합한 자동화된 수종분류 워크플로우를 정립하였다는 점에서 학술적·실무적 의의가 있다. 제작된 고정밀 수종지도는 국유림 경영계획 수립, 산림 탄소흡수원 모니터링, 생물다양성 보전, 산림재해 대응 등 다양한 산림 관리 분야의 기초 자료로 활용될 수 있을 것으로 기대된다.

종합적으로 본 연구는 기존 임상도가 수반하고 있는 한계점을 개선하기 위하여 앙상블 머신러닝 기반 수종분류 프로세스를 정립하였으며, 데이터 후처리 공정을 제시하였다. 하지만 본 연구에서 분류한 수종은 국지적인 대상지에 대한 특정 대표수종만을 분류하고, 특정 도엽을 대상으로 실험을 수행하여, 보다 다양한 수종과 광역적인 대상지에 대한 추가 연구가 필요할 것으로 사료된다.

Figure

Figure 1.

Main study flow for Developing a High-Precision Ensemble Tree Species Classification Model.

Figure 2.

Location and extent of the study area: Hongcheon Garisan Forest Management District (207 km²) and testbed area (Map Sheet 37704066, 6.12 km²).

Figure 3.

Pre-Processing of Airborne Laser Scannging data.

Figure 4.

Computer Vision Analysis Process for Orthoimage Generation.

Figure 5.

Result of Computer Vision Analysis (Orthoimage Generation).

Figure 6.

Training Dataset Construction Process.

Figure 7.

Status of Training Dataset Construction Based on Airborne LiDAR and Aerial Orthophotos.

Figure 11.

Post-processing for high-density tree species map generation.

Figure 9.

Learning Data Generation Result.

Figure 8.

Result of MultireSolution Segmentation.

Figure 10.

Ensemble ML experiment workflow for tree species classification.

Figure 12.

High-quality tree species map based on stacking ensemble.

Table

Table 1.Overview of the Study Area and Distribution of Tree Species

Item	Description
Location	Garisan area, Hongcheon-gun, Gangwon-do
Testbed Area	6.12 km2 (Map sheet No. 37704066)
Coordinate System	Korea East belt 2010 (EPSG:5187)
Forest Composition	Coniferous forest 62.55%, Deciduous forest 37.15%, Non-forest 0.29%
Major Species	C·F	Pinus koraiensis (52.91%), Larix kaempferi (8.81%), Other CF (0.84%)
D·F	Other DF (23.26%), Quercus mongolica (10.23%),

Table 2.Specifications of acquired data

Item	Acquisition Information
Flight Date	2025.06.25
Field od View(FOV)	58.72°
Flight height	1371.6m
Flight speed	203.72km/h
Side Overlap	75%

Table 3.Specifications of acquired data

Data Type	Main Specifications
Airborne LiDAR	Point density: 133 points/m2
Aerial Photos	RGB: 3,082 images(GSD : 0.076m)
NIR: 3,082 images(GSD : 0.076m)

Table 4.Feature variables used for classification

Variable Type	Variable Name	Data Source
Structural	Canopy Height Model	Airborne LiDAR
Intensity
Tree Crown Slope
Spectral	NDVI	Ortho CIR
Texture	GLCM_Entropy
GLCM_Contrast

Table 5.Parameter for MultireSolution Segmentation

Table 6.Machine learning algorithm characteristics and Parameters

Algorithm	Parameters
Random Forest	n_estimators	500
max_depth	30
min_samples_split	10
XGBoost	n_estimators	300
learning_rate	0.1
max_depth	8
CatBoost	iterations	500
learning_rate	0.05
depth	8
LightGBM	n_estimators	300
learning_rate	0.1
max_depth	10
num_leaves	50
SVM	C	10
gamma	0.1
kernel	rbf

Table 7.Performance Evaluation of Individual Models Based on Confusion Matrix

Model	Recall(%)	Precision(%)	F1-Score
Random Forest	89.21	89.03	0.8907
LightGBM	88.15	88.45	0.8830
CatBoost	87.66	87.81	0.8773
XGBoost	87.52	87.77	0.8764
SVM	79.81	79.64	0.7972

Table 8.Results of tree species classification based on ensemble and individual machine learning models

Category	Model	Meta Model	Recall(%)	Precision(%)	F1-Score
Individual	Random Forest	-	89.21	89.03	0.8907
LightGBM	-	88.15	88.45	0.8830
CatBoost	-	87.66	87.81	0.8773
XGBoost	-	87.52	87.77	0.8764
SVM	-	79.81	79.64	0.7972
Ensemble	Hard Voting (RF+LGBM+Cat)	Majority vote	89.08	89.54	0.8930
Soft Voting (RF+LGBM+Cat)	Probability average	90.42	91.98	0.9120
Stacking (RF+LGBM+Cat/Logistic meta)	Logistic Regression	92.81	93.70	0.9330

Table 9.Results of tree species classification based on ensemble and individual machine learning models

Step	Processing Content	Result
1. Fix Geometries	Remove object errors	Geometric correction completed
2. Vector Dissolve	Merge polygons of same species class	Polygon integration completed
3. Vector Simplify	Simplify boundary edges	Edge simplification completed
Final Result	94,498KB → 6,481KB (14.58× reduction)

Reference

Axelsson, P. ( 2000) DEM generation from laser scanner data using adaptive TIN models. International Archives of Photogrammetry and Remote Sensing 33(B4/1): 110-117.
Baatz, M. and A. Schäpe ( 2000) Multiresolution segmentation: An optimization approach for high quality multi-scale image segmentation. In: J. Strobl, T. Blaschke and G. Griesebner(eds.), Angewandte Geographische Informationsverarbeitung XII, Wichmann-Verlag, Heidelberg, Germany, pp. 12-23. (in German).
Benz, U.C., P. Hofmann, G. Willhauck, I. Lingenfelder and M. Heynen ( 2004) Multi-resolution, object-oriented fuzzy analysis of remote sensing data for GIS-ready information. ISPRS Journal of Photogrammetry and Remote Sensing 58(3-4): 239-258.
Breiman, L. ( 2001) Random forests. Machine Learning 45(1): 5-32.
Chen, T. and C. Guestrin ( 2016) XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, San Francisco, USA, pp. 785-794.
Cortes, C. and V. Vapnik ( 1995) Support-vector networks. Machine Learning 20(3): 273-297.
Haralick, R.M., K. Shanmugam and I. Dinstein ( 1973) Textural features for image classification. IEEE Transactions on Systems, Man, and Cybernetics SMC-3(6): 610-621.
Hartling, S., V. Sagan and M. Maimaitijiang ( 2021) Urban tree species classification using UAV-based multi-sensor data fusion and machine learning. GIScience & Remote Sensing 58(8): 1250-1275.
Hill, R.A., A.K. Wilson, M. George and S.A. Hinsley ( 2010) Mapping tree species in temperate deciduous woodland using time-series multi-spectral data. Applied Vegetation Science 13(1): 86-99.
Horn, B.K.P. ( 1981) Hill shading and the reflectance map. Proceedings of the IEEE 69(1): 14-47.
Ke, G., Q. Meng, T. Finley, T. Wang, W. Chen, W. Ma, Q. Ye and T.Y. Liu ( 2017) LightGBM: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems 30 (NIPS 2017), Curran Associates, Long Beach, USA, pp. 3146-3154.
Kittler, J., M. Hatef, R.P.W. Duin and J. Matas ( 1998) On combining classifiers. IEEE Transactions on Pattern Analysis and Machine Intelligence 20(3): 226-239.
Korea Forest Service ( 2022) Statistical Yearbook of Forestry. Korea Forest Service, Daejeon, Korea, 444pp. (in Korean).
Kuncheva, L.I. ( 2004) Combining Pattern Classifiers: Methods and Algorithms. John Wiley & Sons, Hoboken, New Jersey, USA, 350pp.
Kwak, D.A., W.K. Lee, J.H. Lee, G.S. Biging and P. Gong ( 2007) Detection of individual trees and estimation of tree height using LiDAR data. Journal of Forest Research 12(6): 425-434.
Kwon, S.K., K.M. Kim and J.B. Lim ( 2021) A study on pre-evaluation of tree species classification possibility of CAS500-4 using RapidEye satellite imageries. Korean Journal of Remote Sensing 37(2): 291-304. (in Korean with English abstract).
Lim, J.B., K.M. Kim and M.K. Kim ( 2019) The development of major tree species classification model using different satellite images and machine learning in Gwangneung area. Korean Journal of Remote Sensing 35(6): 1037-1052. (in Korean with English abstract).
Polikar, R. ( 2006) Ensemble based systems in decision making. IEEE Circuits and Systems Magazine 6(3): 21-45.
Popescu, S.C., R.H. Wynne and R.F. Nelson ( 2002) Estimating plot-level tree heights with lidar: Local filtering with a canopy-height based variable window size. Computers and Electronics in Agriculture 37(1-3): 71-95.
Powers, D.M.W. ( 2011) Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. Journal of Machine Learning Technologies 2(1): 37-63.
Prokhorenkova, L., G. Gusev, A. Vorobev, A.V. Dorogush and A. Gulin ( 2018) CatBoost: Unbiased boosting with categorical features. Advances in Neural Information Processing Systems 31 (NeurIPS 2018), Curran Associates, Montréal, Canada, pp. 6639-6649.
Quan, Y., M. Li, Y. Hao, J. Liu and B. Wang ( 2023) Tree species classification in a typical natural secondary forest using UAVborne LiDAR and hyperspectral data. GIScience & Remote Sensing 60(1): 2171706.
Rouse, J.W., R.H. Haas, J.A. Schell and D.W. Deering ( 1973) Monitoring vegetation systems in the Great Plains with ERTS. Proceedings of the Third Earth Resources Technology Satellite-1 Symposium, NASA SP-351, NASA, Washington D.C., pp. 309-317.
Rusu, R.B., Z.C. Marton, N. Blodow, M. Dolha and M. Beetz ( 2008) Towards 3D point cloud based object maps for household environments. Robotics and Autonomous Systems 56(11): 927-941.
Seidel, D., P. Annighöfer, A. Thielman, Q.E. Seifert, J.H. Thauer, J. Glatthorn, M. Ehbrecht, T. Kneib and C. Ammer ( 2021) Predicting tree species from 3D laser scanning point clouds using deep learning. Frontiers in Plant Science 12: 635440.
Shepard D.(, 1968) A two-dimensional interpolation function for irregularly-spaced data. Proceedings of the 1968 23rd ACM National Conference, ACM, New York, USA, pp. 517-524.
Sheykhmousa, M., M. Mahdianpari, H. Ghanbari, F. Mohammadimanesh, P. Ghamisi and S. Homayouni ( 2020) Support vector machine versus random forest for remote sensing image classification: A meta-analysis and systematic review. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 13: 6308-6325.
Sokolova, M. and G. Lapalme ( 2009) A systematic analysis of performance measures for classification tasks. Information Processing and Management 45(4): 427-437.
Sothe, C., C.M. De Almeida, M.B. Schimalski, L.E.C. La Rosa, J.D.B. Castro, R.Q. Feitosa, M. Dalponte, C.L. Lima, V. Liesenberg, G.T. Miyoshi and A.M.G. Tommaselli ( 2020) Comparative performance of convolutional neural network, weighted and conventional support vector machine and random forest for classifying tree species using hyperspectral and photogrammetric data. GIScience & Remote Sensing 57(3): 369-394.
Tucker, C.J. ( 1979) Red and photographic infrared linear combinations for monitoring vegetation. Remote Sensing of Environment 8(2): 127-150.
Ulvi, A. ( 2021) The effect of the distribution and numbers of ground control points on the precision of producing orthophoto maps with an unmanned aerial vehicle. Journal of Asian Architecture and Building Engineering 20(6): 806-817.
Vorovencii, I. ( 2024) Assessing various scenarios of multitemporal Sentinel-2 imagery, topographic data, texture features, and machine learning algorithms for tree species identification. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 17: 15373-15392.
Westoby, M.J., J. Brasington, N.F. Glasser, M.J. Hambrey and J.M. Reynolds ( 2012) ‘Structure-from-Motion’ photogrammetry: A low-cost, effective tool for geoscience applications. Geomorphology 179: 300-314.
Wolpert, D.H. ( 1992) Stacked generalization. Neural Networks 5(2): 241-259.
Zhong, H., W. Lin, H. Liu, N. Ma, K. Liu and R. Cao ( 2022) Identification of tree species based on the fusion of UAV hyperspectral image and LiDAR data in a coniferous and broad-leaved mixed forest in Northeast China. Frontiers in Plant Science 13: 964769.

Scale Parameter	30
Weight	NIR(5), Red(1), Green(1), Blue(1)
Compactness	0.5
Shape	0.1

Development of an Ensemble Machine Learning Model for Tree Species Classification in National Forests Using Airborne Multi-sensor Data1a