Development of deep learning-based pest detection technology for image-based automatic trap monitoring

Hye-Ki Jeong; Seong-Hwa Oh; Gyeong-Tae Kim; Jeong-Gyu Park; Se-Hyeon Gwon; Seoyeon Hong; Suk-Ju Hong

doi:10.12972/jame.2026.6.1.2

Preview

Research Article

Journal of Agricultural Machinery Engineering. 31 March 2026. 13-19
https://doi.org/10.12972/jame.2026.6.1.2

Development of deep learning-based pest detection technology for image-based automatic trap monitoring

영상 기반 자동 트랩 모니터링을 위한 딥러닝 기반 해충 검출 기술 개발

Hye-Ki Jeong¹

Seong-Hwa Oh¹

Gyeong-Tae Kim¹

Jeong-Gyu Park¹

Se-Hyeon Gwon¹

Seoyeon Hong²

Suk-Ju Hong³^*

정 혜기¹

오 성화¹

김 경태¹

박 정규¹

권 세현¹

홍 서연²

홍 석주³^*

¹Undergraduate Student, Department of Smart Bio-industrial Mechanical Engineering, Kyungpook National University, Daegu, 41566, Republic of Korea

²Agricultural Researcher, Smart Agricultural Technology Research Division, National Institute of Crop and Food Science, RDA, Miryang, 50424, Republic of Korea

³Assistant Professor, Department of Smart Bio-industrial Mechanical Engineering, Kyungpook National University, Daegu, 41566, Republic of Korea

¹경북대학교 농업생명과학대학 스마트생물산업기계공학과 학부생

²농촌진흥청 국립식량과학원 밭작물개발부 스마트생산기술과 농업연구사

³경북대학교 농업생명과학대학 스마트생물산업기계공학과 조교수

^{*Corresponding Author}

License (open-access, https://creativecommons.org/licenses/by-nc/4.0/):

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

Pests and diseases cause significant agricultural losses each year, posing a serious threat to global food security. According to the Food and Agriculture Organization, while approximately 50% more food production will be required by 2050, nearly 40% of current global crop yields are already lost to pest damage. As climate change alters the ecology and occurrence patterns of insect pests, conventional manual monitoring methods suffer from low accuracy and efficiency, limiting timely responses. In addition, earlier attempts to automate trap monitoring relied mainly on conventional image-processing techniques. Although such approaches showed the possibility of automated pest detection, their performance was often sensitive to pest posture, illumination changes, and complex field backgrounds, which limited robust application in real-world environments. To address these challenges, this research proposes a deep learning–based object detection model for species-level automatic detection and identification of two major pests— Spodoptera litura (tobacco cutworm) and Spodoptera exigua (beet armyworm)—within automatic trap environments. Model performance was evaluated using Precision, Recall, mAP@50, and mAP@75 metrics, based on training and validation with field-collected trap image data. Preliminary results demonstrate that the proposed system achieves reliable multi-species detection under varying environmental conditions, reduces dependence on on-site inspection through remote monitoring, and shows potential for supporting pest management decisions such as early warning and density estimation.

Keywords

Species-specific pest detection

Deep learning-based object detection

Field verification

Precision pest management decision-making

MAIN

Introduction
Materials and Methods
데이터 수집 및 데이터셋 구축
데이터 전처리
객체 인식 모델 및 구현 세부 사항
성능 평가 지표
Results and Discussion
모델별 객체 인식 성능 비교
현장 트랩 영상에 대한 추론 결과
고찰 및 향후 연구 방향
Conclusion

Introduction

최근 해충 모니터링 분야에서는 카메라와 통신 모듈을 갖춘 자동화 트랩 또는 스마트 트랩을 활용한 자동화 연구가 활발히 진행되고 있다(Ding and Taylor, 2016; Preti et al., 2021; Kawakita and Sato, 2023). 해충 트랩은 현장에서 실시간으로 해충을 감지하고 데이터를 서버로 전송함으로써, 노동력을 획기적으로 절감하고 해충의 발생 시기와 밀도를 예측하는 것을 목표로 한다.

하지만 실제 농업 현장에서 설치된 트랩 영상은 해충의 겹침이나 이물질 등으로 인해 대상 해충을 안정적으로 탐지하는 데 여전히 어려움이 있다(Li et al., 2021). 특히 담배거세미나방(Spodoptera litura)과 파밤나방(Spodoptera exigua)은 농작물에 막대한 피해를 유발하는 주요 해충으로, 적기 방제 의사결정을 위해서는 이들의 발생 여부와 개체 수를 자동으로 정밀하게 파악하는 기술이 필수적이다. 따라서 단순한 모니터링을 넘어 딥러닝 기술을 적용해 복잡한 트랩 영상 내에서도 해충 객체를 정확하게 검출할 수 있는 기술적 고도화가 요구된다.

따라서 본 연구에서는 이러한 기술적 필요성에 주목하여, 해충 트랩에서 촬영된 영상 이미지를 기반으로 담배거세미나방과 파밤나방을 자동 탐지하고 식별할 수 있는 딥러닝 기반 객체 인식 모델을 개발하고자 한다. 개발된 모델의 성능을 다양한 평가 지표(Precision, Recall, mAP 등)를 통해 정량적으로 비교 평가함으로써, 현장 적용이 가능한 고신뢰성 해충 식별 시스템의 기반을 마련하는 것을 본 연구의 궁극적인 목표로 한다.

Materials and Methods

데이터 수집 및 데이터셋 구축

딥러닝 모델 학습 및 평가를 위한 해충 이미지 데이터셋은 외부 환경 변수를 통제하고 일관된 데이터를 확보하기 위해서 실내의 제어된 환경에서 구축되었다. Fig. 1과 같은 해충 트랩 환경에 목표 해충인 담배거세미나방과 파밤나방 성충을 인위적으로 배치하였다. 고정된 카메라를 이용하여 일정한 조명 조건 하에서 이미지를 촬영하였다. RGB 이미지 획득에는 16.0 MP USB 2.0 카메라 모듈(WN-L2110.L302L)을 사용하였으며, 해당 장비는 1/2.8 inch CMOS IMX298 센서를 기반으로 최대 4656 × 3496 해상도의 영상 촬영이 가능하고, 화각은 78.4°이다.

https://cdn.apub.kr/journalsite/sites/jame/2026-006-01/N0730060102/images/Figure_JAME_06_01_02_F1.jpg

Fig. 1.

Trap images of (a) Spodoptera litura and (b) Spodoptera exigua

객체 인식을 위한 주석 작업은 오픈소스 라벨링 도구인 labelImg를 사용하여 수행하였다. 본 연구에서는 Fig. 2와 같이 담배거세미나방 420장의 이미지와 파밤나방 450장의 이미지를 라벨링하여 전체 데이터셋을 구축하였다. 각 해충 객체의 위치는 바운딩 박스(bounding box)로 지정하고 클래스 라벨을 할당하였으며 라벨링 데이터는 PASCAL VOC 형식의 XML 파일로 저장하였다. 입력 이미지는 먼저 리사이징을 통해 종횡비를 유지한 상태로 최대 크기(1333, 800)에 맞게 변환되었고, 이후 RandomFlip을 사용하여 0.5의 확률로 좌우 반전(horizontal flip)의 데이터 확장 기법이 적용되었다.

https://cdn.apub.kr/journalsite/sites/jame/2026-006-01/N0730060102/images/Figure_JAME_06_01_02_F2.jpg

Fig. 2.

Annotation process of (a) Spodoptera litura and (b) Spodoptera exigua

데이터 전처리

모델의 일반화와 성능을 향상시키고 오검출 요소를 억제하기 위해 해충 종에 대한 클래스 외에 특수한 클래스를 정의하여 라벨링을 수행하였다. 나방류의 인편이나 날개 조각이 본체에서 분리되어 오인될 가능성이 있는 객체는 ‘wing class’로 정의하였다. 또한 모델이 학습되지 않은 객체를 목표 해충으로 오검출하는 것을 방지하고자, 목표 해충이 아닌 객체는 ‘unknown class’로 라벨링하였다.

전체 데이터셋은 8:1:1의 비율로 학습 세트(Train Set), 검증 세트(Validation Set), 테스트 세트(Test Set)로 무작위 분 할하였다. 학습 데이터는 모델의 가중치를 훈련하는데 사용되었으며, 검증 데이터는 훈련 과정에서 하이퍼파라미터 튜닝 및 과적합을 모니터링하는 데 사용되었다. 또한, 테스트 세트는 모델의 최종 성능 평가에 사용되었다. 대상 해충 종에 대한 데이터세트 구성은 Table 1, 2와 같다.

Table 1.

Dataset composition of the Spodoptera litura

	No. of images	No. of objects	Spodoptera litura	Wings	legs
Train	336	5,173	4,901	238	34
Val	42	651	612	35	4
Test	42	658	617	35	6
Total	420	6,482	6,130	308	44

Table 2.

Dataset composition of the Spodoptera exigua

	No. of images	No. of objects	Spodoptera exigua	Wings
Train	360	5,594	5,589	5
Val	45	706	706	0
Test	45	659	658	1
Total	450	6,959	6,953	6

객체 인식 모델 및 구현 세부 사항

본 연구에서는 해충 종 단위의 정확한 식별을 위해 2-stage-detector 계열의 객체 인식 모델인 Faster R-CNN과 Cascade R-CNN을 실험 모델로 선정하였다(Ren et al., 2015; Cai and Vasconcelos, 2018; Hong et al., 2021). Backbone network는 ResNet-50에 FPN (Feature Pyramid Network)이 결합된 구조를 사용하였다(He et al., 2016). ResNet-50은 성능과 연산 효율성 간의 균형이 입증된 모델로 사전 학습된 가중치를 초기값으로 사용하여 학습을 수행함으로써 학습 효율성과 수렴 속도를 높였다. 모델의 학습 및 추론은 PyTorch 프레임워크와 MMDetection 툴을 기반으로 구현되었다.

모델 구현 시 설정한 구체적인 하이퍼파라미터는 다음과 같다. 옵티마이저(Optimizer)는 SGD (Stochastic Gradient Descent)를 사용하였으며, 초기 학습률은 0.02, 모멘텀 0.9, 가중치 감소는 0.0001로 설정하였다. 또한 배치 크기는 2로 설정하였다.

성능 평가 지표

개발된 모델의 객체 탐지 및 분류 성능은 널리 이용되는 성능 지표인 AP (Average Precision)를 통해 정량적으로 평가하였다. AP를 산출하기 위해서는 정밀도(Precision)와 재현율(Recall)을 고려해야 한다. 정밀도와 재현율은 다음 식 (1)과 식 (2)로 정의된다.

(1)

Precision = \frac{T P}{T P + F P}

(2)

Recall = \frac{T P}{T P + F N}

여기서 TP (True Positive)는 해충을 올바르게 탐지한 경우, FP (False Positive)는 배경을 해충으로 오인한 경우, FN (False Negative)은 해충을 탐지하지 못한 경우를 의미한다. 최종적으로 AP는 Precision-Recall 곡선(PR Curve)의 하단 면적으로 계산되며, 이는 다음 식 (3)과 같이 표현된다.

(3)

A P = \int_{0}^{1} p (r) d r

탐지의 성공 여부를 판별하는 IoU (Intersection over Union) 임계값에 따라 성능이 달라질 수 있으므로, 본 연구에서는 AP@50 (IoU 임계값 0.5)과, 더 엄격한 기준인 AP@75 (IoU 임계값 0.75)를 함께 측정하여 모델의 정확도를 다각적으로 분석하였다.

Results and Discussion

모델별 객체 인식 성능 비교

Table 3은 담배거세미나방에서의 두 모델의 성능을 AP (Average Precision) 지표로 정량 평가한 결과이다. AP@50 (IoU 임계값 0.5) 기준에서는 Faster R-CNN과 Cascade R-CNN 두 모델 각각 96%, 95.7%에 달하는 높은 성능을 보였다. Table 4는 파밤나방에서의 두 모델의 성능을 AP (Average Precision) 지표로 정량 평가한 결과이다. AP@50 (IoU 임계값 0.5) 기준에서는 Faster R-CNN과 Cascade R-CNN 두 모델 모두 99%에 달하는 매우 높은 성능을 보였다. 이는 두 모델 모두 2종 해충 객체의 존재를 탐지하는 데에는 충분한 성능을 확보했음을 보여준다.

Table 3.

Test results of Spodoptera litura detection model

Model	Backbone	mAP_50:95	mAP_50	mAP_75
Faster R-CNN	ResNet-50	74.2%	96%	89.8%
Cascade R-CNN	ResNet-50	75.4%	95.7%	91.1%

Table 4.

Test results of Spodoptera exigua detection model

Model	Backbone	mAP_50:95	mAP_50	mAP_75
Faster R-CNN	ResNet-50	75.7%	99%	94%
Cascade R-CNN	ResNet-50	76.5%	99%	95.3%

탐지 정확도를 더 엄격하게 평가하는 AP@75 (IoU 임계값 0.75) 지표에서는 모델 간의 성능 차이가 관찰되었다. 담배거세미나방의 Cascade R-CNN은 91.1%의 AP@75를 기록하여, 89.8%를 기록한 Faster R-CNN보다 우수한 성능을 보였다. PASCAL VOC의 평가 방식을 적용하여 IoU 0.5부터 0.95까지 0.05 단위의 AP 평균인 AP@50:5:95를 분석한 결과, Cascade R-CNN (75.4%)이 Faster R-CNN (74.2%)보다 높은 성능을 보였다. 담배거세미나방의 Cascade R-CNN은 95.3%의 AP@75를 기록하여, 94%를 기록한 Faster R-CNN보다 우수한 성능을 보였다. 이 또한 PASCAL VOC의 표준 평가 방식인 AP@50:5:95 지표에서도 Cascade R-CNN은 76.5%로 Faster R-CNN의 75.7%보다 높은 성능을 나타냈다.

이러한 결과는 Cascade R-CNN의 구조적 특징에서 기인한 것으로 해석된다. Faster R-CNN이 단일 단계(single-stage)로 바운딩 박스 회귀와 분류를 수행하는 반면, Cascade R-CNN은 여러 단계의 검출기를 순차적으로 거치는 다단계(multi-stage) 구조를 가진다. 이 과정에서 바운딩 박스의 위치가 점차 개선되고, 더 정확한 위치 예측과 높은 IoU 임계값에서의 정밀도 향상을 가져온 것으로 판단된다. 하지만 수치적으로 작은 차이로 두 모델 모두 유사한 검출성능을 보였으며, 추후 모델의 경량화를 통한 속도와 성능의 트레이드오프 비교가 필요할 것으로 보인다.

현장 트랩 영상에 대한 추론 결과

모델의 실질적인 현장 적용 가능성을 평가하기 위해, 학습 데이터에 포함되지 않은 실제 현장에 설치된 트랩에서 촬영된 영상에 대해 추론을 수행하였다.

Fig. 3는 담배거세미나방(a-1, a-2)과 파밤나방(b-1, b-2)이 있는 실제 현장 트랩 이미지에 대해 학습된 모델을 적용한 결과이다. 그림에서 볼 수 있듯이, 조명 조건이 다르거나 해충이 겹쳐 있는 복잡한 상황에서도 목표 해충 2종을 성공적으로 탐지하고 식별해냈다. 이는 본 연구에서 개발된 모델이 통제된 실험실 환경뿐만 아니라, 다양한 변수가 존재하는 실제 농업 현장에서도 일정 수준 이상의 일반화 성능을 가질 수 있음을 보여준다.

https://cdn.apub.kr/journalsite/sites/jame/2026-006-01/N0730060102/images/Figure_JAME_06_01_02_F3.jpg

Fig. 3.

Evaluation result images of field trap images: (a) Spodoptera litura and (b) Spodoptera exigua

고찰 및 향후 연구 방향

본 연구를 통해 딥러닝 객체 인식 모델, 특히 Cascade R-CNN이 해충 트랩 환경에서 담배거세미나방과 파밤나방을 식별하는 데 매우 효과적임을 정량적(Table 3, Table 4) 및 정성적(Fig. 3)으로 확인하였다.

선행연구(Hong et al., 2020; Hong et al., 2021)에서는 pheromone trap 이미지를 활용한 해충 검출에 2-stage detector 계열 모델이 적용된 바 있으며, 이를 바탕으로 본 연구에서는 Faster R-CNN과 Cascade R-CNN을 비교 대상으로 선정하였다. 이 중 Cascade R-CNN은 다단계 검출 구조를 통해 보다 정교한 객체 위치 보정이 가능하다는 점에서 Faster R-CNN보다 발전된 모델이라 할 수 있다. 본 연구 결과에서도 Cascade R-CNN은 Faster R-CNN보다 전반적으로 높은 AP@75 및 AP@50:5:95 성능을 보여, 해충 트랩 영상에서 보다 정밀한 객체 검출에 활용될 가능성을 확인하였다. 다만, 소규모 데이터셋의 성능 차이 해석이 불안정하다는 한계가 있으며, 두 모델 간 성능 차이 또한 크지 않았으므로 Cascade R-CNN의 우수성을 일반화하여 해석하기보다는 향후 추론 속도와 경량화를 고려한 다양한 모델 비교와 추가적인 평가를 통해 신중하게 검토할 필요가 있다.

또한 현재 모델은 통제된 환경에서 수집된 데이터를 기반으로 학습되었다. 비록 Fig. 3을 통해 현장 적용 가능성을 확인하였으나 정량적인 평가가 추가로 수행될 필요가 있으며, 보다 견고하고 신뢰도 높은 시스템을 구축하기 위해서는 향후 추가적인 연구가 필요하다.

추후 연구에서는 다양한 조명 조건, 계절, 해충 밀도를 포함하는 복잡한 환경의 현장 데이터를 지속적으로 축적하여 학습 데이터셋을 보강할 계획이다. 이를 통해 모델을 개선하고, 다양한 실제 현장 환경에서의 정량적 성능 평가를 수행하여 시스템의 신뢰도를 높여 나가는 것을 목표로 한다.

Conclusion

본 연구는 해충 트랩 환경에서 딥러닝 기술을 활용하여, 농업 현장에서 막대한 피해를 유발하는 주요 해충인 담배거세미나방과 파밤나방 2종을 식별하기 위한 객체 탐지 모델의 성능을 비교, 평가하였다.

이를 위해 동일한 ResNet-50 Backbone을 사용하는 Faster R-CNN과 Cascade R-CNN 모델을 선정하여 실험을 진행하였다. 정량적 성능 평과 결과, 두 종의 두 모델 모두 95% 이상 수준의 높은 AP@50으로 해충의 존재를 탐지의 관점에서 높은 성능을 보였다. 하지만 더 엄격한 IoU 임계값(AP@75)을 적용한 평가에서는, Cascade R-CNN이 다단계 검출 구조의 이점을 바탕으로 Faster R-CNN보다 더 높은 성능을 보였다.

본 연구의 결과는 AI 트랩과 딥러닝 모델이 정밀 모니터링과 방제 의사결정의 핵심인 해충의 영상 기반 자동화된 검출에 효과적으로 적용될 수 있음을 시사한다.

Acknowledgements

본 연구는 농촌진흥청 공동연구사업(과제번호:RS-2025-02215546)의 지원에 의해 이루어진 것임.

References

Cai, Z., & Vasconcelos, N. (2018). Cascade R-CNN: Delving into high quality object detection. Proceedings of CVPR.

10.1109/CVPR.2018.00644

Ding, W., & Taylor, G. (2016). Automatic moth detection from trap images for pest management. Computers and Electronics in Agriculture, 123, 17-28.

10.1016/j.compag.2016.02.003

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of CVPR.

10.1109/CVPR.2016.90

Hong, S.-J., Kim, S.-Y., Kim, E., Lee, C.-H., Lee, J.-S., Lee, D.-S., Bang, J., & Kim, G. (2020). Moth detection from pheromone trap images using deep learning object detectors. Agriculture, 10(5), 170.

10.3390/agriculture10050170

Hong, S.-J., Nam, I., Kim, S.-Y., Kim, E., Lee, C.-H., Ahn, S., Park, I.-K., & Kim, G. (2021). Automatic Pest Counting from Pheromone Trap Images Using Deep Learning Object Detectors for Matsucoccus thunbergianae Monitoring. Insects, 12(4), 342.

10.3390/insects1204034233921492PMC8068825

Kawakita, S., & Sato, T. (2023). Towards automatic monitoring of insect pests using IoT camera-equipped pheromone traps: a case study for Spodoptera litura (Lepidoptera: Noctuidae). Applied Entomology and Zoology, 58, 265-272.

10.1007/s13355-023-00830-z

Li, W., Wang, D., Li, M., Gao, Y., Wu, J., & Yang, X. (2021). Field detection of tiny pests from sticky trap images using deep learning in agricultural greenhouse. Computers and Electronics in Agriculture, 183, 106048.

10.1016/j.compag.2021.106048

Preti, M., Verheggen, F., & Angeli, S. (2021). Insect pest monitoring with camera-equipped traps: strengths and limitations. Journal of Pest Science, 94, 203-217.

10.1007/s10340-020-01309-4

Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. arXiv:1506.01497.

Journal of Agricultural Machinery Engineering ISSN:2799-8673(Print) 2799-8819(Online) 농업기계공학

Preview

Development of deep learning-based pest detection technology for image-based automatic trap monitoring

ABSTRACT

MAIN

Fig. 1.

Trap images of (a) Spodoptera litura and (b) Spodoptera exigua

Fig. 2.

Annotation process of (a) Spodoptera litura and (b) Spodoptera exigua

Table 1.

Dataset composition of the Spodoptera litura

Table 2.

Dataset composition of the Spodoptera exigua

(1)

(2)

(3)

Table 3.

Test results of Spodoptera litura detection model

Table 4.

Test results of Spodoptera exigua detection model

Fig. 3.

Evaluation result images of field trap images: (a) Spodoptera litura and (b) Spodoptera exigua

Acknowledgements

References