01. 개요
최근 기후 변화는 농업 생산성에 큰 영향을 미치고 있으며, 안정적인 작물 생산을 위한 스마트 농업 기술의 중요성이 더욱 커지고 있습니다. 특히 시설원예 및 노지 작물 재배 환경 데이터를 분석하여 작물 생육에 최적화된 환경을 조성하고, 수확량 증대 및 병해충 예방에 기여하는 것은 미래 농업의 핵심 과제입니다.
스마트 팜(Smart Farm)은 정보통신기술(ICT), 인공지능(AI), 사물인터넷(IoT), 빅데이터, 로봇 기술 등 다양한 첨단 기술을 활용하여 작물의 생육 환경을 정밀하게 조절하고, 이를 통해 노동력을 줄이는 동시에 작물의 품질과 생산량을 향상시키는 혁신적인 농업 방식입니다. 온실이나 수경재배 시설뿐만 아니라 축산업, 과수원, 심지어는 도시 농업까지 다양한 분야에서 활용되고 있으며, 환경 데이터를 실시간으로 수집하고 분석하여 최적의 생육 조건을 조성함으로써 농업의 패러다임을 변화시키고 있습니다.
이 프로젝트는 시설원예 및 노지 환경 데이터에 대한 탐색적 데이터 분석(EDA)을 수행하고, 이를 기반으로 통계 분석, 머신러닝 회귀/분류/클러스터링 모델을 구축[스탠다드반] 하여 스마트 농업의 기반을 다지는 것을 목표로 합니다. 여러분의 분석을 통해 농업 생산성 향상에 기여하고, 지속 가능한 농업 발전에 동참해 보세요!
02. 배경
프로젝트 배경:
•
기후 변화의 영향 증대: 기후 변화로 인해 작물 생육 환경의 불확실성이 커지고, 이상기후로 인한 농업 피해가 증가하는 상황입니다.
•
농업 인력 감소 및 고령화: 노동력 감소와 고령화로 인해 전통적인 농업 방식의 유지가 어려워지고 있으며, 이에 따라 자동화된 농업 시스템의 필요성이 대두되고 있습니다.
•
공간 활용의 중요성: 경작지 감소와 도시화로 인해 공간 활용을 극대화할 수 있는 새로운 농업 모델이 요구됩니다.
스마트 팜은 IoT, AI, 빅데이터 등의 첨단 기술을 활용하여 환경을 실시간으로 모니터링하고 자동으로 최적화하는 시스템으로, 기존 농업 방식의 한계를 보완할 수 있는 대안입니다. 스마트 환경제어, 수경재배, AI 기반 생육 예측 등의 기법을 적용하면 생산성을 극대화하고 자원 낭비를 최소화할 수 있습니다.
본 프로젝트는 스마트 팜을 활용한 최적 생육 기법을 연구·적용하여 지속 가능한 농업 모델을 구축하고, 기후 변화와 노동력 감소에 효과적으로 대응하는 방안을 모색하는 것을 목표로 합니다.
03. 주제
[베이직반] 프로젝트 주제 가이드
[스탠다드반] 프로젝트 주제 가이드
04. 데이터셋 설명
데이터셋 장점
다음은 이번 프로젝트에 사용될 시설원예 및 노지 환경 데이터의 주요 컬럼 설명입니다.
•
farm_cde (온실번호)
◦
유형: String
◦
설명: 각 온실 또는 농지를 구분하는 고유 식별자입니다. (토마토명가와 같은 예시)
•
measDate (측정일시)
◦
유형: String (YYYY-MM-DD HH:MM:SS 형식)
◦
설명: 환경 데이터가 측정된 정확한 시간 정보입니다. 시계열 분석에 활용될 수 있습니다.
•
senVal (측정데이터)
◦
유형: Double
◦
설명: fatrCode에 해당하는 실제 측정값입니다. 이 값을 분석의 주요 대상으로 삼게 됩니다.
•
fatrCode (항목코드)
◦
유형: String
◦
설명: 측정된 환경 항목을 나타내는 코드입니다. 아래 표와 같은 의미를 가집니다.
▪
TE: 외부온도 (단위: 도)
▪
WD: 외부풍향 (단위: 도)
▪
WS: 외부풍속 (단위: m/s)
▪
WP: 폭풍신호 (단위: Y/N)
▪
RP: 강우신호 (단위: Y/N)
▪
SR: 누적광 (단위: w/㎡)
▪
IR: 광량 (단위: μmol/m-2·s)
▪
T1: 온도1 (단위: 도)
▪
T2: 온도2 (단위: 도)
▪
TA: 평균온도 (단위: 도)
▪
TB: 예비온도 (단위: 도)
▪
HI: 습도 (단위: %)
▪
CI: CO2 (단위: ppm)
▪
TP1: 난방관1온도 (단위: 도)
▪
TP2: 난방관2온도 (단위: 도)
▪
TQ: 이슬점온도 (단위: 도)
•
itemCode (품목코드)
◦
유형: String
◦
설명: 재배되고 있는 작물의 품목 코드입니다. (080300은 토마토를 의미) 이 데이터를 활용하여 특정 작물(예: 토마토)에 초점을 맞춘 분석을 수행할 수 있습니다.
•
classCode (분야코드)
◦
유형: String
◦
설명: 데이터가 속한 분야를 나타내는 코드입니다. (FG는 '시설원예 및 노지'를 의미)
•
sectCode (분류코드)
◦
유형: String
◦
설명: 환경 정보의 세부 분류를 나타내는 코드입니다.
▪
EO: 외부환경
▪
EI: 내부환경
추가 설명
•
senVal은 fatrCode에 따라 온도, 습도, 광량, CO2 농도 등 다양한 측정값을 포함합니다. 각 항목의 단위(도, %, ppm, μmol/m-2·s, m/s, w/㎡)를 고려하여 분석해야 합니다.
•
측정일시(measDate)는 시계열 분석에 매우 중요하며, 시간의 흐름에 따른 환경 변화를 파악하는 데 필수적입니다.
•
품목코드(itemCode), 분야코드(classCode), 분류코드(sectCode)는 데이터를 그룹화하고 특정 작물 또는 환경 유형에 따른 분석을 수행하는 데 활용됩니다. 특히 이번 프로젝트에서는 itemCode가 '080300'(토마토)인 데이터에 초점을 맞춰 분석을 진행하는 것을 권장합니다.
•
주어진 데이터셋에는 직접적인 생육 지표(생장 길이, 잎 면적, 과실 수, 당도, 수확량 등)나 에너지 사용량이 명시되어 있지 않습니다. 따라서 수강생들은 프로젝트를 진행하면서 이와 관련된 '가상의 지표' 또는 '추정치'를 설정하고, 이를 바탕으로 회귀/분류 모델의 타겟 변수를 정의하는 창의적인 접근이 필요합니다. 예를 들어, 특정 환경 조건(TA, HI, CI, IR 등)이 토마토의 '생육 점수'에 영향을 미친다고 가정하고, 이 생육 점수를 예측하는 회귀 모델을 구축할 수 있습니다.

