Ⅰ. 서 론
2023년부터 국내선 항공기 정시성 기준은 활주로 이착륙에서 게이트 출도착으로 변경되었으며, 시간도 30분에서 15분까지로 변경되었다. 항공기 정시성은 2024년 기준 22.23%이며, 항공기 지연 발생을 유발한 원인은 연결 지연, 공항 및 출입국 절차, 정비, 항공교통흐름, 기상 등의 순이다. 하지만, 대부분의 지연은 항공기 연결 지연으로 79.3%가 발생하였고, 출발시는 81.3%로 도착보다 더 높은 비율을 나타낸다(Table 1).
구분 | 운항편수 | 지연편수 | 지연율 (%) | 연결지연원인 | 연결지연비율 (%) |
---|---|---|---|---|---|
출발 | 183,008 | 39,118 | 21.38 | 31,795 | 81.3 |
도착 | 183,010 | 42,253 | 23.09 | 32,769 | 77.6 |
전체 | 366,018 | 81,371 | 22.23 | 64,563 | 79.3 |
출처: 한국공항공사 항공통계(www.airport.co.kr).
국내선은 김포공항 중심의 내륙노선과 제주공항 중심으로 운영하며, 그 밖의 공항을 연결하는 노선은 항공사의 기재 운영을 위한 것을 주요 목적으로 운영된다. 내륙노선은 자동차, 철도(KTX 등), 고속버스와 같은 타 교통수단과 경쟁이 이루어지므로 언급한 두 공항을 제외한 나머지 공항의 노선의 운영 비율은 낮은 편이다.
국내선 중 김포-제주노선은 전체 운항편수 중 44%로 많은 항공기가 운항하므로, Table 1에서 연결편 지연이 주요 지연 원인으로 본다면, 김포-제주노선에 대한 정시성만 개선되어도 국내선 전체 정시성도 개선될 수 있을 것으로 판단된다(Table 2).
구분 | 김포-제주 | 김해-제주 | 제주-청주 | 김포-김해 |
---|---|---|---|---|
운항 편수 | 81,678 (44.1%) | 20,328 (11.0%) | 18,324 (9,9%) | 17,811 (9.6%) |
출처: 한국공항공사 항공통계(www.airport.co.kr).
본 연구는 국내선 중 김포공항으로 운항하는 항공기 운항자료를 기반으로 머신러닝 방법인 심층신경망(DNN)을 활용하여 정시성을 예측하고자 하였다. 수집 데이터는 2023년 1월부터 2024년 6월까지 국내선을 운항하며 수집된 한국공항공사 통합운항정보시스템(iFIS)의 운항기초자료, 및 협동운항관리시스템(A-CDM) 등이다.
Ⅱ. 본 론
국내선은 90분 이하의 단거리 노선이므로, 항공기 운항은 여러 번의 운항Leg로 이루어진다. 첫 번째 운항노선은 김포(출발)→제주(도착)이라면, 두 번째 운항노선은 제주(출발)→김포(도착)이 되므로 항공기는 하루 동안 해당 노선을 왕복해서 운항하게 된다. 따라서, 선행 항공기의 정시성에 따라 후행 항공기에 영향이 발생한다. 선행항공기가 지연출발한 경우 후행 항공기의 지연출발은 월평균 70% 이상이며(Fig. 1), 지연출발임에도 불구하고 후행 항공기가 정시출발하는 경우는 평균 3% 미만으로 도출되었다.
항공기가 하루에 운항하는 운항Leg를 기준으로 정시성 변화를 본다면, Lee(2022)는 국적사별로 운항Leg가 증가할수록 지연율도 함께 증가하는 것을 확인하였으며, Park(2024)은 국내선을 운항하는 항공기가 공항에 도착한 이후 다시 국내선 출발로 정시운항을 하는데 필요한 계획된 항공기 연결시간을 실제 운항스케쥴을 활용하여 시뮬레이션 분석 결과로 도출하였다. 2024년 국적사별로 운항Leg를 분석한 결과, 항공사별로 예비 항공기 또는 국제선이나 비혼잡 국내선으로 변경하여 정시성을 유지하거나, 또는 혼잡노선에 동일하게 적용하여 선행항공기의 정시성 영향을 받게 되는 스케쥴로 구성하고 있음을 알 수가 있다.
분석방법은 지도학습의 심층신경망(DNN)을 활용하며, DNN은 1개 입력층과 2개 이상 은닉층, 1개 출력층으로 구성된다. 또한, 입력층과 출력층 사이에 존재하는 층은 매우 복잡한 패턴으로 구성되며, 가중치(weight), 편향(bias), 활성화 함수(activation function) 등을 고려하여 학습하게 된다(Fig. 2).
해당 연구에서 수집되는 변수가 독립적이지 않으므로 종속성을 허용하는 DNN 분석 모델을 선택하였고, 변수의 비선형적이고 복잡한 특성을 효과적으로 분석이 가능하므로 연구목적에 부합한다고 판단하였다.
또한, 신경망 모델을 활용한 선행 연구는 Lee (2021)는 항공기 지연예측에 적합한 모델을 찾고자 신경망, 회귀분석, 랜덤 포레스트, XG부스트 모델로 예측한 결과 신경망 모델이 가장 우수한 분석 모델인 것을 확인하였다. Kim(2016)은 LSTM 기반 RNN 모델을 활용하여 항공기 지연예측을 수행한 결과 다른 모델보다 예측 성능이 높은 것을 확인하였지만, 공항별 특성에 따라 지연예측 결과가 달라질 수 있는 것도 확인하였다. Sun(2022)은 공항 단위의 지연 계산은 RNN 모델이 가장 우수한 것을 확인하였다.
심층신경망 모델을 활용한 지연예측 모델 개발은 다음과 같은 5단계 절차로 수행한다(Fig. 3).
2023년 1월부터 2024년 6월까지 18개월간 수집한 데이터를 전처리하였다. 다만, 몇가지 예외사항을 적용하였다. 첫 번째는 국제선 도착이후 국내선으로 운항하는 항공기는 항공사별 최소 연결시간(MCT)을 적용해야하므로, 연결지연이 발생하지 않는다고 가정한다. 두 번째는 인천공항에서 출발하는 항공기거나, 김포출발 후 김포도착하는 항공기는 페리비행(ferry flight)에 해당하므로 제외한다. 세 번째는 18개월간 데이터를 활용하므로 결측 값이 포함된 데이터는 제외한다.
해당 연구에서 사용하는 변수(Table 3)는 항공기 운항에서 수집된 자료와 이를 기반으로 생성한 연결편 자료 등을 활용하여 정의하였다. 운항자료는 한국공항공사 통합운항정보시스템(iFIS)와 협동운항관리시스템(A-CDM) 등 자료를 활용하였다. 연결편 자료는 운항자료를 기반으로 운항 Leg, 선행항공기의 정시성 여부, 지연 누적횟수 등 가공한 자료를 활용하였다. 최종적으로 DNN에 포함하는 변수는 숫자 형태로 표현되어야 하므로 라벨 인코딩을 활용하여 수치형 자료로 변환하고, 기종, 공항 정보를 제외한 범주형 자료는 임베딩하여 효율적으로 학습할 수 있도록 한다.
구분 | 변수명 | 자료형태 |
---|---|---|
운항 자료 | 계절 | 범주 |
월 | 수치 | |
일 | 수치 | |
요일 | 범주 | |
SOBT / SIBT | 수치 | |
항공편명 | 범주 | |
출발 / 도착 | 범주 | |
기준공항 / 상대공항 | 범주 | |
항공사 | 범주 | |
정기/부정기 | 범주 | |
기종 | 범주 | |
활주로 | 범주 | |
항공기 등록부호 | 범주 | |
연결편 자료 | 항공기 운항 순서 | 수치 |
선행 항공편 지연여부 | 범주 | |
지연 누적 횟수 | 수치 | |
연속 지연 누적 횟수 | 수치 |
성능지표는 머신러닝에서 정확도(accuracy), 정밀도(precision), 재현율(recall), F1-score, precisionrecall curve(PRC)로 5가지로 확인하였다. 입력데이터의 불균형으로 인해 정확도는 소수 클래스(지연 항공편) 예측에 적절하지 않으므로, 정밀도와 재현율을 동시에 반영하는 F1-Score의 최댓값(0.25 이상)을 임곗값 기준으로 설정하였다. 단, 샘플링기법을 활용하여 불균형 데이터 문제를 해소한 경우(4단계 결과)에는 임곗값의 기준을 정확도의 최댓값으로 변경하여 진행한다.
성능지표에 따른 분석 결과의 차이를 확인하도록 4단계로 수행하였다. 1단계는 24년 6개월 자료를 기반으로 분석하였으며, 2단계는 연결편 자료를 추가하여 분석, 3단계는 2단계에서 2023년 자료를 추가하여 자료량을 증가시켰고, 4단계는 3단계에서 데이터의 불균형을 해소하고자 샘플링 기법을 활용하여 모델을 학습하였다.
1단계(2024.1.-6. 자료 활용) 분석 결과를 도출하는 과정에서 활성화 함수 리키 렐루의 기울기와 은닉층 Node 수, Epoch, Batch size, Learning rate를 조정하면서 결과를 도출하였다. 정확도 및 정밀도, 재현율 등 모든 성능지표가 매우 낮은 수준으로 도출되었다.
성과지표별 그래프와 PRC 그래프를 확인한 결과 데이터가 불규칙하거나 재현율 결과가 증가할수록 정밀도는 감소하는 것을 알 수 있다(Table 4), (Fig. 4, 5).
은닉층 노드 | 함수 기울기 | 에포크 | 배치 크기 | 학습율 | 임곗값 |
---|---|---|---|---|---|
64 32 |
0.05 | 50 | 512 | 0.001 | 0.31 |
정확도 | 정밀도 | 재현율 | F1-Score |
---|---|---|---|
71.6% | 45.66% | 64.65% | 53.52% |
2단계(연결편 자료 추가)는 선행항공기 지연 여부, 누적 지연횟수 등의 변수를 추가한 결과 1단계보다 분석 결과가 성능지표가 높아짐을 확인하였다(Table 5), (Fig. 6, 7).
은닉층 노드 | 함수 기울기 | 에포크 | 배치 크기 | 학습율 | 임곗값 |
---|---|---|---|---|---|
128 64 |
0.01 | 50 | 256 | 0.001 | 0.55 |
정확도 | 정밀도 | 재현율 | F1-Score |
---|---|---|---|
91.9% | 88.8% | 79% | 83.61% |
2단계는 재현율과 정밀도 관계에서 재현율이 0.8 이상임에도 정밀도는 0.7 이상의 수준을 유지하는 것을 확인하였다.
3단계(2023년 자료 증가)는 검증자료량이 증가되어 4,058대에서 12,712대로 증가되었고, 분석 결과 성능지표 및 PRC 그래프가 2단계와 유사함을 확인하였다(Table 6), (Fig. 8, 9).
은닉층 노드 | 함수 기울기 | 에포크 | 배치 크기 | 학습율 | 임곗값 |
---|---|---|---|---|---|
64 32 |
0.05 | 50 | 1024 | 0.001 | 0.5 |
정확도 | 정밀도 | 재현율 | F1-Score |
---|---|---|---|
91.4% | 87.9% | 77% | 82.1% |
4단계(샘플링 기법)는 앞서 지연 운항횟수 자료는 정시운항 자료 대비 22%이므로 데이터 불균형이 발생한다. 이에 언더샘플링과 오버샘플링 기법을 활용하여 데이터 불균형 문제를 해결하였다. 이에 정시 및 지연 운항편 수를 각각 410,162대로 동일하게 맞추어 분석을 실시한 결과 성능지표가 3단계보다 향상됨을 확인하였다.
4단계 결과는 재현율이 0.8 이상임에도 정밀도는 0.95로 4단계 중에 가장 높은 결과 값을 도출하였고, 곡선의 면적 또한 상대적으로 증가하였다(Table 7), (Fig. 10, 11).
은닉층 노드 | 함수 기울기 | 에포크 | 배치 크기 | 학습율 | 임곗값 |
---|---|---|---|---|---|
128 64 |
0.1 | 50 | 512 | 0.001 | 0.4 |
정확도 | 정밀도 | 재현율 | F1-Score |
---|---|---|---|
90% | 93.1% | 87.3% | 90.1% |
Ⅲ. 결 론
항공기 출도착 정시성은 최근 정부(항공안전관리감독기관), 공항운영기관, 항공사, 승객(소비자원 등) 등 항공운송과 관련된 모든 이해관계자들이 모두 연계된 민감한 문제로서 정시성을 개선하기 위해 이해관계자 모두의 지속적인 관리가 필요하다. 특히 국내선은 지연율이 약 22%이며, 과거부터 대부분 연결지연 원인이므로 이에 대한 개선대책이 필요하다. 이에, 항공사에서 적용하는 예비항공기를 투입하는 시점을 예측하거나, 공항의 운영종료시간(curfew time) 이후 운영하지 않도록 하기 위한 정시성 예측은 유관기관들에게 필요한 연구이다. 이에 본 연구는 머신러닝인 DNN을 활용한 정시성 예측 연구를 김포국제공항 대상으로 수행하였고, 연결편 자료, 빅데이터 활용, 샘플링기법을 적용하여 예측이 가능한 점을 해당 연구를 통해 확인하였다.
본 연구의 한계점은 앞서 선행연구에서 확인한바 여러 공항의 운영 특성에 따라 정시성 예측의 성능지표가 상이할 수 있으므로, 다양한 공항에 적용하여 분석할 필요성이 있다. 또한, DNN 모델이 아닌 다양한 방법을 활용하여 정시성 예측을 분석함에 따라 분석 모델의 다양화도 필요하다.