Table 3. Model test results

모델 평균 BLEU 평균 METEOR 특징
Flan-T5 0.0000 0.0585 한국어 번역이 잘 되지 않음
GPT-4o 0.4514 0.7145 가장 일관된 성능을 보여줌.
Gemini 20-Flash 0.2533 0.7345 METEOR 점수에서 가장 높은 성능
(검증 점수 0∼1, 0:매우 낮은 품질, 1:매우 높은 품질)