Table 3. Model test results
모델
평균 BLEU
평균 METEOR
특징
Flan-T5
0.0000
0.0585
한국어 번역이 잘 되지 않음
GPT-4o
0.4514
0.7145
가장 일관된 성능을 보여줌.
Gemini 20-Flash
0.2533
0.7345
METEOR 점수에서 가장 높은 성능
(검증 점수 0∼1, 0:매우 낮은 품질, 1:매우 높은 품질)