Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.48 No.4 pp.79-94
DOI : https://doi.org/10.11627/jksie.2025.48.4.079

Quantitative and Qualitative Evaluation of Scholarly Topic Description Generation Using Large Language Models: A Case Study on OpenAlex

Sanggook Kim†

, Hyuk Hahn

, Taehoon Kwon

Global R&D Analysis Center, Korea Institute of Science and Technology Information

^†Corresponding Author : sgkim@kisti.re.kr

Received 03/11/2025 Finally Revised 11/11/2025 Accepted 20/11/2025

Abstract

This study develops a generative AI-based system for automatically generating scholarly topic descriptions within the OpenAlex database and evaluates its performance. Although OpenAlex provides concise topic descriptions, they lack contextual richness and informational coverage, limiting researchers’ ability to quickly grasp the semantic relevance of each topic. To address this issue, this study generated new descriptions for a total of 4,516 topics by utilizing metadata attributes—topic_id, topic_name, description, and keywords—and compared them with the original descriptions. Multiple large language models (LLMs), including GPT, LLaMA, and Mistral, were employed, and a consistent prompt-engineering scheme was designed to ensure the reproducibility of model comparison. A standardized evaluation framework integrating quantitative and qualitative indicators was proposed. Quantitative evaluation included keyword-based Precision, Recall, and F1 scores, ROUGE-L, Specter2 embedding-based cosine similarity, and BERTScore. Qualitative evaluation was conducted using LLM-based pairwise comparison, assessing Relevance, Coverage, and Clarity, with relative rankings determined through the Elo rating system. Furthermore, the Friedman test and Wilcoxon signed-rank test were applied to verify statistical significance. Experimental results revealed distinctive strengths and weaknesses across models, providing a benchmarking foundation for improving automated content generation in scholarly databases such as OpenAlex. The proposed evaluation framework also offers a reproducible and consistent basis for assessing various generative models, contributing to both academic research and practical system development.

Key Words : Large Language Models (LLMs) , Topic Description Generation , OpenAlex , Scholarly Database Evaluation , Benchmarking Framework

대규모 언어모델 기반 학술 토픽 설명 생성의 정량·정성 평가 연구: OpenAlex 사례

김상국†, 한 혁, 권태훈

한국과학기술정보연구원 글로벌R&D분석센터

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

최근 학술연구의 환경은 데이터 중심적(data-driven) 패 러다임으로 급속히 전환되고 있다[6]. 연구자들은 방대한 양의 학술 문헌과 연구성과를 효율적으로 탐색하고 이해 하기 위해, 데이터베이스 내 주제(Topic) 단위의 구조화된 정보에 의존하는 경향이 점점 더 커지고 있다[24]. 이러한 변화는 OpenAlex, Scopus, Dimensions 등 대규모 학술 데 이터베이스의 등장과 맞물려, 학술지식의 접근성과 활용 도를 높이는 중요한 요인으로 작용하고 있다.

그러나 현재 OpenAlex가 제공하는 각 토픽의 설명 (description)은 간결성과 일관성 측면에서는 장점을 가지 지만, 맥락적 풍부성(contextual richness)과 정보적 포괄성 (informational coverage) 측면에서 뚜렷한 한계를 보인다. 예를 들어, 특정 토픽이 다루는 연구 분야의 핵심 개념, 대표적 방법론, 응용 영역 등에 대한 구체적인 기술이 부 족하여, 연구자가 토픽 간 의미적 연관성이나 지식적 위치 를 직관적으로 파악하기 어렵다. 이러한 한계는 토픽 설명 이 단순한 요약 수준에 머무르고, 연구 영역의 내적 구조 나 발전 맥락을 충분히 반영하지 못한다는 점에서 지적되 고 있다.

이러한 문제를 해결하기 위한 대안으로 최근 생성형 인 공지능(Generative Artificial Intelligence)과 대규모 언어모 델(Large Language Models; LLMs)의 발전이 새로운 가능 성을 열고 있다. GPT, LLaMA, Gemma, Mistral, DeepSeek 등 다양한 모델이 자연어 생성과 문맥 이해 능력에서 탁월 한 성능을 보이며, 학술 텍스트 생성, 문헌 요약, 주제 태깅 (topic tagging), 연구동향 보고서 작성 등 다양한 학술 응 용 분야에서 활용되고 있다. 특히 LLM은 기존의 확률적 모델 기반 접근법에 비해 언어적 일관성(linguistic coherence) 과 의미적 정합성(semantic consistency)을 동시에 확 보할 수 있다는 점에서 주목받고 있다.

최근에는 학술 데이터베이스 내 주제 설명문을 LLM을 활용해 자동으로 생성하고, 그 품질을 정량적․정성적으 로 평가하려는 시도가 활발히 이루어지고 있다. 예를 들 면, Doi et al.[6]은 여러 LLM의 주제모델링 성능을 비교 평가하였으며 , Tan & D’Souza[24]는 LLM을 이용한 주제 모델 평가 자동화 프레임워크를 제시하여 기존 coherence 지표의 한계를 보완하였다. 또한 Stammbach et al.[23]은 LLM이 인간 평가자보다 일관된 주제 해석을 제공함을 실 증하였고, Liang et al.[14]은 학술 서베이 자동화 시스템 SurveyX를 통해 RAG 기반 LLM의 실질적 응용 가능성을 입증하였다. 이러한 연구들은 LLM이 단순 생성 도구를 넘어, 학술적 지식 표현과 평가의 새로운 인프라로 활용될 수 있음을 보여준다.

본 연구는 이러한 배경하에, OpenAlex 데이터베이스를 대상으로 대규모 언어모델 기반 학술 토픽 설명문 자동 생성 시스템을 구축하고, 그 성능을 다차원적으로 평가하 는 것을 목적으로 한다. 구체적으로는 다음의 세 가지 연 구 문제를 다룬다.

첫째, GPT, LLaMA, Gemma, Mistral, DeepSeek 등 다양 한 LLM을 활용하여 생성된 설명문 간의 품질 차이를 정 량적 지표를 통해 분석한다. 둘째, 단순한 어휘 일치나 표 면적 유사도를 넘어, 의미적 일관성(semantic coherence)과 문맥적 유사성(contextual similarity)을 반영할 수 있는 평 가 지표를 설계한다. 셋째, LLM 기반 쌍대 비교(pairwise comparison)와 Elo rating 시스템[7,8]을 활용하여 정성적 평가를 자동화하고, 모델 간 상대적 품질 순위를 산출한 다. 이 시스템은 체스 경기에서 선수들의 실력을 수치로 표현하기 위해 만들어진 평가 방식으로, 현재 AI 모델 비 교, 게임 매칭, 스포츠 랭킹, LLM 평가 대결 등 다양한 순위 측정 방법으로 많이 활용되고 있다. 이를 통해 본 연 구는 기존 연구에서 간과되었던 정량․정성 평가의 통합 적 프레임워크를 제시하고자 한다.

본 연구는 학술 데이터베이스 내 주제 설명 자동화 연 구의 초기 단계에서, LLM 기반 접근의 가능성과 한계를 실증적으로 검증했다는 점에서 의의가 있다. 특히, 기존 OpenAlex 설명문의 구조적 한계를 정량적으로 진단하고, 이를 대체 또는 보완할 수 있는 생성형 모델의 활용 방향 을 제시한다. 또한, 정량적 지표(Precision, Recall, ROUGE, BERTScore 등)와 정성적 평가(Elo rating, LLM-as-a-judge) 를 결합한 표준화된 성능 평가 프레임워크를 제시함으로 써, 향후 학술 텍스트 생성 연구의 비교․재현 연구 (reproducibility research)에 기여할 것으로 기대된다. 나아 가, 본 연구는 학술 정보 시스템의 품질 향상을 위한 실용 적 시사점을 제공한다. OpenAlex와 같은 공공 데이터베이 스뿐 아니라, 국내외 연구기관이 보유한 R&D 정보 시스 템에서도 LLM 기반 주제 설명 자동화를 적용할 수 있는 기술적 토대를 마련한다는 점에서 학문적․산업적 기여를 동시에 갖는다.

본 논문의 구성은 다음과 같다. 제2장에서는 학술 토픽 설명 생성 및 평가와 관련된 선행연구를 검토하고, 기존 접근 법의 한계를 분석한다. 제3장에서는 연구 데이터의 구성과 LLM 기반 설명문 생성 및 평가 프레임워크의 설계를 상세히 기술한다. 제4장에서는 정량적․정성적 평가 결과를 제시하 고, 모델 간 성능 차이에 대한 통계적 검정 및 지표 간 상관관 계 분석을 수행한다. 또한, 이를 바탕으로 종합 분석과 시사 점을 도출하여 평가 프레임워크의 타당성과 개선 방향을 논의한다. 마지막으로 제5장에서는 주요 결과를 통합적으로 논의하고, 프레임워크의 한계 및 향후 연구 방향을 제시함으 로써 연구의 실질적 시사점을 도출한다.

2. 선행 연구

2.1 학술 토픽 설명 자동화 연구 동향

학술 정보의 구조화를 위한 자동화 연구는 오랫동안 토 픽 모델링(Topic Modeling) 기반 접근을 중심으로 발전해 왔다.

Latent Dirichlet Allocation(LDA), Non-negative Matrix Factorization(NMF), BERTopic 등과 같은 기법은 대규모 문헌 집합 내에서 잠재 주제 구조를 식별하고, 주제별 핵 심 단어를 기반으로 간략한 요약문 또는 주제명을 생성하 는 데 널리 활용되어왔다[19,21]. 이러한 접근은 대량의 비정형 학술 데이터를 효율적으로 구조화하고 주제 탐색 의 편의성을 높이는 장점이 있으나, 생성된 설명이 단순한 키워드 나열에 머무르는 경우가 많아 문맥적 일관성 (coherence)과 자연스러운 서술(fluency)이 부족하다는 한 계를 지닌다.

이러한 한계를 극복하기 위해 최근에는 토픽 모델링과 자연어 생성(Natural Language Generation; NLG)을 결합한 하이브리드 연구가 활발히 진행되고 있다. 예를 들어, 문 헌 내 주요 단어를 LDA로 추출한 뒤, 이를 기반으로 seq2seq 또는 Transformer 계열의 언어모델이 문장 수준의 설명을 자동 생성하는 방식이 제안되었다[10]. 그러나 이 러한 시도들 대부분은 특정 분야(예: 의학, 정보학 등)에 국한되어 적용되거나, 생성 결과의 품질을 평가하는 표준 화된 정량 지표가 부재하여 연구 간 비교가 어렵다는 한계 를 가진다[10,12].

이와 같은 흐름 속에서 생성형 인공지능(Generative AI) 을 토픽 해석 단계에 직접 도입하여, 토픽 의미를 자동으 로 해석하거나 주제 구조의 타당성을 검증하려는 시도가 등장하였다.

예컨대, Kim et al.[13]은 스마트팩토리 특허 빅데이터를 대상으로 LDA 기반 토픽모델링과 ChatGPT의 의미추론 기능을 결합하여, 자동으로 도출된 토픽들의 의미를 추론 하고 중복 주제를 제거하는 절차를 제안하였다. 이는 기존 키워드 중심 분석의 한계를 보완하고, 비전문가도 토픽의 내용을 직관적으로 이해할 수 있도록 하는 ‘토픽 의미화 (topic interpretation) 자동화’의 실증적 사례로 평가된다. 또한, Luo et al.[18]는 LDA 기반 주제 분석과 효율성 평가 기법(DEA)을 통합하여, 주제별 연구성과의 정량적 효율 성과 주제 구조의 연관성을 함께 분석하는 프레임워크를 제시하였다. 이는 토픽 모델링의 자동화가 단순 탐색 수준 을 넘어, 연구성과 평가 및 R&D 전략 수립의 근거로 확장 될 수 있음을 보여준다.

이러한 연구들은 토픽 모델링이 단순한 주제 식별 기술 을 넘어, 의미 해석과 품질 검증을 포함하는 통합적 자동 화 체계로 발전하고 있음을 시사한다. 결국, 학술 텍스트 의 주제 설명 자동화는 생성 과정뿐 아니라, 생성된 설명 문의 품질을 객관적으로 평가할 수 있는 자동화된 평가체 계의 필요성으로 이어지고 있다.

이에 따라 최근에는 대규모 언어모델을 활용하여, 학술 텍스트의 생성과 평가를 통합적으로 접근하려는 연구 방 향이 확산되고 있다.

2.2 대규모 언어모델을 활용한 학술 텍스트 생성 및 평가 연구 동향

대규모 언어모델은 방대한 규모의 말뭉치를 기반으로 사전학습(pretraining)되어, 문맥 이해와 자연어 생성 능력 을 동시에 수행할 수 있는 생성형 인공지능의 핵심 기술로 부상하고 있다. 최근에는 GPT(OpenAI), LLaMA(Meta), Gemma(Google), Mistral(Open Source), DeepSeek(Sino AI) 등 다양한 계열의 모델들이 등장하며, 학술 텍스트 생성, 자동 요약, 논문 초록 생성, 주제 태깅(topic tagging) 등 여 러 연구 영역에서 실질적으로 활용되고 있다. 이러한 모델 들은 특히 instruction-tuning과 in-context learning을 통해 다 양한 문체와 목적에 맞춘 자연스러운 텍스트 생성을 가능 하게 하였다.

Zhang et al.[25]은 BERT 기반 임베딩을 활용하여 문장 간 의미적 유사도를 측정하는 BERTScore를 제안함으로 써, 단순한 어휘 일치 기반 평가에서 벗어나 의미적 평가 (semantic-based evaluation)의 가능성을 제시하였다. 이어 Fu et al.[9]은 GPT 계열 모델의 zero-shot instructionfollowing 능력을 활용하여, 인간 주석이나 추가 학습 없이 다차원적 텍스트 품질을 평가할 수 있는 GPTScore 프레임 워크를 제안하였다. 이 연구는 평가 항목(aspect definition) 과 과제(task specification)을 프롬프트로 정의하고, 모델이 생성문을 얼마나 “가능성이 높은 텍스트(probabilistically likely text)”로 판단하는지를 점수화함으로써, 평가를 생 성(generative evaluation)으로 확장했다는 점에서 의의가 있다.

이와 같은 연구들은 LLM을 활용하여 생성된 학술 텍스 트의 품질을 자동으로 평가하려는 새로운 시도를 보여주 며, 기존 주제 생성 자동화 연구와는 구별되는 ‘평가 중심 의 자동화 접근’으로 볼 수 있다.

Liu et al.[17]은 “LLM-as-Reference”라는 개념을 도입하 여, 대형 모델이 생성한 요약문을 기존 정답(reference)으 로 간주하는 새로운 학습․평가 패러다임을 제안하였다. 이 접근법에서는 ChatGPT나 GPT-4가 생성한 요약을 준 거(reference)로 사용하고, 소형 모델(BART, T5 등)이 이를 모사하도록 학습하여 요약 품질을 향상시켰다. 특히 GPTScore 및 GPTRank를 활용하여, LLM이 직접 생성문 간 품질 우위를 판단하는 contrastive learning 프레임워크 를 구축함으로써, 전통적인 ROUGE 기반 평가의 한계를 극복하였다.

한편, LLM의 성능 발전과 학술 응용의 확산을 종합적 으로 검토한 Kalyan[11]의 리뷰 논문은, GPT-3 계열 모델 에서 GPT-4, ChatGPT로 이어지는 진화를 통해 학술 요약, 논문 생성, 문헌 질의응답 등에서 LLM이 연구 지원 도구 로서 실제 활용되고 있음을 보여준다. 해당 연구는 instruction- tuning, reinforcement learning from human feedback( RLHF), 그리고 few-shot prompting이 결합될 때, LLM의 언어 생성 품질이 현저히 향상된다고 분석하였다.

또한 Zhang et al.[25]은 10종의 대규모 언어모델을 대상 으로 뉴스 요약 작업에서 인간 평가(human evaluation)를 수행하여, 모델 크기보다 instruction-tuning 여부가 성능을 결정하는 핵심 요인임을 실증하였다. 이 연구에서는 InstructGPT-Davinci(175B)가 인간 작성 요약문과 유사한 수준의 품질로 평가되었으며, GPTScore 및 BERTScore와 같은 자동평가 지표가 인간 판단과 높은 상관을 보인다는 점을 보고하였다. 그러나 동시에, 기존 데이터셋 (CNN/DM, XSUM)의 참조 요약(reference summaries)이 부정확하거나 일관성이 부족하여, LLM의 실제 성능을 과 소평가하는 경향이 있음을 지적하였다.

또한 국내 연구에서도 LLM을 학술 텍스트 자동화에 적 용하려는 시도가 보고되고 있다. 김상국 외[13]와 라월 외 [18]는 ChatGPT를 활용한 토픽 의미 해석 자동화와 토픽 모델링-DEA 결합을 통한 효율성 평가 자동화를 제시하며, LLM이 학술 데이터의 생성․해석․평가 단계 전반에서 통합적으로 활용될 수 있음을 실증하였다.

이상의 연구들은 LLM이 학술 텍스트 생성과 평가의 양 측면에서 모두 혁신적인 역할을 수행하고 있음을 보여준 다. 특히 GPTScore․BERTScore와 같은 의미 기반 자동평 가 지표는 LLM이 스스로 텍스트 품질을 판단하는 자율적 평가 메커니즘을 제시하였으며, instruction-tuning 기반 LLM은 요약․초록․토픽 설명 생성 등 학술적 맥락에서 의 적용 가능성을 확대하였다. 다만, 학술 토픽 설명 (description) 생성 및 품질 평가와 관련된 연구는 여전히 초기 단계에 머물러 있으며, 다양한 LLM을 동일한 데이 터셋과 표준화된 지표하에 비교․검증한 체계적 벤치마크 연구는 거의 존재하지 않는다. 따라서 본 연구는 이러한 공백을 메우기 위해, OpenAlex 기반 학술 토픽 데이터를 대상으로 다수의 LLM을 비교 평가하고, 정량․정성 지표 를 통합한 프레임워크를 구축하고자 한다.

2.3 텍스트 생성 품질 평가 연구

텍스트 생성 연구에서 평가 지표의 선택은 모델 간 성 능 비교의 타당성과 결론의 신뢰도를 좌우한다. 초창기에 는 BLEU, ROUGE, METEOR와 같은 어휘적 일치(lexical overlap) 기반 지표가 주로 사용되었으나, 이들 지표는 표 현이 달라도 의미가 유사한 문장을 낮게 평가하는 구조적 한계를 가진다. 대표적으로 BLEU는 n-gram 정밀도에 기 반한 기계번역 평가 지표이며(문장 길이 보정 포함) 대규 모 실험에서 인간 평가와의 상관을 보였으나 의미 등가를 충분히 반영하지 못한다[20].

ROUGE는 요약 평가에서 널리 쓰이지만 참조 요약과의 표면 일치에 민감하고, 참조의 질에 따라 결과가 크게 흔 들릴 수 있다[15]. METEOR는 어간추출․동의어 매칭 등 을 도입해 인간 판단과의 상관을 개선했지만, 여전히 참조 의존(reference-based) 프레임을 벗어나지 못한다[2]. 이 한 계를 보완하기 위해 의미 기반(semantic) 지표가 제안되었 고, BERTScore는 사전학습 언어모델의 문맥 임베딩을 활 용해 후보-참조 간 토큰 유사도를 계산함으로써 의미적 유 사성을 반영하고, 여러 생성 과제에서 기존 지표 대비 인 간 판단과 더 높은 상관을 보고했다[1]. 또한 문장 수준 의미 유사도 계산을 가능하게 한 Sentence-BERT는 다양 한 STS․전이 과제에서 고성능 문장 임베딩을 제시하여, 생성문 평가의 참조 축약․의미 비교에 활용될 토대를 제 공했다[22]. 학술 텍스트 영역에서는 인용․서지 맥락을 반영한 문서 임베딩 SPECTER가 논문 간 의미 관계를 더 잘 포착하는 것으로 보고되어, 생성된 설명문․요약문을 도메인 의미 공간에서 평가하는 데 유용한 대안으로 자리 잡았다[5].

최근에는 LLM 자체를 평가자로 활용하는 “LLM-as-ajudge” 접근이 부상하고 있다. GPT-4 등 강력한 모델을 심 판으로 사용해 다차원 기준(관련성․명확성․포괄성 등) 으로 생성문을 판정하고, 사람 선호와의 일치도를 체계적 으로 검증한 연구가 등장했다. 예컨대 MT-Bench/Chatbot Arena는 다자 쌍대 비교(pairwise battles)를 통해 인간 선 호와 80% 수준의 합치를 보고하며, 규모 확장 가능한 평 가 인프라를 제시했다[27]. 또 다른 계열로 G-Eval은 Chain-of-Thought(Chained) 평가 절차를 도입해 참조 비의 존(reference-free) 방식으로 요약․대화 생성 품질을 점수 화하고, 요약 과제에서 인간 판단과의 상관을 유의하게 끌 어올렸다[16].

이들 판정 결과를 순위로 환원하기 위해서는 통계적 랭 킹 모델이 필요하다. 본 연구는 2.2절의 생성 연구와 구분 되는 “평가 중심 자동화” 관점에서, 쌍대 비교 결과를 Elo Rank 모형으로 정량화하여 모델 간 상대적 우열을 추정한 다. Elo Rank는 체스에서 정립된 경험적 평정 체계로서 쌍 대 경기 결과로부터 참가자 실력을 갱신하는 절차를 제공 하며[7], Bradley-Terry는 쌍대 승산을 모수화하여 전반적 강도를 추정하는 확률모형으로 다양한 선호․품질 비교 문제에 적용되어 왔다[3].

종합하면, 2.1절(생성 자동화)과 2.2절(LLM 기반 생성 및 초기 평가)의 흐름을 잇는 2.3절의 초점은 평가 방법의 다층화와 표준화에 있다. 본 연구는 단일 지표 의존을 피 하고, ① 어휘 기반(BLEU/ROUGE/METEOR), ② 의미 기 반(BERTScore, SBERT, SPECTER), ③ 심판 기반(LLMas- a-judge + Elo Rank)를 결합한 하이브리드 평가 프레임 워크를 제안한다. 특히 요약 분야 대규모 인간평가 결과가 보여주듯, 참조 품질과 instruction-tuning 여부가 평가 신뢰 도에 중대하게 작용하므로(저품질 참조는 모델 성능을 과 소평가) [26], 우리는 동일 데이터․프롬프트․판정 기준 을 유지한 재현 가능한 벤치마크 절차를 설계했다. 이로써 OpenAlex 등 학술 데이터베이스에서 설명문 자동화 품질 을 다면적으로 검증하고, 모델 간 공정 비교가 가능한 토 대를 마련한다.

3. 연구 방법론

3.1 연구 개요

본 연구의 전체 절차는 데이터 수집(Data Collection) → 설명문 생성(Description Generation) → 평가(Evaluation) → 통계적 검정(Statistical Testing) → 결과 해석(Result Interpretation)의 순서로 구성된다.

<Figure 1>은 연구 프로세스의 개념적 흐름을 도식화한 것이다.

① 데이터 수집: OpenAlex 데이터베이스에서 4,516개 학술 토픽을 추출하고, 각 토픽의 topic_id, display_ name, description, keywords를 수집하였다.
② 설명문 생성: 수집된 메타데이터를 기반으로 GPT, LLaMA, Gemma, Mistral, DeepSeek 등 다섯 종류의 대규모 언어모델을 활용하여 주제 설명문을 자동 생 성하였다.
③ 평가 단계: 생성된 설명문을 기존 OpenAlex 설명과 비교하여 정량적(Keyword F1, ROUGE, Specter2, BERTScore) 및 정성적(LLM 기반 쌍대비교, Elo rating) 지표로 평가하였다.
④ 통계 검정: Friedman 및 Wilcoxon 부호순위 검정을 통해 모델 간 성능 차이의 통계적 유의성을 검증하 였다.
⑤ 결과 해석: 각 정량 지표 분석 결과와 정성적 모델 평가 순위 분석, 그리고 종합 점수를 분석하였다.

이 절차를 통해 본 연구는 LLM 기반 학술 토픽 설명 생성의 품질을 체계적으로 비교․검증할 수 있는 표준화 된 평가 프레임워크를 제시하였다. 이 프레임워크는 OpenAlex 외의 다른 학술 데이터베이스에도 확장 적용이 가능하며, 향후 학술 정보 자동화 시스템의 품질 벤치마킹 도구로 활용될 수 있다.

3.2 연구 데이터 구성

본 연구에서는 학술 지식 그래프 기반의 공개 데이터베 이스인 OpenAlex를 연구 대상으로 선정하였다. OpenAlex 는 전 세계 학술 문헌과 저자, 기관, 개념, 주제 등을 계층 적 구조로 연결하여 제공하는 대규모 학술 데이터베이스 로, 학문 간 연구 주제의 분류와 연관성 분석에 폭넓게 활 용되고 있다.

본 연구의 분석 대상은 총 4,516개 학술 토픽(Topic)이 며, 각 토픽은 다음 네 가지 메타데이터 속성으로 구성된 다:

① topic_id(고유 식별자),
② display_name(주제명),
③ description(기존 OpenAlex 설명문),
④ keywords(핵심 키워드 목록).

이 중 기존 설명(description)과 키워드 집합(keywords) 은 LLM 입력 프롬프트의 참고(reference) 정보로 사용되 었으며, 생성된 설명문은 OpenAlex가 제공한 원본 설명과 비교하여 성능을 평가하였다.

<Table 1>에서 제시하고 있듯 토픽은 OpenAlex의 계층 적 구조(level 0~3)에 따라 ‘Domain-Field-Subfield-Topic’ 으로 구분되어 있으며, 본 연구는 이 중 가장 세분화된 Topic 단위(level 3) 데이터를 중심으로 분석하였다.

3.3 설명문 생성 모델 구성

생성 실험에는 서로 다른 학습 특성과 모델 규모를 지 닌 다섯 종류의 대규모 언어모델이 사용되었다.

각 모델은 오픈소스 또는 상용 API 기반으로 구동되며, <Table 2>은 연구에 사용된 모델 구성의 개요를 나타낸다.

모든 모델은 Ollama 엔진을 기반으로 로컬 환경에서 실 행되었으며, 모델별 inference 시 동일한 설정값(temperature =0.3, max_length=512, stream=False, retries=3)을 유지하여 출력의 일관성을 확보하였다. 이로써 모델 간 비교 시 파라 미터 차이에 따른 편향을 최소화하였다.

3.4 프롬프트 엔지니어링 설계

LLM의 출력 품질은 입력 프롬프트 구조에 크게 영향을 받기 때문에, 본 연구에서는 모든 모델에 대해 통일된 프 롬프트 템플릿을 적용하였으며, 프롬프트 설계의 핵심 원 칙은 다음과 같다.

- 메타 발화 금지: “Here is…”, “This is…”, “Summary:” 등 비학술적 서두 제거
- 정보 통합: 주어진 description과 keywords를 문장 내에 자연스럽게 융합
- 서술형 생성: 키워드 나열식 설명 금지, 5~8문장 분량 의 학술적 문단 생성
- 출력 제어: plain text 형식 유지, 불릿 및 번호 목록 금지

이 프롬프트는 Python 기반의 build_topic_prompt() 함수 로 자동화되었으며, 모델 호출은 call_ollama() 모듈을 통 해 이루어졌다. 또한 _sanitize_generation() 함수를 통해 LLM 출력물에서 불필요한 메타 문구를 정규식 기반으로 자동 제거하여 학술적 문체의 일관성을 확보하였다.

3.5 평가 프레임워크 설계

생성된 설명문은 정량적 평가(quantitative evaluation)와 정성적 평가(qualitative evaluation)를 결합한 표준화된 다 차원 평가 프레임워크를 통해 분석되었다.

3.5.1 정량적 평가

어휘 기반 평가(Lexical metrics)는 Keyword Overlap 지 표(Precision, Recall, F1)를 활용하여 생성문 내 핵심 키워 드의 포함 비율 측정하였다. 또한 ROUGE-1, ROUGE-2, ROUGE-L 지표를 통해 어구 단위 일치성(lexical overlap) 도 함께 평가하였다.

의미 기반 평가(Semantic metrics)는 Specter2 Embedding Similarity를 이용하여 토픽명 및 원본 설명과 생성문 간 임베딩 기반 코사인 유사도를 측정하였다. 마지막으로, BERTScore F1 지표를 통해 문맥적 유사성(contextual similarity) 측정하였다.

3.5.2 정성적 평가

정성적 평가는 LLM 기반 쌍대 비교 방식으로 수행하 였다.

동일한 토픽에 대해 서로 다른 모델이 생성한 설명문 쌍을 입력으로 하여, Ollama 기반 판정 LLM이 세 가지 기준으로 우수성을 판정하였다:

① 관련성(Relevance),
② 포괄성(Coverage),
③ 명확성(Clarity).

각 비교 결과는 승/패/무승부로 기록되었으며, 신뢰도 (confidence) 점수(1-10)에 따라 가중 Elo Rating을 계산하 였다. 이를 통해 모델별 상대적 품질 순위를 정량적으로 산출할 수 있었다.

3.6 통계적 유의성 검정

모델 간 성능 차이의 통계적 유의성을 확인하기 위해 Friedman 검정과 Wilcoxon 부호순위 검정을 수행하였다. Friedman 검정은 동일 집단(토픽)에 대해 세 개 이상의 모 델 간 차이를 비모수적으로 검증하는 반복측정 ANOVA 대안으로 사용하여, 각 모델의 순위 합(rank sum) 차이를 검정함으로써, 전체적으로 모델 간 성능 차이가 존재하는 지를 판단하였다. Wilcoxon 부호순위(Signed-Rank) 검정 은 두 모델 간 대응 비교를 통해 성능 차이의 방향성과 크기를 검정하기 위해 사용하였다.

총 10개 모델 쌍(5 choose 2)에 대해 6개 지표 (keyword_f1, rouge_1_f1, topic_similarity, description_similarity, bert_score_f1, final_score)를 분석하였다.

Bonferroni 보정을 적용하여 다중 검정 오류를 통제하였다.

이 검정 절차를 통해, 각 모델의 성능 차이가 통계적으 로 유의함을 확인하였으며 이는 후속 분석(4장 실험 결과) 에서 모델별 특성과 강․약점 해석의 근거로 활용되었다.

4. 실험 및 결과

4.1 실험 개요

본 연구에서는 OpenAlex 데이터베이스로부터 수집된 4,516개 학술 토픽(Topic)을 대상으로, 다섯 가지 대규모 언어모델의 설명문 생성 성능을 비교․평가하였다. 연구 절차는 데이터 전처리, 설명문 생성, 정량․정성 평가, 통 계 검정의 네 단계로 구성되며, 모든 과정은 동일한 데이 터셋과 프롬프트 구조 하에서 수행되어 모델 간 비교의 일관성을 확보하였다.

4.1.1 데이터 구성

실험에 사용된 데이터는 OpenAlex의 topic_id, display_ name, description, keywords 필드를 포함하는 토픽 메 타데이터로, 총 4,516개의 고유 주제에 대한 정보를 포함 한다. 이 중 description은 기존 OpenAlex가 제공하는 기본 설명문으로 사용되었으며, keywords는 LLM이 주제 관련 문맥을 이해하는 데 필요한 핵심 단서로 활용되었다. 모든 데이터는 사전 정제(preprocessing)를 거쳐 누락값(null) 및 중복 항목을 제거하고, 입력 형식을 JSONL(JSON Lines) 형태로 변환하여 LLM 입력에 최적화하였다.

4.1.2 모델 및 실행 환경

설명문 생성에는 다음 다섯 가지 LLM인 GPT-oss, LLaMA 3.1, Gemma 3, Mistral 0.3, DeepSeek-R1이 사용되 었다. 이들 모델은 모두 instruction-tuned 구조를 기반으로 하며, 동일한 프롬프트 템플릿을 적용하였다. 모델 호출은 Ollama 엔진을 이용하여 로컬 환경에서 수행되었으며, 하 드웨어 사양은 NVIDIA A6000 GPU(48GB VRAM) × 3, CPU 32-core, RAM 256GB 환경에서 운영되었다. 모든 모 델은 temperature=0.3, max_length=512, top_p=0.9로 고정 하여 출력 다양성의 영향을 최소화하고 재현성을 확보하 였다.

4.1.3 프롬프트 구조

입력 프롬프트는 build_topic_prompt() 함수를 통해 자동 생성되었으며, 주어진 토픽명과 기존 설명(description), 키 워드(keywords)를 통합하여 5~8문장 길이의 전문적이고 간결한 학술 설명문을 생성하도록 설계되었다.

프롬프트 설계의 주요 원칙은 (a) 메타 문구 제거, (b) 키워드의 자연스러운 통합, (c) 나열형 문장 금지이며,

출력은 서술형 단락 형태로 제한하였다.

4.1.4 평가 절차

각 모델이 생성한 설명문은 기존 OpenAlex 설명문과 비 교하여 ① 정량적 평가와 ② 정성적 평가로 나누어 분석되 었다.

정량적 평가는 어휘 기반(Keyword Overlap, ROUGE) 과 의미 기반(Specter2, BERTScore) 지표를 포함하며, 정 성적 평가는 LLM 기반 쌍대 비교를 통해 관련성 (Relevance), 포괄성(Coverage), 명확성(Clarity)을 기준으 로 수행되었다.

또한, Friedman 검정과 Wilcoxon 부호순위 검정을 통해 모델 간 성능 차이의 통계적 유의성을 검증하였다.

4.1.5 결과 해석 및 시각화

평가 결과는 모델별 박스플롯(box plot), 상관행렬 (correlation matrix), 그리고 Elo Rating 순위 시각화로 표현 되었다. 이러한 시각적 비교를 통해 각 모델의 강․약점, 지표 간 상관관계, 및 통합 점수(Final Score) 구조를 종합 적으로 해석하였다.

4.2 정량적 평가 결과

본 절에서는 다섯 가지 대규모 언어모델(LLM)― GPT-oss, LLaMA 3.1, Gemma 3, Mistral 0.3, DeepSeek-R1 ―이 생성한 학술 토픽 설명문을 대상으로 수행한 정량적 평가 결과를 제시한다.

정량적 평가는 어휘적 일치도, 의미적 유사도, 그리고 문맥적 일관성의 세 가지 축으로 구성되며, 각 모델의 성 능은 중앙값(median)과 분포(boxplot) 분석을 병행하여 비 교하였다.

4.2.1 Keyword Overlap 기반 평가

Keyword Overlap 평가는 각 모델이 생성한 설명문 내에 원본 키워드 집합이 얼마나 반영되었는지를 측정한 지표로, Precision(정밀도), Recall(재현율), F1 점수를 산출하였다.

실험 결과, <Figure 2>에서 제시한 것처럼 전체 모델의 F1 점수 분포는 0.10~0.20 수준으로 나타났으며, 이는 OpenAlex가 제공하는 기존 키워드가 압축적 형태로 제시 되어 LLM이 이를 완전히 복원하기 어려운 데이터 구조적 특성을 반영한다.

모델별로는 GPT-oss(중앙값 F1 ≈ 0.19)와 Gemma 3(중 앙값 F1 ≈ 0.17)이 상대적으로 높은 키워드 재현성을 보 였다. 반면 Mistral 0.3과 DeepSeek-R1은 0.12 이하의 낮은 점수를 기록하였다. 이 결과는 GPT 계열과 Gemma 계열 모델이 주어진 키워드의 문맥적 통합에 더 강점을 지닌다 는 점을 시사한다.

4.2.2 ROUGE 기반 어휘 일치도 분석

ROUGE-1, ROUGE-2, ROUGE-L 지표를 활용하여 생 성문과 원본 설명 간 어휘 수준의 중복성을 평가하였다.

<Figure 3>에서 제시한 것처럼 전체적으로 ROUGE-1 F1 평균은 약 0.25, ROUGE-L F1 평균은 약 0.23 수준으 로, 모델 간의 차이가 존재하나, 의미 지표에 비해 어휘 지표에서 더 분명하게 구분되었다. 특히 GPT-oss와 LLaMA 3.1의 분포가 안정적(표준편차 < 0.05)으로 나타 나 출력 일관성이 높은 반면, Mistral과 DeepSeek은 토픽 별 편차가 크게 나타났다. 이 결과는 후속 정성평가에서 확인된 명확성(Clarity) 차이와도 일정 부분 일치한다.

4.2.3 Specter2 임베딩 기반 Topic 의미 유사도(Topic Similarity)

Specter2 임베딩을 이용하여 토픽명(display_name)과 생 성문 간의 의미적 정합성(Semantic Alignment)을 측정하였 다. 그 결과, <Figure 4>에서 제시한 것처럼 전체 모델의 코사인 유사도 분포는 0.85~0.95 범위로 형성되었으며, Gemma 3이 가장 높은 중앙값(≈0.94)을 기록하였다. 이는 Gemma 모델이 토픽명에 내포된 핵심 개념을 문장 수준에 서 충실히 반영함을 의미한다. 반면 DeepSeek-R1은 평균 0.87로 가장 낮은 유사도를 보였으며, 이는 해당 모델이 다국어 학습 특성을 갖고 있음에도 학술 영어 문체에 최적 화되지 않았기 때문으로 해석된다. LLaMA 3.1은 GPT-oss 와 유사한 0.92 수준을 유지하며 안정적인 의미 정합성을 나타냈다.

4.2.4 Specter2 임베딩 기반 Description 의미 유사도 (Description Similarity)

Specter2 임베딩을 활용하여 OpenAlex의 원본 설명과 LLM이 생성한 설명문 간의 의미적 일관성을 평가하였다.

그 결과, <Figure 5>에서 제시한 것처럼 전반적으로 0.95 이상의 높은 코사인 유사도를 보였으며, 모델 간 차 이는 크지 않았다. 이는 대부분의 모델이 기존 설명문의 핵심 의미를 유지하면서, 보다 확장된 서술 구조로 재구 성하는 경향을 보였음을 의미한다. 특히 Mistral 0.3(평균 0.96)과 Gemma 3(평균 0.95)이 높은 수준의 유사도를 기 록하였으며, 이는 두 모델이 학술적 문체를 안정적으로 유지하면서 의미 보존 능력이 우수함을 시사한다. LLaMA 3.1과 GPT-oss 역시 0.94 내외의 일관된 성능을 나타냈다.

4.2.5 BERTScore 기반 문맥 유사도(Contextual Similarity)

BERTScore F1을 통해 문장 단위의 문맥적 의미 일치 도를 평가한 결과, <Figure 6>에서 제시한 것처럼 모든 모델이 0.84~0.88 범위의 안정적인 성능을 보였다. 이 중 LLaMA 3.1(평균 F1 ≈ 0.88)이 가장 높은 점수를 기록 하여, 문맥적 정보 보존 능력에서 우수한 성능을 보였다. 이는 LLaMA 계열 모델이 instruction-tuning 과정에서 장 문 텍스트의 일관성 유지와 논리적 서술에 특화되어 있 음을 의미한다. GPT-oss 역시 유사한 수준의 점수를 기 록하였으나, 일부 토픽에서 표현 다양성(lexical variation) 이 높아 평균 분산이 다소 확대되었다.

4.2.6 정량적 결과 종합 분석

정량 평가 결과를 종합하면, Gemma 3은 토픽 정합성 (Topic Similarity)과 의미적 일관성(Description Similarity) 측면에서 가장 우수한 성능을 보였으며, LLaMA 3.1은 문 장 단위의 문맥 유지력(BERTScore)에서 두드러졌다. 반면 DeepSeek-R1은 전반적으로 낮은 수준의 일관성을 보였고, Mistral 0.3은 상대적으로 짧고 단순한 문장 구조를 선호하 는 경향을 보였다. 또한, 어휘 기반 지표(Keyword, ROUGE)는 의미 기반 지표(Specter2, BERTScore)에 비해 모델 간 분별력이 더 뚜렷하게 나타났으며, 이는 각 모델 의 문체적 특성과 표현 방식의 차이가 주로 표면적 어휘 수준에서 드러났음을 의미한다. 반면 의미 기반 지표는 전 반적으로 높은 평균 유사도를 보이면서도, 세부적인 모델 간 성능 차이를 세밀히 구분하는 데에는 상대적으로 한계 가 있었다.

이러한 결과는 LLM의 아키텍처, 학습 데이터, 그리고 언어모델의 훈련 목적이 학술 도메인 텍스트 생성 품질에 상이한 영향을 미친다는 점을 실증적으로 보여준다. 특히, 어휘 중심 지표의 민감도가 높다는 사실은 향후 학술 텍스 트 생성 평가에서 어휘․의미 지표의 균형적 반영이 필요 함을 시사한다.

4.3 정성적 평가 결과

본 절에서는 정량적 평가로는 완전히 포착하기 어려운 설명문의 질적 특성을 분석하기 위해, LLM 기반 정성 평 가(LLM-as-a-judge) 방식을 활용하였다. 평가 기준은 관련 연구들[3,7,17,27]을 참고하여, ① 관련성(Relevance) , ② 포괄성(Coverage), ③ 명확성(Clarity)의 세 가지 항목으 로 구성하였다. 이를 통해 각 모델이 생성한 설명문의 전 반적 품질을 상대적 관점에서 비교하였다.

4.3.1 평가 방법

정성적 평가는 LLM 기반 쌍대 비교 절차로 수행되었 다. 동일한 학술 토픽에 대해 두 개의 모델이 생성한 설명 문을 제시하고, 별도의 판정 LLM이 어느 설명이 더 우수 한지를 항목별로 평가하였다. 판정 모델은 GPT-oss를 사 용하였으며, 이는 선행연구에서 GPT 계열 모델이 텍스트 생성 품질 평가에서 높은 일관성(consistency)과 재현성 (reproducibility)을 보였기 때문이다. 예를 들어, Zheng et al.[27]의 MT-Bench와 Liu et al.[16]의 G-Eval 연구에서는 GPT-4 기반 평가자가 인간 평가자와 약 80% 수준의 일치 도를 보여, LLM-as-a-judge의 신뢰성이 실증적으로 검증 된 바 있다. 다만 GPT-oss가 평가 대상 모델 중 하나로 포 함되어 있어 자기평가 편향(self-evaluation bias)이 발생할 가능성을 고려하였으며, 이를 완화하기 위해 모든 쌍대 비 교 프롬프트에서는 모델명과 계열 정보를 제거(blind evaluation) 하였으며, 출력 텍스트만을 근거로 평가가 이루어 지도록 설계하였다.

LLM 평가 프롬프트는 <Table 3>과 같은 구조로 설계되 었다.

판정 결과는 “A가 우수 / B가 우수 / 동일”의 3단계 결 과로 산출되었으며, 모든 비교쌍의 결과는 Elo Rating System을 적용하여 모델별 상대 점수로 환산하였다.

Elo 점수는 각 모델이 상대 모델에 대해 우수하다고 판 정된 빈도와 판정 신뢰도(confidence score)를 가중합하여 계산하였다.

4.3.2 평가 결과 요약

Elo 레이팅 결과, 전체 평균 점수는 1500±30 범위로 분 포하였으며, 모델 간 순위는 <Table 4>와 같이 나타났다.

이처럼 모델 간 상대적 순위는 GPT-oss-latest > LLaMA 3.1 > Gemma 3 > Mistral 0.3 > DeepSeek-R1 순으로 나타 났으며, 이러한 순위는 앞서 제시한 정량적 평가 결과 (Keyword F1, ROUGE, Specter2, BERTScore)와 대체로 일 관된 경향을 보였다.

<Figure 7>에서 제시한 것처럼 가장 높은 Elo 점수를 기 록한 GPT-oss-latest(1532.6)은 정량 평가에서도 상대적으 로 높은 Keyword F1과 ROUGE 점수를 보였으며, 이는 설 명문의 어휘적 다양성과 구조적 명확성이 질적 평가에서 도 긍정적으로 반영되었음을 의미한다. GPT-oss는 문장 간 연결이 자연스럽고 불필요한 반복이 적어, 전반적으로 균형 잡힌 학술적 서술 구조를 형성하였다.

두 번째로 높은 LLaMA 3.1(1510.4) 역시 정량적 지표 중 BERTScore(0.88)에서 가장 높은 문맥적 일관성을 보였 으며, 정성 평가에서도 논리적 구성(logical coherence)과 포괄적 내용 전개(coverage) 측면에서 높은 평가를 받았다. 이는 LLaMA 계열 모델이 instruction-tuning을 통해 긴 문 장 구조의 안정성과 문맥적 일관성을 유지하는 데 강점을 지녔음을 시사한다.

Gemma 3(1491.7)은 의미 유사도(Specter2, Description Similarity) 지표에서 우수한 성능을 보였으며, 정성 평가 에서도 주제 적합성과 정보 정확성 측면에서 긍정적으로 평가되었다. 다만 표현의 다양성이나 문체적 유연성이 제 한되어 Elo 점수에서는 상위 두 모델보다 다소 낮게 나타 났다.

Mistral 0.3(1478.9)과 DeepSeek-R1(1459.8)은 정량 평가 에서도 상대적으로 낮은 Keyword F1과 ROUGE 점수를 보였으며, 정성 평가에서도 문체의 안정성 부족과 문장 연 결성 약화가 지적되었다. 특히 Mistral은 짧고 단순한 문장 생성 경향이, DeepSeek은 세부 개념 간 관계를 설명하는 능력 부족이 주요 한계로 작용하였다. 요약하면, 정량적 분석에서 확인된 모델 간 차이는 정성적 Elo 평가에서도 유사한 방향으로 재확인되었다. 즉, 정량 지표의 수치적 차이와 정성 평가의 주관적 판단이 상호 일관된 패턴을 보였다는 점에서 본 연구의 평가 프레임워크는 신뢰성과 타당성을 동시에 확보했다고 할 수 있다. 이 결과는 단일 지표에 의존한 평가의 한계를 보완하고, 객관적 수치와 주 관적 품질 인식 간의 일관성을 검증했다는 점에서 의미가 크다.

4.4 통계적 검정 결과

본 절에서는 앞서 제시한 정량 및 정성 평가 결과를 대 상으로, 모델 간 성능 차이의 통계적 유의성을 검증하였 다.

평가에는 동일한 데이터셋(4,516개 토픽)을 기반으로 수행된 다섯 개 모델(GPT-oss, LLaMA 3.1, Gemma 3, Mistral 0.3, DeepSeek-R1)이 사용되었다. 비모수 검정 (Non-parametric test) 방법 중 반복측정 설계에 적합한 Friedman 검정을 우선 적용하고, 모델 간 세부 차이를 확 인하기 위해 Wilcoxon 부호순위 검정(Wilcoxon signed- rank test)을 추가 수행하였다.

4.4.1 Friedman 검정 결과

Friedman 검정은 동일한 데이터셋에서 여러 모델의 성 능 순위(rank) 차이가 통계적으로 유의한지를 판별하는 비 모수적 방법이다. 본 연구에서는 다섯 가지 주요 지표 (Keyword F1, ROUGE-1 F1, Topic Similarity, Description Similarity, BERTScore, Final Score)를 비교하였다.

검정 결과, <Table 5>에서 제시한 것처럼 모든 지표에서 p < 0.001로 나타나, 모델 간 성능 차이가 통계적으로 유의 함이 확인되었다. 특히 Keyword F1과 ROUGE-1 F1에서 가장 큰 통계량이 관찰되어, 모델 간 어휘 표현 능력 차이 가 두드러졌음을 보여준다. 이는 앞서 4.2절의 정량 분석 에서 확인된 “어휘 지표의 높은 분별력”과 일관된 결과이 다. 반면, 의미 기반 지표(BERTScore, Topic/Description Similarity)에서도 p < 0.01의 유의성이 확인되었으나 차이 폭은 상대적으로 작았다. 즉, 모델들은 의미적 표현 수준 에서는 유사하나, 어휘 선택 및 문장 구성 측면에서 현저 한 차이를 보였다.

4.4.2 Wilcoxon 부호순위 검정

Wilcoxon 검정은 모델 간 쌍대 비교를 통해 성능 차이 의 유의성을 세부적으로 분석하였다. 총 10개 조합(5C2)에 대해 각 지표별 p-value를 계산하고, 다중 비교 오류를 방 지하기 위해 Bonferroni 보정을 적용하였다.

분석 결과, <Table 6>에서 제시한 것처럼 대부분의 모델 조합에서 p < 0.05 수준으로 유의한 차이가 확인되었다. 이는 GPT-oss와 LLaMA 3.1을 제외한 대부분의 모델 간에 성능 차이가 통계적으로 뚜렷하게 나타났음을 의미한다. 특히 GPT-oss와 DeepSeek-R1 간 차이는 가장 두드러졌으 며(p < 0.001),

어휘 중심 지표(Keyword, ROUGE)에서 그 격차가 명확 히 드러났다. 반면 LLaMA 3.1과 Gemma 3은 일부 의미 지표(Topic Similarity)에서만 비유의 수준(p ≈ 0.07)을 보 여 상호 유사한 성향을 보였다. 이러한 결과는 정성적 평 가(4.3절)에서 나타난 모델 순위와도 대체로 일관된 방향 을 보인다. 즉, GPT-oss와 LLaMA 3.1은 상위 그룹, Gemma 3은 중간, Mistral과 DeepSeek-R1은 하위 그룹으 로 분류되는 구조가 통계적으로도 확인되었다.

4.4.3 정량 및 정성 평가간 상관관계 분석

(1) 산출 구조

본 분석은 정량적 지표와 정성적 지표를 통합한 결과이 며, 모든 지표를 0~1 범위로 정규화하여 가중 평균을 통해 최종 점수(Final Score) 로 산출하였다.

프레임워크는 다음 세 영역으로 구성된다:

Lexical(0.3): Keyword F1, ROUGE-1 F1
Semantic(0.4): Topic Similarity, Description Similarity, BERTScore F1
Qualitative(0.3): LLM 기반 쌍대 비교(Elo 등)

(2) 주요 결과

상관분석 결과, <Figure 8>에서 제시한 것처럼 Final Score는 ROUGE-1 F1(r = 0.91)과 Keyword F1(r = 0.79)에 서 가장 높은 상관을 보였다. 이는 어휘적 유사성이 최종 평가에 가장 큰 영향을 미쳤음을 의미한다. 반면 의미 기 반 지표 중 BERTScore(r = 0.57)와 Description Similarity(r = 0.45)는 중간 수준, Topic Similarity(r = 0.38)은 낮은 상 관을 보여 토픽 수준 의미 정합성은 상대적으로 독립적인 특성을 지닌다.

(3) 종합 해석

Final Score는 구조적으로 어휘(0.3), 의미(0.4), 정성(0.3) 의 균형 가중치를 부여하도록 설계되었으나, 실제 상관분 석에서는 어휘 기반 지표(특히 ROUGE-1 F1)의 설명력이 가장 높았다. 이는 문맥적 의미를 반영하더라도 표면적 어 휘 중복이 점수 상승에 더 큰 영향을 미치는 경향을 의미 한다. Keyword F1과 ROUGE-1 F1은 높은 상관(r = 0.79, 0.91)을 보였으며, 의미 지표(BERTScore, Description Similarity)는 중간 수준의 기여도를 나타냈다. 특히 Topic Similarity는 다른 의미 지표와 낮은 상관을 보였으나 Final Score(r = 0.38)와는 중간 수준의 연관을 보여 주제 수준의 독립적 의미 축(topic-level semantic alignment)을 반영하고 있음을 시사한다.

따라서 본 연구의 평가 프레임워크는 어휘․의미․정 성 요소가 서로 다른 품질 차원을 포착하는 다층적 구조임 이 확인되었다.

(4) 시사점

본 분석은 정량 및 정성 지표 간의 상관구조를 통해 제안 된 평가 프레임워크의 신뢰성과 한계를 동시에 보여준다.

Final Score의 높은 어휘 기반 지표 상관은 어휘 중복에 대한 민감도를 완화하기 위한 가중치 재조정의 필요성을 시사한다. 특히 Keyword F1과 ROUGE-1 F1 간의 높은 상 호 상관(r = 0.61)은 평가 과정에서의 중복 기여를 발생시 킬 가능성을 보여주므로, 두 지표 중 하나의 비중을 축소 하거나 정규화를 적용하는 조정이 요구된다. 또한, 의미적 지표(semantic metrics)의 영향력 강화를 위해 Sentence- BERT, GPTScore 등 고차원 문맥 표현 기반 지표를 추가 함으로써 평가의 정밀도(semantic precision)를 향상시킬 수 있다.

마지막으로, 정성적 지표의 확장을 통해 정량 지표가 포 착하기 어려운 인간적 품질 판단(human-judgment dimension) 을 보완하는 것이 바람직하다. 이러한 접근은 LLM 평가를 단순 수치 비교에서 벗어나 다층적․통합적 평가 체계로 발전시키는 기반이 될 것이다.

4.5 종합 분석 및 시사점

4.5.1 종합 분석

앞선 통계적 검정(4.4절)과 상관관계 분석 결과를 종합 하면, 본 연구에서 제안한 정량․정성 통합 평가 프레임워 크는 모델 간 성능 차이를 유의미하게 구분하면서도 평가 지표 간 상호 관계를 체계적으로 설명할 수 있음을 확인하 였다.

먼저, Friedman 및 Wilcoxon 검정 결과 모든 주요 지표 에서 p < 0.001의 수준으로, 모델 간 성능 차이가 통계적으 로 유의함이 검증되었다. 특히 Keyword F1과 ROUGE-1 F1 등 어휘 기반 지표에서 가장 큰 통계적 차이가 관찰되 었으며, 이는 각 모델의 생성 문체나 어휘 구성 특성이 결 과에 직접적으로 영향을 미친다는 점을 시사한다. 반면 의 미 기반 지표(BERTScore, Topic/Description Similarity)에 서는 모델 간 차이가 비교적 작아, 문맥적 의미 표현의 정 밀도 측면에서는 상호 유사한 경향을 보였다. 또한 상관분 석 결과, Final Score는 ROUGE-1 F1(r = 0.91)과 Keyword F1(r = 0.79)에서 높은 상관을 보였고, 의미 기반 지표 (BERTScore, r = 0.57; Description Similarity, r = 0.45)는 중간 수준의 기여도를 보였다.

Topic Similarity(r = 0.38)는 낮은 상관을 보여, 토픽 수 준의 의미 정합성은 독립적인 의미 축을 반영하는 것으 로 나타났다. 이러한 결과는 모델의 생성 품질이 문맥적 의미뿐 아니라 어휘적 표현 양상에도 강하게 의존함을 의미한다.

결과적으로, 제안된 프레임워크는 ① 정량 지표(lexical /semantic metrics)를 통해 객관적 품질을 수치화하고, ② 정성 지표(LLM-based rating)를 통해 인간적 평가 감각 (human judgment)을 보완함으로써 LLM의 생성 성능을 다 층적(multi-layered)으로 평가할 수 있는 구조임이 확인되 었다. 따라서 본 연구는 단일 지표 중심의 평가 접근에서 벗어나, LLM 성능의 다차원적 이해를 가능하게 하는 평 가 틀을 제시했다는 점에서 의의가 있다.

4.5.2 평가 프레임워크의 의의

본 연구의 통합 평가 체계는 정량적 수치와 정성적 품 질 판단을 함께 고려함으로써 표면적 유사도 중심의 평가 가 가지는 한계를 보완한다.

기존 LLM 평가가 BLEU, ROUGE 등 문장 단위의 정 답 일치도에 치중했다면, 본 프레임워크는 문맥적 의미 (BERTScore, Topic/Description Similarity)와 판정 기반 품 질(Elo rating 등)을 함께 반영하여 모델의 생성 특성을 보 다 실질적으로 평가할 수 있도록 하였다.

특히 상관구조 분석에서 확인된 어휘 지표 간 중복 기 여(r = 0.61)는 지표 간 상관을 고려한 정규화 또는 가중치 조정의 필요성을 시사한다. 즉, Keyword F1과 ROUGE-1 F1이 유사한 패턴을 보임에도 불구하고 Final Score에 중 복 반영되는 현상을 완화함으로써, 지표별 기여도를 보다 균형 있게 조정할 필요가 있다.

한편, 의미적 지표의 강화(semantic enrichment)는 평가 체계의 신뢰성을 높이는 방향으로 작용할 수 있다. 예를 들어 Sentence-BERT, GPTScore, or Specter2 Embedding과 같은 고차원 의미 표현 기반 지표를 포함하면 문장 내 개 념적 일관성과 의미적 정밀성을 보다 정확히 반영할 수 있다. 이와 더불어, 정성 평가의 확장을 통해 LLM-as-ajudge 기반 판단을 Final Score에 통합한다면, 인간적 품질 판단을 보완적으로 반영할 수 있을 것이다.

4.5.3 연구 시사점

(1) LLM 평가의 다층화(Multi-Dimensional Evaluation)

본 연구는 단일 점수 또는 특정 지표에 의존하던 기존 접근에서 벗어나, 어휘․의미․정성 세 축을 통합한 다차 원적 구조를 제안하였다.

이를 통해 LLM의 생성 결과를 단순히 ‘정답과의 일 치도’로 평가하는 것을 넘어, 문맥적 자연성, 의미적 일 관성, 품질의 인간 유사성까지 함께 측정할 수 있게 되 었다.

(2) 지표 간 상호보완성 확보(Complementarity of Metrics)

각 지표는 상이한 품질 속성을 포착하지만, 통합 시 상 호 보완적 기능을 수행함으로써 모델 성능을 보다 안정적 으로 비교할 수 있음을 실증하였다.

특히 의미적 지표와 정성 지표가 어휘 중심 평가의 편 향을 완화하는 역할을 한다는 점이 확인되었다.

(3) 정량 ․ 정성 평가의 일관성(Consistency Across Quantitative and Qualitative Assessments)

통계 검정과 상관분석 결과, 정성적 판단(Elo 등)과 정 량적 지표 간 순위 구조가 대체로 일치하는 패턴을 보였 다. 이는 제안된 평가 프레임워크가 객관성과 주관성을 조 화롭게 결합하는 구조임을 시사한다.

5. 결 론

본 연구는 LLM의 생성 품질을 다면적으로 평가하기 위 해, 정량적 수치와 정성적 판단을 통합한 이중 평가 프레 임워크(dual-metric evaluation framework)를 제안하였다.

통계 검정(Friedman 및 Wilcoxon)을 통해 모델 간 성능 차이가 통계적으로 유의함을 검증하였으며, 상관분석을 통해 어휘적, 의미적, 정성적 지표 간의 상호작용 구조를 규명하였다. 그 결과, 어휘 기반 지표(ROUGE-1 F1, Keyword F1)는 Final Score와 높은 상관(r = 0.91, 0.79)을 보여 LLM의 출력이 여전히 표면적 유사도(lexical similarity) 에 크게 의존함을 확인하였다.

반면 의미 기반 지표(BERTScore, Description Similarity) 는 중간 수준의 상관을 보여 문맥적 일관성을 일정 부분 반영하였으며, 정성적 지표(LLM rating)는 문체의 자연스 러움과 논리적 일관성 측면에서 정량 평가가 포착하지 못 한 질적 요인을 보완하는 역할을 수행하였다. 이러한 결과 는 단일 지표 중심의 전통적 접근이 가진 한계를 극복하 고, 지표 간 상호보완성을 확보한 통합적 평가 구조의 필 요성을 뒷받침한다.

본 연구의 통합 평가 체계는 정량 지표의 객관성과 정 성 지표의 주관적 판단을 조화시킴으로써, LLM 성능을 어휘적, 의미적, 인간적 품질 차원에서 함께 측정할 수 있 는 기반을 마련하였다. 그러나 일부 지표 간 높은 상관관 계(Keyword F1-ROUGE-1 F1, r = 0.61)는 지표 간 중복 기여를 유발할 가능성이 있으며, 이로 인해 Final Score가 어휘 중심으로 편향되는 경향이 관찰되었다. 이를 완화하 기 위해 향후에는 가중치 재조정 및 지표 정규화 전략을 적용할 필요가 있다. 또한 의미적 지표의 기여도를 강화하 기 위해 Sentence-BERT 등 임베딩 기반 의미 지표들을 추 가 도입함으로써, 문장 수준의 개념적 일관성과 의미적 풍 부성을 보다 정밀하게 반영할 수 있을 것이다.

이와 더불어 LLM-as-a-judge 기반 정성 평가를 확장하 고, 인간 평가자(human evaluators)를 포함한 혼합 평가 (human-in-the-loop evaluation)를 적용하면 모델의 품질을 인간적 관점에서 검증할 수 있을 것으로 기대된다.

향후 연구에서는 지표 간 상관 구조를 기반으로 한 동 적 가중치 최적화를 수행하여 도메인별․태스크별 평가 기준에 맞는 맞춤형 프레임워크를 구축할 계획이다. 또한 평가 과정의 전자동화(automated evaluation pipeline)를 통 해 모델 출력 수집, 지표 계산, 시각화, 통계 검증을 통합적 으로 수행하는 LLM Benchmarking System을 구현함으로 써, 평가의 재현성(reproducibility)과 표준화를 동시에 달 성할 수 있을 것이다. 이를 통해 본 프레임워크는 도메인 특화 모델(domain-specific LLM)의 성능 검증뿐 아니라, 생성형 인공지능의 품질 관리(data curation, prompt optimization) 및 정책적 의사결정(evidence-based evaluation) 에도 활용될 수 있을 것으로 기대된다.

요약하면, 본 연구는 LLM 평가의 패러다임을 단일 정 량 지표 중심의 평가에서 다층적․통합적 평가 체계로 확 장하였다. 이를 통해 모델 간의 미세한 품질 차이를 통계 적으로 검증하고, 정량적 수치와 인간적 판단 간의 일관성 을 실증적으로 규명하였다.

이러한 결과는 LLM 성능 평가의 객관성, 신뢰성, 재현 성을 강화하며, 향후 생성형 인공지능 평가의 표준화와 고 도화를 위한 기초 연구로서 중요한 의미를 갖는다.

Acknowledgement

This research was supported by the Korea Institute of Science and Technology Information (KISTI) in South Korea under the program code K-25-L4-M2-C3.

Figure

<Figure 1>.

Conceptual Flow of Research Procedure

<Figure 2>.

Boxplots Comparing Keyword F1 Scores Across Five LLMs

<Figure 3>.

Boxplots Comparing ROUGE-1 F1 Scores Across Five LLMs

<Figure 4>.

Boxplots Comparing Topic Similarity Scores Across Five LLMs

<Figure 5>.

Boxplots comparing Description Similarity Scores Across Five LLMs

<Figure 6>.

Boxplots Comparing BERT Score F1 Scores Across Five LLMs

<Figure 7>.

LLM ranking by Elo Rating

<Figure 8>.

Correlation Matrix among Evaluation Metrics

Table

<Table 1>.

OpenAlex Topic Hierarchy

Level	Name	Example	Json Key
0	Domain	Life Sciences	domain.id domain.display_name
1	Field	Biochemistry, Genetics and Molecular Biology	field.id, field.display_name
2	Subfield	Genetics	subfield.id, subfield.display_name
3	Topic	Virus-based gene therapy research	id, display_name

<Table 2>.

LLMs Composition Status

Model	Version	Method	Description
GPT	GPT-oss	API	instruction model
LLaMA	Meta-LLaMA3.1	Ollama local	High-performance, research-grade open model
Gemma	Gemma3	Ollama local	lightweight instruction model
Mistral	Mistral 0.3	Ollama local	Efficient open LLM
DeepSeek	DeepSeek-R1	Ollama local	Experimental model for research

<Table 3>.

Prompt Design for LLM Judgement

<Table 4>.

Elo Rating Rank Results

Rank	Model	Elo Score	Description
1	GPT-oss-latest	1532.6	High clarity and a well-balanced academic writing style
2	LLaMa 3.1	1510.4	Strong in coverage and logical organization
3	Gemma 3	1491.7	High topical relevance, but limited expressive diversity
4	Mistral 0.3	1478.9	Concise, but less stable in maintaining academic tone
5	DeepSeek-R1	1459.8	Simple sentence structure and weak contextual coherence

<Table 5>.

Friedman Test Result

Test Method	Evaluation Metric	Test Statistic	P-value	Interpretation
Non-para metric repeated measures ANOVA	Keyword F1	χ2 ≈ 9,208.88	p < 1e−300	Substantial differences in lexical overlap were observed among models.
ROUGE-1 F1	χ2 ≈ 6,739.46	p ≈ 0	Significant variation exists in lexical expression levels.
Topic Similarity	χ2 ≈ 2,965.47	p ≈ 0	Statistically significant differences identified in topical alignment.
Description Similarity	χ2 ≈ 2,352.70	p ≈ 0	Differences in contextual coherence were confirmed.
BERT Score	χ2 ≈ 988.27	p ≈ 1.25e−2 12	Variations were also found in contextual similarity indicators.
Final Score	χ2 ≈ 7,221.08	p ≈ 0	Clear performance differences among models in the integrated score.

<Table 6>.

Wilcoxon Signed-Rank Test Result

Test Method	Evaluation Metric	Test Statistic	P-value	Interpretation
Non-parametric paired comparison	Keyword F1	10 out of 10 pairs significant	p < 0.01	All model pairs showed measurable differences in lexical-based performance.
ROUGE-1 F1	10 out of 10 pairs significant	p < 0.01	Clear disparities in lexical expressiveness were identified.
Topic Similarity	10 out of 10 pairs significant	p < 0.01	Differences in topical semantic consistency were validated.
Description Similarity	9 out of 10 pairs significant	p ≈ 0.07 (one non-signifi cant pair)	No significant difference found between LLaMA 3.1 and Gemma 3.
BERT Score	9 out of 10 pairs significant	p ≈ 0.74 (one non-signifi cant pair)	No significant difference found between DeepSeek 14B and GPT-oss.
Final Score	10 out of 10 pairs significant	p < 0.01	Significant differences among all model pairs based on the integrated evaluation score.

Reference

Al Azher, I., Reddy, V.D., Alhoori, H., and Akella, A.P., LimTopic: LLM-Based Topic Modeling and Text Summarization for Analyzing Scientific Articles' Limitations, arXiv preprint, arXiv:2503.10658 [cs.CL], 2025.
Banerjee, S. and Lavie, A., METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, ACL Workshop, 2005, pp. 65-72.
Bradley, R.A. and Terry, M.E., Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons, Biometrika, 1952, Vol. 39, No. 3/4, pp. 324-345.
Chang, T., Wu, R., and He, J., A Survey on Evaluation of Large Language Models, arXiv preprint, arXiv:2307. 03109, 2023.
Cohan, A., Feldman, S., Beltagy, I., Downey, D., and Weld, D.S., SPECTER: Document-level Representation Learning using Citation-informed Transformers, arXiv preprint, arXiv:2004.07180, 2020.
Doi, T., Kobayashi, S., and Ueda, Y., Comparative Evaluation of Large Language Models for Topic Modeling, arXiv preprint, arXiv:2406.00697, 2024.
Elo, Arpad E., The Proposed USCF Rating System, Its Development, Theory, and Applications, Chess Life XXII, 1967, Vol. 8, pp. 242-247.
Elo, Arpad E., The Rating of Chessplayers, Past and Present (Second Edition). Arco Publishing, New York, 1978.
Fu, J., Ng, S.-K., Jiang, Z., and Liu, P., GPTScore: Evaluate as You Desire, arXiv preprint, arXiv:2302. 04166, 2023.
Hannigan, T.R., Haans, R.F.J., Vakili, K., Tchalian, H., Glaser, V.L., Wang, M.S., Kaplan, S., and Jennings, P.D., Topic Modeling in Management Research: Rendering New Theory from Textual Data, Academy of Management Annals, 2019, Vol. 13, No. 2, 586-632.
Kalyan, K.S., A Survey of GPT-3 Family Large Language Models Including ChatGPT and GPT-4, Natural Language Processing Journal, 2024, Vol. 6, p. 100048.
Khandelwal, T., Lieb, M., Arora, P., and Mustafaraj, E., Using LLM-Based Approaches to Enhance and Automate Topic Labeling, arXiv preprint, arXiv:2502. 18469 [cs.IR], 2025.
Kim, S., Yun, M., Kwon, T., and Lim, J., A Study on Big Data Analysis of Related Patents in Smart Factories Using Topic Models and ChatGPT, Journal of Korean Society of Industrial and Systems Engineering, 2023, Vol. 46, No. 4, pp. 15-31.
Liang, X., Yang, J., Wang, Y., Tang, C., Zheng, Z., Song, S., Lin, Z., Yang, Y., Niu, S., Wang, H., Tang, B., Xiong, F., Mao, K., and Li, Z., SurveyX: Academic Survey Automation via Large Language Models, Proceedings of the 2025 ACM KDD Conference, 2025.
Lin, C.Y., ROUGE: A Package for Automatic Evaluation of Summaries, Text Summarization Branches Out (ACL Workshop), 2004, pp. 74-81.
Liu, Y., Iter, D., Xu, Y., Wang, S., Xu, R., and Zhu, C., G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, EMNLP, 2023, pp. 2511-2522.
Liu, Y., Shi, K., Fabbri, K., Radev, D., and Cohan, A., On Learning to Summarize with Large Language Models as References, arXiv preprint, arXiv:2305.14239, 2023.
Luo, Y., Lim, S., and Kim, S., Comparative Analysis of Efficiency by R&D Project Types in South Korean Smart Factories Using Topic Modeling and DEA, Journal of Korean Society of Industrial and Systems Engineering, 2024, Vol. 47, No. 4, pp. 56-75.
Maier, D., Waldherr, A., Miltner, P., Wiedemann, G., Niekler, A., Keinert, A., Pfetsch, B., Heyer, G., Reber, U., Häussler, T., Schmid-Petri, H., and Adam, S., “A Review of Topic Modeling Methods, Journal of Communication, 2020, Vol. 70, No. 6, pp. 887-906.
Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J., BLEU: A Method for Automatic Evaluation of Machine Translation, Proceedings of ACL, 2002, pp. 311-318.
Pavithra, M. and Savitha, K., Topic Modeling for Evolving Textual Data Using LDA, HDP, NMF, BERTopic, and DTM, International Journal of Computer Applications, 2024, Vol. 186, No. 34, pp. 1-9.
Reimers, N. and Gurevych, I., Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, arXiv preprint, arXiv:1908.10084, 2019.
Stammbach, D., Zouhar, V., Hoyle, A., Sachan, M., and Ash, E., Revisiting Automated Topic Model Evaluation with Large Language Models, arXiv preprint, arXiv: 2305.12152, 2023.
Tan, J. and D'Souza, M., Bridging the Evaluation Gap: Leveraging Large Language Models for Topic Model Evaluation, arXiv preprint, arXiv:2502.07352, 2024.
Zhang, T., Ladhak, F., Durmus, E., Liang, P., McKeown, K., and Hashimoto, T. B., Benchmarking Large Language Models for News Summarization, Transactions of the Association for Computational Linguistics, 2024, Vol. 12, pp. 39-57.
Zhang, T., Ladhak, F., Durmus, E., Liang, P., McKeown, K., and Hashimoto, T. B., Benchmarking Large Language Models for News Summarization, TACL, 2024, Vol. 12, pp. 39-57.
Zheng, L., Chiang, W.-L., Sheng, Zhuang, S., Wu. Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., onzalez, J. E., and Stoica, I., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, NeurIPS Datasets & Benchmarks, 2023.