Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.48 No.4 pp.129-141
DOI : https://doi.org/10.11627/jksie.2025.48.4.129

An Efficient Method for Imputing Missing Values in Incomplete Process Data from High-Cost Data Acquisition Environments

Jae-Ho Bae^*†

, Sun-mi Choi^**

, Seong-Yoon Bae^***

^*Department of Safety and Health Management, Osan University
^**CSM Co., Ltd.
^***Department of AI, Big data Management, Kookmin University

^†Corresponding Author : jhbae@osan.ac.kr

Received 25/11/2025 Finally Revised 10/12/2025 Accepted 11/12/2025

Abstract

This study addresses the challenge of imputing missing values in incomplete process data collected from high-cost data acquisition environments. Such missingness arises due to insufficient completeness, accuracy, and consistency, which significantly affect the quality of critical-to-quality (CTQ) attributes in manufacturing processes. We systematically evaluate three state-of-the-art imputation methods—Multiple Imputation by Chained Equations (MICE), the machine learning-based missForest algorithm, and a deep learning- based one-dimensional convolutional neural network (1D-CNN)—using real-world industrial data. Our analysis aims to identify the most effective imputation technique for handling complex and noisy process datasets typical in manufacturing settings. The results highlight the strengths and limitations of each method, providing practical guidance for selecting appropriate imputation approaches to improve the reliability of quality prediction and decision-making in industrial applications.

Key Words : multiple imputation , machine learning , deep learning , MICE , MissForest , 1D-CNN

고비용 공정데이터 획득 환경에서 불완비 공정데이터의 효율적인 결측치 대체 방법

배재호^*†, 최선미^**, 배성윤^***

^*오산대학교 안전보건관리학과
^**㈜씨에스엠
^***국민대학교 AI빅데이터융합경영학과

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

제조 공정에서 완제품의 주요 품질특성치(CTQ; critical- to-quality attributes)의 결정에 원재료의 물리적 특성이나 화학적 조성비, 생산에 수반되는 공정조건이 미치는 영향은 절대적이다. 따라서 종속변수인 주요 품질특성치를 예측하기 위해서는, 독립변수인 원재료 및 공정에 관련된 데이터의 품질이 매우 중요하다. 실험실 수준의 모의 설비에서 제조한 제품이 실제 양산 체계에서 동일한 품질 특성치를 보이지 않는 경우가 흔한 제조 환경에서 양질의 데이터를 충분히 확보하는 데는 현실적으로 높은 비용이 수반된다는 문제가 있다. 양질의 데이터는 완전성․정확 성․일관성이 모두 확보된 데이터라고 할 수 있는데, 데이터 추가 확보에 상대적으로 높은 비용이 소요되는 양산 체계에서는 수집된 데이터를 최대한 활용하는 방안이 모색되어야 할 것이다.

양질의 데이터를 확보하는 문제는 특히 새로운 데이터 확보에 상대적으로 높은 비용과 시간이 소요되는 연구개발(R&D) 분야에서 더욱 중요하다. 신소재 개발이나 제약, 정밀 화학 공정 최적화와 같은 분야의 실험은 복잡한 설계, 고가의 원료, 장시간의 측정 과정을 수반하여, 한 건의 데이터 확보에도 상당한 비용이 발생한다. 더불어, 오랜 기간 축적된 장기 실험 데이터는 초기에 고려되지 않았던 새로운 변수들이 후속 연구에서 추가됨에 따라 구조적으로 결측치를 포함하게 되는 경우가 빈번하다. 이러한 상황에서 과거 데이터를 단순 폐기하는 것은 막대한 기회비용을 초래하므로, 정교한 결측치 대체 기법을 통해 누적된 데이터를 최대한 활용하는 전략이 매우 중요하게 된다.

본 연구에서는 품질변동의 잠재성이 높은 철강부산물을 원료로 하는 친환경 슬래그 시멘트의 주요 품질특성치를 예측하기 위해 수집된, 고비용․장기 누적 데이터를 대상으로 효과적인 결측치 대체 방안을 제시하고자 한다. 친환경 슬래그 시멘트는 철강산업의 부산물인 정련 슬래그를 원재료로 소성과정 없이 제조하게 된다. 소성과정 없이 제조함으로써, 기존 시멘트 제조공정에 비해 탄소배출을 80% 이상 저감한 친환경 건설소재로 다양한 건설 환경 및 특수시멘트 시장에서 주목받고 있다. 주원료인 정련 슬래그는제강 공정 과정의 부산물(by-product)로, 투입원료 및 최종 제품군에 따라 품질변동성이 크다는 특성이 있다. 화학적 소성이나 물리적 특성이 균일하지 않은 슬래그를 주 원료로 사용하기 때문에, 최종 제품인 개발 슬래그 시멘트 또한 완제품 품질특성치의 예측이 쉽지 않다는 문제가 있다. 친환경 슬래그 시멘트는 초기에 빠르게 강도를 발현하는 초속 경성을 갖는 시멘트이다. 시공 후 최소 1-2일이 지나야 거푸집 탈형 강도를 발현하는 일반적인 포틀랜드 시멘트에 비하여, 시공 후 수 시간 내 빠르게 강도를 발현해야 하는 용도에 주로 사용되는 초속경 시멘트는 작은 품질변동에도 현장에서 민감할 수밖에 없어 품질을 사전에 예측하고, 이를 제어할 수 있는 기술이 시급하다.

초속경 시멘트의 품질은 원재료의 화학적 조성(연속형 변수)과 특정 첨가제의 종류 및 사용 여부(범주형 변수) 등 다양한 요인에 의해 결정된다. 따라서 해당 데이터셋은 연속형과 범주형 변수가 혼재된 혼합 데이터(mixed data)의 특성을 보이며, 이는 결측치 대체 과정에서 추가적인 복잡성을 일으키게 된다. 일반적으로 가장 손쉽게 사용하는 단변량 대체(univariate imputation)의 경우, 다른 변수와의 관계를 고려하지 않고 평균이나 중앙값, 최빈값을 활용하는 것이 일반적이다. 그러나 단변량 대체 방법은 변수의 분산이나 변동성이 과소 평가되어 상관계수․회귀계수 등이 왜곡되고 변수 간의 복잡한 상관관계나 비선형적 패턴을 반영하지 못하는 치명적인 한계를 가지게 된다. 본 연구에서는 복잡한 환경의 결측치 대체를 위하여, 다변량 대체(MI; multivariate imputation) 기법이나 기계학습 혹은 심화학습의 대표적인 방법을 선정하여 비교 분석하고자 한다. 본 연구는 고비용 실험 환경에서 발생하는 혼합 데이터의 결측치 문제에 대해, 효과적으로 활용할 수 있는 연쇄 회귀 모델링으로 결측치를 반복적으로 추정하는 MICE(multiple imputation by chained equations), 대표적인 기계학습 방법인 랜덤 포레스트(random forest)를 활용한 MissForest, 데이터의 특징을 효과적으로 학습하는 딥 러닝 모델 중 하나인 1D-CNN의 성능을 실증적으로 비교․ 평가하는 것이다. 실제 완비된 데이터를 활용하여, 현장에 서 발생하는 다양한 사례를 통해 결측치 대체 결과를 비교․평가하고 최적의 방법을 제안하고자 한다. 본 연구의 제2장에서는 관련 분야의 선행 연구를 살펴보고, 제3장에서는 실제 데이터를 활용하여 성과를 비교․평가한다. 이후 제4장에서 실험 결과를 확인하고, 제5장에서는 본 연구의 시사점과 향후 연구과제에 대해 살펴보고자 한다.

2. 선행 연구

2.1 결측치의 대체

분석에 활용할 데이터가 누락된 경우를 결측치(missing data)라고 하는데, 결측치가 포함된 데이터를 적절한 처리없이 분석에 활용하면 데이터 분석의 신뢰성에 다양한 문제가 야기된다. 결측치를 처리하는 가장 좋은 방법은, 결측치가 포함된 데이터의 해당 리스트 전체를 삭제(listwise deletion)하고 양질의 데이터로 대체하는 것이다. 그러나 데이터 확보 비용이 높아, 양질의 데이터로의 대체가 전제되지 않은 상태에서 데이터를 단순히 제거하면 귀중한 정보의 손실은 물론 데이터의 통계적 검정력 약화를 초래할 수도 있다. Little & Rubin은 결측치 발생 유형을 결측치가 완전히 무작위(MAR; missing at random)인 경우와 관측값에 따라 발생하는 경우(MCAR; missing completely at random), 그리고 관측되지 않은 값에 따라 발생(MNAR; missing not at random)하는 경우로 분류하고, 이에 따른 분석 전략을 제시하였다[16]. 특히 리스트 단위로 삭제되는 데이터가 MCAR이 아니라면, 문제는 검증력이 급격히 떨어지게 되는데, MAR이나 MNAR의 경우에는 편향(bias)의 문제가 발생할 우려가 있다. 따라서 이 경우, 통계적으로 타당하고 정교하게 결측치를 대체하는 것이 유일한 현실적 대안이다. Fichman and Cummings는 리스트 삭제 및 평균 대체가 왜곡된 추론을 초래하며, 다중 대체가 일반적이고 실용적인 해법임을 실증적으로 보인 바 있으며, 특히 결측치가 MAR인 경우에는 다중대체가 최적의 방법임을 확인하였다[5].

리스트 단위 삭제나 단변량 대체를 넘어, 결측치 처리에 대해 체계적인 이론 및 실무적 방법이 제시된 것은 비교적 최근의 일이다. Schafer는 다변량 결측치 분석의 통계적 방법론을 제시하였다[24]. 다중대체는 결측치를 여러 개의 그럴듯한 값들로 대체하여 결측값에 내재된 불확실성을 반영하는 방법론이라고 할 수 있는데, Graham은 결측치 분석 및 설계에 대한 실무적 가이드를 제시하며, 결측치가 분석 결과에 미치는 영향과 다중대체가 유리함을 확인하 였다[6]. Rubin은 단일순대체에서 문제될 수 있는 편향을 감소하고 불확실성을 반영하는 여러 데이터 세트의 결과를 결합하는 규칙(Rubin’s rules)을 제시하여 결측치가 있는 데이터로부터 보다 신뢰할 수 있는 추론이 가능함을 보이고, 사회과학 데이터를 적용하여 확인하였다[22]. 특히 단순비율 혹은 조건 평균 대체는 모집단의 분산을 과소 추정하는 경향이 있어, CART (Classification and Regression Tree) 기반의 다중대체가 정확도 및 공분산 보존 능력 부분에서 우수하다는 연구가 제시된 바 있다[31].

이처럼 단순대체에 비하여 통계 등을 활용한 진보된 방 법을 사용하는 것이 일반적으로 보다 나은 효과를 보인다는 것은 다양한 연구들에 의해 알려져 왔다. 이중 각 변수 별로 조건부 회귀모형을 순차적으로 적용해 결측치의 다중대체를 수행하는 방법[2]인 MICE는 가장 널리 활용되는 방법이라고 할 수 있다. MICE는 연속형이나 범주형 변수 모두에 적용할 수 있으며, 복수 대체가 가능하고 다양한 연구를 통해 꾸준히 검증을 받아 왔다는 장점이 있다. 반면 변수 간의 관계가 비선형이거나 MNAR인 경우에는 적합하지 않으며, 변수 혹은 데이터의 크기가 커지면 계산 비용이 증가하고 복잡한 데이터에는 적용이 불리하다는 단점이 있다. 이러한 문제 해결을 위하여, 시간적 종단 정보와 횡단 정보 등을 동시에 활용하는 3-D MICE 구조를 활용하여 예측 오차가 감소된다는 연구가 제시되기도 하였다[18]. 해당 내용은 다변량 대체 원리에 따라 R 패키지 로 구축되어[28, 29] 지속적으로 활용되고 있다. 본 연구에서도 이를 활용하여 실험을 진행하였다.

한편, 비모수 추정 방법인 머신러닝과 딥러닝을 활용한 결측치 대체 방법도 꾸준히 진행되어 왔으며, MICE와 머신러닝/딥러닝의 대체 성능 또한 지속적으로 비교하고 있 다. 연구에 따라 MissForest 등의 머신러닝을 적용한 결과 가 우수하다는 결과와 GAIN(generative adversarial imputation nets) 등의 딥러닝을 적용한 결과가 우수하다는 사례가 공존하고 있다. 평균이나 중앙값을 활용한 단순대체, 최근 관측치로 대체하는 LOCF(Last Observation Carried Forward), KNN(k-nearest neighbor), Interpolation, MissForest 및 MICE 등의 방법을 비교한 결과, 결측률 10~25% 수준에서 MissForest가 일관적으로 우수하다는 보고가 있었다[9]. 또한 비교적 데이터가 부족한 환경에서 일유량 데이터 예측에 MissForest를 활용한 데이터 대체가 강건한 결과를 보임을 확인하였다[7]. MissForest는 복합형 사회통계자료 에도 안정적으로 활용될 수 있으며, 평균대체나 회귀대체 등의 단순대체 기법에 비해 10~20% 정도 정확도가 높다는 연구 결과가 제시되었다[3]. 또한 Random Forest, Gradient Boosting Trees, Deep Neural Networks 및 Clustering 등의 다양한 머신러닝 기법의 Ensemble 학습을 통하여 기존의 선형 MICE에 비하여 대체 정확도가 매우 상승함을 확인되 었다[23]. 이 연구에서 결측률이 최대 80%에 이르는 결측치 대체를 수행한 결과 MAR, MCAR의 경우에서는 효과적이나, MNAR에서는 대체 성능이 높지 않은 가운데 상대적으로 SVD(Singular Value Decomposition)가 유리함이 확인되었다. 반면 딥러닝 기반 결측치 대체가 유리하다는 연구도 꾸준히 제기되고 있다. 딥러닝을 적용한 기법은 AutoEncoder나 CNN(Convolutional Neural Network), GAN(Generative Adversarial Network) 등의 기법이 주로 활용된다. Yoon et al.[32]은 생성형 딥러닝 기법의 일종인 GAN(Generative Adversarial Network)을 결측치 대체에 활용한 GAIN(Generative Adversarial Imputation Network)을 제안하였다[32]. 4개의 Kaggle 공개 데이터셋을 활용하여 5~30% 수준의 결측치 대체 실험에서, NRMSE(Normalized Root Mean Squared Error) 및 PFC(proportion of falsely classified entrirs) 지표를 활용한 평가 결과 GAIN이 전반적으로 우수하며, AutoEncoder와 MissForest도 높은 성능을 확인하였다[15].

MissForest는 random forest 기반의 비모수 결측치 대체 법으로, 연속형과 범주형 모두에 효율적으로 사용될 수 있다[26]고 꾸준히 보고되고 있다. 한편, 많은 연구에서 딥러닝 기반 결측치 대체 방법이 대규모 데이터에서 상대적으로 우수하다는 결과가 확인되었다[27, 30]. 그러나 가장 진화된 방법론으로 분류할 수 있는 GAIN의 경우 RMSE, MAE 등 표본 단위 오차 지표에서는 우수하지만, 실제 데이터의 분포 재현성 측면에서는 MissForest나 MICE 등의 전통적 방법에 비해 불리하다는 약점이 있음도 확인되었다[25]. 이는 손실함수에서 MSE나 분포 유사성 유도의 기여가 미미하기 때문에 실제 분포와는 다른 값이 생성될 수 있고, 다차원 데이터에서의 분포 왜곡이 심해질 수 있기 때문이라고 분석하고 있다. 또한 GAIN 등의 딥러닝 기반 대체는 다양한 분포를 충분히 재현하지 못하는 모델붕 괴(model collapse) 현상이 확인되기도 하였다. 이전의 연구들은 대개 분석 대상 데이터가 MAR이나 MNAR이라는 가정 하에 수행된 반면, 본 연구에서 활용되는 데이터는 대체로 분석 유형별로 설명이 가능한 MCAR이라는 특징이 있다. 또한 실제 공정 데이터를 활용한 다양한 연구에서 활용된 데이터는 대용량 센서 데이터 등 데이터의 양이 충분하다는 데 반해, 본 연구에서 활용된 데이터는 상대적으로 크기가 매우 적다는 점에서 차이가 있다.

본 연구는 데이터를 충분히 확보하지 못하는 상황에서 품질특성치를 예측하기 위해, 독립변수의 결측치를 대체하여 활용할 수 있는 데이터의 크기를 증가시키기 위한 연구이다. 이는 주요 변수 선정 이전에 결측치 대체를 수행하는 것이 모델 성능 향상에 유리함이 확인되었기 때문이다[9].

2.2 친환경 시멘트 공정 설계의 결측치 해소

본 연구에서는 슬래그를 활용하여 친환경 초속경 시멘트를 제조하는 산업에서 취합된 정보를 활용한다. 본 연구의 적용 산업인 슬래그 시멘트 산업에서 공정조건과 품질 특성치의 관계를 살피고자 하는 연구는 광범위하고 지속적으로 진행되고 있다[4, 8, 10-13, 21]. 그러나, 슬래그 시멘트의 품질관리나 품질특성치 예측에 데이터 확보나 결측치 해결이 중요한 관건이 된다는 보고는 지속적으로 제기되고 있다. 공정 설계 및 시공해석에 필요한 데이터가 부족하거나[4] 공정의 특성상 공정 데이터의 수집이 쉽지 않아[17] 품질관리 및 품질 특성치 예측이 어렵다고 알려져 있으며, 시멘트 제조 공정에서 결측치와 이상치를 처리해야 하는 필요성을 제기하고 머신러닝 모델을 활용해 공정 예측 정확도를 향상시킨 연구[1] 등을 통해 품질 특성치 예측에 다양한 변수의 완전성, 정확성, 일관성이 담보된 데이터의 활용이 중요함이 확인되었다. 또한 Mengesha and Mehari[19]는 시멘트 생산 최적화에 있어 데이터 수집 및 공정관리의 제약을 논의한 바 있으며, Mishra et al.[20] 는 정상적인 상태의 공정조건만으로는 예측 능력이 제한적이라는 연구를 진행한 바 있다. 실제 많은 제조기업에서 데이터의 결측치 문제는 일반적으로 겪는 문제이다. 미제 조업 센서스 데이터의 분석 결과, 결측치가 전체 데이터의 27~42%에 이르며 비단조적(non-monotone) 결측 패턴이 일반적이라고 보고되었는데[31], 이는 본 연구의 대상이 되는 슬래그 활용 초속경 시멘트 데이터의 특성과 유사하다.

이와 같이 슬래그를 활용한 초속경 시멘트의 품질특성치 예측의 모델링은 여전히 미완의 상태라고 할 수 있다. 본 연구는 제한된 실험 데이터를 활용하여 보다 정교한 품질특 성치 예측을 위한 사전 연구의 성격을 가지고 있다. 원재료의 특성과 공정조건 등의 독립변수에서 발생한 결측치를 효과적으로 대체하고, 품질특성치 발현에 중요한 인자를 선정하는 것은 물론 품질특성치 예측에 필요한 데이터의 양적/질적 수준을 높이는 것을 목표로 한다. 따라서, 본 연구는 이전 연구와는 아래의 관점에서 차별점을 가진다. 첫째, 본 연구는 시제품 생산 단계인 초속경 시멘트의 연구 개발 환경에서 확보한 고비용 공정 실험 데이터를 활용하여, 대표적인 결측치 대체 방법(MICE, MissForest, 1D-CNN)의 성능을 실제 산업 데이터를 기반으로 비교 분석하였다는 점에 의의가 있다. 둘째, 기존 연구들이 결측 메커니즘을 MAR이나 MNAR로 가정하거나 명시적으로 다루지 않은 경우가 많은 것과 달리, 본 연구는 MCAR 특성을 가지는 데이터를 분석 대상으로 하였으며, 각 방법의 성능을 비교 하였다는 점이 차별된다. 셋째, 고비용 실험 환경 특성상 활용 가능한 데이터 크기가 제한된 상황에 초점을 맞추어, 소표본 환경에서 각 결측치 대체 방법의 상대적 강점과 한계를 분석하고, 연구개발 분야를 비롯한 고비용 공정에서의 실질적인 적용 방법을 제시하였다는 데 의의가 있다.

3. 적용 모델과 활용 데이터

3.1 적용 모델

본 연구에서는 선행연구에서 언급된 다양한 방법들 중 특징적인 몇 가지를 선정하여, 결측치 대체를 시행하기로 한다. 통계적 회귀모형에 기반하여 연속회귀 모형을 반복적으로 수행하여 결측치를 추정하여 대체하는 MICE와 Random Forest 기반으로 비선형 관계를 반영할 수 있는 머신러닝 기반의 접근 방법인 MissForest, 비선형 패턴 학습에 강점을 가진 딥러닝 기반의 1D-CNN을 적용하고 그 결과를 비교해 보기로 한다.

MICE는 다중대체의 대표적인 방법으로, 결측치를 가진 각 변수를 나머지 변수들의 조건부 분포에 기반하여 반복적으로 추정하는 일종의 베이지안 접근법이라고 할 수 있다. 모든 변수에 대해 완전한 조건부 모델을 직접 추정하기 어렵기 때문에, 각 변수를 다른 변수들에 대한 조건부 회귀모형으로 개별적으로 모델링하고 순차적으로 갱신해 나감으로써 전체 분포를 근사하는 방법이라고 요약할 수 있다. MICE는 다음과 같은 절차를 거쳐 실행된다.

Step 01: Identify X_j containing missing values in the dataset $D = {X_{1}, X_{2}, \dots, X_{p}}$
Step 02: Initialize all missing values $X_{j} \leftarrow \bar{X}$ (mean) or $\tilde{X}$ (median)
(Step 03: Iterate:
for t = 1 to T
for each X_j with missing entries
Model construction:
Use X_j as the dependent variable,
other variables X__j as predictors
Fit a regression model:
X_j= f_j (X__j) + ε
Imputation: Replace X_j with ${\hat{X}}_{j}$
Step 04: Repeat the above process to obtain m completed datasets ${X^{(1)}, X^{(2)}, \dots, X^{(m)}}$
Step 05: Output the fully imputed dataset D , which is either randomly selected from one of the datasets or obtained by averaging the imputed datasets to form the final dataset.

본 연구에서는 다중대체를 위하여, Predictive Mean Matching(PMM) 방식을 활용하였으며, m = 10의 datasets에 동시에 대체를 실행하고, 각 체인의 반복횟수 T = 10으로 설정하였다. 또한 모든 실험은 동일한 랜덤 시드를 활용하여 재현 가능하도록 수행되었으며, 대체된 데이터셋의 결과를 평균하여 최종 대체값으로 사용하였다. 이는 예측 수준을 안정화하기 위한 목적이 있다. MICE는 변수 간 상관관계를 반영하면서도 불확실성을 동시에 고려할 수 있다는 점에서 통계적으로 타당성이 높다고 알려져 있다[2]. 그러나 반복 갱신으로 인한 계산 비용이 크고, 변수 간의 다중공선성이나 비선형 의존성이 있는 경우 모델 편향이 유발될 수 있다는 한계도 존재한다.

또한 본 연구에서는 머신러닝을 활용한 접근 방법 중 다수의 연구에서 효과적이라고 알려져 있는 MissForest를 활용하였다. MissForest는 랜덤포레스트의 앙상블 학습특성을 활용하여 변수 간의 비선형 관계 및 고차 상호작용을 효과적으로 포착할 수 있으며, 비모수 추정 방법으로 데이터 분포에 대한 가정이 불필요하다는 장점이 있다. 특히 MissForest는 연속형 및 범주형 변수가 혼합된 데이터에서도 적용이 가능하다는 장점이 알려져 있어[3, 26], 연속형과 범주형 변수가 혼재된 산업 데이터에 적합하다고 알려져 있다. 본 연구에서 적용한 MissForest는 각 변수의 결측치 추정에 다른 변수들을 설명변수로 활용하는 랜덤포레스트 회귀나 분류 모형을 활용하고, 이를 반복적으로 수행함으로써 최종 대체값을 추정하게 된다. 다만 MissForest는 반복학습에 따른 계산 비용이 크며, 변수 차원이 매우 높을 경우나 결측비율이 과도하게 높을 경우에는 Data Sparsity로 인한 성능 저하의 위험이 있다. 본 연구에서, MissForest는 다음과 같은 절차를 통해 수행된다. 본 연구에서는 결측치 대체를 위한 최대 반복 횟수 T = 10으로 정하였으며, 변수별 오차를 계산하도록 하여 Δ가 증가되거나 T = 10에 도달할 때까지 반복하도록 하였다. 또한 각 반복에서 RandomForest의 개수는 100으로 설정하였다.

Step 01: Identify X_j containing missing values in the dataset $D = {X_{1}, X_{2}, \dots, X_{p}}$
Step 02: Initialize all missing values $X_{j} \leftarrow \bar{X}$ (mean) or $\tilde{X}$ (median)
1D-CNN One-dimensional Convolutional Neural Network)
While $Δ_{t - 1} < Δ_{t}$ or $t = T$
for each X_j with missing entries
Model construction:
Use a random forest to predict X_j from X__jX_j= RF_j (X__j)
Imputation:
Replace X_j with ${\hat{X}}_{j}$
Calculate the rate of change, Δ ,
where, $Δ = \frac{{‖ X_{j}^{(t)} - X_{j}^{(t - 1)} ‖}_{F}}{{‖ X_{j}^{(t - 1)} ‖}_{F}}$ (Frobenius Norm)
Step 04: Output the fully imputed D .

결측치 대체를 위한 딥러닝 기법은 다층퍼셉트론(MLP) 등으로 대표되는 Deep Neural Network이나 1D-CNN, GAIN 등을 고려할 수 있는데, 본 연구에서는 경우는 시멘트의 강도, 응결특성 및 유동도 등으로 구성되어 있다. 취합되는 데이터 완비 여부에 따라, 각 변수를 완비 데이터와 소량 불완비 데이터, 대량 불완비 데이터 등으로 분류할 수 있다. 완비 데이터의 경우는 실험에서 가장 중요하다고 판단되어, 최초 실험부터 꾸준히 집계해 온 것들로 제조사, 제조유형, X선 형광분석기(XRF, X-ray fluorescence)로 분석된 화학 조성비, 입고된 슬래그의 비중 등이다. 종속변수 전체를 비롯한 불완비 데이터들은 실험이 진행되면서, 고객의 품질 특성치 항목 추가 요구나 이에 대응될 것으로 예상되는 공정조건 등으로 구성되어 있다.

4. 실험내용 및 결과

4.1 실험내용

본 연구는 품질특성치 예측을 위한 전 단계로, 독립변수의 결측치를 적절히 대체하는 것이다. 이에 현장에서 확보한 실제 실험 데이터 중, 유일여부를 판정하기 위한 Index를 제외한, 18개 변수를 대상으로 선정하였다. 선정된 변수는 제조사와 제품 구분(Class1, Class2), XRF로 분석된 7개의 원소 함유량(CaO, Al2O3, SiO2, Fe2O3, SO3, MgO, etc), 조립률(FM), 평균입자(MeanV), 슬래그 비중(Density), 분말도(Blain), 석고 유형(HG, AG, DG), 석고 함유량(Gyp_per), 물-시멘트 비율(WC_per) 등이다. 선정된 변수들이 모두 완비된 데이터 건수는 451건이고, 해당 데이터를 실험에 활용하였다.

본 연구에서는 대체 성능을 확인하기 위하여, 2종류의 실험을 수행하기로 한다. 첫 번째 실험은 각 데이터 별로 결측치가 하나의 변수에서만 발생하는 경우를 산정하였다(이하 Test1). 총 451건의 실험 데이터셋에서 일부 불완비 데이터였던 변수(조립률, 평균입자, 분말도, 슬래그 비중, 석고 유형, 석고 투입량, 물-시멘트비 등)를 대상으로, 임의의 10개 데이터를 각각 삭제하여 완비된 381건의 데이터를 학습하여 변수별 결측치를 대체한다. 대체 결과를 원래 실험데이터와 비교하여 대체 결과를 확인하였다. 선정된 모든 변수는 연속형 데이터이며, 석고 유형 3가지는 One-hot Encoding으로 표기하였다. 따라서 석고유형과 관련된 3개의 변수는 실제로는 하나의 변수와 같다고 간주할 수 있다. 다음의 <Figure 1>은 변수별 결측치 상황을 보인 것이다.

두 번째 실험은 보다 다양한 결측치 발생 상황을 가정하여, 하나의 데이터에 1개에서 5개까지 임의의 결측치가 발생하는 상황을 가정하였다(이하 Test2). 각 변수별로는 3개에서 20개까지의 결측치가 임의로 배치되었다. 제시한 <Figure 2>는 변수별 결측치 상황을 도시화한 것이다. 다만 XRF 분석으로 측정된 산화물 조성 변수들(Al2O3, SiO2, Fe2O3, SO3, MgO, etc 등 7개 변수)은 한정된 원재료를 반복적으로 사용하는 공정 특성상, 동일한 조성 조합이 여러 샘플에서 중복 관측되는 경향이 있다. 이로 인해, 결측이 발생한 위치를 제외하고는, 주변 샘플들에서 참조 가능한 변수값들이 동일하거나 거의 동일한 경우가 많아, 적절한 모형을 사용할 경우 매우 정확한 결측값 추정이 가능하다는 특징이 있다.

4.2 실험결과

본 연구에서 적용하는 모든 방법들은 원칙적으로 원본 데이터의 분포를 왜곡하지 않아야 한다. 결측치 대체 전후의 데이터 분포를 확인한 결과는 다음의 <Figure 3>, <Figure 4>과 같이 표현된다. 제시된 분포는 비교적 가장 많은 결측치가 포함된 평균입자(MeanV) 변수를 도시하였다. 그림 중 ⓒ는 결측치를 배제한 원래의 데이터 분포(푸른색)이며, ⓐ, ⓑ와 ⓓ는 각각 MICE, MissForest, 1D-CNN 으로 대체한 결과(붉은색)를 함께 표현한 것이다. 그림에서 확인하는 바와 같이, 대체 전후의 분포는 거의 유사한 것으로 확인되었다. 특히 하나의 변수에만 제한적인 결측치가 발생한 경우를 전제한 Test1의 경우는 최솟값 부분을 제외한 모든 방법이 분포의 왜곡이 없음을 확인할 수 있었다. 반면 비교적 많은 결측치가 발생한 경우인 Test2에서는 대체로 분포 왜곡은 없으나, MICE의 경우가 원래 분포에 가장 근사하는 결과를 확인할 수 있었다. MissForest와 1D-CNN의 경우, 가장 많은 결측치가 발생한 영역에서 조금 달라지는 경향을 확인할 수 있었다.

이처럼 대체 전후의 분포를 통해 개략적으로 비교한 결과, 대체 성능은 비교적 양호한 것으로 확인되었다. 실제 결측치가 발생한 위치별로 대체를 수행한 결과는 다음의 <Table 1>, <Table 2>와 같다. 예측 대상이 연속형 자료임을 감안하여, 본 연구에서는 대체 정확도 파악을 위하여 실제값과 예측결과의 차이가 임계수준 이내에 있는지 여부를 확인하였다. 즉, 예측값과 참값의 차이가 일정 수준, threshold value θ, 이하일 경우, 정확한 것(‘Match’ 칼럼)으로 간주하였다.

Test1에서는 총 90건의 예측을 수행하였으며, Test2에서는 총 220건의 예측이 수행되었다. 예측 정확도 파악을 위해서, 본 연구에서는 PFC(proportion of falsely classified entries)를 수정하여 활용하였다. PFC는 명목 데이터 추정의 정확도를 평가하기 위해 널리 활용되는 방법으로 망소 희망지표이다. 본 연구에서는 대체 결과가 실제 활용 가능 수준인지를 확인하기 위하여 일반적인 PFC의 개념을 활용하되, 결측치가 연속형 자료임을 감안하여 허용오차 기반 정확도를 활용한 modified PFC를 사용하고 이후 기술에는 PFC로 칭하기로 한다. 본 연구에서 사용된 modified PFC는 다음의 식 (1)과 같이 계산하였다.

(modified) P F C = \frac{1}{N_{m}} \sum_{i = 1}^{N_{m}} I (| {\hat{y}}_{i} - y_{i} | > θ)

(1)

where,

N_m: number of total imputation cases
y_i : ground truth
${\hat{y}}_{i}$ : imputation value
I (∙) : indicate function; if true = 1, else 0
θ : threshold value; θ = σ⋅y_i ,
σ: tolerance range (0.01, 0.05)

임계값 θ 산정을 위한, 허용오차범위 5% (σ = 0.05)인 경우의 PFC 결과는 다음의 <Table 3>, <Table 4>에 정리 하였다. 대체 결과 Test1, 2 모두 MissForest가 가장 우수한 결과를 보였으며, 1D-CNN과 MICE가 뒤를 이었다. 특히 보다 복잡한 상황을 가정한 Test2에서 다른 방법들의 PFC 가 증가한 것에 반해, MissForest의 대체 결과는 오히려 좋 아졌음을 확인할 수 있었다.

또한, 임계값을 키우면 PFC가 감소하는 효과를 확인할 수 있었다. 다음의 <Table5>는 허용오차범위를 1%로 산정 하였을 때의 PFC 평가 결과를 제시한 것이다. 동일한 Test1을 대상으로 임계값의 허용오차범위 5%인 경우와 비 교하면, PFC가 상당히 높은 것을 확인할 수 있었다. 이는 임계값이 커지면 지속적으로 확인되는 현상이다. 따라서, 결측치 추정값의 정밀도가 낮은 경우라면 PFC는 더욱 낮 아질 수 있으며, 특히 MICE를 활용한 대체로 충분히 활용 가능한 수준이 될 수 있다.

이를 본격적으로 확인하기 위하여, 변수별로 예측값의 NRMSE(normalized root mean squared error)를 산정하였다. 변수별로 데이터의 스케일이 매우 달라 일반적으로 사용되는 RMSE(root mean squared error)를 통해 예측 수준을 비교하기 어려워, 데이터의 범위(y_max - y_min)로 정규화하였다. 다만 데이터 값의 범위는 결측치만을 대상으로 한 것이 아니라, 전체 값들을 대상으로 하였다. 이는 결측치 발생이 특정 구간에만 발생하여, 비교적 정확한 예측에도 작은 범위값으로 인해 NRMSE 값이 크게 증가할 수 있기 때문이다. NRMSE는 망소 희망지표로, 다음의 수식 (2)와 같이 계산된다.

\begin{array}{l} NRMSE = \frac{RMSE}{y_{max} - y_{min}} \\ where, RMSE = \sqrt{\frac{1}{N_{m}} \sum_{i = 1}^{N_{m}} {(y_{i} - y_{i})}^{2}} \end{array}

(2)

앞선 실험들의 NRMSE 결과는 각각 다음의 <Table 6>, <Table 7>에 제시되었다. PFC결과와 마찬가지로 대체로 MissForest와 1D-CNN의 NRMSE가 낮은 가운데, 일부 변수의 경우는 MICE가 대등하거나 우수한 결과를 확인할 수 있었다. 또한 Test1의 대체결과와 Test2의 대체 결과는 대체로 비슷한 수준을 보이고 있음이 확인되었다. 다만 WC_per의 경우는 다른 변수들에 비해 NRMSE가 큰 것이 확인되었다. 아울러 석고 유형을 One-hot encoding한 HG, AG, DG의 경우는 해당 변수에 따라 NRMSE가 크게 차이 나는 것을 확인할 수 있었다. AG의 경우는 NRMSE가 0으로 정확히 대체하였으나, 나머지의 경우는 그 차이가 상대적으로 매우 큼이 확인되었다.

제시한 <Table 7> MissForest를 적용한 Fe2O3를 비롯한 XRF 관련 변수(Al2O3, SiO2, Fe2O3, SO3, MgO 등)의 NRMSE가 매우 작은 값을 보이는 것은, 상기한 XRF 조성 변수들의 특성과 강한 상관관계에서 기인한 것으로 해석 된다. 한정된 원재료 조합으로 인해 동일한 XRF 조성 패 턴이 반복적으로 관측되며, 이로 인해 Fe2O3는 다른 산화 물 변수들과 거의 선형 관계에 가까운 강한 종속성을 가지 게 된다. 이러한 구조 하에서 트리 기반 앙상블 모형인 MissForest는 결측 위치의 값을 높은 정확도로 복원할 수 있으며, 그 결과 NRMSE가 0에 이르는 수준까지 감소할 수 있다.

다음의 <Table 8>에 대체 정확도가 가장 낮았던 변수들 의 실제 대체 값을 Test1의 사례를 제시한 것이다. HG/AG/DG는 One-hot encoding으로 처리된 변수로 한꺼 번에 표기했으며, 음영 처리된 데이터는 PFC에서 틀린 값 으로 판정한 것이다.

HG/AG/DG는 거의 모든 데이터가 HG에 집중되어 있던 것으로 확인되었다. 분석에 사용된 총 451건의 자료 중 HG, AG, DG가 사용되어 1로 표기된 자료는 각각 351, 25, 73건이었으며, 2건의 데이터는 기타 유형으로 3개 유형 모두 0으로 표기되어 있었다. 이는 심각한 클래스 불균형으로 인해 학습이 편향적으로 수행되었을 가능성을 배제할 수 없음을 시사한다. 아울러 석고 유형에 따른 원재료 특성의 차이가 거의 없는 점 또한 영향을 미쳤을 것으로 판단된다. 이에 따라 DG로 대체되어야 할 값들이 모두 HG로 처리된 것으로 분석되었다. 또한 상기 변수들은 원칙적으로 세 값의 합이 1이 되는 것이 적절하나, 일부 사례의 경우 모두 0인 경우가 존재하고 있었다. 이에 다항 로지스틱 회귀 모형이나 Softmax 등을 활용하거나 One-hot Encoding 된 항목 전체를 하나의 다중 클래스 문제로 다루는 것이 적절함에도, 본 연구에서는 연속회귀 문제를 활용하고 가장 큰 값을 1로 수정하는 후처리를 활용하여 동일한 결과를 얻도록 하였다. 향후 언급한 One-hot Encoding 된 값들을 보다 면밀히 정리하고, 다중 범주형으로 모델링할 계획이다.

위 변수를 제외하고 NRMSE가 가장 큰 WC_per의 경우는 입력 데이터의 특성이 원인인 것으로 확인된다. 본 연구에서는 해당 변수를 연속형 변수로 구분했으나, 실제 값들은 0.35, 0.4, 0.5, 0.6의 4종류로 기록되었다. 이는 데이터 입력에 끝맺음 습관이 반영된 것으로, 대체값은 원본 데이터에 비교적 근사하고 있음을 확인할 수 있었다. 따라서, 적절한 후처리를 수행하면 보다 높은 정확도를 기대할 수 있을 것으로 판단된다.

5. 결론 및 향후 연구과제

본 연구에서는 고비용 데이터 획득 구조에서 불완비 데이터를 효과적으로 대체하는 방법을 비교 검토하고, 현장에서 취합된 품질특성치 발현에 중요한, 다양한 변수의 실제 데이터를 대상으로 실증하였다. PFC를 기준으로 평가할 때, MissForest가 가장 우수한 것으로 나타났으며 1D-CNN도 유사한 수준의 정확도를 확인할 수 있었다. NRMSE를 기준으로 평가한 결과 또한 MissForest가 가장 우수했으며, 1D-CNN과 MICE가 뒤를 이었다. 이는 선행 연구에서 밝혀진 바와 유사했으며, 1D-CNN의 경우는 데이터의 크기가 커지면, 보다 나은 결과를 기대할 수도 있을 것으로 판단한다. 본 연구 결과는, 결측 메커니즘이 MCAR이고, 표본 크기가 제한적이며, 연속형 공정 변수들 사이에 비선형 관계가 존재하는 실제 공정 데이터의 경우, MICE와 같은 모형 기반 통계적 방법에 비해 MissForest와 같은 트리 기반 머신러닝 방법이 보다 견고하고 정확한 결측치 대체 성능을 제공할 수 있음을 시사한다. 반면, 1D-CNN과 같은 딥러닝 기반 방법은 충분한 규모의 학습 데이터가 확보되지 않는 한 성능 향상에 한계가 있어, 본 연구에서 다룬 시멘트 R&D와 같이 고비용․소표본 실험 환경에서는 실질적인 활용 가능성이 제약될 수 있음을 확인할 수 있다. 한편 HG/AG/DG의 경우는 학습에 활용된 데이터의 부족 및 편향과 석고 유형별 원재료 특성이 크지 않아, 상대적으로 낮은 정확도를 보인 것으로 판단된다. WC_per는 특정값으로 끝맺음되는, 원본 데이터의 특성에 따라 NRMSE값에 비해 PFC 결과가 매우 낮은 것을 확인할 수 있었다.

본 연구에서는 제조현장에서 흔히 발생하는 불완비 데이터 대체 문제가 효과적으로 해결될 수 있음을 보였다. 또한 불완비 데이터가 효과적으로 대체될 경우, 현재 취합된 실험 데이터를 활용하여 입고된 원료의 변동에 따른 최종 시멘트 품질 예측이 가능함을 대상 기업이 확인하였다. 아울러 실제 대상 기업에 문의한 결과, 현재 수준의 대체로도 충분히 활용할 수 있는 수준임을 확인할 수 있었다. 또한 본 연구는 결측치가 MCAR이고, 표본 크기가 제한적이며, 연속형 공정변수들이 비선형 관계를 가지는 다양한 산업의 제조 현장에서 널리 활용될 수 있을 것으로 판단된다.

향후 제시된 결과를 현장에서 보다 유용하게 활용하기 위해서는, 딥러닝 기반의 접근 방법이 유용할 데이터 크기에 대해 보다 상세히 확인할 필요가 있을 것으로 판단된다. 또한 MAR을 따르는 완전 연속이 아닌 경우라면, 데이터의 유형에 따른 후처리가 필요함을 확인할 수 있었다. 실제로 데이터 입력의 끝맺음 습관이 있는 WC_per의 경우는 적절한 후처리를 통하여, 보다 유용한 대체를 기대할 수 있을 것으로 판단된다.

Acknowledgement

This work was supported by the Starting growth Technological R&D Program (TIPS Program, (No. RS-2025- 25440393)) funded by the Ministry of SMEs and Startups(MSS, Korea) in 2025.

Figure

<Figure 1>.

Missing Data Status for Test 1

<Figure 2>.

Missing Data Status for Test 2

<Figure 3>.

Sample Data Distribution of Test 1

<Figure 4>.

Sample Data Distribution of Test 2

Table

<Table 1>.

Sample Imputation Results of Test1

Row	Col	Variable	Values	Match	Best_Method
442	11	FM	3.36	2.039	2.121152143	2.210428387	FALSE	FALSE	FALSE	None
443	11	FM	4.4	4.34	4.4	4.359174589	TRUE	TRUE	TRUE	MICE, MissForest, CNN
444	11	FM	3.18	3.027	3.18	3.222367248	TRUE	TRUE	TRUE	MICE, MissForest, CNN
445	11	FM	4.4	4.178	4.2481	3.707560364	FALSE	TRUE	FALSE	MissForest
446	11	FM	2.84	2.798	2.84	2.853534511	TRUE	TRUE	TRUE	MICE, MissForest, CNN
447	11	FM	3.18	3.695	3.18	3.18462134	FALSE	TRUE	TRUE	MissForest, CNN
448	11	FM	4.2	3.491	4.2	4.044595525	FALSE	TRUE	TRUE	MissForest, CNN
449	11	FM	4.3	4.35	4.3	4.206448664	TRUE	TRUE	TRUE	MICE, MissForest, CNN
450	11	FM	3.18	3.695	3.18	3.18462134	FALSE	TRUE	TRUE	MissForest, CNN
451	11	FM	3.23	3.302	3.23	3.219870489	TRUE	TRUE	TRUE	MICE, MissForest, CNN
432	12	MeanV	8.877	8.2652	8.877	8.654184582	FALSE	TRUE	TRUE	MissForest, CNN
433	12	MeanV	7.526	8.1113	7.526	7.506912917	FALSE	TRUE	TRUE	MissForest, CNN
434	12	MeanV	5.12	5.186	5.12	5.230713559	TRUE	TRUE	TRUE	MICE, MissForest, CNN
435	12	MeanV	5.12	5.153	5.12	5.230713559	TRUE	TRUE	TRUE	MICE, MissForest, CNN
436	12	MeanV	8.221	8.3411	8.408815147	8.35940868	TRUE	TRUE	TRUE	MICE, MissForest, CNN

<Table 2>.

Sample Imputation Results of Test2

Row	Col	Variable	Values	Match	Best_Method
1	5	Al2O3	29.69	29.697	29.44258	29.43225127	TRUE	TRUE	TRUE	MICE, MissForest, CNN
7	5	Al2O3	25.67	25.289	26.52225	25.75971227	TRUE	TRUE	TRUE	MICE, MissForest, CNN
41	5	Al2O3	27.91	27.91	27.91	27.95136816	TRUE	TRUE	TRUE	MICE, MissForest, CNN
3	6	SiO2	7.83	8.126	7.83	7.993896759	TRUE	TRUE	TRUE	MICE, MissForest, CNN
5	6	SiO2	9.87	9.87	9.87	9.884398755	TRUE	TRUE	TRUE	MICE, MissForest, CNN
8	6	SiO2	8.34	8.085	8.34	8.397332931	TRUE	TRUE	TRUE	MICE, MissForest, CNN
10	6	SiO2	8.34	9.136	8.34	8.352855513	FALSE	TRUE	TRUE	MissForest, CNN
19	6	SiO2	8.34	8.525	8.3563	8.375411566	TRUE	TRUE	TRUE	MICE, MissForest, CNN
49	6	SiO2	8.2	8.941	8.2	8.460855666	FALSE	TRUE	TRUE	MissForest, CNN
77	6	SiO2	8.34	8.34	8.34	8.37239762	TRUE	TRUE	TRUE	MICE, MissForest, CNN
3	7	Fe2O3	1.94	1.662	1.94	1.791808527	FALSE	TRUE	FALSE	MissForest
8	7	Fe2O3	0.68	0.93	0.68	0.752038176	FALSE	TRUE	FALSE	MissForest
12	7	Fe2O3	1.68	1.436	1.68	1.58624675	FALSE	TRUE	FALSE	MissForest
16	7	Fe2O3	0.56	0.695	0.56	0.65763489	FALSE	TRUE	FALSE	MissForest
21	7	Fe2O3	5.37	5.37	5.37	5.329414103	TRUE	TRUE	TRUE	MICE, MissForest, CNN

<Table 3>.

PFC Results of Test1

where, tolerance range, σ = 0.05

Methods	Correct Prediction	Total Prediction	PFC (1-Accuracy)
MICE	62	90	0.3111
MissForest	72	90	0.2000
1D-CNN	72	90	0.2000

<Table 4>.

PFC results of Test2

where, tolerance range, σ = 0.02

Methods	Correct Prediction	Total Prediction	PFC (1-Accuracy)
MICE	144	220	0.3455
MissForest	183	220	0.1682
1D-CNN	166	220	0.2455

<Table 5>.

PFC Results of Test1 in σ= 0.01

where, tolerance range, σ = 0.01

Methods	Correct Prediction	Total Prediction	PFC (1-Accuracy)
MICE	44	90	0.5111
MissForest	66	90	0.2667
1D-CNN	55	90	0.3889

<Table 6>.

NRMSE Results of Test1

VariablesMethods	NRMSE
FM	0.1105693	0.08154793	0.0885706
MeanV	0.13542491	0.12936262	0.12194667
Density	0.03155978	0.0025488	0.01063321
Blain	0.01828335	0.00152076	0.00818962
HG	0.4472136	0.4472136	0.4472136
AG	0	0	0
DG	0.4472136	0.4472136	0.4472136
Gyp_per	0.15203801	0.14871751	0.15975028
WC_per	0.2349468	0.17676612	0.18490403
Average	0.175249927	0.159432325	0.163157955

<Table 7>.

NRMSE Results of Test2

VariablesMethods	NRMSE
Al2O3	0.01833396	0.04269689	0.01328063
SiO2	0.08990356	0.0012522	0.02439884
Fe2O3	0.12678922	3.8362E-16	0.00928983
SO3	0.17850895	0.00683188	0.03751813
MgO	0.05478456	0.00146113	0.0170535
etc	0.11045283	0.00175526	0.00979224
FM	0.05960516	0.03000767	0.03202612
MeanV	0.08623674	0.03176478	0.04474065
Density	0.09628683	0.02312689	0.02429686
Blain	0.01588939	0.0010459	0.01394505
HG	0.40824829	0.40824829	0.40824829
AG	0	0	0
DG	0.40824829	0.40824829	0.40824829
Gyp_per	0.2002798	0.1913768	0.20025732
WC_per	0.25321463	0.22427007	0.23140163
Average	0.140452148	0.091472405	0.098299825

<Table 8>.

Selected imputation results of Test1

Variable	Ground truth	MICE	MissForest	CNN
HG/AG/DG	1/0/0	1/0/0	1/0/0	1/0/0
0/0/1	1/0/0	1/0/0	1/0/0
1/0/0	1/0/0	1/0/0	1/0/0
0/0/1	1/0/0	1/0/0	1/0/0
1/0/0	1/0/0	1/0/0	1/0/0
1/0/0	1/0/0	1/0/0	1/0/0
1/0/0	1/0/0	1/0/0	1/0/0
1/0/0	1/0/0	1/0/0	1/0/0
1/0/0	1/0/0	1/0/0	1/0/0
1/0/0	1/0/0	1/0/0	1/0/0
WC_per	0.4	0.46	0.409752	0.426992
0.4	0.44	0.44806	0.444422
0.4	0.46	0.409752	0.426992
0.4	0.45	0.44806	0.444422
0.4	0.47	0.458811	0.467535
0.5	0.42	0.419193	0.424004
0.4	0.45	0.42059	0.418862
0.4	0.43	0.42059	0.418862
0.4	0.47	0.42059	0.418862
0.4	0.46	0.458811	0.467535

Reference

Alshammari, M.S. and Alharbi, M.A., Forecasting the required quantity of cement manufacturing materials using time series and Q-network techniques, Ecological Chemistry and Engineering, 2025, Vol. 32, No. 2, pp. 323-336.
Azur, M.J., Stuart, E.A., Frangakis, C., and Leaf, P.J., Multiple imputation by chained equations: what is it and how does it work?, International Journal of Methods in Psychiatric Research, 2011, Vol. 20, No.1, pp.40–49.
Bianchi, A.D., MissForest Algorithm for Income and Living Conditions Survey Imputation, Swiss Statistics Series, 2022.
Cho, B.S., Ahn, J.C., and Park, D.C., Rheological evaluation of blast furnace slag cement pastes over setting time, Journal of the Korea Institute of Building Construction, 2016, Vol. 16, No. 6, pp. 505–512.
Fichman, M. and Cummings, J.N., Multiple Imputation for Missing Data in Social Research, Carnegie Mellon University, 1999.
Graham, J.W., Missing Data: Analysis and Design. Statistics for Social and Behavioral Sciences [series], New York, USA : Springer, 2012.
Hudes, E. and Neilands, T., Reconstruction of Missing Daily Streamflow Data Using MissForest, Journal of Water and Marine Research, 2022, Vol. 15, No. 2, pp. 49-55.
Hwang, B.I., Kang, S.P., and Kim, S.J., Study on the strength development factors of alkali-activated slag binder, J. Korea Inst. Resour. Recycl., 2018, Vol. 27, No. 3, pp. 35-42.
Joel, L.O., Doorsamy, W., and Paul, B.S., Imputation Techniques Performance on Healthcare Data. arXiv:2403. 14687v1, 2024.
Kim, B.S., Choi, S.M., and Kim, J.M., Fundamental properties of mortar using magnetically separated basic oxygen furnace (BOF) slag powder as binder, Journal of the Korean Recycled Construction Resources Institute, 2023, Vol. 11, No. 3, pp. 168-176.
Kim, J.M., Choi, S.M., and Kim, J.H., Evaluation of applicability of ladle furnace slag (LFS) produced from various manufacturing processes as construction materials, Journal of the Korea Concrete Institute, 2012, Vol. 24, No. 6, pp. 695-703.
Kim, J.M., Kwak, E.G., Choi, S.M., Kim, J.H., Lee, W.Y., and Oh, S.Y., Properties of mortar according to gradation change of electric arc furnace oxidizing slag fine aggregate made by rapidly cooled method, Journal of the Korea Recycled Construction Resources Institute, 2011, Vol. 6, No. 4, pp. 112-118.
Kim, T.W. and Kang, C.H., The influence of Al₂O₃ on the properties of alkali-activated slag cement, Journal of the Korea Concrete Institute, 2016, Vol. 28, No. 2, pp. 243-251.
LeCun, Y., Bengio, Y., and Hinton, G., Deep learning, Nature, 2015, Vol. 521, No. 7553, pp. 436-444.
Lee, S.R., Comparison of Algorithms for the Missing data Imputation Methods [Master’s thesis]. [Seoul, Korea]: Hankook University of Foreign Studies, 2019.
Little, R.J.A. and Rubin, D.B., Incomplete data. Methods and Applications of Statistical in the Life and Health Science [Book Chapter], John Wiley & Sons, Inc, 2014, pp. 441-449.
Lowke, D., Gehlen, C., Plank, J., Pott, U., and Seidel, A., Concrete 4.0—Sustainable concrete construction with digital quality control, CE/Papers, 2023, Vol. 6, No. 5, pp. 976-982.
Luo, Y., Szolovits, P., Dighe, A.S., and Baron, J.M., 3D‑MICE: Imputation for Longitudinal Clinical Data. Journal of the American Medical Informatics Association, 2018, Vol.25, No.6, pp. 645-653.
Mengesha, K.F. and Mehari, Y., Advances in statistical quality control chart techniques and their limitations to cement industry, Cogent Engineering, 2022, Vol. 9, No. 1, Article 2088463.
Mishra, R., Wang, S., Tao, Y., and Monteiro, P.J.M., Industrial-scale prediction of cement clinker phases using machine learning, arXiv preprint, 2024,
Park, S.S., Kang, H.Y., and Han, K.S., Development of fly ash/slag cement using alkali activation (I) - Compressive strength and acid resistance, Journal of Korean Society of Environmental Engineers, 2007, Vol. 29, No. 7, pp. 801-809.
Rubin, D.B., Multiple imputation for nonresponse in surveys, 3rd ed., New York, USA : John Wiley & Sons. 2019.
Samad, M.D., Abrar, S., and Diawara, N., Missing Value Imputation with Clustering and Deep Learning, Knowledge-Based Systems, 2022, No. 249, 108968.
Schafer, J.L., Analysis of Incomplete Multivariate Data, New Yor, USA: Champman & Hall/CRC, 1997.
Shadbahr, T., Roberts, M., Stanczuk, J., Gilbey, J., Teare, P., et al., The impact of imputation quality on machine learning classifiers for datasets with missing values. Communications Medicine, 2023, Vol. 3, No. 139.
Stekhoven, D.J. and Bühlmann, P., MissForest: nonparametric missing value imputation for mixed-type data. Bioinformatics, 2012, Vol. 28, No. 1, pp. 112-118.
Sun, Y., Li, J., Xu, Y., Zhang, T., and Wang, X., Deep learning versus conventional methods for missing data imputation: A review and comparative study, Expert Systems with Applications, Vol.227, 2023,
van Buuren, S. and Groothuis-Oudshoorn, K., MICE: Multivariate Imputation by Chained Equations in R, Journal of Statistical Software, 2011. Vol. 45, No.3, pp.1-67.
van Buuren, S., Flexible Imputation of Missing Data, 2nd ed, Boca Raton, FL, USA : Chapman & Hall/CRC Press, 2018.
Wang, Z., Akande, O., Poulos, J., and Li, F., Are deep learning models superior for missing data imputation in surveys? Evidence from an Empirical Comparison, arXiv:2103.09316, 2021.
White, T.K., Reiter, J.P., and Petrin, A., Plant‑Level Productivity and Missing Data Imputation in U.S. Census Manufacturing Data, NBER Working Paper 17816, 2012.
Yoon, J., Jordon, J., and Schaar, M., Gain: Missing data imputation using generative adversarial nets, In International Conference on Machine Learning, 2018, pp. 5689-5698. PMLR.

Row	Col	Variable	Values				Match			Best_Method
Row	Col	Variable	Target	MICE	MissForest	CNN	MICE	MissForest	CNN	Best_Method
442	11	FM	3.36	2.039	2.121152143	2.210428387	FALSE	FALSE	FALSE	None
443	11	FM	4.4	4.34	4.4	4.359174589	TRUE	TRUE	TRUE	MICE, MissForest, CNN
444	11	FM	3.18	3.027	3.18	3.222367248	TRUE	TRUE	TRUE	MICE, MissForest, CNN
445	11	FM	4.4	4.178	4.2481	3.707560364	FALSE	TRUE	FALSE	MissForest
446	11	FM	2.84	2.798	2.84	2.853534511	TRUE	TRUE	TRUE	MICE, MissForest, CNN
447	11	FM	3.18	3.695	3.18	3.18462134	FALSE	TRUE	TRUE	MissForest, CNN
448	11	FM	4.2	3.491	4.2	4.044595525	FALSE	TRUE	TRUE	MissForest, CNN
449	11	FM	4.3	4.35	4.3	4.206448664	TRUE	TRUE	TRUE	MICE, MissForest, CNN
450	11	FM	3.18	3.695	3.18	3.18462134	FALSE	TRUE	TRUE	MissForest, CNN
451	11	FM	3.23	3.302	3.23	3.219870489	TRUE	TRUE	TRUE	MICE, MissForest, CNN
432	12	MeanV	8.877	8.2652	8.877	8.654184582	FALSE	TRUE	TRUE	MissForest, CNN
433	12	MeanV	7.526	8.1113	7.526	7.506912917	FALSE	TRUE	TRUE	MissForest, CNN
434	12	MeanV	5.12	5.186	5.12	5.230713559	TRUE	TRUE	TRUE	MICE, MissForest, CNN
435	12	MeanV	5.12	5.153	5.12	5.230713559	TRUE	TRUE	TRUE	MICE, MissForest, CNN
436	12	MeanV	8.221	8.3411	8.408815147	8.35940868	TRUE	TRUE	TRUE	MICE, MissForest, CNN