Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.41 No.2 pp.9-15
DOI : https://doi.org/10.11627/jkise.2018.41.2.009

Public Satisfaction Analysis of Weather Forecast Service by Using Twitter

Ki-Kwang Lee†

Department of Business Administration, Dankook University

Corresponding Author : kiklee@dankook.ac.kr

Received 12/03/2018 Finally Revised 26/04/2018 Accepted 27/04/2018

Abstract

This study is intended to investigate that it is possible to analyze the public awareness and satisfaction of the weather forecast service provided by the Korea Meteorological Administration (KMA) through social media data as a way to overcome limitations of the questionnaire-based survey in the previous research. Sentiment analysis and association rule mining were used for Twitter data containing opinions about the weather forecast service. As a result of sentiment analysis, the frequency of negative opinions was very high, about 75%, relative to positive opinions because of the nature of public services. The detailed analysis shows that a large portion of users are dissatisfied with precipitation forecast and that it is needed to analyze the two kinds of error types of the precipitation forecast, namely, ‘False alarm’ and ‘Miss’ in more detail. Therefore, association rule mining was performed on negative tweets for each of these error types. As a result, it was found that a considerable number of complaints occurred when preventive actions were useless because the forecast predicting rain had a ‘False alarm’ error. In addition, this study found that people’s dissatisfaction increased when they experienced inconveniences due to either unpredictable high winds and heavy rains in summer or severe cold in winter, which were missed by weather forecast. This study suggests that the analysis of social media data can provide detailed information about forecast users’ opinion in almost real time, which is impossible through survey or interview.

Key Words : Social Media , Twitter , Sentiment Analysis , Association Rule Mining , Weather Forecast

Twitter를 활용한 기상예보서비스에 대한 사용자들의 만족도 분석

이 기 광†

단국대학교 경영학부

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

Dankook University

1 서 론

제품 및 서비스에 대한 사용자들의 인식(선호도, 만족 도)를 파악하는 것은 마케팅 분야에서 매우 중요한 작업 중 하나이다. 왜냐하면 사용자들의 인식이 그들의 구매 패턴에까지 영향을 줘서 최종적으로 매출과 같은 기업의 성과에 연결될 수 있기 때문이다[3]. 그래서 사용자 인식 에 관한 자료는 기업에서 사용자의 니즈를 파악하여 판 매전략을 수립 및 수정하는 기초자료로 활용된다. 공공 서비스 역시 사용자의 만족도 자료를 서비스 재편성과 예산 할당 등에 활용할 수 있다[21]. 하지만 기상커뮤니 티들이 제공하는 예보 서비스에 대한 사용자들의 인식을 파악하는 것은 일반적의 공공서비스에 대한 조사보다 중 요하다. 그 이유는 다음과 같다.

기후변화로 인한 이상기상 현상의 발생 빈도가 증가 하고, 규모는 커지고 있다. 그리고 위험기상의 예측기술 발전에도 불구하고 대형 기상재해로 인한 인명․재산 피 해 규모는 줄어들지 않고 있다[20]. 이러한 상황에서 기 상커뮤니티의 존재 이유는 더 정확한 예측 정보를 더 효 율적으로 사용자에게 전달하는 것으로 인식될 수 있다. 하지만, 통계적으로 더 정확하게 평가되는 기상예보 정 보를 사용자들이 쉽게 활용할 수 있도록 제공한다고 해 서 반드시 기상현상으로 인한 피해를 감소시킬 수 있다 고는 볼 수 없다. 기상예보 정보가 주어지더라도 사용자 가 적절한 대비행동을 취하지 않을 경우에는 피해를 막 을 수 없다. 즉, 예측기술의 발전과 재해 위험에 대한 취 약성 감소가 1차적인 노력일 수 있지만, 그것만으로 원 하는 목표를 달성하는 데에는 한계가 있다. 앞서 언급했 듯이 기후변화로 인해 증가하고 있는 이상기상 현상은 예보 제공자들이 더 정확한 예측을 수행하는 것을 어렵 게 하고 있다[6]. 뿐만 아니라 스마트폰 관련 기술의 발 달과 함께 사용자들의 정보 콘텐츠에 대한 요구가 늘어 나고 다양해지고 있는 상황에서, 정보전달에 대한 사용 자들의 기대를 충족시키는 것도 쉽지 않음을 인지해야 한다.

‘손안에서’ 넘쳐나는 정보들 중에서 ‘믿을 만한’ 정보 로서 사용자들의 의사결정을 지원하기 위해선 현재 사용 자들이 갖고 있는 기상커뮤니티(혹은 서비스)에 대한 인 식에 기초하여 서비스 제공 전략을 수립할 필요가 있다. 만약 기상커뮤니티에 대한 인식이 나쁘다면, 인식을 개 선하기 위한 노력이 선행되어야 한다. 제공되는 서비스 에 대한 인식이 좋지 않을 경우, 정보 자체의 정확도와 전달되는 정보의 질에 관계없이 활용률에 영향을 미치게 되고, 이는 결국 재해피해 경감이라는 기상커뮤니티 본 연의 목표 달성을 방해하기 때문이다.

본 연구에서는 기상커뮤니티가 사용자 인식을 파악하 기 위한 커뮤니케이션의 일환으로 기상청(KMA)에서 실 시하고 있는 ‘만족도 설문조사’를 살펴보고, 그것을 보완 할 수 있는 수단으로서 트위터를 참고하였다. 일정 기간 동안 ‘기상청’을 언급한 트윗을 수집하여 사용자 인식 자료로 사용하였다. 그리고 수집된 트윗글들을 감성별로 분류하고 특정 인식에 대해 연관규칙(Association Rules) 을 도출하였다. 그 결과 기상커뮤니티가 관심을 가져야 할 ‘특정 인식이 발현하게 된 원인’을 분석하였다.

2 선행연구

정확하고 세밀한 예보정보를 손쉽게 이용할 수 있게 하는 것은 매우 중요하다. 하지만 그것만으로 반드시 사 용자가 정보에 대해 잘 알고 효율적으로 대응 할 것이라 고는 단정할 수 없다. 사용자의 예보에 대한 인식과 위 험기상에 대한 대응방식을 이해하는 것이 기상커뮤니티 에겐 매우 중요하다[19]. 이에 사용자와의 커뮤니케이션 을 강화하기 위한 연구가 다수 수행된 바 있는데, 주로 설문조사를 통해 이루어졌다. Joslyn and Savelli[9]은 미국 워싱턴주에서 1,340명의 일반인을 대상으로 deterministic forecast에 내재하는 불확실성에 대해 예보에서 사용자가 어떻게 이해하고 있는지를 조사하였고, Morss et al.[15]은 미국 전역의 1,465명으로부터 사용자들의 기상예보 활용, 가치, 불확실성을 분석하였다. Silver and Conrad[19]는 캐나다의 대서양 연안지역에서 위험기상에 대한 일반인 의 인식을 조사하여 사용자들이 위험기상 취약성에 대해 낮은 의식을 갖고 있음을 알아냈다. Drobot et al.[5]는 1,627명의 미국인을 대상으로 도로기상에 관한 사용자 선호도를 조사하였는데, 기본적인 선호도 설문조사와 함 께 조건부 가치측정 측정의 대표적인 방법으로 사용되는 ‘willingness to pay’를 조사하기도 하였다. 그리고 기상예보 커뮤니케이션의 효율성에 기여하기 위해 Zabini et al.[22] 은 2,388명의 이탈리아 일반 국민들을 대상으로 기상정 보 접근 방식, 정보에 대한 이해와 사용을 조사하였다.

일반인을 대상으로 한 조사에 더하여 Demuth et al.[4] 는 예보관, 비상상황관리자, 기상학자들에게 인터뷰를 진 행하여 허리케인 예보정보의 생성과 전달에 대한 개선사 항을 도출하였고, Morrow et al.[14]은 평가 대상을 전문 가와 일반인 그룹으로 나누고, 폭풍해일 취약성에 대한 일반인의 인식, 폭풍해일 경보에 대한 선호도 등을 평가 한 7개의 기존 연구들을 정리하였다. Ramos et al.[16]은 홍수 예보 담당자들을 대상으로 예보를 활용한 의사결정 경험과 예보에 대한 인식을 조사하였다. Gregow et al.[7] 은 기후서비스 지원을 위해 전세계 기후자료 사용자들 2,192명으로부터 기후서비스에 대한 인식을 조사하기도 하였다.

기상청 또한 ‘기상업무 서비스 대국민 만족도 조사’를 연 2회 실시하여 기상서비스에 대한 사용자 인식을 조사 해 오고 있다[12]. 약 1,500명 일반인에게 조사한 2015 상 반기부터 2016년 하반기까지의 단기예보 정확도에 대한 만족도는 70.0, 74.0, 65.2, 55.2점이었다.

이와 같은 표준적인 언어적 진술의 척도화된 설문조사 에 의해 획득한 데이터를 활용하는데 신중할 필요가 있 음은 기억왜곡(Memory Distortion) 현상에 대한 연구[17] 등에 의해 제기되어 왔다. 즉, 현재의 기억내용이 과거의 경험과 현재의 신념, 미래에 대한 암묵적인 계획간의 창 조적인 산물일 가능성이 매우 크다는 것이다. 특히 척도 화된 설문조사로 알아낼 수 있는 실제 고객의 생각은 5% 정도에 불과하다는 극단적인 주장도 있다[23]. 또한, 설문 조사의 결과를 설명하는 원인을 알기 어려운 것도 다른 대안을 찾는 이유가 되고 있다. 응답자의 인식에 대해 “왜?”를 묻는 문항이 존재하지 않기 때문이다. 문제는 설 령 연구자가 원하는 문항을 설문지에 추가하더라도 모든 응답자가 과거의 사례를 성실하게 기록해 주리라고 보장 할 수 없고, 응답자 본인이 ‘왜’ 그런 인식을 갖게 되었는 지를 기억하지 못할 수도 있다[10].

따라서, 설문조사방법의 한계를 극복할 대안이 필요한 데, 최근의 소셜미디어 분석이 그 대안으로 떠오르고 있 다. 소셜미디어는 작성자가 거의 실시간으로 본인의 서 비스에 대한 불만이나 만족도 등을 작성하여 공유할 수 있기 때문에 앞서 제기했던 설문조사의 기억왜곡 현상에 영향을 받지 않는 실제 사용자의 서비스에 대한 인식도 를 추출할 수 있는 장점이 있다[18]. 소셜미디어 분석을 위한 데이터로서 마이크로블로깅 플랫폼 중의 하나인 트 위터가 많이 활용되고 있다. 트위터는 140자 이하의 비 교적 짧은 글로 작성되고, 사용자는 허용된 범위 안에서 자신의 의견을 실시간으로 가감없이 표출할 수 있다. 이 미 많은 연구들에서 트위터 text를 자연어처리의 한 영역 인 감성분석을 위한 Corpus로 활용한 바 있다[8]. 트위터 와 감성분석을 활용한 기상정보에 대한 사용자 인식 조 사는 리커트 척도 설문조사의 단점을 보완할 것으로 기 대할 수 있다.

Text에 나타난 작성자의 감성을 분석하기 위해선 text 에 포함된 단어들의 감성지수를 평가해야 하고, 그 이전 에 문장을 형태소 단위로 분절해야 한다. 이때 고립어인 영어는 비구조적인 트위터 자료에서도 형태소분석이 비 교적 어렵지 않은 것과 달리, 한국어는 언어 유형학상 교 착어로서 트위터 사용자들이 규칙에 맞지 않게 글을 띄 어 쓰는 경우가 빈번하다. 한국어 문장은 어디를 띄어 쓰 느냐에 따라 ‘아버지 가방에 들어가신다.’와 같이 완전히 다른 의미가 될 수 있다. 이와 같이 국내 형태소 분석과 관련된 많은 연구에도 불구하고 트위터 작성자가 임의로 작성한 띄어쓰기 안 된 모든 글들을 사람만큼 완벽하게 분류하는 것은 현재로선 어렵다. 형태소 분석 단계에서 의 그러한 오류들은 감성분석 결과의 정확도에도 부정적 으로 작용할 수 있다.

한편, 감성분석 연구들 대부분은 감성을 positive, negative, and neutral의 2~3개 카테고리로 분류하고 있다[11]. 하지만 분류되는 감성의 카테고리 수 자체가 적으면 조 사하고자 하는 감성(일반적으로 부정적 감성)의 원인 분 석시 유의미한 결론을 도출하기 어려울 수 있다. 왜냐하 면 기상커뮤니티가 감성분석을 실시할 때는 그들에 대한 비난, 실망, 냉소, 분노 등의 감성에 관심이 있을 텐데, 기상현상에 대한 공포, 두려움, 불안 등이 ‘부정적’ 감성 으로 함께 분류될 수 있기 때문이다. 이 경우 분석된 감 성이 기상커뮤니티에 대한 것인지, 혹은 다른 외부 요인 에 의한 것인지를 추가적으로 분석해야 할 필요가 있다.

따라서, 한국어 형태소 분석의 오류가 감성분석의 정 확도에 미치는 부정적 영향을 회피하고, 다양한 감성을 분류하기 위해 본 연구에서는 트위터 샘플자료의 감성 들을 연구자가 직접 분류하였다. 연구자가 직접 분류하 는 방법은 대용량 데이터 분석에 적합하지 않지만, 정확한 감성분석이 가능한 장점이 있다. 실제로도 비지도학습 (Unsupervised Learning)과 달리 형태소 분석과 감성사전 을 활용한 감성분석은 지도학습(Supervised Learning)에 속하며, 트위터처럼 감성 레이블이 포함되지 않은 자료로 감성분석을 수행하고자 하면 어차피 연구자가 직접 감성 을 분류해야 한다. 본 연구는 감성분석 자체의 성능을 검 증하는 것이 아니라, 감성분석을 이용하여 KMA에 대한 사용자 인식을 조사하는 것을 목적으로 한다. 또한, 감성 분석에서 다룰 수 없는 시사점을 도출하고자 데이터마이 닝 기법 중 연관규칙(Association Rule)을 활용하였다.

3 연구방법

3.1 데이터 수집

본 연구는 2014년 1월 1일부터 2014년 12월 31일까지 1년간의 ‘기상청’ 키워드로 15,784 건의 트윗글을 API를 통해 수집하였다. 이들 중 단순히 기상정보를 리트윗한 글이나 광고성 글을 제외하고 순수하게 기상서비스와 관 련된 의견을 제시한 글만을 필터링하여 2,921 건의 트윗 글을 분석대상으로 설정하였다.

3.2 트윗 내용 분류

분석대상으로 설정한 트윗글에서 부정, 중립 및 긍정 빈도수를 도출하는 단순한 감성분석 외에 국민들이 기상 서비스에 대해 가지는 인식을 보다 구체적으로 파악하고 자 트윗 데이터들을 내용에 따라 <Table 1>과 같은 레이 블을 할당하였다. 즉, 트윗에서 언급한 내용을 계절, 감 성, 기상현상, 예보오류 및 예보의 응용 측면에서 상세 레이블을 부여하였다. 기상현상은 비, 눈, 폭우, 더위, 추 위, 강풍, 장마, 태풍 및 미세먼지로 분류하였고 기상서 비스의 예보오류는 24시간 강수예보를 대상으로 False Alarm과 Miss로 분류하였고 강수예보 외에 추위나 더위 에 대한 중장기예보를 레이블에 추가하였다. False Alarm 은 강수를 예측했으나 실제로 비가 오지 않은 오류이고 Miss는 비 예보를 하지 않았는데 실제 비가 온 경우를 의미한다. 기상예보의 응용과 관련해서는 국민들이 예보 를 활용하는 분야로 해석할 수 있는데, 출근 등 공식업무 와 관련된 것과 레저 등 야외활동, 마지막으로 우산이나 장화 등 악기상(Adverse Weather)을 대비하기 위한 준비 용으로 분류하였다. 이와 같은 레이블을 기반으로 계절 및 기상현상별 감성분석과 함께 기상예보 오류의 종류에 따라 국민들이 인식하는 기상서비스의 만족도 등을 체계 적으로 분석하고자 하였다.

3.3 연관규칙분석

연관규칙이란 여러 아이템들간의 유의한 상관관계나 빈번한 패턴을 추출하는 방법인데[24], 주로 사용되는 응 용 사례로는 장바구니분석(Market Basket Analysis)이 있 다. 즉, 고객들이 마트에서 함께 구매하는 제품들을 도출 하여 이에 맞는 제품 진열이나 마케팅 전략을 생성하는 것이다.

연관규칙은 “A → B”의 형태로 나타내는데, A와 B는 각각 독립적인 아이템이며 화살표 왼쪽을 조건부, 오른 쪽을 결론부라고 부른다. 이와 같은 연관규칙은 각각 아 이템간 상관관계의 정도를 나타내는 측정치가 부여되며 Support, Confidence 및 Lift가 주로 사용된다. 각 측정치 들은 아래와 같은 식 (1)~식 (3)으로 산출하게 되며 그 수치가 클수록 연관규칙의 유효성이 크다고 볼 수 있다.(2)

Support(A \to B)= P (A and B)

(1)

Confidence(A \to B)= P (A | B) = \frac{P (A and B)}{P (A)}

(2)

Lift(A \to B)= \frac{C o n f i d e n c e (A \to B)}{P (B)} = \frac{P (A and B)}{P (A) P (B)}

(3)

위와 같은 방법을 여러 아이템들의 집합에 확장 적용 하기 위해서는 무수히 많은 아이템 조합들을 고려하여 야 하는데, 이를 효율적으로 수행하기 위해 본 연구에서 는 R패키지에서 제공하는 “apriori algorithm[1]”을 적용 하였다.

4 연구결과

4.1 감성분석 결과

일반적으로 트윗글의 감성분석을 수행할 때, 가장 기 본적으로 의견의 성향 즉, 부정적, 중립적, 긍정적 의견 인지를 분류함으로써 일반 국민들의 기상예보 서비스에 대한 만족도 또는 인식을 개괄적으로 파악할 수 있다. 본 연구에서는 2014년도에 기상정보 서비스에 대한 의견을 제시한 트윗글 2,921건을 대상으로 부정, 중립 및 긍정 의견을 제시한 빈도수를 조사하여 <Table 2>와 같은 결 과를 도출하였다.

월별 트윗 빈도수를 살펴보면 주로 7~8월에 가장 많 은 의견을 트윗에 올렸는데, 이는 여름철 환경기상요소 중 국민들에게 가장 일반적으로 피해나 불편을 미치는 장마, 태풍이 집중되어 있기 때문인 것으로 예측된다. 실 제로도 해당 월의 비가 온 날들을 트윗의 수와 매칭해 보면 양의 상관관계를 가짐을 알 수 있었다(피어슨 상관 계수 r = 0.85, p-value = 0.001).

2014년 전체 빈도수에서 부정적 의견의 비율이 전체 트윗 2,921건 중 2,177건으로서 약 75% 비율을 차지하여 기상예보 서비스에 대한 국민들의 만족도가 매우 낮다고 판단할 수 있을 것이다. 하지만, 소셜미디어 마케팅과 관 련된 연구[2]에 따르면 긍정적인 의견을 올리는 경우는 주로 본인의 구매가 옳았다는 것을 자랑삼아 소셜미디어 에 글을 작성한다고 한다. 이는 본 연구의 대상인 무료의 공공 정보서비스는 구매선택에 대한 자랑거리가 없다는 특성상 차이가 존재하며, 결국 잘못된 점의 비난이나 부정 의 글만 올라올 수밖에 없다는 측면을 인식하고 판단할 사항이라고 예상된다. 즉, 부정의 비율이 압도적으로 높 다고 해서 다른 일반 재화나 서비스에 비해 만족도가 낮 다고 주장할 수는 없다는 의미이다. 따라서, 공공 서비스 에 대한 피상적인 고객감성분류 분석은 해석상의 오류가 있을 가능성이 크다는 인식하에 부정적 의견을 제시한 트윗글의 빈도수를 일별로 구분하여 가장 부정의 빈도수 가 높았던 날들의 특징을 역추적하는 방법을 통해 좀 더 구체적인 분석을 수행하였다. 실제로 가장 부정 빈도수가 높았던 날들에 대한 트윗들과 실제 기상상황을 대비한 결과를 <Table 3>과 같이 정리하였다. 단, Correct Rejection이란 비 예보를 하지 않았고 실제 비가 오지 않은 경 우를 의미한다.

지역별로 날씨상태가 다르기 때문에 트윗글이 작성된 지역을 알아야 할 필요성이 있으나, 데이터의 한계 때문 에 이에 대한 분석이 불가능하였다. 따라서, 서울, 부산, 인천 지역의 실제 예보오류 여부와 트윗에서 부정적으로 언급한 예보오류를 비교하였다. 7월 25일을 제외하고는 트윗에서 언급한 예보오류가 세 지역 중 적어도 한 곳에 서 발생한 것을 확인할 수 있다. 이는 트윗 내용을 통해 실제 예보오류의 종류를 파악할 수 있다는 것을 시사한 다. 다만, 가장 높은 부정 빈도를 보인 2014년 7월 25일 작성된 트윗글의 내용이 잘못된 것인지 확인할 필요가 있다. 해당일의 트윗은 주로 비를 예보한 것이 틀렸음 (False Aarm)을 언급하며 무더위와 함께 불만을 토로하는 내용이 대부분이다. 최대 100mm의 강수 예보가 전날 발 표되었고 실제 7월25일 자정부터 3시까지 53mm, 저녁 9 시부터 12시까지 9.5mm의 강수를 기록하였다. 이 경우 기상학적인 관점에서는 강수 예보가 정확하게 맞았다고 판단할 수 있을지 모르지만, 예보 사용자 입장에서는 아침 부터 낮까지의 활동시간대에 비가 오지 않고 낮 최고 기 온 30도 및 최고 습도 100으로 무더웠으므로 False Alarm 으로 인지하고 불만이 매우 높았음을 알 수 있다. 두 번 째로 불만 빈도수가 많았던 8월 3일의 경우도 7월 25일 의 사례와 유사하게 강수예보의 False Alarm에 대한 언급 빈도가 높았다. 당일 태풍의 간접 영향으로 비가 올 것으 로 예보되었고 실제 13mm의 강수량을 기록하였으나 강 수 시점이 주요 활동시간대가 아닌 새벽과 밤에 집중되 었다. 따라서, 국민들은 태풍으로 인해 많은 양의 비가 내릴 것으로 예상한 것과 달리 거의 비가 오지 않았다고 느꼈을 개연성이 충분하다. 이와 같은 분석결과는 기상 학 관점이 아닌 사용자 관점에서 기상예보의 정확도를 측정하는 평가방법이 도입되어야 사용자 만족도를 높일 수 있을 것이라는 시사점을 제시한다고 볼 수 있다.

4.2 연관규칙분석 결과

소셜미디어 분석을 수행한 기존 연구들은 감성분석을 주로 사용하면서 사용자들의 견해나 인식을 파악해 왔 다. 본 연구는 다소 피상적이거나 주관적일 수 있는 감성 분석의 한계를 보완하고자 데이터마이닝 기법 중 하나인 연관규칙분석을 수행하였다. False Alarm 및 Miss라는 예 보오류의 종류에 따라 부정적 의견을 제시한 트윗글을 대 상으로 연관규칙분석을 수행함으로써 부정적 의견의 인 과관계를 <Figure 1>과 같이 도출하였다. 그림에서 원 하 나가 연관규칙 하나에 일대일 대응되며, 원의 크기는 Confidence의 크기, 원의 색 농도는 Lift의 크기에 비례하 여 표현되었다. 예를 들면, ‘A’라고 표시된 크기와 색의 농도가 비교적 높은 원은 “여름(Summer)+더위(Heat)+비 (Rain) → False Alarm(FA)”이라는 연관규칙을 나타낸다. 이는 여름(Summer)에 비(Rain)가 온다는 예보가 틀리고 (FA) 무더위(Heat)가 나타났을 때 부정적 의견의 빈도수 가 높았음을 의미한다.

<Figure 1>에 나타난 부정적 의견을 가진 연관규칙들 의 결론부가 False Alarm과 Miss인 원인들을 Lift의 값이 큰 것들 대상으로 <Table 4>와 같이 정리하였다. False Alarm 형태의 예보오류에 대해서 부정적인 견해를 가지 는 경우를 살펴보면 <Figure 1>의 A 사례와 함께 여름철에 비 예보를 통해 우산 등 대비를 하였는데(Paraphernalia) 비가 오지 않은 경우와 야외활동이 계획되어 있었는데 비 예보로 취소를 한 경우 불만이 많았던 것을 알 수 있다. Miss에 해당하는 예보오류에 대한 부정적 반응은 주로 여름철 강풍이나 폭우를 예측하지 못한 경우와 겨울철 추위에 대한 중장기예보가 틀린 경우 발생하였다. 그밖 에 봄철 꽃샘추위를 예측하지 못했거나 가을철 비 예보 가 없어서 우산 준비를 하지 않았는데 비가 온 경우 등 도 Miss에 대한 불만으로 많이 나타났다.

5 결 론

본 연구에서는 선행연구에서 고찰했던 기존 설문조사 에 의한 기상예보서비스의 효용성 평가 방법의 한계점을 극복하기 위한 방안으로써 소셜미디어 데이터를 통해 기 상청이 제공하는 기상예보서비스에 대한 국민들의 인식도 및 만족도 분석이 가능함을 제시하였다. 이를 위해 텍스트 마이닝(Text Mining)을 통한 감성분석(Sentiment Analysis) 및 연관규칙분석(Association Rule Analysis)을 사용하였 다. 감성분석의 결과 공공 서비스의 특성상 긍정적 의견 보다는 부정적 의견의 빈도수가 전체에서 약 75%로서 매우 높았다. 사용자가 기상예보 서비스에 대한 불만이 높은 기상현상은 강수이며, 부정적 코멘트가 가장 많았 던 날들의 사례를 자세히 분석해 본 결과 주요 불만원인 으로서 강수예보의 두 가지 오류형태 즉, False Alarm 및 Miss에 대해 구별하여 분석할 필요성을 발견하였다. 따 라서, 이들 오류형태 각각에 대한 부정적 트윗글들을 대 상으로 연관규칙분석을 수행하였다. 그 결과 False Alarm 의 오류형태가 발생한 경우에는 주로 여름에 비를 예측 한 예보가 틀림으로써 이에 대한 준비(우산 또는 외출 취 소 등)가 허사가 되었을 때 불만이 발생하였다는 것을 알 수 있었다. 또한 Miss의 경우 여름철에는 강풍 및 폭우를 예측하지 못해서 사용자가 피해를 입었을 때, 겨울철에 는 혹한에 대한 장기예보가 빗나갔을 때 불만이 높아진 다는 사실을 파악하였다. 이와 같이 소셜미디어 데이터 의 분석을 통해 설문이나 인터뷰조사에서 얻을 수 없는 매우 자세한 사항들까지 거의 실시간으로 피드백 받을 수 있다는 가능성을 제시하였다는 데에서 본 연구의 의 의가 있다고 하겠다.

Acknowledgement

The present research was conducted by the research fund of Dankook University in 2016.

Figure

<Figure 1>.

Association Rules for Negative Tweets

Table

<Table 1>.

Hierarchy of Classification Label

Category	Label
Season	Spring, Summer, Autumn, Winter
Sentiment	Positive, Neutral, Negative
Weather Phenomena	Rain, Snow, Downpour, Heat, Cold, Gale, Monsoon, Typhoon, Fine Particles
Forecast Error	False Alarm, Miss, Extended-Forecast
Application	Official-Affair, Outdoor, Paraphernalia

<Table 2>.

Result of Sentiment Analysis

Month	Negative	Neutral	Positive	Total(%)
Jan	124	35	10	169(5.8%)
Feb	84	31	3	118(4.0%)
Mar	115	38	7	160(5.5%)
Apr	61	76	1	138(4.7%)
May	71	15	6	92(3.1%)
Jun	196	49	23	268(9.2%)
Jul	429	126	14	569(19.5%)
Aug	455	113	11	579(19.8%)
Sep	176	39	6	221(7.6%)
Oct	104	35	8	147(5.0%)
Nov	126	37	5	168(5.8%)
Dec	236	43	13	292(10.0%)
Total	2177	637	107	2921(100%)

<Table 3>.

Result of Detailed Negative Comments Analysis

*FA : False Alarm.

**CR : Correct Rejection.

	Occurrences	Twitter Error	Actual Error
25 Jul	90	86	FA*	Hit	CR**	Hit
3 Aug	61	53	FA*	Hit	FA*	Hit
18 Jul	59	51	FA*	FA*	Hit	FA*
12 Sep	48	43	Miss	Miss	CR**	CR**
26 Jul	43	37	Miss	Miss	CR**	Miss
10 Aug	46	35	Miss	Miss	Miss	Miss
26 Aug	35	30	Miss	Miss	Miss	CR**
2 Aug	44	29	FA*	FA*	Hit	FA*

<Table 4>.

Reasons for Negative Tweets

Error Type	Reasons	Lift
False Alram	Summer+Heat+Rain	3.822
Summer+Rain+Paraphernalia	2.180
Outdoor+Rain	2.136
Miss	Summer+Gale	2.767
Spring+Cold	2.565
Monsoon+Extended-Forecast	2.549
Winter+Cold+Extended-Forecast	2.477
Summer+Downpour	2.076
Autumn+Paraphernalia	2.073

Reference

R. Agarwal , R. Srikant (1994) Fast Algorithms for Mining Association Rules in Large Databases, Proceedings of 20th International Conference on Very Large DataBases, ; pp.487-499
E.W. Anderson (1998) Customer Satisfaction And Word of Mouth., J. Serv. Res., Vol.1 (1) ; pp.5-17
H. Baghestani , P. Williams (2017) Does Customer Satisfaction Have Directional Predictability for U.S. DiscrePublic tionary Spending?, Appl. Econ., Vol.49 (54) ; pp.5504-5511
J.L. Demuth , R.E. Morss , B.H. Morrow , J.K. Lazo (2012) Creation And Communication of Hurricane Risk Information,, Bulletin of American Meteorological Society,, Vol.93 (8) ; pp.1113-1145
S. Drobot , A.R.S. Anderson , C. Burghardt , P. Pisano (2014) U.S. Public Preferences for Weather And Road Condition Information., Bull. Am. Meteorol. Soc., Vol.95 ; pp.849-859
K. Emanuel (2017) Will Global Warming Make Hurricane Forecasting More Difficult?, Bull. Am. Meteorol. Soc., Vol.98 ; pp.495-501
H. Gregow , K. Jylha , H.M. Makela , J. Alto , T. Manninen , P. Karlsson , A.K. Kaiser-Weiss , F. Kaspar , P. Poli , D.G.H. Tan , A. Obregon , Z. Su (2016) Worldwide Survey of Awareness And Needs Concerning Reanalyses And Respondents Views on Climate Sservices., Bull. Am. Meteorol. Soc., Vol.97 (8) ; pp.1461-1473
B.J. Jansen , M. Zhang , K. Sobel , A. Chowdury (2009) Twitter Power : Tweets as Electronic Word of Mouth., J. Am. Soc. Inf. Sci. Technol., Vol.60 (11) ; pp.2169-2188
S. Joslyn , S. Savelli (2010) Communicating Forecast Uncertainty : Public Perception of Weather Forecast Uncertainty., Meteorol. Appl., Vol.17 (2) ; pp.180-195
I. Kim , J. Kim , B. Kim , K. Lee (2014) The Collective Value of Weather Probabilistic Forecasts According to Public Threshold Distribution Patterns., Meteorol. Appl., Vol.21 (3) ; pp.795-802
K. Kim , J. Ku (2018) A Study on the Potential and Limitation of Pre-producing Dramas through Social Analysis., Journal of the Korea Academia-Industrial Cooperation Society, Vol.19 (2) ; pp.164-172
KMA (2016) Public satisfaction survey on national weather service, web.kma.go.kr/notify/information/public cation_depart_list.jsp?bid=depart&mode=view&num=246&page=1&field=&text=&schGrp=7
K. Lee , J. Lee (2007) The Effect of Meteorological Information on Business Decision-Making with a Value Score Model., Journal of Society of Korea Industrial and Systems Engineering, Vol.30 (2) ; pp.89-98
B.H. Morrow , J.K. Lazo , J. Rhome , J. Feyen (2015) Improving Storm Surge Risk Communication : Stakeholder Perspectives., Bull. Am. Meteorol. Soc., Vol.96 (1) ; pp.35-48
R.E. Morss , J.K. Lazo , J.L. Demuth (2010) Examining the Use of Weather Forecasts in Decision Scenarios : Results from a US Survey with Implications for Uncertainty Communication., Meteorol. Appl., Vol.17 (2) ; pp.149-162
M-H. Ramos , T. Mathevet , J. Thielen , F. Pappenberger (2010) Communicating Uncertainty in Hydro-meteorological Forecasts : Mission Impossible?, Meteorol. Appl., Vol.17 (2) ; pp.223-235
D.L. Schacter (1995) Memory distortion., Harvard University Press, ; pp.1-46
K. Sherman-Morris , J. Senkbeil , R. Carver (2011) Who’s Googling What?, Bull. Am. Meteorol. Soc., Vol.92 (8) ; pp.975-985
A. Silver , C. Conrad (2010) Public Perception of And Response to Severe Weather Warnings in Nova Scotia, Canada., Meteorol. Appl., Vol.17 (2) ; pp.173-179
A.B. Smith , R.W. Katz (2013) US Billion-dollar Weather And Climate Disasters : Data Sources, Trends, Accuracy And Biases., Nat. Hazards, Vol.67 (2) ; pp.387-410
S.V.D. Walle , G.G.V. Ryzin (2011) The Order of Questions in a Survey on Citizen Satisfaction with Public Services : Lessons from a Split-ballot Experiment., Public Adm., Vol.89 (4) ; pp.1436-1450
F. Zabini , V. Grasso , R. Magno , F. Meneguzzo , B. Gozzini (2015) Communication And Interpretation of Regional Weather Forecasts : a Survey of the Italian Public., Meteorol. Appl., Vol.22 (3) ; pp.495-504
G. Zaltman (1997) Rethinking Market Research : Putting People Back in., J. Mark. Res., Vol.34 (4) ; pp.424-437
Y. Zhao (2013) R and data mining-examples and case studies., Elsevier, ; pp.89-92

	Occurrences		Twitter Error	Actual Error
Date	Total	Negative	Twitter Error	Seoul	Busan	Incheon
25 Jul	90	86	FA*	Hit	CR**	Hit
3 Aug	61	53	FA*	Hit	FA*	Hit
18 Jul	59	51	FA*	FA*	Hit	FA*
12 Sep	48	43	Miss	Miss	CR**	CR**
26 Jul	43	37	Miss	Miss	CR**	Miss
10 Aug	46	35	Miss	Miss	Miss	Miss
26 Aug	35	30	Miss	Miss	Miss	CR**
2 Aug	44	29	FA*	FA*	Hit	FA*