Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)
Journal of Society of Korea Industrial and Systems Engineering Vol.46 No.3 pp.78-88
DOI : https://doi.org/10.11627/jksie.2023.46.3.078

A Research on TF-IDF-based Patent Recommendation Algorithm using Technology Transfer Data

Junki Kim, Joonsoo Bae†, Yeongheon Song, Byungho Jeong
Department of Convergence Management of Technology, Jeonbuk National University
Corresponding Author : jsbae@jbnu.ac.kr
31/07/2023 20/08/2023 21/08/2023

Abstract


The increasing number of technology transfers from public research institutes in Korea has led to a growing demand for patent recommendation platforms for SMEs. This is because selecting the right technology for commercialization is a critical factor in business success. This study developed a patent recommendation system that uses technology transfer data from the past 10 years to recommend patents that are suitable for SMEs. The system was developed in three stages. First, an item-based collaborative filtering system was developed to recommend patents based on the similarities between the patents that SMEs have previously transferred. Next, a content-based recommendation system based on TF-IDF was developed to analyze patent names and recommend patents with high similarity. Finally, a hybrid system was developed that combines the strengths of both recommendation systems. The experimental results showed that the hybrid system was able to recommend patents that were both similar and relevant to the SMEs' interests. This suggests that the system can be a valuable tool for SMEs that are looking to acquire new technologies.



기술이전 데이터를 활용한 TF-IDF기반 특허추천 알고리즘 연구

김 준기, 배 준수†, 송 영헌, 정 병호
전북대학교 융합기술경영학과

초록


    1. 서 론

    1.1 연구 배경

    공공연구기관은 국가에서 출연 또는 보조금을 지급받아 연구과제를 수행하고 그 결과로서 논문과 특허, 보고서 등의 연구성과물을 도출한다. 공공연구의 특징은 민간에서 수행되기 힘든 기초 영역의 연구 또는 응용 분야에서 상용화를 위하여 공통적으로 적용될 수 있는 기반 연구에 집중되어 수행된다는 특징이 있다.

    국내 공공연구분야의 기술을 활용한 기술이전 건수는 매해 점차 증가하고 있다. 전체 공공연구기관의 기술이전 건수는 2018년 3,655건에서부터 2019년 3,972건, 2020년 4,308건으로 수요가 꾸준하게 증가하고 있는 추세임을 알 수 있다[11].

    공공기술이전 수요는 점차 늘고 있는 추세이지만, 기술 이전과 사업화 업무를 전담하는 인력의 평균 근속연수는 3~4년 이하가 55.3%를 차지하고 있어 비교적 짧은 편임을 알 수 있다[11].

    또한, 공공연구기관으로부터 기술이전을 받은 기업이 89.7%는 중소기업으로서, 사업화 현장에서 기술이전 실패의 주요 동인으로서 기술이전 및 사업화에 대한 노하우 부족이 약점으로서 작용하고 있다[11].

    중소기업에서의 공공분야 기술에 대한 이전 수요와 기술이전과 연계된 기술사업화 전략 수립은 늘고 있지만, 이를 활용하기 위한 전문 지식과 기술이 기업에 있어 부족한 상황이다. 본 연구에서는 TF-IDF 협업 필터링 모델을 활용하여 공공 기술이전 데이터를 분석하고 기술이전이 필요한 기업에 관심 기술과 관련된 기술이전 후보 특허데이터를 제공하고자 한다.

    1.2 연구개발 필요성

    한국농업기술진흥원(KOAT)에서는 2011년부터 농촌진흥청의 국유특허 기술이전 업무를 위탁받아 수행하고 있으며, 2017년 1,078건에서 2021년 1,593년에 이르기까지 5년 연속 1,000건 이상의 기술이전 건수를 기록하여 기술 이전 대상기업과 특허에 대한 데이터를 보유하고 있다. 본 연구에서는 한국농업기술진흥원로부터 농촌진흥청 국유 특허에 대한 공공 기술이전 데이터를 제공받아 이를 TF-IDF와 협업 필터링 모델을 활용하여 기술이전 추천 알고리즘을 설계하고 이를 시스템에 적용하여 기술이전 대상 기술의 선택에 어려움을 겪는 기업에 도움이 되는 시스템을 설계하고자 한다.

    한국농업기술진흥원에서는 민간 기업으로부터 기술이전 접수창구로서 ‘농림축산식품 기술사업화 종합정보망(Network for Agri-forest-food-Tech Information; https://www.nati.or.kr)’ 과 기술이전 데이터의 체계적 관리를 위한 한국농업기술진흥원 ‘지식재산플랫폼’을 운영하고 있다.

    농림축산식품 기술사업화 종합정보망에서는 대국민 서비스를 운영하고 있으며, 특허 검색 및 특허정보 제공, 기술이전 신청, 계약 내역 관리, 기술사업화 관련 정보, 기술이전 성공사례 등 기술사업화와 관련된 종합정보를 제공하고 있다.

    또한 한국농업기술진흥원에서는 기술이전 사용자의 편의성을 제고하기 위하여 2020년 10월부터 농림축산식품 기술사업화 종합정보망 웹사이트 기능을 전면 개편하였다. 기존 4주 정도 소요되는 기술이전 처리 기간을 2~3주 로 단축하였으며, 이에 2021년 온라인 웹사이트를 통한 기술이전 비율은 전체 국유특허 기술이전 체결 완료 계약 중 90% 이상으로 구성되어 높은 웹사이트 활용률을 보여줌을 알 수 있다.

    한국농업기술진흥원의 기술이전 흐름도를 살펴보면, 신청기업에서 농림축산식품 기술사업화 종합정보망을 통 하여 기술이전을 신청하게 되면 한국농업기술진흥원에서 는 신청서 검토 후 이상이 없을 시 지식재산플랫폼으로 해당 정보를 이관하여 발명기관인 농촌진흥청과 함께 승인 절차를 진행한다.

    기술이전 계약이 체결된 특허는 이전건별로 정리되어 지식재산플랫폼에서 관리된다. 또한, 각 기술이전 정보는 회사별로도 분류되어 시스템을 통하여 기술이전 계약을 효율적으로 관리할 수 있다.

    기술의 이전 및 사업화 촉진에 관한 법률은 공공연구 기관에서 개발된 기술이 민간부분으로 이전되어 사업화되는 것을 촉진하고, 민간 부문에서 개발된 기술이 원활히 거래되고 사업화될 수 있도록 하기 위하여 제정되었다.

    해당 법률에서 기술에 대한 정의는 특허법 등 관련 법률에 따라 등록 또는 출원(出願)된 특허, 실용신안(實用 新案), 디자인, 반도체집적회로의 배치설계 및 소프트웨어 등 지식재산과 자본재, 기술정보 등을 포괄하는 개념으로서 제시하고 있다.

    또한, 기술이전을 양도, 실시권허락, 기술지도, 공동연구, 합작투자 또는 인수ㆍ합병등의 방법으로 기술이 기술 보유자로부터 그 외의 자에게 이전되는 것으로 보아, 기술 이전의 주체와 방식에 대해 정의하고 있으며, 기술사업화의 개념을 기술을 이용하여 제품을 개발, 생산 또는 판매 하거나 그 과정의 관련 기술을 향상시키는 것을 말한다고 규정하고 있다.

    이들 법률에서 규정되는 기술사업화와 관련된 이론을 살펴보면, 시장 중심적인 접근부터 시작하여 기술의 개발과 피드백 과정을 거치는 Jolly(1997)의 모형에 이르기까지 다양한 형태로 발전해오고 있다.

    Jolly(1997)는 기술사업화 과정을 5단계(Subprocess) 및 4전이(Mobilizing) 모형으로 접근하였다. 5단계는 다시 착상 (Imaging), 보육(Incubating), 시연(Demonstrating), 촉진 (Promoting), 지속(Sustaining)으로 구성되어 있으며 그 사이를 이익 및 보증 이전(Mobilizing Interest and Endorsement), 자원을 시연하기 위한 이전(Mobilizing resources for demonstration), 시장 구성요소에 대한 이전(mobilizing market constituents), 전달을 위한 보완자산 이전(mobilizing complementary assets for delivery)의 4개의 전이요소가 보완하고 있다[16].

    따라서 다섯 단계의 활동과 네 가지의 전이 간에는 차이점이 있음을 알 수 있는데, 활동 단계에서는 다양한 요 인으로부터의 기능적 투입이 필요하며, 전이활동에서는 기술사업화에 있어 이해관계자에 대한 협력을 통한 만족 감을 유발하는 임무를 수행한다는 것이다[14].

    상기에서 살펴본 바와 같이 기술이전의 다섯 단계에서의 간극을 메우기 위하여 전이과정이 요구되는데, 정책적으로 요구되는 방향은 이러한 간극을 최소화하고 다음 단계로의 진입을 빠르게 해줄 수 있는 요인들을 발견하는 것이다.

    상기 기술한 기술이전을 위한 정보시스템 또한 기업의 기술 취득을 빠르게 함으로써 기술 수용과 사업화 단계로 나아갈 수 있는 발판을 제공하는 데 큰 역할을 제공하고 있으며 기술이전에서의 기업의 사업화 애로사항을 해소하는 데에도 기여하고 있다.

    이외에도 중소기업의 기술사업화를 진행하는 데에 있어서 장애가 되는 요인, 혹은 성공요인을 탐색하기 위한 여러 가지 연구가 진행되고 있는 바, An et al.[1]은 400 개소의 중소기업, 444개의 기술사업화 과제에 대하여 기술의 획득경로를 수집하여 분석한 결과 외부기술의 도입 관점에서 연구기관과 타 기업, 대학 등으로부터 기술도입을 통한 사업화 비중이 매우 낮은 수준인 것으로 나타 났다.

    또한, 중소기업의 기술사업화를 위한 정부 지원 정책의 수혜 빈도와 유용성의 상관관계를 분석한 결과 기술도입 지원은 조사 대상기업 유용성 수준 3위, 수혜 빈도 순위 6위로 나타났다. 이를 통해 중소기업에 맞는 적절한 공공기술의 도입과 맞춤형 지원의 혜택을 받는 기업에 비해 기술 도입 지원이 필요한 기업이 많음을 확인할 수 있었다[1].

    2. 이론적 배경

    2.1 추천 모델링

    추천시스템은 상품 선택과 물건 구매 등으로부터 소비자가 원하는 적절한 물품을 자동으로 시스템에서 추천하여 소비자에게 제공하기 위한 시스템이다. 기존 소비자의 선택지가 한정적이었던 상황에서는 추천 시스템에 대한 모델링이 중요하지 않은 연구 분야였지만 온라인 쇼핑몰 과 멀티미디어 기반 스트리밍 서비스가 등장하게 되면서 다변화된 선택지를 고객에게 제공하게 될 때 고객의 구매 선택에 대한 복잡도가 증가하게 되어 결국에는 서비스에서부터 고객 이탈로 이어지는 선택지를 막기 위해 최근에 는 중요하게 연구되는 분야 중 하나가 되었다[13].

    추천시스템은 단순하게는 판매량 또는 클릭률을 기준으로 가장 많이 선택된 내용을 사용자에게 제공해주는 베스트셀러기반 추천 방법에서부터 협업 필터링 모델, 콘텐츠 기반 모델에 이르기까지 최근에 이르러서는 다양한 형태의 추천시스템 모델이 등장하게 되었다.

    장바구니 분석(Market Basket Analysis)은 소비자의 행태를 분석하는 형태의 알고리즘으로, 콘텐츠 기반 추천의 기반이 되는 알고리즘이다. 해당 알고리즘은 A라는 상품을 구매하였던 사용자 1이 B라는 상품을 구매하였다면, A 상품을 구매하였던 다른 사용자 2가 B 상품을 구매할 가능성도 크다는 데에서 출발한다[6].

    따라서 사용자와 상품에 대한 희소행렬(sparse matrix)을 구성하여 해당 데이터의 관계를 분석하여 새로운 상품 을 구매할 확률을 예측하게 된다.

    본 연구에는 아이템 기반 협업 필터링 모델과 콘텐츠 기반 추천 시스템을 구성하고, 해당 모델을 혼합한 하이브리드 모델로 최종 모델을 구성하였다. 아래에서는 아이템 기반 협업 필터링 모델, 항목별 가중치를 부여하기 위한 TF-IDF(Term Frequency-Inverse Document Frequency) 알고리즘, 콘텐츠 기반 추천 시스템에 대해서 설명한다.

    2.2 아이템 기반 협업 필터링

    협업 필터링 모델은 아이템에 대한 사용자의 선호도 값을 다른 사용자의 아이템 선호도 값에 대한 정보를 통해 유추하여 아이템에 대한 추천을 수행하는 기법이다. 해당 기법은 다양한 제품이 판매되고 있는 쇼핑몰과 음악, 영화 등 선호도가 기저 요인이 되는 엔터테인먼트 서비스에서 널리 사용되고 있다.

    협업 필터링 모델은 사용자 기반의 협업 필터링 모델과 아이템 기반의 협업 필터링 모델로 나뉘는데, 사용자 기반의 협업 필터링 모델에서는 각 사용자가 지정한 선호도 값을 기반으로 해당 사용자와 시스템상의 다른 사용자간의 선호 아이템에 대한 유사도를 측정하여 만약 해당 사용자가 선호지정을 하지 않은 아이템을 아이템 선호도의 유사도가 높은 다른 사용자가 선호도를 지정하였다면, 해당 아이템을 추천받고자 하는 사용자에게 추천해주는 방식으로 이해될 수 있다.

    반면, 아이템 기반 협업 필터링 모델은 추천하고자 하는 아이템을 대상으로 유사한 아이템들을 수집하고, 유사 아이템은 선택하였지만 추천하고자 하는 아이템을 선택하지 않은 사용자를 대상으로 해당 아이템을 추천하는 형태의 모델로 구성된다[4].

    예컨대, <Figure 7>에서는 상기 서술한 두 형태의 협업 필터링 모델이 도시되어 있다. 그림의 (a)에서는 사용자 기반의 협업 필터링 모델을 나타내고 있는데, 위 그림에서 Tim은 세 번째와 다섯 번째 아이템을 제외한 모든 아이템 에 대한 선호도를 나타내고 있고, Amy는 두 번째 아이템 에 대한 선호도를 보이고, John은 두 번째와 네 번째 아이템에 대한 선호도를 나타내고 있다. 이때, John이 새로운 아이템을 추천받기 위해서 사용자 정보를 기반으로 추천 정보를 탐색하게 되는데, Amy는 두 번째 항목에 대한 추천 노드 정보만을 보유하고 있으므로 새로운 아이템을 John에게 추천해줄 수 없으며, Tim은 John이 선호도를 표시한 아이템 이외에도 첫 번째와 마지막 아이템에 대한 선호도를 표시하였으므로 해당 아이템을 John에게 추천해 줄 수 있게 된다.

    반면 (b)에서는 아이템 기반의 협업 필터링 모델을 보여 주는데 동일한 선호도를 보이는 상황에서 세 번째 아이템에 대한 선호를 기반으로 다른 아이템을 추천하여 주기를 원한다고 가정하였을 때, 세 번째 아이템이 Tim과 Amy가 동시에 선호하고 있으며 해당 사용자는 세 번째 아이템 이외에도 첫 번째 아이템을 선호하고 있으므로, 해당 아이템을 John에게 추천해 줄 수 있게 된다.

    따라서 이러한 사용자와 아이템 간의 선호정보는 <Figure 8>과 같은 평점 행렬(rating matrix)로 구성된다[4]. 이러한 행렬은 통상 사용자가 모든 데이터에 대하여 평가를 수행하지는 않기 때문에 희소행렬(sparse matrix)로 구성되는 경우 가 많다. 따라서 아이템과 사용자가 많은 추천시스템의 모델링에서는 해당 행렬의 최적화가 주요한 요인이 된다. 또 한, 행렬 내에 새로운 사용자 또는 아이템이 추가되었을 때, 누군가가 평가를 진행하지 않았을 때는 연관되어 추천 해 줄 수 있는 항목이 존재하지 않기 때문에 추천할 수 없어지는 현상이 발생한다. 이를 콜드 스타트(Cold Start)라고 하며, 이러한 현상이 발생하지 않게 하도록 후술하는 하이브리드 추천시스템을 활용하는 등 다양한 연구가 진행 되고 있다.

    2.3 TF-IDF 모델

    정형 데이터베이스에서 쉽게 중복성을 검토하고 검색이 가능한 문자열이 아닌 자연어 문장 등을 분석하기 위해서는 단순한 문자열의 중복성을 검토해서는 각 아이템의 유사도를 측정하기에는 어려움이 따르게 된다. 따라서 이러한 데이터에서도 연관되는 항목을 검색하고 새로운 항목을 추천해주는 방법이 필요하다.

    TF-IDF는 문서 간 자주 나타나는 빈출 단어의 중요도는 낮게 평가하고, 각 문서 내 특성이 되는 단어는 중요하게 평가하는 모델이다[12]. 따라서 각 문서내 중요 단어를 쉽게 파악할 수 있으며 이들 핵심어를 기반으로 다른 항목을 추천해 줄 수 있는 기반을 구성할 수 있다.

    TF-IDF를 계산하는 식은 아래와 같이 구성된다. 각 문서 는 <Figure 9>와 같이 벡터 공간에 표현될 수 있다[17]. j번 째 항목인 dj 문서에 존재하는 k번째 단어 tk는 TF(Term Frequency)와 IDF(Inverse Document Frequency)의 곱으로 구할 수 있는데, TF는 하나의 항목 내에서 번째 단어가 얼마나 자주 나타났는지를 표현하는 빈도수이다.

    T F I D F ( t k , d j ) = T F ( t k , d j ) × I D F ( t k ) T F ( t k , d j ) = n . o f t i m e s t k a p p e a r s d t d j

    반면 IDF는 문서 사이에 단어가 출현하는 횟수가 증가 하면 감소하게 된다. 이러한 경우는 문서에 공통된 불용어가 포함되는 경우가 많은데, 예컨대 “~는”, “~은”, “~ 가” 등 조사가 포함되는 경우를 들 수 있다.

    I D F ( t k , d j ) = log d n . o f t i m e s t k a p p e a r s d

    여기서 식의 분모에 tk의 출현 횟수가 있으므로 문서마다 해당 단어가 지속해서 등장할 시 분모가 커져 IDF 값은 내려가게 되며, TF-IDF 식 역시 정의와 같이 IDF의 값과 비례하는 관계이므로 감소하게 된다.

    2.4 콘텐츠 기반 추천시스템

    앞서 살펴보았던 아이템 기반 추천시스템과는 다르게, 콘텐츠 기반 추천시스템은 유저의 상호간 선호도 데이터 비교 방식이 아닌, 콘텐츠의 그 자체 속성에 따른 공통정보를 추출하고 비교함으로써 사용자에게 항목을 추천할 수 있는 시스템이다. 콘텐츠 기반 추천시스템은 결국 콘텐츠 그 자체의 속성을 이용하게 되므로 콘텐츠 내에서 특성을 찾아내는 것이 무엇보다도 중요하다고 할 수 있다. 따라서 콘텐츠 기반 추천시스템은 앞서 살펴보았던 TF-IDF 모델을 사용하거나 결정트리(Decision Tree) 또는 베이즈 분류기(Bayes Classifier) 등의 확률적 모델을 사용하기도 한다.

    콘텐츠 기반의 추천시스템을 구현하기 위해서는 여러 가지 속성을 비교할 수 있도록 만드는 일이 필요하다. 이를 위해 속성의 벡터화를 진행하며, 가장 간단한 방법은 범주형 데이터를 벡터로 나타내는 원 핫 인코딩(one-hot encoding)을 사용하는 것이다. 이는 표현하고자 하는 데이터를 1과 0으로 나누어 표현하는 것으로, 순서가 없는 데이터를 비교하는 것이므로 원 핫 인코딩을 통해 벡터간의 거리를 손쉽게 계산할 수 있게 된다[7].

    <Figure 10>을 살펴보면 네 가지 색상값을 벡터화하는 방법이 표현되어 있다. 0과 1을 표현할 수 있는 벡터에서 네 가지 속성값을 표현하기 위해서 크기가 4인 벡터로 표현하였고, Red를 [ 1 0 0 0 ] 에, Blue를 [ 0 1 0 0 ] 에, Yellow를 [ 0 0 1 0 ] 에, Green을 [0 0 0 1] 에 할당하여 표현하였다.

    이러한 벡터값을 비교하고 벡터간의 거리를 표현하기 위해서 통상 언어처리 분야에서는 코사인 유사도를 이용하여 표현하게 된다. 코사인 유사도는 아래의 식을 통하여 구할 수 있다.

    S c ( A , B ) = cos ( θ ) = A · B A B = i = 1 n A i B i i = 1 n A i 2 i = 1 n B i 2

    <Figure 11>에서 볼 수 있듯이 두 지점 사이의 각이 클 수록 의 값은 작아지게 되고, 이에 따라서 코사인 유사도 역시 작아지게 된다[15]. 반면 두 지점 사이의 각이 작아진 다면의 값이 커지므로, 코사인 유사도는 커지게 된다.

    2.5 하이브리드 추천시스템

    최근에는 사용자에게 만족도 높은 검색 결과를 제공하기 위하여 여러 가지의 추천시스템을 혼합하여 제공하는 하이브리드 추천시스템이 활발하게 논의되고 있다. 앞서 살펴본 사용자 기반의 협업필터링 모델과 아이템 기반 추천시스템은 각각 장단점이 있어 하나의 모델만 사용할 시에는 추천에 있어 데이터 쏠림 현상이 발생할 수도 있으며 특수한 데이터에만 모델이 맞춰져 있어 새로운 형태의 데이터에 대응하기 힘들다는 단점이 존재한다.

    또한, 사용자 기반의 협업 필터링은 추천내역이 없는 데이터가 새로 데이터베이스에 들어오게 되면 추천이 불가능한 콜드 스타트(Cold Start) 문제를 겪게 되므로 아이템 기반 추천시스템 등의 복합적인 사용이 필수불가결하다고 볼 수 있다[13].

    이러한 하이브리드 추천시스템을 구현하는 방법은 다양한 방법이 존재하는데, 크게 가중합과 스위칭 방식, 혼 합 모델 등으로 나눌 수 있다[3].

    이 중 가중합 모델은 각각의 모델에서 출력값을 받아 출력값의 비중을 정하여 모델의 결과로 사용하는 방식이다. 해당 모델을 사용하면 데이터의 단위를 평준화하여야 한다는 단점은 존재하지만, 여러 가지 모델을 쉽게 통합할 수 있는 특징이 존재한다.

    3. 실험과정

    3.1 추천 모델링 구축을 위한 자료수집 및 전처리

    본 연구에서 제안하는 특허 기술 추천시스템을 설계하기 위한 기초 데이터를 수집하기 위하여 한국농업기술진흥원에서 운영하고 있는 ‘지식재산플랫폼’을 활용하였다. 한국농업기술진흥원 지식재산플랫폼은 크게 특허출원과 관리를 위한 ‘기술창출’과 국유특허 기술이전 계약관리 및 사후관리를 위한 ‘기술이전’의 두 가지 기능으로 구성되어 있다.

    본 연구 수행을 위하여 한국농업기술진흥원 지식재산 플랫폼에서 10년간(2013. 1.~2022. 2.)의 기술이전 데이터를 추출하였다. 분석 내용으로는 사업자등록번호, 특허출원번호, 발명의 명칭을 포함한 자료를 수집하였다.

    본 과정을 통하여 총 9,178건의 기술이전 건을 시스템으로부터 추출할 수 있었다. 이 중 사업자번호 또는 특허 출원번호가 누락된 실험분석에 필요하지 않은 결측치는 삭제하였다.

    그 외 사업자등록번호, 특허출원번호, 발명의 명칭을 제외한 정보는 모두 삭제하였다. 정제 결과 동 기간 총 7,698건 기술이전 건을 실험을 위한 데이터로 추출할 수 있었다.

    전처리를 거친 데이터는 유저 정보, 기술이전 정보, 특허정보를 포함하고 있다. 이를 활용하여 프로그래밍 언어 인 Python을 통해 추천시스템을 구축하는 실험을 시행하였다.

    3.2 아이템 기반 협업 필터링 모델 구축

    아이템 기반 협업 필터링 모델을 통해 동일 사업자가 함께 이전받은 기술간 상관관계를 분석하였다. 또한, 신규 사용자가 특허정보를 입력할 시 해당 특허와 상관관계가 높은 특허를 추천하는 시스템 구현 실험을 진행하였다.

    Python 언어를 통하여 기술이전 추천 알고리즘을 구축하기 위해 Pandas 라이브러리를 통해 기술이전 정보를 데이터프레임으로 불러오는 작업을 수행하였다.

    같은 사업자가 동일한 특허를 여러 번 이전받았을 경우를 고려하여, 중복 기술이전 성과를 제거하기 위한 pivot table을 생성하였다. 이때 인덱스는 사업자등록번호와 특허 출원번호 두 가지로 정리하였다.

    이후 NaN 값을 가진 데이터에 대해 0을 채워 결측치를 제거하는 작업을 진행하였다. 따라서 해당 사업자가 발명 의 출원번호에 따라 기술이전을 받았다면 1, 기술이전을 받지 않았다면 0의 값으로 표현된다.

    아이템 기반 협업 필터링 추천시스템을 사용하면 대상 아이템을 선택하면 유사한 아이템끼리 추천을 받을 수 있다. 기술이전 데이터에서 유사한 아이템은 같은 사업자 내 함께 기술이전을 받은 특허들이라고 할 수 있다. 이 상태에서 코사인 유사도를 구할 시 특허 간의 상관도를 구할 수 있다. 코사인 유사도를 구하는 함수는 scikit-learn 라이브러리에서 제공한다.

    <Table 8>을 통하여 살펴본 결과, 특허간 유사 정보의 값을 가지는 결과를 확인할 수 있다. 자기자신은 유사도 1이 나오게 되며, 유사도가 높을수록 1에 가까운 결과를 확인할 수 있다.

    3.3 콘텐츠 기반 TF-IDF 분석 모델 구축

    본 과정에서는 발명의 명칭에 포함된 단어를 추출하고, 문장 내 단어별 중요도를 벡터화해 코사인 유사도를 분석, 연관도 높은 특허와 키워드를 연결할 수 있는 분석 모델을 구축하고자 한다.

    상기 서술 과정을 통하여 특허문헌 내 발명의 명칭을 취득하여 토큰화한 후 정규화/어근추출을 통해 벡터화를 수행하고 모델을 구현하여 최종적으로 특허 검색을 통해 단어 간 유사도가 높은 특허를 추천받을 수 있는 모형을 구현하였다.

    이에 발명의 명칭이 포함된 기술이전 데이터를 입력하여 토큰화를 거친 후 이를 벡터화하여 특허 간 코사인유사도를 측정하고자 하였다.

    발명의 명칭간 코사인 유사도 결과를 도출하였을 때, 가장 상관도가 높은 자기 자신은 1로 나타나며, 결과값이 1에 가까울수록 상관도가 높은 특허임을 알 수 있다.

    3.4 기술이전 데이터 활용 기술 추천 알고리즘 구축

    앞서 실험과정을 서술한 아이템 기반 협업 필터링 모델은 동일한 기업에서 함께 이전해간 특허의 코사인 유사도를 분석해 과거 사례를 기반으로 특허 기술을 추천받을 수 있는 장점이 있다. 본 알고리즘을 통해 발명의 명칭으로는 파악하지 못하는 함께 기술이전 받기 좋은 특허를 추천받을 수 있을 것으로 전망된다. 하지만, 한 번도 기술 이전이 이뤄지지 않은 특허의 경우 대조할 수 있는 데이터 가 없어 추천이 일어나지 않는 콜드 스타트(cold start) 문제가 발생한다.

    콘텐츠 기반 TF-IDF 추천시스템은 발명의 명칭간의 코사인 유사도 파악을 통해 명칭이 비슷한 특허를 추천받을 수 있다. 하지만 발명의 명칭의 상관관계는 떨어지지만 함께 기술이전 받았을 때 기술사업화가 용이한 특허를 추천 해주지 못하는 한계점이 존재한다.

    따라서 본 연구에서는 하이브리드 추천시스템 알고리즘을 구축하여 위 두 모델의 장점은 활용하고 단점은 보완 하고자 하였다.

    본 실험에서는 앞서 실험한 두 추천모델을 동일한 비중으로 적용하여 이를 결합하여 결과를 도출할 수 있도록 개발을 수행하였으며, 단일 모델을 통해 특허 추천을 수행 하는 것에 비해 더욱 풍성하고 정확한 특허 추천 결과를 기대할 수 있을 것으로 판단된다.

    4. 실험 결과 도출

    아이템 기반 협업 필터링 추천시스템은 기존 기술이전 기업들이 선호하여 함께 이전받아가는 특허의 이력을 분석하여 관심 있는 특허를 시스템에 입력 시 상관관계가 높은 특허를 추천하는 결과를 얻을 수 있었다.

    그러나 추천시스템 모델 내 기술이전 데이터가 충분하지 않다면 추천 정확도가 떨어지거나, 아직 사용자가 발생하지 않은 특허를 분석하였을 때는 콜드 스타트(cold start) 와 같은 단점이 발생하였다.

    콘텐츠 기반 추천시스템의 경우 기술 수요자가 입력한 키워드를 바탕으로 특허명칭 말뭉치를 분석하여 유사도가 높은 단어들을 포함하는 특허를 추천해주는 결과를 얻을 수 있었다.

    이번 실험에서는 아이템 기반/유저 기반 개별 추천시스템의 단점을 극복하고 장점은 활용할 수 있는 하이브리드 방식 추천시스템 알고리즘을 개발하여 콜드 스타트(cold start) 문제와 추천 결과의 다양성을 확보한 특허검색결과를 얻을 수 있었다.

    5. 결 론

    5.1 연구 수행 결과

    공공기술을 이전받아 기술사업화에 활용하는 기업이 늘어나면서 기술이전 과정에서 기술 수요자가 원하는 기술을 정확하고 빠르게 정보시스템을 통하여 파악하여 추천하는 것은 공공기술을 활용하고자 하는 기업의 만족도를 향상하고 특허기술을 검토하는 시간을 단축할 수 있다. 따라서 기술이전 과정에서의 특허 추천의 중요성이 커지고 있으며 기술 수요자에게 적절한 특허를 추천해 줄 수 있는 다양한 방법에 관한 연구가 활발히 진행되고 있다.

    본 논문에서는 아이템 기반 협업 필터링과 콘텐츠 기반 추천시스템을 직접 구현하였으며 각 추천시스템의 단점을 상호보완하기 위하여, 이들을 결합한 하이브리드 추천시스템을 구현하였다.

    상기 제시 하이브리드 추천시스템 모델의 검색결과와 기존 특허 검색 서비스가 제공하는 검색 결과를 비교해 보았다. 대한민국 출원특허 제10-2006-0046654호(발명의 명칭: 김치소스 및 이의 제조방법)를 한국특허정보원에서 운영하는 KIPRIS(https://www.kipris.or.kr)와 한국농업기술 진흥원에서 운영하는 농림축산식품기술사업화 종합정보 망(https://www.nati.or.kr), 기술보증기금에서 운영하는 스마트 테크브릿지(https://tb.kibo.or.kr)의 서비스를 활용해 특허 검색을 같은 기술에 대해 수행하였다.

    발명의 명칭과 기술분류코드, 청구항 내 텍스트 검색을 통해 결과를 제공하고 있는 특허기술 검색 사이트와 비교 했을 때 본 연구에서 제안한 모델의 추천 결과가 타 검색 결과에 비해 검색 대상 기술과 관련된 다양한 특허 검색이 가능하다는 결과를 얻을 수 있었다. 기존 NATI 검색결과 에서는 김치를 활용한 다양한 기술에 대한 검색은 가능하였으나, 김치소스가 주로 활용되는 육류요리 및 바비큐 소스 등에 대한 연관 검색은 불가능하였다. 따라서 본 연구를 통하여 개발된 본 추천시스템 기능을 웹상에서 제공한 다면 기술이전을 희망하는 기업이 자신에게 맞는 기술을 도입하는데 판단하는 기준으로 유용하게 활용할 수 있을 것이다.

    5.2 시사점 및 향후 연구방향

    본 연구는 다음과 같은 한계점을 가지고 있다. 첫 번째로, 내부 데이터의 한계점을 극복해야 한다는 점이다. 본 실험에 사용한 데이터는 지난 10년(2013~2022)간 한국농업기술진흥원 지식재산플랫폼을 통하여 추출한 기술이전 데이터와 특허정보를 활용하고 있다.

    본 연구에서는 총 9,178건의 기술이전 데이터를 추출하였으며, 실험에서는 7,698건의 데이터를 활용하였다. 또 한, 본 연구에서는 농촌진흥청의 국유특허를 중심으로 데이터 분석을 시행하였으므로 타 분야 공공연구기관 특허에 대한 추천 능력이 떨어지는 것이 한계점으로 존재한다. 타 공공연구기관의 기술이전 데이터를 추가 확보하여 본 추천시스템 알고리즘에 적용한다면 전체 공공기술에 대한 특허 추천이 가능해질 수 있을 것으로 판단된다.

    둘째, 기술이전 사업 성과와 연관된 특허 추천은 본 시스템을 활용하여 수행할 수 없다. 기존 기술이전 데이터, 콘텐츠 기반 추천시스템에는 사업화 성공률, 기술 실시료와 같은 사업 성과와 관련된 데이터는 포함하고 있지 않다. 향후 실시료 납부, 제품 생산 여부 등 사업화 성과가 포함된 데이터와 본 모델을 결합하여 특허 수요자에게 필요한 추천 결과를 제공할 수 있도록 실험 확장이 필요하다.

    셋째, 연구 결과의 확장 및 실제 적용이 필요하다. 특허 추천 알고리즘 적용 결과는 아직은 내부 데이터로만 존재 하고 있다. 농림축산식품 기술사업화 종합정보망 등 공공 기술이전 플랫폼에 본 연구 결과를 적용하여 추천 알고리즘을 실제 공공기술 거래에 활용할 수 있도록 후속 연구가 필요하다.

    Acknowledgement

    This study sponosored by MOTIE funding proram “Advanced Graduate Education for Management of Convergence Technology”.

    Figure

    JKSIE-46-3-78_F1.gif

    NATI Website Operated by KOAT

    JKSIE-46-3-78_F2.gif

    Patent Information developed by Public Institutes

    JKSIE-46-3-78_F3.gif

    Online Technology Transfer System

    JKSIE-46-3-78_F4.gif

    Flowchart of Technology Transfer in KOAT

    JKSIE-46-3-78_F5.gif

    IP Platform system of KOAT

    JKSIE-46-3-78_F6.gif

    Jolly Model for Commercializing Technology

    JKSIE-46-3-78_F7.gif

    Types of Collaborative Filtering Models

    JKSIE-46-3-78_F8.gif

    Rating Matrix

    JKSIE-46-3-78_F9.gif

    Vector Space Representation of Documents

    JKSIE-46-3-78_F10.gif

    Vectorization of Categorical Data

    JKSIE-46-3-78_F11.gif

    Cosine Distance in Vector Space

    JKSIE-46-3-78_F12.gif

    Information used in the Suggested Model

    JKSIE-46-3-78_F13.gif

    Item-based Collaborative Filtering Model

    JKSIE-46-3-78_F14.gif

    Document Similarity-based Recommendation System

    JKSIE-46-3-78_F15.gif

    Content-Based Patent Recommendation Model

    JKSIE-46-3-78_F16.gif

    Patent Name Tokenization Process

    JKSIE-46-3-78_F17.gif

    Cosine Similarity by Invention Title

    JKSIE-46-3-78_F18.gif

    Hybrid Recommendation System

    JKSIE-46-3-78_F19.gif

    Patent Hybrid Recommendation System

    Table

    Public Technology Transfer in Korea

    Years of Experience of the Tech. Transfer Workers

    Status of Technology Transfer Contracts by Technology Importer Type in 2020

    Methods for Acquiring Technology

    Rank for the Frequency and Usefulness of Government Support

    Refined Technology Transfer Data

    Technology Transfer Information

    Cosine Similarity Matrix

    Item-based CF Recommendation System (10-2006-0046654)

    Content-based CF Recommendation System (10-2006-0046654)

    Hybrid CF Recommendation System (10-2006-0046654)

    Search Result Comparisons (10-2006-0046654)

    Reference

    1. Ahn, S.K. Park, J.B. and Na, Y.S., How will the government improve the technology commercialization of SMEs?, KISTEP Issue Paper 2020-07, 2020, pp. 1-42.
    2. Baazeem, I., Analysing the Effects of Latent Semantic Analysis Parameters on Plain Language Visualisation, 2015, [Master’s Thesis], [Australia], The University of Queensland,
    3. Burke, R., Hybrid recommender systems: Survey and experiments, User modeling and user-adapted interaction, 2002, Vol. 12, No. 4, pp. 331-370.
    4. Chen, Y.C. Hui, L. and Thaipisutikul, T., A collaborative filtering recommendation system with dynamic time decay, The Journal of Supercomputing, 2021, Vol. 77, 10.1007/s11227-020- 03266-2.
    5. Cory, L. and Chinnamgari, S.K., Advanced Machine Learning with R: Tackle data analytics and machine learning challenges and build complex applications with R 3.5, Packt Publishing, 2019.
    6. Imran, A., 40 Algorithms Every Programmer Should Know: Hone your problem-solving skills by learning different algorithms and their implementation in Python, Packt Publishing, 2020, pp. 1-382.
    7. Kakao Tech, Kakao AI Recommendation: Content-based filtering in Kakao (Content-based Filtering in Kakao), 2021, https://tech.kakao.com/2021/12/27/content-basedfiltering- in-kakao/.
    8. KIBO, Smart-tech bridge, 2022, https://tb.kibo.or.kr.
    9. KIPI, Korea intellectual property rights information service, 2022, https://www.kipris.or.kr.
    10. Korea Agriculture Technology Promotion Agency, Network for Agri-forest-food-Tech Information, https:/ /www.nati.or.kr, 2022.
    11. Ministry of Trade, Industry and Energy, Public Research Institutions (Universities and Research Centers) Technology Transfer and Commercialization Survey Report, 2021.
    12. Salton, G. and Buckley, C., Term-weighting approaches in automatic text retrieval, Information Processing & Management, 1988, Vol. 24, No. 5, pp. 513-523.
    13. Son, J.E. Kim, S.B. Kim, H.j. and Cho, S.Z., Review and Analysis of Recommender Systems, Journal of the Korean Institute of Industrial Engineers, 2015, Vol. 41, No. 2, pp. 185-208.
    14. Song, Y.H. Kim, Y.H. and Kim,T.H., Exploring the Factors Affecting Commercialization in National R&D Technology Transfer: Focusing on Non-Food Agriculture Sector, Fall Conference of the Korea Society of Innovation, 2022, pp. 109-126.
    15. StackOverflow, Choice between an adjusted cosine similarity vs regular cosine similarity, 2022, https://stackove rflow.com/questions/40716459/choice-between-an-adju sted-cosine-similarity-vs-regular-cosine-similarity.
    16. Vijay K. Jolly, Commercializing New Technologies: Getting From Mind To Market, Harvard Business Press, 1997, pp. 1-410.
    17. Yu, M. Quan, T. Peng, Q.T. Yu, X. and Liu, L., A model-based collaborate filtering algorithm based on stacked AutoEncoder, Neural Computing and Applications, 2022, Vol. 34, 10.1007/s00521-021-05933-8.