본문 바로가기
Science

추천 알고리즘과 MBTI, 집합과 통계를 이용한 세특! 공학과 사회 과학의 연결 심화 주제 탐구- 수학, 확률과통계, 수2, 미적, 물리, 정보

by 공부하는 엘피 2022. 9. 5.

엘피엘피입니다! 추천 알고리즘의 원리를 파악하고 사회과학적 접근인 MBTI와의 연결고리를 정리한 후 오늘의 세특 주제를 정리해 보겠습니다. 수학에서 집합과 확률과 통계, 수학 2, 미적분, 물리, 정보 과목에서 재밌게 생각해 볼 수 있는 주제들로 경영학과, 컴퓨터공학과, 산업경영공학, 물리학과, 수학과 등 다양한 학과를 원하는 학생들에게 도움이 될 것입니다.

 

추천 알고리즘 & MBTI 세특
추천 알고리즘 & MBTI 세특

1. 추천 알고리즘이란?

추천 알고리즘(Recommendation Algorithm)은 유저가 선호할만한 것을 추천하는 알고리즘입니다. 빅데이터 (1만 개 이상의 데이터)를 일정한 규칙에 따라 분류하여(분류 모델을 만들어서) 유저가 선호하는 콘텐츠를 추천하는 시스템입니다. 다양한 콘텐츠 기업들이 유저의 채널 잔류 시간을 증가시킬뿐더러 운영적인 효율을 할 수 있어 사용되는 기술입니다.

 

추천 알고리즘은 사람들의 선호도의 교집합을 판단!
추천 알고리즘은 사람들의 선호도의 교집합을 판단!

 

추천 알고리즘은 많은 사람이 알게 모르게 최소 한 번 이상 경험했습니다. 스마트폰, PC, 태블릿 등 다양한 디바이스와 웹, 앱을 사용한다면 말이죠. 특히 Youtube나 Netflix는 대표적인 추천 알고리즘을 기반으로 성공한 사례라 할 수 있습니다.
특히 넷플릭스는 추천 알고리즘 대회(넷플릭스 프라이즈)를 주최하여 알고리즘의 성능을 더 개선하는 등의 시도를 많이 해왔습니다. 넷플릭스에는 세계 최대 동영상 스트리밍 업체로 고객 맞춤형 추천 서비스를 경쟁력으로 성장해온 대표적인 추천 알고리즘 기업입니다. 오죽하면 "넷플릭스에는 수학에 빠진 너드들이 가득하고 유저의 취향을 분석하고 그들이 원하는 콘텐츠를 제공하는 추천 알고리즘의 비밀은 너드들이다."라는 말이 있을 정도입니다. 그렇다면 추천 알고리즘에는 어떤 종류가 있으며 각각의 특징은 무엇일까요?

 

엘피의 전자책이 출시했습니다!!

 

성공적인 입시를 위한 세특 주제탐구 비밀노트 | 35000원부터 시작 가능한 총 평점 0점의 전자책,

0개 총 작업 개수 완료한 총 평점 0점인 엘피의세상의 전자책, 교육 전자책 서비스를 0개의 리뷰와 함께 확인해 보세요. 전자책, 교육 전자책 제공 등 35000원부터 시작 가능한 서비스

kmong.com

 

2. 대표적인 추천 알고리즘 종류

추천 알고리즘은 보유한 데이터의 종류와 양에 따라 다양한 방법으로 구현할 수 있습니다. 사용자의 행동 데이터를 분석하는 아마존, 넷플릭스와 같은 기업도 있고 텍스트 데이터의 내용을 분석하여 뉴스나 자기소개서에서 유사도 검사 등을 만들기도 합니다.

* 추천 알고리즘의 기본 원리
유저 간의 유사도를 모델화하여 계산하는 원리는 사실 교집합을 판단하는 방식입니다. 교집합을 만들고 조건부 확률을 계산하는 원리입니다.

 

추천 알고리즘 교집합 - playinpap
추천 알고리즘 교집합 - playinpap

 

2.1 유저 기반의 협업 필터링(Collaborative Filtering)

콘텐츠를 사용하는 유저 간의 유사도를 계산하여 다른 유저에게 추천 리스트를 제공하는 방식입니다. 이 방식은 넷플릭스의 추천 알고리즘 대회에서 행렬 분해 기법을 이용한 협업 필터링 방식이 우승하면서 유명해졌습니다. 콘텐츠에 대한 유저의 평가 데이터를 행렬을 이용하여 유저 간의 유사도를 계산합니다. 유저의 데이터가 핵심이기 때문에 서비스 초기나 데이터가 부족하면 추천 정확도가 떨어집니다.

 

넷플릭스의 추천 알고리즘
넷플릭스의 추천 알고리즘

 

유저 간의 유사도를 계산하여 다른 유저에게 추천 리스트를 제공하는 방식입니다. 콘텐츠에 대한 유저의 평가 데이터를 행렬을 이용하여 유저 간의 유사도를 계산합니다. 유저의 데이터가 핵심이기 때문에 서비스 초기나 데이터가 부족하면 추천 정확도가 떨어집니다.

- 장점

  1. 콘텐츠 아이템의 정보가 없어도 추천이 가능하다.
  2. 알고리즘이 간단하다. 그렇기 때문에 구현이 쉬운 편이다.

– 아이템 자체의 정보 없이 추천이 가능
– 알고리즘이 간단하여 구축하기가 쉬움

- 단점

  1. 유저의 증가에 따른 정보의 양이 많아질수록 연산이 복잡해져 자원 소모가 많다.
  2. 신규 가입자의 경유 소비한 정보가 없어 유저 간 유사도 계산을 할 수 없다.

 

2.2 콘텐츠 기반 필터링(Content based Filtering) or 아이템 기반 협력 필터링 (Item based Collaborative Filtering)

유저 기반의 협력 필터링과는 달리 콘텐츠 기반 필터링 또는 아이템 기반 협력 필터링 방식은 아이템끼리 유사도를 측정하여 유저가 아이템을 조회했을 때 비슷한 아이템을 추천하는 방식입니다. 콘텐츠를 소비하는 유저의 정보와 선호도를 조사하고 이것에 유사성을 계산합니다. 장르나 특징에 대한 정보를 파악합니다. 즉 콘텐츠 자체의 정보를 분석하고 각각의 아이템끼리의 유사성을 계산하는 방법입니다. 주로 텍스트 정보를 바탕으로 키워드 추출, 연관 단어 추출 등의 과정을 통해 아이템의 유사도를 분석하여 추천합니다. 대표적으로 뉴스나 쇼핑, 음악 콘텐츠 추천 등이 있습니다.

멜론의 추천 시스템
멜론의 추천 시스템


- 장점

  1. 다른 유저의 데이터가 필요하지 않다. 아이템 자체의 정보만 가지고 추천 정확도를 확보할 수 있다.
  2. 추천할 수 있는 아이템의 범위가 넓고 인기 없는 아이템 또한 추천할 수 있다.
  3. 추천의 근거를 확보할 수 있다.

- 단점

  1. 과정이 복잡하며 데이터 학습의 시간이 오래 걸린다.
  2. 아이템의 적합한 특징을 규명하기 어렵다.

 

3. 추천 알고리즘과 유사한 MBTI 분류

추천 알고리즘은 유저 간의 유사도를 계산하여 추천하는 방법입니다. MBTI는 카를 융의 분석심리학 모델을 기반으로 만든 인간의 성격 유형 검사이다. 인간은 다양성을 가진 뚜렷한 생명체이다. 하지만 많은 다양성을 가진 인간들의 행동에서도 교집합을 판단하여 선호도를 파악하는 추천 알고리즘의 모델을 만들었다. MBTI 또한 마찬가지라 생각한다. 인간의 다양한 특성을 16개의 특징으로 완벽하게 정의할 순 없지만 큰 카테고리에서 16개 분류 성질을 활용하여 구분한 알고리즘이라 생각한다면 추천 알고리즘의 방식과 유사하며 MBTI 또한 하나의 추천 알고리즘 모델로 생각해 볼 수 있다.
약간의 MBTI 과몰입이 있을 수 있다!

 

MBTI에서 구분하는 선호 경향

 

기본적으로 MBTI는 선호 경향의 방법으로 4개의 카테고리에서 2개의 결론을 분류한 방법이다. 그렇기 때문에 2의 4 제곱인 16가지의 경우의 수를 만든다. 4가지의 선호 경향에 따른 2가지의 분류 총 8개의 분류의 각각의 특징은 무엇일까?

 

각각의 성향의 특징들
각각의 성향의 특징들

 

에너지의 방향에 따른 외향성과 내향성은 대인관계에 에너지를 얻는지 소모하는지에 대한 영역이고, 인식 기능에 있어 감각적인지 직관적인지는 경험을 중시하며 현재를 파악하는지 상상과 영감을 중시하며 미래를 바라보는지에 대한 구분이다. 판단 기능에 있어 감정적인지 논리적인지 구분하고, 이해 방법에 있어 판단을 중시하는지 인식을 중시하는지에 따라 결론을 내린다. MBTI 검사는 4가지 항목에 있어 질문에 대한 대답을 통해 분류합니다. 마치 유저 기반의 협업 필터링과 유사한 방식입니다. 유저의 경험을 조사하여 분류하는 모델을 만들었다고 생각할 수 있습니다. 비슷한 대답을 가진 사람들끼리 묶어서 유저 행동의 교집합을 통해 분류한 것입니다. 즉, 사회과학 기반의 추천 알고리즘이라 할 수 있습니다.

MBTI 결과

 

그렇기 때문에 MBTI가 과학적으로 아무런 근거가 없다고 치부한다면 추천 알고리즘 또한 마찬가지의 이유로 부정당할 수 있습니다. 하지만 추천 알고리즘의 추천 또한 하나의 참고 지표이지 절대적으로 맞지 않습니다. MBTI 또한 마찬가지입니다. MBTI의 결과를 통해 하나의 참고 지표로 생각해볼 수 있습니다. 우리는 통계적으로 표본조사를 통해 유사한 결과를 만든 교집합이 갖는 공통된 성질을 바라보는 것이기에 100% 신뢰는 존재할 수 없습니다. 공통된 성질을 대표할 수 있다는 게 중요하다고 생각합니다.

4. 추천 알고리즘과 유사한 MBTI, 두 분야를 활용한 세특 심화 탐구 주제

  1. MBTI 성격 유형 기반의 영화 추천 알고리즘 구현하기 - 정보, 통계, 수학
    이공계 영역이 중요하며 컴퓨터 공학과 관련학과 학생들에게 도움이 되겠습니다. 특히 영화 선호도에 대한 데이터 세트를 구현할 때 MBTI를 작성 후 설문을 받아 데이터를 만들어 모델링하면 도움이 될 것입니다.

  2. MBTI 성격 유형 분류 알고리즘 순서도 도식화하기 - 수학, 통계, 정보
    과거 교육과정에는 '순서도'라 불리는 알고리즘에 대한 설명이 수학 교과 내용에 있었습니다. 이 순서도를 활용하여 MBTI를 구분하는 알고리즘의 모델을 구현해보는 활동입니다. 직접 코딩을 못 하더라도 알고리즘에 대한 이해를 기반으로 작성할 수 있기 때문에 좋은 활동으로 생각됩니다.

  3. MBTI 기반 역사적 인물 조사하기 - 전 과목
    자신의 전공과 관련된 역사적 인물들의 MBTI 성향을 분석하는 것입니다. 따라서 교과목으로서 구분은 없습니다. 다만 단순한 조사만 하면 눈에 띄는 세특을 작성하기 힘든 주제입니다. 자신의 진로, 희망 전공과 연결 후 롤 모델의 MBTI 성향과 자신의 MBTI 성향을 연결하여 분석하는 것이 포인트라 생각됩니다.

  4. 자신이 원하는 진로 분야와 MBTI 기반 집합 분류하기 - 전 과목, 확률과 통계
    MBTI 조사를 통해 추천해주는 직업군이 있습니다. 분명 개개인의 성격적 특징과 직업군의 특징을 연결했지만 공감이 많이 되는 분야와 아닌 분야가 있을 것입니다. 모집단과 표본조사를 기반으로 신뢰도를 설정하여 참고할 수 있는 지표를 만드는 활동을 한다면 의미 있는 세특 주제가 될 것입니다.

댓글