Data Mining 02 - 추천 시스템 만들기


  • (p3) 추천 시스템의 개요
    • 협업 필터링(Collaborative Filtering)
    • 많은 사용자들로부터 얻은 기호정보(taste information)에 따라 사용자들의 관심사들을 자동적으로 예측하게 해주는 방법(wiki)
      • 정보 과잉 문제를 해결하기 위한 정보 필터링의 주요 기법
      • 큰 무리의 사람들을 검색해서 유사한 취향을 가진 작은 집합을 발견하는 알고리즘 
        •                                                    Active User의 정보
        •                                                                |
    • User Activity Repository  --> Collaborative Filtering -->  후 보  -->  선택 --> Active User
                      |-------------------------  영향 또는 반영-----------------------------------|
       
    • (p4) 추천 시스템의 개요
      • Collaborative filtering의 방법
        • 아이템 기반의 필터링(amazon)
          • Step 1 : Rating Process • 아이템 간의 상관관계를 결정하는 아이템 매트릭스(item-item matrix)를 만든다.
          • Step 2 : Predicion Process • 매트릭스를 사용하여 최신 사용자의 데이터를 기반으로 그 사용자의 기호를 유추한다.  
    • (p6) 선호 정보(preferences)의 수집
      • Preference 정보의 범위와 Rating 방법의 예
        • Recommendations.py
        • 영화 평론가 평점 Preferences를 0과 1사이의 실수로 표현 – Python을 이용한 Preference 정보의 접근 구현  


  • (p7) 유사 사용자 찾기(Finding Similar User)
      • Similar User
        • 각각의 사람을 다른 모든 사람들과 비교하여 유사한 취향을 갖는 사용자를 계산
        • Euclidean distance score와 Peason correlation score
        • 유클리디안 거리 점수(Euclidean Distance Score) 
          • Euclidean 공간 
          • 우리 머리속에서 상상하는 이상적인 평면 • 평행선 사이의 거리는 항상 일정하며 한직선에 대해서 어떤 한점을 지나는 평행선은 하나밖에 없는 평면
          • 즉, 공간상에 전혀 구부러짐이 없고 반듯하다고 생각되는 평면, 하지만 실제 공간상에서는 이러한 평면은 존재하지 않는다고 알려져있음
          • 공간은 중력에 의해 구부러진채로 존재 <영화 Snakes와 Dupree 점수로 본 평론가들간의 유사성 계산 


  • (p10) 유사 사용자 찾기(Finding Similar User) 
    • 피어슨 상관 점수(Pearson Correlation Score)
      • 두 개의 데이터 집합이 한 직선으로 얼마나 잘 표현되는가를 나타내는 측정값
      • 잘 정규화되지 않은 데이터의 경우에 좋은 결과를 제공, 두 변수간의 연관 강도 측정용 지표로서 1과 -1사이의 값
    • 1은 완전히 연관되어 있음, 0은 전혀 연관 없음, -1은 완전 반대로 연관되어 있음 
    • Best-fit -차트내의 모든 항목들과 가장 가까운 직선
    •  - 두 평론가가 모든 영화에 동일하게 평가했다면 대각선이 되며, 모든 영화 는 직선상에 존재 Seymour와 Lasalle간의 피 어슨 상관 점수는 0.4정도 <낮은 상관 점수를 갖는 평론가의 예> 
  • (p19) 항목 추천(Recommending Items)
    • 유사성 판단을 통한 추천 방법
    • 나와 가장 유사한 패턴을 갖는 평점을 기준으로 다른 영화를 추천할 수 있음
    • TopMatches 함수를 이용하여 Similarity 판단 
  • (p23) delicious.com 링크 추천 만들기


Posted by Name_null