2015. 9. 27. 17:32
Data Mining 02 - 추천 시스템 만들기
- (p3) 추천 시스템의 개요
- 협업 필터링(Collaborative Filtering)
- 많은 사용자들로부터 얻은 기호정보(taste information)에 따라 사용자들의 관심사들을 자동적으로 예측하게 해주는 방법(wiki)
- 정보 과잉 문제를 해결하기 위한 정보 필터링의 주요 기법
- 큰 무리의 사람들을 검색해서 유사한 취향을 가진 작은 집합을 발견하는 알고리즘
- Active User의 정보
- |
- User Activity Repository --> Collaborative Filtering --> 후 보 --> 선택 --> Active User
|------------------------- 영향 또는 반영-----------------------------------| - (p4) 추천 시스템의 개요
- Collaborative filtering의 방법
- 아이템 기반의 필터링(amazon)
- Step 1 : Rating Process • 아이템 간의 상관관계를 결정하는 아이템 매트릭스(item-item matrix)를 만든다.
- Step 2 : Predicion Process • 매트릭스를 사용하여 최신 사용자의 데이터를 기반으로 그 사용자의 기호를 유추한다.
- (p6) 선호 정보(preferences)의 수집
- Preference 정보의 범위와 Rating 방법의 예
- Recommendations.py
- 영화 평론가 평점 Preferences를 0과 1사이의 실수로 표현 – Python을 이용한 Preference 정보의 접근 구현
- (p7) 유사 사용자 찾기(Finding Similar User)
- Similar User
- 각각의 사람을 다른 모든 사람들과 비교하여 유사한 취향을 갖는 사용자를 계산
- Euclidean distance score와 Peason correlation score
- 유클리디안 거리 점수(Euclidean Distance Score)
- Euclidean 공간
- 우리 머리속에서 상상하는 이상적인 평면 • 평행선 사이의 거리는 항상 일정하며 한직선에 대해서 어떤 한점을 지나는 평행선은 하나밖에 없는 평면
- 즉, 공간상에 전혀 구부러짐이 없고 반듯하다고 생각되는 평면, 하지만 실제 공간상에서는 이러한 평면은 존재하지 않는다고 알려져있음
- 공간은 중력에 의해 구부러진채로 존재 <영화 Snakes와 Dupree 점수로 본 평론가들간의 유사성 계산
- (p10) 유사 사용자 찾기(Finding Similar User)
- 피어슨 상관 점수(Pearson Correlation Score)
- 두 개의 데이터 집합이 한 직선으로 얼마나 잘 표현되는가를 나타내는 측정값
- 잘 정규화되지 않은 데이터의 경우에 좋은 결과를 제공, 두 변수간의 연관 강도 측정용 지표로서 1과 -1사이의 값
- 1은 완전히 연관되어 있음, 0은 전혀 연관 없음, -1은 완전 반대로 연관되어 있음
- Best-fit -차트내의 모든 항목들과 가장 가까운 직선
- - 두 평론가가 모든 영화에 동일하게 평가했다면 대각선이 되며, 모든 영화 는 직선상에 존재 Seymour와 Lasalle간의 피 어슨 상관 점수는 0.4정도 <낮은 상관 점수를 갖는 평론가의 예>
- (p19) 항목 추천(Recommending Items)
- 유사성 판단을 통한 추천 방법
- 나와 가장 유사한 패턴을 갖는 평점을 기준으로 다른 영화를 추천할 수 있음
- TopMatches 함수를 이용하여 Similarity 판단
- (p23) delicious.com 링크 추천 만들기
'Machine Learning & Data Mining' 카테고리의 다른 글
데이터마이닝 04-검색과 랭킹-02 from Kwang Woo NAM (0) | 2015.09.27 |
---|---|
데이터마이닝 03-군집발견-03 from Kwang Woo NAM (0) | 2015.09.27 |
데이터마이닝 01-데이터마이닝 개요 from Kwang Woo NAM (0) | 2015.09.27 |
Artificial Intelligence and Intelligence Business (펌) (0) | 2015.09.26 |
Deep Learning Tutorial (펌) (0) | 2015.09.26 |