Tumgik
#boolean feature multinomial naive beyes
jacob-cs · 5 years
Text
Natural Language Processing | Dan Jurafsky, Christopher Manning 7강
7 1 What is Sentiment Analysis https://youtu.be/vy0HC5H-484
Tumblr media Tumblr media Tumblr media Tumblr media Tumblr media
7 2 Sentiment Analysis A baseline algorithm https://youtu.be/Dgqt62RQMaY
Tumblr media Tumblr media Tumblr media Tumblr media Tumblr media Tumblr media
negation을 처리하는 한가지 예이다. 
Tumblr media
P(cj)는 특정 class의 문서가 출현할 확률이다. P(wi | cj)는 특정 class 문서내에서 단어 w가 출현할 확률이다. 밑의 공식은 add one smoothing을 적용한 것이다.
Tumblr media
sentiment작업에서는 단어출현 유무는 중요하나 출현횟수를 중요하지 않을때가 많으므로 출현유무만을 가지고 계산한다. 이런 형태를 binarized (boolean feature) multinomial naive bayes라고 한다.
Tumblr media Tumblr media Tumblr media Tumblr media Tumblr media Tumblr media
7 3 Sentiment Lexicons https://youtu.be/wBE0FE_2ddE
이미 연구자들이 단어들을 다양한 기준을 통해 classify 한 자료들이 많이 있는데 아래에서 확인 할수 있다.
Tumblr media Tumblr media Tumblr media Tumblr media Tumblr media Tumblr media Tumblr media
P(w | c)를 P(w)로 나눠줌으로써 다른 단어와 비교가능하게 할수 있다. 이를 scaled likelihood라고 한다. 
Tumblr media Tumblr media
위 그림을 통해 no, not, never등의 negation 단어들이 negative 문자에 보다 자주 사용된것을 알수 있다. 
7 4 Learning Sentiment Lexicons https://youtu.be/Z7RxBcpyN1U
여기서는 lexicon을 직접 만드는 과정을 보여준다.
Tumblr media Tumblr media
Hatzivassiloglou and McKeown 이 개발한 방법을 여기서는 예제 방법으로 사용한다. 기본 단어와 and, but으로 연결된 새로운 단어들을 추가로 정리해 가는 것이 기본 원리이다.
Tumblr media Tumblr media Tumblr media
플러스는 positive, 녹색은 and로 엮여진 경우, 굵은 선은 많이 엮어진 경우. 적색 점선은 but으로 연결되었던 단어들이다.
Tumblr media
turney algorithm은 연속된 phrase를 이용하는 방법이다. 
우선 단어들을 phrase로 뽑아내고 이 phrase가 positive 단어중의 하나인 excellent와 얼마나 자주 출현하는지 PMI 값을 확인한다. 또 negative 단어와의 PMI값을 구한다. 
이 두값들의 차가 Polarity 값이 된다. polarity 값은 phrase 가 positive에 가까운지 negative에 가까운지를 말해준다. 문서안의 phrase들의 polarity값을 평규내면 문서가 positive 인지 negative인지 알수 있다. 
Tumblr media
첫줄 해설. jj (형용사) 와 nn(명사), nns(복수명사)가 연결된 경우 세번째 단어와는 무관하게 모두 phrase로 추출한다. 
Tumblr media Tumblr media
P(x, y)는 동시에 출현하는 확률, P(x)P(y)는 두 단어가 독립이라고 보고 출현하는 확률이다. 즉 완전 독립된 단어라고 본경우에 비해 얼마나 동시에 출현하는지를 나타내는 비율이다. 
Tumblr media Tumblr media Tumblr media
하나의 문서에 존재하는 다양한 phrase들의 polarity값들을 평균내는 과정이다.
Tumblr media
7 5 Other Sentiment Tasks https://youtu.be/3Eo--0_ocIk
Tumblr media
어떤 항목 (aspects)에 관한 sentiment인지를 확인해 가는 작업
Tumblr media
문서에서 가장 자주 등장하는 단어가 aspect일 가능성이 있다. sentiment 형용사 뒤에 자주 등장하는 단어가 aspect일 가능성이 있다.
Tumblr media
aspect를 위위에서 언급한 방법으로 알수 없는 경우. 손수 labeling하는 경우도 있다. 
Tumblr media Tumblr media
data가 불균형한경우 일부로 맞춰주는 경우도 있을수 있다. 갯수를 낮추어 맞추기도 한다.
Tumblr media Tumblr media
20 notes · View notes