#boolean feature multinomial naive beyes | Explore Tumblr posts and blogs

jacob-cs · 6 years ago

Text

Natural Language Processing | Dan Jurafsky, Christopher Manning 7강

7 1 What is Sentiment Analysis https://youtu.be/vy0HC5H-484

7 2 Sentiment Analysis A baseline algorithm https://youtu.be/Dgqt62RQMaY

negation을 처리하는 한가지 예이다.

P(cj)는 특정 class의 문서가 출현할 확률이다. P(wi | cj)는 특정 class 문서내에서 단어 w가 출현할 확률이다. 밑의 공식은 add one smoothing을 적용한 것이다.

sentiment작업에서는 단어출현 유무는 중요하나 출현횟수를 중요하지 않을때가 많으므로 출현유무만을 가지고 계산한다. 이런 형태를 binarized (boolean feature) multinomial naive bayes라고 한다.

7 3 Sentiment Lexicons https://youtu.be/wBE0FE_2ddE

이미 연구자들이 단어들을 다양한 기준을 통해 classify 한 자료들이 많이 있는데 아래에서 확인 할수 있다.

P(w | c)를 P(w)로 나눠줌으로써 다른 단어와 비교가능하게 할수 있다. 이를 scaled likelihood라고 한다.

위 그림을 통해 no, not, never등의 negation 단어들이 negative 문자에 보다 자주 사용된것을 알수 있다.

7 4 Learning Sentiment Lexicons https://youtu.be/Z7RxBcpyN1U

여기서는 lexicon을 직접 만드는 과정을 보여준다.

Hatzivassiloglou and McKeown 이 개발한 방법을 여기서는 예제 방법으로 사용한다. 기본 단어와 and, but으로 연결된 새로운 단어들을 추가로 정리해 가는 것이 기본 원리이다.

플러스는 positive, 녹색은 and로 엮여진 경우, 굵�� 선은 많이 엮어진 경우. 적색 점선은 but으로 연결되었던 단어들이다.

turney algorithm은 연속된 phrase를 이용하는 방법이다.

우선 단어들을 phrase로 뽑아내고 이 phrase가 positive 단어중의 하나인 excellent와 얼마나 자주 출현하는지 PMI 값을 확인한다. 또 negative 단어와의 PMI값을 구한다.

이 두값들의 차가 Polarity 값이 된다. polarity 값은 phrase 가 positive에 가까운지 negative에 가까운지를 말해준다. 문서안의 phrase들의 polarity값을 평규내면 문서가 positive 인지 negative인지 알수 있다.

첫줄 해설. jj (형용사) 와 nn(명사), nns(복수명사)가 연결된 경우 세번째 단어와는 무관하게 모두 phrase로 추출한다.

P(x, y)는 동시에 출현하는 확률, P(x)P(y)는 두 단어가 독립이라고 보고 출현하는 확률이다. 즉 완전 독립된 단어라고 본경우에 비해 얼마나 동시에 출현하는지를 나타내는 비율이다.

하나의 문서에 존재하는 다양한 phrase들의 polarity값들을 평균내는 과정이다.

7 5 Other Sentiment Tasks https://youtu.be/3Eo--0_ocIk

어떤 항목 (aspects)에 관한 sentiment인지를 확인해 가는 작업

문서에서 가장 자주 등장하는 단어가 aspect일 가능성이 있다. sentiment 형용사 뒤에 자주 등장하는 단어가 aspect일 가능성이 있다.

aspect를 위위에서 언급한 방법으로 알수 없는 경우. 손수 labeling하는 경우도 있다.

data가 불균형한경우 일부로 맞춰주는 경우도 있을수 있다. 갯수를 낮추어 맞추기도 한다.

20 notes · View notes