1. Trang chủ
  2. » Công Nghệ Thông Tin

Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)

55 227 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 8,03 MB

Nội dung

Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)

Trang 1

B GIÁO D O

I H C DÂN L P H I PHÒNG -o0o -

ÁN T T NGHI P

Trang 2

B GIÁO D O

I H C DÂN L P H I PHÒNG -o0o -

Trang 3

B GIÁO D O

I H C DÂN L P H I PHÒNG -o0o -

C M XÚC

Nghành : Công Ngh Thông Tin

Sinh viên th c hi n : Nguy n Danh Long

ng d n : Ths Nguy n Th

Mã s sinh viên : 1413101003

Trang 4

Sinh viên : Nguy n Danh Long Mã s : 1413101003

L p: CLT 801 Nghành: Công Ngh Thông Tin

tài : Phát hi n t m m i cho phân tích c m xúc

Trang 7

PH N NH N XÉT TÓM T T C A CÁN B NG D N

ng c tài t t nghi p (so v i n i dung yêu c u ra trong nhi m v tài t t nghi p)

m c a cán b ng d n: m ghi b ng s và ch )

Ngày tháng

Cán b ng d n chính

( Ký, ghi rõ h tên )

Trang 8

Cán b ch m ph n bi n

( Ký, ghi rõ h tên )

Trang 9

M C L C

DANH M C B NG 11

L I C 12

L U 13

NG QUAN V PHÂN M 15

1.1 Nhu c u v m và nh n xét 15

1.2 L ch s c m 17

1.3 M t s nghiên c m 18

nh c m t m 18

1.3.2 S d ng tính t và phó t 19

1.3.3 S d ng t 20

nh chi ng, c m t m 21

1.4 Nhi m v c m 21

1.5 Bài toán phân l m 21

1.5.1 Phân c m và m phân c c 22

1.5.2 Nhi m v c a bài toán phân l m 23

N T M M 25 2.1 Gi i thi 25

28

28

2.2.2 T ng quan thu t toán 28

u ích c a m t m u 29

là các t m i 31

2.3.1 Ki m tra t l thích h p (LRT) 31

2.3.2 Entropy m u bên trái (Left pattern Entropy) 32

2.3.3 Xác xu t c a m t t m i 32

c không c u thành 33

Trang 10

2.3.5 C k t h p các y u t khác nhau 34

2.4 Th c nghi m 35

2.4.1 Chu n b d li u 35

35

v n 36

u ch nh tham s 37

2.4.5 D c m xúc c a các t m m i 37

2.4.6 ng d ng c a các t m m i cho phân tích c m xúc 38

NG D NG TÌM T M M I CHO D LI U TI NG VI T 40

t v 40

41

3.3 Th c nghi m 44

3.3.1 D li u 44

3.3.2 X lý d li u 45

K T LU N 49

PH L C 50

TÀI LI U THAM KH O 55

Trang 12

L I C M

ng d n t n tình cho em trong su t quá trình tìm hi u và th c hi n khóa

lu n này

Em xin chân thành c y, Cô trong Khoa Công ngh Thông

n tình gi ng d y và truy n cho em nh ng ki n th c quý báu cho em trong su t quá trình h c t p và làm lu t nghi p

Em xin chân thành c i các Th y, Cô và các Cán b , Nhân viên

Trang 13

L U

Ngày nay, v i s phát tri n m nh m c a Internet, các hình th c k t n i

và chia s thông tin trong c ng m ng ngày càng phát tri t

thông tin, th o lu n các v và s thích cùng quan tâm M t s m ng xã h i

ph bi n trên th gi , twitter và Vi

o Các bài nh n xét th o luân trên các trang m ng tin t c, d ch v hay các di t hình th c th hi n khác r t phát tri n

c chia s và th o lu n trên các trang m ng xã h i, trên các di c r t nhi u ch t c kinh t , chính tr , xã h

Trang 14

xã h i h ng s d ng l i do theo phong cách ngôn ng riêng

Trang 15

NG QUAN V PHÂN TÍCH

M

Nh ng thông tin nh n xét góp ý t ph n quan tr

thân gi i thi u m t th ng ho c yêu c u tài li u tham kh o liên

lu n tr c tuy n ho c xem xét v m t s n ph m hay d ch v

ch v không

tuy

Rainie và Horrigan nghiên c i M - trên 60 tri i - 2006

i thu th p thông tin v

Trang 16

t r ng h u h t các trang web mà h s d chia s

ng ph n l n các trang web mà h s d ng thách

th m c a h , ch ra r ng nhi i không ch n là tìm ki

Trang 17

Vi t Nam: các m ng xã h

i dùng tham gia

n chia s kinh nghi m và nh n xét c a riêng h

ch c c hay tiêu c c Khi các công ty l n ra,

nh ng ti ng nói c i tiêu dùng có th v n d ng r t l n ng trong

vi c hình thành nh n xét c

hi u c a h Công ty có th ng v i nh i tiêu

Tuy nhiên, các nhà phân tích ngành công nghi ng vi c t n

Trang 18

c máy, x lý ngôn ng t nhiên

và khôi ph c thông tin

Trang 19

t , c m t này là nh ng chìa khóa cho công vi c nh n bi t và phân lo i tài li

ng d ng d a trên h th m hi n nay t p trung vào các t ch n i dung câu: danh t ng t , tính t và phó t Ph n l n công

vi c s d ng t lo rút chúng ra (Hu và Liu, 2004, Turney, 2002) Vi c gán nhãn t lo c s d ng trong công vi u này có th giúp

Trang 20

Nasukawa và Yi (2003) xem xét r ng bên c nh các tính t và phó t ,

lo i Lo i th nh t tr c ti p th hi m tích c c hay tiêu c c, theo lý

(Manning and Schutze, 1999) và phân tích cú pháp nông d a trên lu t (Neff et

c ti n x lý Sa phân tích tính ph thu c v m t cú pháp gi a các c m t và tìm ki m các c m t có m t t ch m mà nó

Trang 21

Khi nghiên c u m ng, hi ng, chúng ta ch có th d a vào

Trang 22

t nó v i vi c phân lo i ch theo truy n thtrong khi nh ng ch c nh n d ng b i nh ng t ng m t

Trang 23

-Liberal/conservative

-VD: Thông qua

Rating inference (ordinal regression

positive, negative, neutral positive negative.

neutral

negative

t nhi u ti p c c nghiên c gi i quy t cho

lo th c hi n, v n có th chia thành hai nhi m v

Trang 24

- m khai thác các thông tin ch m

- Xây d phân l p các tài li u.

Trang 25

N T M I CHO PHÂN

M

T ng trích các t m i là s c n thi c tiên cho m t s nhi m v

x lý ngôn ng t (ngôn ng Ti ng Trung, Ti ng Vi t), trích tên c a th c th và phân tích tình c m

lo i POS, và không yêu c u ph i xây d ng quy t c ngôn ng Các tác gi

ch ng minh t c m xúc m) m i s mang l i l i ích trong phân tích

Tuy nhiên, nh ng t m o ra nh ng thách th c cho m t

s nhi m v x lý trong ngôn ng t nhiên Vi c t ng trích các t m i là không th thi i v i nhi u công vi n t (Ti ng Trung hay

Ti ng Vi t ), d ch máy, trích xu t th c th có tên, h i và tr l i, và phân tích

c m Phát hi n t m i là m t trong nh ng vquan tr ng nh t trong tách t Ti ng Trung Các nghiên c u g

Trang 26

m i Th ng kê cho th m i ti ng Trung xu t hi n m i

u Thesaurus, 2003) Các t này là nh ng thu t ng

k thu t ch y u và là các t nh y c m v i th i, chính tr Ph n l n các t c nh n d ng chính xác b i các thu t toán tách t , và nó n m ngoài các mi n t v ng

trích các c m t ch m và phân lo i m m (tích c c, tiêu c c hay trung l p) M t c m t c m xúc v t ranh

gi i chính xác, tuy nhiên, các ký t trong m t t m i có th c chia nh

Ví d , trong m t câu " / n / adv / v / n artists' performance is very impressive Bi u di n c a các ngh r t ng)" hai

ký t /v /n (cool; powerful tuy t v i, m nh m ) nên c trích cùngnhau Trong phân lo i m c m xúc, các t m i có th

thông tin cho các mô hình phân lo i Trong ví d c " ( cool; powerful tuy t v i, m nh m nh cho các mô hình phân lo i trong khi m i m t t c l i Vi c thêm các t m là m c trong mô hình phân lo i s c i thi n hi u su t c a phân lo m.Trong bài báo này, các tác gi c bi n trích xu t t c m xúc m i có th bày t ý ki n hay c m xúc, các t này có giá tr cao cho bài

(Pointwise Mutual Information) (Church và Hanks, 1990), Xác su u ki n (da Silva and Lopes, 1999), K v (Mutual Expectation) (Dias et al., 2000),

ng (Enhanced Mutual Information) (Zhang et al.,

Trang 27

2009), và Kho ng cách th hi n gi a nhi u t (Multiword Expression Distance) (Bu etal., 2010).

ki m nhi u t m i, và các t m i có kh t có th c thêm vào t

h t gi ng c n thi t cho s p theo

Quá trình này có th c l p l n khi g p u ki n d ng

c thi t l p Các v chính là làm th nào s h u ích c a m t

xu t m t framework m phát hi n t m i t d li u l n i dùng t o ra Framework này là hoàn toàn không có giám sát và hoàn toàn do

d li u khi n, và ch c n nghu n ngôn ng r t ít thông tin (ví d , ch g m thông tin gán nhãn t lo i - POS )

ng kh a m t t là m t t m ng Không s d ng quy

t c ngôn ng c n thi t l c các k t qu không mong mu n có

th cho phép ti p c n áp d c cho các ngôn ng khác

Trang 28

Phân tích các v c a d m q m c a m t t c m xúc m i và ch ng minh s bao g m c a t m m i mang l i l i ích

2.2.2 T ng quan thu t toán

Thu t toán làm vi

Trang 29

B u t m t t p r t nh các t gi ng (ví d ng 1), thu t toán

có th tìm các m u có k t h p th ng kê v i các t gi ng khi s d ng Ki m tra

t l thích h p (likelihood ratio test LRT) nh m c a s k t

Trang 30

3, khi là s tài li u w phù h p v i m u p, là s tài li u w

xu t hi n mà p thì không t n t i, là s ng tài li u mà p xu t hi ntrong khi w không có, và là s tài li u w và m u không có

p các t gi ng hi n t i s d ng trong thu t toán

Thu t toán 1: Thu t toán phát hi n t m i

Input:

D: là m t t p l n ch a các bình lu c gán nhãn

Trang 32

p m u hi n t c s d ng trong thu t toán 1, và pilà

Trang 33

c u thành (non-compositionality) ng h p này, m i ký t có xác xu t cao có th là t m c n s d ng

1w2 n, m i wi là m t ký t , và là xác

xu m t ký t tr thành m t t

là t ng s l n xu t hi n c a wi

là t ng s l n xu t hi n c a wi là m t ký t tchúng ta s d ng m t s công c tách t ti ng Trung

các bình lu n trong m i bi u hi n c a nhi u t

xu t hi n là s các bình lu n mà wixu t hi n

N là t ng s các bình lu n

Trang 34

cùng xu t hi ng th i

là t p các tài li i t w xu t hi n toàn b ,N: là t ng s tài li u

Trang 35

các m u t v c mô t trong thu t toán 1.

c yêu c u l a ch n có hay không m t t ng c là

Trang 36

K là s các t p h ng M t danh sách hoàn h o (t t c K t t giá tr AP b ng 1.0.

(EMI) Chúng tôi thi t l p

n th hai là kho ng cách th hi n nhi u t chu n hóa (NMED) (Bu et al., 2010), chúng tôi thi t l p

su t t m i (NWP) ch cho vi c c i thi n này

Trong các th c nghi m trên, các tác gi thi t l p kp = 5 (s ng các

m c l a ch n t i m i l n l p) và kw= 10 (s t b sung m i l n l p),

t l p t c th o lu n trong ph n ti p theo Và ch có

Trang 38

Pr(.) là xác xu t

N u PMI(w) > th2thì w là tích c c, n u PMI(w) < -th2thì w là tiêu c c

c l i là trung l ng th2 c thi t l p b ng tay

r ng các mô hình d a trên t v i ph i có s ng c m xúc c a

m i m c t n, chúng ta gán nhãn b ng tay cho 100 t u tiên K t qu tr

v là 52 t tích c c và 34 t tiêu c c

Trang 39

K t qu b ng 4 cho th y thêm các t m i trong c u

c i thi n hi u su t m Trong các thi t l p c a t v ng g c (Hownet), c hai mô h - chính xác khi thêm các t m

t c t ng l y t thu nó có th ch a các t mà không ph i là

t c m xúc m i thi hi u xu t c a các ngu n tài nguyên

Trang 40

a chi n tho i này r

n tho i này trông ng

th hi u r ng nó ng ý cho ta th n tho i này pin r t b n

chúng tôi áp d ng thu t toán do Minlie Huang và các c ng s xu t

Trang 41

Trong thu xu t m t s u ch nh cho phù

h p v i d li u ti ng Vi t

pháp Các t lo i trong gán nhãn t lo i cho ti ng Vi t:

4 Nu Danh t Mét, cân, gi , n m, nhúm, hào, xu, ng

Trang 42

Internet, email, video, chat

ng t ho c tính t khá, s , r

Trang 43

(tr t ) Các t là tr t hay các tình thái t , ho c d u

ng t câu bao g m á, , y, ch c,

-1 (M u t v ng) Chúng ta s d ng m u t v tphát hi n ra các t m m i Xét theo khía c nh ngôn ng Ti ng Vi t,

Trang 44

tính xách tay, tablet, máy nh, truy c thu th p t m t s di

k thu t Vi

Ti n x lý d li u: lo i b nh ng t không có d u, các l i chính ttrong các bình lu n

D li u bao g m 6000 bình lu n S d ng các công c tách t ti ng

Vi t, gán nhãn t lo làm d li u vào cho thu t toán

M t s bình lu n:

n tho i ph thông cho nh i l n tu i (cô, bác, b ,

m ) ho c cho tr con (cháu, em) thì mình v n ch

Smartphone thì Nokia không còn là m t s l a ch n n a, k t khi mình bNokia cho n m m

Trang 45

n n còn cái sim1 b lock m ng mobi thì sau 1 nhiên nó t unlock ch ch hi u th nào nên gi

viettel còn con sim 3g v t xó

ng ng gì nên ch ng quan tâm l m.máy v n ch ng

ng l y l i th ph n, nhi u con kh thi gh m

y s n ph m nào th c s hoàn h o cSim c , v n có thi u sót! A em c g ng góp ý nhi t tình r i ph n h i v i Nokia VN!

mình m c em này v t nguy nkim r t hài lòng v

tìm th y máy ch ' hic bác nào bi t giúp minh v i có ai bi t up rom con nay không?

D li u l c sau khi s d ng công c tách t vntokenizer :

n_tho i ph _thông cho nh i l n_tu i ( cô , bác ,

b , m ) ho c cho tr _con ( cháu , em ) thì mình v n ch

mua Smartphone thì Nokia không còn là m t s l a_ch n n a , k t khi mình

Trang 46

_nhiên nó t unlock ch ch hi u th _nào nên gi

u màu Mùa_hè nhìn ch c nóng l

u t i_sao l i v y ! Chi c 201 th c_t là

b n_sao c a 200 l i h _tr , ph ng cung_ ng ! haiz

y s n_ph m nào th c_s hoàn_h o c a Nokia có , v n có thi u_sót ! A em c _g ng góp_ý nhi t_tình r i

ph n_h i v i Nokia VN !

mình m c em này v t nguy nkim r t hài_lòng v

khi mình k t_n i wifi máy báo t c 50% báo ' không tìm th y máy_ch ' hic bác nào bi t giúp minh v i có ai bi t up rom con nay không ?

1-avio 2 - có wifi , em toàn nghe online v i down nh c qua wifi không àh

D li u l c sau khi s d ng công c gán nhãn t lo i vntagger :

Trang 47

n/N _/M tho i/N ph /V _/M thông/N cho/E nh ng/L i_l n/N _/M tu i/N (/M cô/N ,/, bác/N ,/, b /N ,/, m /N )/V ho c/CC cho/V tr /A _/M con/Nc (/N cháu/N ,/, em/N )/A thì/C mình/P v n/R ch n/V

là/V m t/M s /Nc l a/V _/A ch n/V n a/R ,/, k /V t /E khi/N mình/P b /V Nokia/Np cho/V n m/V m ng/A "/" là/V N96/Np ,/, N97/Np

u/V _/N vãn/V c/R /

/E cái/Nc th i/N còn/R 2tr190k/M gi /Nu nó/P gi m/V còn/R có/V ~/N 800k/M theo/E nh n/V _/N xét/V c a/E em/N là/V con/N này/P (/M ~/Nu 800k/M ch /C lúc/N em/N mua/V là/V ~/M 2m2/M thì/C chát/A quá/R )/A wifi/V nhà/N n/A ,/, xài/V viettel/N gprs/V

~/N 5-10kb/M //X s/A ,/, còn/C 3g/M thì/C ~/M 45kb/M //X s/N nói/V _/N

-4/M l n/N

cái/Nc sim/N 1/M b /V lock/V m ng/N mobi/V thì/C sau/N

t /P _/M nhiên/N nó/P t /P unlock/V ch /C ch /R hi u/V th /P _/M nào/P nên/C gi

n/R trung/V _/M thành/N ,/, kh ng/N th /R gió/N chi u/N nào/P hùa/V theo/E chi

Trang 48

khá/R nhi u/A màu/N / Mùa/N _/M hè/N nhìn/V ch c/A nóng/A l m/R

i u/V t i/E _/M sao/N l i/R v y/P !/! Chi c/Nc 201/M th c/N _/Np t /V là/V b n/N _/M sao/N c a/E 200/M l i/R

ph m/N nào/P th c/V _/M s /Nc hoàn/V _/A h o/V c a/E Nokia/Np có/V

/T ,/, v n/R có/V thi u/A _/A sót/V !/! A/I em/N c /V _/M g ng/N góp/V _/M ý/N nhi t/N _/M tình/N r i/C ph n/V _/M

h i/N v i/E Nokia/Np VN/Np !/!

mình/P m c/V em/N này/P v /V t /E nguy nkim/N r t/R hài/A

báo/N '/V không/R tìm/V th y/V máy/N _/M ch /N '/N hic/V bác/N nào/P

bi t/V giúp/V minh/N v i/E / có/V ai/P bi t/V up/V rom/N con/N nay/P không/R ?/?

nói/V _/N chung/A là/C em/N v n/R thích/V con/Nc FPT/Np này/P

em/N toàn/R nghe/V online/V v i/E down/N nh c/N qua/V wifi/N không/R àh/V

Trang 49

K T LU N

c m t s k t qu

m và các v t ra v i bài toán này

Tìm hi u v gán nhãn t lo i cho Ti ng Vi t và m t s m ngôn ng ti ng Vi t a ch xu t cho ng d ng tìm

t m m i cho d li u Ti ng vi t

Phân tích d li u thu th p t các bình lu n trên các trang m ng

xã h i, ti n x lý d li u, tách và gán nhãn t lo chu n b d

li u cho th c nghi m

tài v i nh ng n i dung ki n th c hoàn toàn m i v i em nên vi c

c tài li u, trình bày và tìm hi u ng d ng là m t thách th c không nh Do

Trong m t kho ng th i gian có h n, nên vi c phát tri n trình bày v

c không tránh kh i nh ng thi u sót Em r t mong nh n

Em xin thân thành c

Trang 50

- vnTokenizer.sh n u ch y trên các h u hành Linux/Unix/Mac OS

- vnTokenizer.bat n u ch y trên các h u hành MS Windows

Yêu c u: Máy c n cài JRE (Java Runtime Environment) phiên b n 1.6 JRE có th t i v t a ch website Java c a Sun Microsystems: http://java.sun.com/

II) D LI U

Trong m t l n ch y vnTokenizer có th tách t m t t p ho ng th i nhi u t p n m trong cùng m c

Trang 51

t kì, ví d ".seg" b ng tùy ch n -e c a dòng l nh (xem ví d

-sd: s d ng mô- c khi th c hi n tách t N u tùy ch n

c s d c tiên vnTokenizer th c hi n input thành m t t c hi n tách t t ng câu m t M nh thì mô- c s d ng, vnTokenizer th c hi n tách t trên toàn

ra k t qu mong mu n

Ví d :

a) vnTokenizer.sh -i samples/test0.txt -o samples/test0.tok.txt

Tách t t p samples/test0.txt và ghi k t qu vào t p samples/test0.tok.txt

b) vnTokenizer.sh -i samples/test0.txt -o samples/test0.tok.xml -xo

p k t qu samples/test0.tok.xml s nh

d ng XML

Ngày đăng: 25/02/2018, 07:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w