Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)Phát hiện từ quan điểm mới cho phân tích cảm xúc (Đồ án tốt nghiệp)
Trang 1B GIÁO D O
I H C DÂN L P H I PHÒNG -o0o -
ÁN T T NGHI P
Trang 2B GIÁO D O
I H C DÂN L P H I PHÒNG -o0o -
Trang 3B GIÁO D O
I H C DÂN L P H I PHÒNG -o0o -
C M XÚC
Nghành : Công Ngh Thông Tin
Sinh viên th c hi n : Nguy n Danh Long
ng d n : Ths Nguy n Th
Mã s sinh viên : 1413101003
Trang 4Sinh viên : Nguy n Danh Long Mã s : 1413101003
L p: CLT 801 Nghành: Công Ngh Thông Tin
tài : Phát hi n t m m i cho phân tích c m xúc
Trang 7PH N NH N XÉT TÓM T T C A CÁN B NG D N
ng c tài t t nghi p (so v i n i dung yêu c u ra trong nhi m v tài t t nghi p)
m c a cán b ng d n: m ghi b ng s và ch )
Ngày tháng
Cán b ng d n chính
( Ký, ghi rõ h tên )
Trang 8Cán b ch m ph n bi n
( Ký, ghi rõ h tên )
Trang 9M C L C
DANH M C B NG 11
L I C 12
L U 13
NG QUAN V PHÂN M 15
1.1 Nhu c u v m và nh n xét 15
1.2 L ch s c m 17
1.3 M t s nghiên c m 18
nh c m t m 18
1.3.2 S d ng tính t và phó t 19
1.3.3 S d ng t 20
nh chi ng, c m t m 21
1.4 Nhi m v c m 21
1.5 Bài toán phân l m 21
1.5.1 Phân c m và m phân c c 22
1.5.2 Nhi m v c a bài toán phân l m 23
N T M M 25 2.1 Gi i thi 25
28
28
2.2.2 T ng quan thu t toán 28
u ích c a m t m u 29
là các t m i 31
2.3.1 Ki m tra t l thích h p (LRT) 31
2.3.2 Entropy m u bên trái (Left pattern Entropy) 32
2.3.3 Xác xu t c a m t t m i 32
c không c u thành 33
Trang 102.3.5 C k t h p các y u t khác nhau 34
2.4 Th c nghi m 35
2.4.1 Chu n b d li u 35
35
v n 36
u ch nh tham s 37
2.4.5 D c m xúc c a các t m m i 37
2.4.6 ng d ng c a các t m m i cho phân tích c m xúc 38
NG D NG TÌM T M M I CHO D LI U TI NG VI T 40
t v 40
41
3.3 Th c nghi m 44
3.3.1 D li u 44
3.3.2 X lý d li u 45
K T LU N 49
PH L C 50
TÀI LI U THAM KH O 55
Trang 12L I C M
ng d n t n tình cho em trong su t quá trình tìm hi u và th c hi n khóa
lu n này
Em xin chân thành c y, Cô trong Khoa Công ngh Thông
n tình gi ng d y và truy n cho em nh ng ki n th c quý báu cho em trong su t quá trình h c t p và làm lu t nghi p
Em xin chân thành c i các Th y, Cô và các Cán b , Nhân viên
Trang 13L U
Ngày nay, v i s phát tri n m nh m c a Internet, các hình th c k t n i
và chia s thông tin trong c ng m ng ngày càng phát tri t
thông tin, th o lu n các v và s thích cùng quan tâm M t s m ng xã h i
ph bi n trên th gi , twitter và Vi
o Các bài nh n xét th o luân trên các trang m ng tin t c, d ch v hay các di t hình th c th hi n khác r t phát tri n
c chia s và th o lu n trên các trang m ng xã h i, trên các di c r t nhi u ch t c kinh t , chính tr , xã h
Trang 14xã h i h ng s d ng l i do theo phong cách ngôn ng riêng
Trang 15NG QUAN V PHÂN TÍCH
M
Nh ng thông tin nh n xét góp ý t ph n quan tr
thân gi i thi u m t th ng ho c yêu c u tài li u tham kh o liên
lu n tr c tuy n ho c xem xét v m t s n ph m hay d ch v
ch v không
tuy
Rainie và Horrigan nghiên c i M - trên 60 tri i - 2006
i thu th p thông tin v
Trang 16t r ng h u h t các trang web mà h s d chia s
ng ph n l n các trang web mà h s d ng thách
th m c a h , ch ra r ng nhi i không ch n là tìm ki
Trang 17Vi t Nam: các m ng xã h
i dùng tham gia
n chia s kinh nghi m và nh n xét c a riêng h
ch c c hay tiêu c c Khi các công ty l n ra,
nh ng ti ng nói c i tiêu dùng có th v n d ng r t l n ng trong
vi c hình thành nh n xét c
hi u c a h Công ty có th ng v i nh i tiêu
Tuy nhiên, các nhà phân tích ngành công nghi ng vi c t n
Trang 18c máy, x lý ngôn ng t nhiên
và khôi ph c thông tin
Trang 19t , c m t này là nh ng chìa khóa cho công vi c nh n bi t và phân lo i tài li
ng d ng d a trên h th m hi n nay t p trung vào các t ch n i dung câu: danh t ng t , tính t và phó t Ph n l n công
vi c s d ng t lo rút chúng ra (Hu và Liu, 2004, Turney, 2002) Vi c gán nhãn t lo c s d ng trong công vi u này có th giúp
Trang 20Nasukawa và Yi (2003) xem xét r ng bên c nh các tính t và phó t ,
lo i Lo i th nh t tr c ti p th hi m tích c c hay tiêu c c, theo lý
(Manning and Schutze, 1999) và phân tích cú pháp nông d a trên lu t (Neff et
c ti n x lý Sa phân tích tính ph thu c v m t cú pháp gi a các c m t và tìm ki m các c m t có m t t ch m mà nó
Trang 21Khi nghiên c u m ng, hi ng, chúng ta ch có th d a vào
Trang 22t nó v i vi c phân lo i ch theo truy n thtrong khi nh ng ch c nh n d ng b i nh ng t ng m t
Trang 23-Liberal/conservative
-VD: Thông qua
Rating inference (ordinal regression
positive, negative, neutral positive negative.
neutral
negative
t nhi u ti p c c nghiên c gi i quy t cho
lo th c hi n, v n có th chia thành hai nhi m v
Trang 24- m khai thác các thông tin ch m
- Xây d phân l p các tài li u.
Trang 25N T M I CHO PHÂN
M
T ng trích các t m i là s c n thi c tiên cho m t s nhi m v
x lý ngôn ng t (ngôn ng Ti ng Trung, Ti ng Vi t), trích tên c a th c th và phân tích tình c m
lo i POS, và không yêu c u ph i xây d ng quy t c ngôn ng Các tác gi
ch ng minh t c m xúc m) m i s mang l i l i ích trong phân tích
Tuy nhiên, nh ng t m o ra nh ng thách th c cho m t
s nhi m v x lý trong ngôn ng t nhiên Vi c t ng trích các t m i là không th thi i v i nhi u công vi n t (Ti ng Trung hay
Ti ng Vi t ), d ch máy, trích xu t th c th có tên, h i và tr l i, và phân tích
c m Phát hi n t m i là m t trong nh ng vquan tr ng nh t trong tách t Ti ng Trung Các nghiên c u g
Trang 26m i Th ng kê cho th m i ti ng Trung xu t hi n m i
u Thesaurus, 2003) Các t này là nh ng thu t ng
k thu t ch y u và là các t nh y c m v i th i, chính tr Ph n l n các t c nh n d ng chính xác b i các thu t toán tách t , và nó n m ngoài các mi n t v ng
trích các c m t ch m và phân lo i m m (tích c c, tiêu c c hay trung l p) M t c m t c m xúc v t ranh
gi i chính xác, tuy nhiên, các ký t trong m t t m i có th c chia nh
Ví d , trong m t câu " / n / adv / v / n artists' performance is very impressive Bi u di n c a các ngh r t ng)" hai
ký t /v /n (cool; powerful tuy t v i, m nh m ) nên c trích cùngnhau Trong phân lo i m c m xúc, các t m i có th
thông tin cho các mô hình phân lo i Trong ví d c " ( cool; powerful tuy t v i, m nh m nh cho các mô hình phân lo i trong khi m i m t t c l i Vi c thêm các t m là m c trong mô hình phân lo i s c i thi n hi u su t c a phân lo m.Trong bài báo này, các tác gi c bi n trích xu t t c m xúc m i có th bày t ý ki n hay c m xúc, các t này có giá tr cao cho bài
(Pointwise Mutual Information) (Church và Hanks, 1990), Xác su u ki n (da Silva and Lopes, 1999), K v (Mutual Expectation) (Dias et al., 2000),
ng (Enhanced Mutual Information) (Zhang et al.,
Trang 272009), và Kho ng cách th hi n gi a nhi u t (Multiword Expression Distance) (Bu etal., 2010).
ki m nhi u t m i, và các t m i có kh t có th c thêm vào t
h t gi ng c n thi t cho s p theo
Quá trình này có th c l p l n khi g p u ki n d ng
c thi t l p Các v chính là làm th nào s h u ích c a m t
xu t m t framework m phát hi n t m i t d li u l n i dùng t o ra Framework này là hoàn toàn không có giám sát và hoàn toàn do
d li u khi n, và ch c n nghu n ngôn ng r t ít thông tin (ví d , ch g m thông tin gán nhãn t lo i - POS )
ng kh a m t t là m t t m ng Không s d ng quy
t c ngôn ng c n thi t l c các k t qu không mong mu n có
th cho phép ti p c n áp d c cho các ngôn ng khác
Trang 28Phân tích các v c a d m q m c a m t t c m xúc m i và ch ng minh s bao g m c a t m m i mang l i l i ích
2.2.2 T ng quan thu t toán
Thu t toán làm vi
Trang 29B u t m t t p r t nh các t gi ng (ví d ng 1), thu t toán
có th tìm các m u có k t h p th ng kê v i các t gi ng khi s d ng Ki m tra
t l thích h p (likelihood ratio test LRT) nh m c a s k t
Trang 303, khi là s tài li u w phù h p v i m u p, là s tài li u w
xu t hi n mà p thì không t n t i, là s ng tài li u mà p xu t hi ntrong khi w không có, và là s tài li u w và m u không có
p các t gi ng hi n t i s d ng trong thu t toán
Thu t toán 1: Thu t toán phát hi n t m i
Input:
D: là m t t p l n ch a các bình lu c gán nhãn
Trang 32p m u hi n t c s d ng trong thu t toán 1, và pilà
Trang 33c u thành (non-compositionality) ng h p này, m i ký t có xác xu t cao có th là t m c n s d ng
1w2 n, m i wi là m t ký t , và là xác
xu m t ký t tr thành m t t
là t ng s l n xu t hi n c a wi
là t ng s l n xu t hi n c a wi là m t ký t tchúng ta s d ng m t s công c tách t ti ng Trung
các bình lu n trong m i bi u hi n c a nhi u t
xu t hi n là s các bình lu n mà wixu t hi n
N là t ng s các bình lu n
Trang 34cùng xu t hi ng th i
là t p các tài li i t w xu t hi n toàn b ,N: là t ng s tài li u
Trang 35các m u t v c mô t trong thu t toán 1.
c yêu c u l a ch n có hay không m t t ng c là
Trang 36K là s các t p h ng M t danh sách hoàn h o (t t c K t t giá tr AP b ng 1.0.
(EMI) Chúng tôi thi t l p
n th hai là kho ng cách th hi n nhi u t chu n hóa (NMED) (Bu et al., 2010), chúng tôi thi t l p
su t t m i (NWP) ch cho vi c c i thi n này
Trong các th c nghi m trên, các tác gi thi t l p kp = 5 (s ng các
m c l a ch n t i m i l n l p) và kw= 10 (s t b sung m i l n l p),
t l p t c th o lu n trong ph n ti p theo Và ch có
Trang 38Pr(.) là xác xu t
N u PMI(w) > th2thì w là tích c c, n u PMI(w) < -th2thì w là tiêu c c
c l i là trung l ng th2 c thi t l p b ng tay
r ng các mô hình d a trên t v i ph i có s ng c m xúc c a
m i m c t n, chúng ta gán nhãn b ng tay cho 100 t u tiên K t qu tr
v là 52 t tích c c và 34 t tiêu c c
Trang 39K t qu b ng 4 cho th y thêm các t m i trong c u
c i thi n hi u su t m Trong các thi t l p c a t v ng g c (Hownet), c hai mô h - chính xác khi thêm các t m
t c t ng l y t thu nó có th ch a các t mà không ph i là
t c m xúc m i thi hi u xu t c a các ngu n tài nguyên
Trang 40a chi n tho i này r
n tho i này trông ng
th hi u r ng nó ng ý cho ta th n tho i này pin r t b n
chúng tôi áp d ng thu t toán do Minlie Huang và các c ng s xu t
Trang 41Trong thu xu t m t s u ch nh cho phù
h p v i d li u ti ng Vi t
pháp Các t lo i trong gán nhãn t lo i cho ti ng Vi t:
4 Nu Danh t Mét, cân, gi , n m, nhúm, hào, xu, ng
Trang 42Internet, email, video, chat
ng t ho c tính t khá, s , r
Trang 43(tr t ) Các t là tr t hay các tình thái t , ho c d u
ng t câu bao g m á, , y, ch c,
-1 (M u t v ng) Chúng ta s d ng m u t v tphát hi n ra các t m m i Xét theo khía c nh ngôn ng Ti ng Vi t,
Trang 44tính xách tay, tablet, máy nh, truy c thu th p t m t s di
k thu t Vi
Ti n x lý d li u: lo i b nh ng t không có d u, các l i chính ttrong các bình lu n
D li u bao g m 6000 bình lu n S d ng các công c tách t ti ng
Vi t, gán nhãn t lo làm d li u vào cho thu t toán
M t s bình lu n:
n tho i ph thông cho nh i l n tu i (cô, bác, b ,
m ) ho c cho tr con (cháu, em) thì mình v n ch
Smartphone thì Nokia không còn là m t s l a ch n n a, k t khi mình bNokia cho n m m
Trang 45n n còn cái sim1 b lock m ng mobi thì sau 1 nhiên nó t unlock ch ch hi u th nào nên gi
viettel còn con sim 3g v t xó
ng ng gì nên ch ng quan tâm l m.máy v n ch ng
ng l y l i th ph n, nhi u con kh thi gh m
y s n ph m nào th c s hoàn h o cSim c , v n có thi u sót! A em c g ng góp ý nhi t tình r i ph n h i v i Nokia VN!
mình m c em này v t nguy nkim r t hài lòng v
tìm th y máy ch ' hic bác nào bi t giúp minh v i có ai bi t up rom con nay không?
D li u l c sau khi s d ng công c tách t vntokenizer :
n_tho i ph _thông cho nh i l n_tu i ( cô , bác ,
b , m ) ho c cho tr _con ( cháu , em ) thì mình v n ch
mua Smartphone thì Nokia không còn là m t s l a_ch n n a , k t khi mình
Trang 46_nhiên nó t unlock ch ch hi u th _nào nên gi
u màu Mùa_hè nhìn ch c nóng l
u t i_sao l i v y ! Chi c 201 th c_t là
b n_sao c a 200 l i h _tr , ph ng cung_ ng ! haiz
y s n_ph m nào th c_s hoàn_h o c a Nokia có , v n có thi u_sót ! A em c _g ng góp_ý nhi t_tình r i
ph n_h i v i Nokia VN !
mình m c em này v t nguy nkim r t hài_lòng v
khi mình k t_n i wifi máy báo t c 50% báo ' không tìm th y máy_ch ' hic bác nào bi t giúp minh v i có ai bi t up rom con nay không ?
1-avio 2 - có wifi , em toàn nghe online v i down nh c qua wifi không àh
D li u l c sau khi s d ng công c gán nhãn t lo i vntagger :
Trang 47n/N _/M tho i/N ph /V _/M thông/N cho/E nh ng/L i_l n/N _/M tu i/N (/M cô/N ,/, bác/N ,/, b /N ,/, m /N )/V ho c/CC cho/V tr /A _/M con/Nc (/N cháu/N ,/, em/N )/A thì/C mình/P v n/R ch n/V
là/V m t/M s /Nc l a/V _/A ch n/V n a/R ,/, k /V t /E khi/N mình/P b /V Nokia/Np cho/V n m/V m ng/A "/" là/V N96/Np ,/, N97/Np
u/V _/N vãn/V c/R /
/E cái/Nc th i/N còn/R 2tr190k/M gi /Nu nó/P gi m/V còn/R có/V ~/N 800k/M theo/E nh n/V _/N xét/V c a/E em/N là/V con/N này/P (/M ~/Nu 800k/M ch /C lúc/N em/N mua/V là/V ~/M 2m2/M thì/C chát/A quá/R )/A wifi/V nhà/N n/A ,/, xài/V viettel/N gprs/V
~/N 5-10kb/M //X s/A ,/, còn/C 3g/M thì/C ~/M 45kb/M //X s/N nói/V _/N
-4/M l n/N
cái/Nc sim/N 1/M b /V lock/V m ng/N mobi/V thì/C sau/N
t /P _/M nhiên/N nó/P t /P unlock/V ch /C ch /R hi u/V th /P _/M nào/P nên/C gi
n/R trung/V _/M thành/N ,/, kh ng/N th /R gió/N chi u/N nào/P hùa/V theo/E chi
Trang 48khá/R nhi u/A màu/N / Mùa/N _/M hè/N nhìn/V ch c/A nóng/A l m/R
i u/V t i/E _/M sao/N l i/R v y/P !/! Chi c/Nc 201/M th c/N _/Np t /V là/V b n/N _/M sao/N c a/E 200/M l i/R
ph m/N nào/P th c/V _/M s /Nc hoàn/V _/A h o/V c a/E Nokia/Np có/V
/T ,/, v n/R có/V thi u/A _/A sót/V !/! A/I em/N c /V _/M g ng/N góp/V _/M ý/N nhi t/N _/M tình/N r i/C ph n/V _/M
h i/N v i/E Nokia/Np VN/Np !/!
mình/P m c/V em/N này/P v /V t /E nguy nkim/N r t/R hài/A
báo/N '/V không/R tìm/V th y/V máy/N _/M ch /N '/N hic/V bác/N nào/P
bi t/V giúp/V minh/N v i/E / có/V ai/P bi t/V up/V rom/N con/N nay/P không/R ?/?
nói/V _/N chung/A là/C em/N v n/R thích/V con/Nc FPT/Np này/P
em/N toàn/R nghe/V online/V v i/E down/N nh c/N qua/V wifi/N không/R àh/V
Trang 49K T LU N
c m t s k t qu
m và các v t ra v i bài toán này
Tìm hi u v gán nhãn t lo i cho Ti ng Vi t và m t s m ngôn ng ti ng Vi t a ch xu t cho ng d ng tìm
t m m i cho d li u Ti ng vi t
Phân tích d li u thu th p t các bình lu n trên các trang m ng
xã h i, ti n x lý d li u, tách và gán nhãn t lo chu n b d
li u cho th c nghi m
tài v i nh ng n i dung ki n th c hoàn toàn m i v i em nên vi c
c tài li u, trình bày và tìm hi u ng d ng là m t thách th c không nh Do
Trong m t kho ng th i gian có h n, nên vi c phát tri n trình bày v
c không tránh kh i nh ng thi u sót Em r t mong nh n
Em xin thân thành c
Trang 50- vnTokenizer.sh n u ch y trên các h u hành Linux/Unix/Mac OS
- vnTokenizer.bat n u ch y trên các h u hành MS Windows
Yêu c u: Máy c n cài JRE (Java Runtime Environment) phiên b n 1.6 JRE có th t i v t a ch website Java c a Sun Microsystems: http://java.sun.com/
II) D LI U
Trong m t l n ch y vnTokenizer có th tách t m t t p ho ng th i nhi u t p n m trong cùng m c
Trang 51t kì, ví d ".seg" b ng tùy ch n -e c a dòng l nh (xem ví d
-sd: s d ng mô- c khi th c hi n tách t N u tùy ch n
c s d c tiên vnTokenizer th c hi n input thành m t t c hi n tách t t ng câu m t M nh thì mô- c s d ng, vnTokenizer th c hi n tách t trên toàn
ra k t qu mong mu n
Ví d :
a) vnTokenizer.sh -i samples/test0.txt -o samples/test0.tok.txt
Tách t t p samples/test0.txt và ghi k t qu vào t p samples/test0.tok.txt
b) vnTokenizer.sh -i samples/test0.txt -o samples/test0.tok.xml -xo
p k t qu samples/test0.tok.xml s nh
d ng XML