Nowaday, It is currently applied to inmany different fields in real world as: market analysis, financial, review customer, .. machine learning approaches for sentiment ana
L ch s nghiên c u
i v i bài toán phân tích c m xúc, b u, các nhà khoa hn các
c phân lon, tin c y vào m t phân tích nông d m cm xúc c a t v c xây d ng b ng tay và t p trung vào vi c xây d ng các b t
n này [Huettner A et al., 2000], [Tong.R.M, 2001] Gc
d ng các thu t toán phân lo l c t ng h p b i [Sebastiani F,
2002], v i các bài toán phân lo c m xúc c c (PC) hay phân lo i m (OC)
Ngoài ra, [Pang L et al., 2002] so sánh Naive Bayes, Máy vector h (SVMs) tr và Maximum-Entropy-Based trên bài toán phân lo i c m xúc c c (tích c c hay tiêu c cho các bài c) phng v n [ Go A et al., 2009] thì l i so sánh trên các câu tr ng thái trên m ng xã h i [ Melville P et al., 2009] s d ng k t h p c tri th c t các b t n t v ng và h cho kt qu t
Tuy nhiên, r t nhi c h c máy ch làm vi c t i gi thi t t p hun luy n và t ki m tra p c sinh ra t cùng m t min Khi mi n c a t p ki m tra khác v i t p hu n luy n, thì h u h t các mô hình thng kê c n ph c xây d ng l i Tuy nhiên công vi c này có chi phí khá thm chí là không th [Pan S.J et al., 2010] B i v chính xác không nh qua các t p ki chính xác là không th c vi tp ki m tra m i.
H c chuy i là m t cách ti p c gi i quy t v làm th nào t n d ng nhi u nh t có th d u trong mi n ngu n li có liên quan nhn min
gi i quy t các bài toán m i và khác trong mi khi các v trong mi n ngu n và mi là khác nhau, th m chí c bi u di n b c
khác nhau [Pan S.J et al., 2008] D a vào các ng h p khác nhau v m i liên h gi a mi n ngu n và các nhi m v c a chúng, chúng ta có th chia thành ba lo i h c chuy c chuyi quy n p, h c chuy i d n n [ S et al., 2010], [ S et al., 2012], [Blitzer J et al., 2012], [Raina R et p Si Si al., 2007], và h c chuy i không giám sát [Evgeniou T et al., 2004], [Bonilla E et al., 2008], [Lawrence N.D et al., 2004] H c chuy i qui n p có th c tham chit cách ti p c n h c chuy i d a trên m u [Dai W et al.,
2007], [Jiang J et al., 2007], [Zadrozny B, 2004], [Huang J et al.,, 2007], mà gi s r ng ch c ch n có các ph n c a d u trong mi n ngu n có th li c s d ng l i cho vi c h c trong mi i tr ng s i tr ng s m u và l y m u là hai k u th c s d ng trong ng c nh này Chúng ta có th
14 d dàng s d ng h c chuy i quy n p v i m t t p d li c gán nhãn
c phân tích c gi i quyu tra pháp y
3, Mục đích nghiên cứu c a luủ ận văn, đối tượng, phạm vi nghiên c u ứ
gi i quy c t m pháp y, phân tích
i dù t c c m xúc c c (tích cc hay tiêu cchúng ta gp phi hai v là:
1 chính xác c a các thu t toán trên các m ng th c (Twitter, tin nh n SMSs) không cho k t qu chính xác cao.
2 Các t p d u ki li i (có th c v n i dung l n min d u cli a tp ki m tra c ly ).
m u là tăng cường độ chính xác ca bài toán phân tích c m xúcng nghiên c u c a tôi là các ng xã h i th c, c th là các m tin nh n tho i, các dòng tr ng thái (status) trên các ti u blog, các tweet trên Twitter Ph m vi nghiên c u c a lu xu t m t thut toán d a trên
c chuy gi i quy t bài toán phân lo i c m xúc c c m t nhánh c a bài toán phân tích c ch n c pháp.
Tóm t t các lu
Lu xu t m p c n m gi i quy t hi u qu bài toán phân tích c m xúc Lu xut m t thu t toán h c chuy i mà s d ng các t p d u c li n t chính xác Ngoài ra lu
xu t m i thu t toán quy nh t p d li u c m xúc t t nh t nên h c và quy nh xem t p d li c s d h c hay không
1 Lu xu t áp d ng m gi i quy t bài toán phân tích cm xúc
2 Lu xu t m c chuyi m i v i chi c hc t p d u li n t i m i m b o sau quá trình h c xác su t c a t p hu n luy n và t p ki m tra là g n nhau nh t.
3 Lu xu t m nh kho ng cách c a 2 t p d u cùng li mt s ng d ng c a nó
Th nghi m ch ra r xuc k t qu t t toán h c chuy n
i v t toán hmáy vector h (SVMstr ng h p t p hu n luy n c a d li nghèo nàn, là
xây dc m t hình phân lo i tt cho t p d u li
Phn n i dung chính c a lu c t ch
Phn II: N i dung o m xúc o c chuyi o Áp d ng h c chuy i cho bài toán phân lo i c m xúc c c
5 l ch trung bình c i (Maximum Mean Discrepancy MMD) và giá tr l ch t i tâm trung bình (Mean Discrepancy of Set MDS)
Phn IV: Danh m c các tài li u tham kh o
Chương I Phân ch cảm xúc
Phân tích c m xúc (Sentiment Analysis c g i là khai thác ý ki n ( c n vi c x lý ngôn ng t n, và ngôn ng h nh và trích xu t thông tin mang s c thái ch quan
Nói chung, phân tích cn vi c i nói hay
i vi i v i m t ch c c m xúc c c theo ng c nh c a tài li u
có th là s c tr ng thái tình c m, hoc trng thái c m xúc trong giao ti p
1 Các nhiệm v con c a bài toán phân tích c m xúc ụ ủ ả
M t nhi m v n c a phân tích c m xúc là phân lo i các c m xúc c cạ ả ự c a m t
n [Turney P, 2002] và [Pang B et al., 2002] c
phát hi n c m xúc c c trong n ph m và phim H u h t trong c phân lo i th ng kê, l p trung l p b b qua do gi thi t r ng
n trung l p n m g n biên c a phân lo i hai l p Tuy nhiên r t nhi u nhà nghiên cn ngh r ng, trong t t c các bài toán phân c c c m xúc, ba lo i c m xúc ph i c phát hi c ch ng minh r ng, v i các b phân lo (Maximum Entropy), SVMs có th chính xác khi có s có m t ca lp trung l p
M t nhi m v khác c a phân tích c xác định ch quan / khách quanủ Theo [Pang B et al., 2008] thì nhi m v t bài toán phân lo i thành hai l p ch quan ho c khách quan Theo [ Mihalcea R et al., 2007] b c t m xúc c c: tính ch quan c a t và c m t có th ph thuc vào ng c nh c a chúng và tài liu cha chúng
M t nhi m v phân tích khác m c g i là phân tích c m xúc d a trên ả ự các đặc trưng nh ý ki n hay c m xúc th hi khác nhau ca thc th ví d n tho i thông minh, máy nh s c
t thu c tính hay thành ph n c a m t thc th ví d n thon tho n r t nhi
nh các th c th liên quan, trích xu a chúng, phân lo i c m xúc cc trên t
Do h u h các bài toán con c t c phân tích cu có th quy v các bài toán phân lo i Vì th , trong lu minh h a mch c hc chuyi cho bài toán phân lo i c m xúc c c.
n t phân tích c m xúc có th c nhóm l i thành lo i chính sauba :
Dc thng kê (statistical methods ).
Da vào các kthut concept-level concept ( -level techniques) a Phương pháp dự a vào t khoá ừ
c d a vào các t khóa, theo [Ortony A et al, 1988] thì các
c phân lon lo i này phân lo i b ng cách d a vào các khóa có t
ng rõ ràng n c n, vui, h Các thut toán d a vào t khoá này ch s d n, k t h p v các b t n v i các m i c m xúc c a các t h t p trung ch vào vi c xây d ng các b t ó pháp t ng th d a trên t c hi n phân tích c m xúc trên các th
a s n ph m b ng cách k t h p nhi u t th hi n c m xúc trong cùng m
Chúng ta có th y m t cách rõ ràng r th n, d dàng áp d ng, tuy nhiên h n ch chính xác c a thu t toán không cao là
không có kh i quyc ng h p các câu d ng ph nh a ng này quá ph thu c vào t n b Phương thứ c d ựa vào các phương thứ c th ng kê ố
i v ng kê, các nhà khoa h c s d c
tent Sentiment Analysis), SVMs, túi t (bag of word), và Semantic Orientation Pointwise Mutual Information
d ng Trong các thu t toán k trên, SVMs r t hi u qu gi i quy t các bài toán v i d u có s li chiu l u di n a i
ng ti p c n c a chúng ta t thut toán h c xuyên su t lu h c chuy chính xác
Phn ti là mô t chi ti t v thu t toán SVMs (c SVMs phân lo i nh phân và SVMs phân lo p)
tr (SVM - vi t t t tên ti ng Anh support vector machine) là m t khái ni m trong th ng kê và khoa h c máy tính cho m t t p h c có
phân lo i và phân tích h i quy SVM d ng chu n nh n d u vào và li phân lo i chúng vào hai l t thu t toán phân lo i nh phân V i m t b các ví d hu n luy n thu c hai l p c, thu t toán SVM hu n luy n xây d ng m phân lo i các ví d khác vào hai l p
M t mô hình SVM là m t cách bi u di n các m trong không gian và ranh gi i
nh gi a hai l p sao cho kho ng cách t các ví d h c t i ranh gi i là xa nh t có th Các ví d m c bi u di n trong cùng m c
20 thut toán d c m t trong hai l p tùy thuc vào ví d m phía nào ca ranh gi i i T ng quan v ổ ề máy vectơ hỗ trợ
M xây d ng m t siêu ph ng ho c m t t p h p các siêu ph ng tr trong m t không gian nhi u chi u ho c vô h n chi u, có th c s d ng cho phân loi, h i quy, ho c các nhi m v khác M t cách tr quan c phân lo i t t nh t thì các siêu ph ng n m m d u c a t t c các l p (g i là hàm l li ) càng t t, vì nói chung l càng l n thì sai s t ng quát hóa c a thu t toán phân lo i càng bé
Trong nhi u ng h p, không th phân chia các l p d u m t cách tuy li n tính trong m mô t m t v Vì v y, nhi u khi c n ph i ánh x m d liu vào m t không gian m i nhi u chi vi c phân tách chúng tr nên d i
vi c hi u qu , ánh x s d ng trong thu t toán SVM ch i
ng c li u trong không gian m i có th c tính d dàng t các t nh b ng m t hàm nhân ( , ) phù h p [Press W.H et al., 2009] M t siêu ph ng trong không gian K x y mp hng v i m nh
t h ng snh m t siêu ph ng s d ng trong SVM là m t t h p tuy n tính c u luyli n tp trong không gian mi v i các h s V i siêu ph ng l a ch m x trong không gian
c ánh x vào m t siêu m t ph m th a mãn:
Chú ý r ng n u K x y( , ) nh n giá tr ngày càng nh khi xa d n kh y i x thì m i s h ng c a t gi a x vm ng trong
21 d u hu n luy li c a t ng trên chính là so sánh kho ng cách gim c n d m d lip hm x
c ánh x vào m t siêu ph ng có th ph c t p tùy ý trong không gian ban
u, nên có th phân tách các t p h p th m chí không l i trong không gi u ii L ch s ị ử
Thuc xu t b i Vladimir N Vapnik và d ng chu n hi n nay s d ng l m c xu t b [Cortes C et al., 1995] nh phân p [Crammer K et al.,
2000], [Crammer K et al., 2002] iii SVM phân lo i nh phân (Binary-classicaon) ạ ị
Phân lo i th ng kê là m t nhi m v ph bi n trong h c máy Trong mô hình h c có giám sát, thuc m t s m d u cùng v i nhãn c a chúng li thuc m t trong hai l c M c tiêu c a thu nh xem m t
m d li u m i s c thu c v l p nào M m d li c bi u di i d ng m t vector p-chi u, và ta mu n bi t li u có th chia tách hai l p d u b ng li m t siêu ph u (phân lo i tuy n tính Có nhi u siêu ph ng có th phân ) loc d liu M t l a ch n h p lý trong chúng là siêu ph ng có l l n nh t gia hai lp
Ta có mt tp hu n luy n g m có dng vi mang giá tr 1 ho nh l p c m Mi là mc p-chiu Ta c n tìm siêu ph ng có l l n nh m có =1 và các
m có = -1 M i siêu ph u có th c vii d ng m t t p h p các
22 vi kí hi ng và là m n c a siêu ph ng Tham s
nh kho ng cách gi a g c t và siêu ph pháp tuy n w
Chúng ta c n ch n w và cb i hóa l , hay kho ng cách gi a hai siêu phng song song xa nhau nh t có th trong khi v c d u Các siêu li ph ng nh b ng: và
ý r ng n u d li u hu n luy n có th c chia tách m t cách tuy n tính, thì ta có th chn hai siêu ph ng c a l m nào gi a chúng và sau
ng cách gi n t B ng hình h c kho ng cách gi a hai siêu ph ng là
Vì v y ta mu n c c tiu hóa giá tr
m bm d li u nào trong l u ki n sau, v i m i i ta có: ho c
Tóm l i, ta có bài toán t
B ng cách thêm các nhân t Lagrange , bài toán trên tr thành
n tìm mm yên ng t c m không n m trên l ,
u không n giá tr hàm m c tiêu vì ta có th ch n b ng không
Có th gi i bài toán này b ng cho quy ho
u ki n Karush Kuhn Tucker, l i gi i có th c vi i d ng t h p tuy n tính c hu n luy n
Ch có m t vài nh n giá tr l m ng là các vector h tr n m trên l và th a mãn T u ki n này, ta nh n th y t c giá tr Trên th c t , m t cách th c t b tính b là tính giá tr trung bình t t t c : tr
N u vi u ki n phân lo i di ngu ki n thì s d dàng nh n th y siêu ph ng v i l l n nh ó nhi m v phân lo i, ch ph thu c
, nên i ng u c a SVM chính là bài toán t
u ki n sau ng v i vi c c c ti u hóa theo b
Sau khi gi i xong, có th tính w t các giá tr
xu t m ng m i cho phép thu t toán gán nhãn sai cho m t s m u hu n luy n N u không t n t i siêu ph c hai l p d u, thì thu t toán l m m s li chn m t siêu ph ng phân tách các ví d luy n t p t t nh t có th ng th i c i hóa kho ng cách gi a siêu ph ng v i các ví d này s d ng các bi n bù
Hàm m c tiêu có thêm m t s h ng m pht khi khác không, và bài toán ti
thành vii gi a l l n và m c ph t nh N u hàm ph t là tuy n tính thì bài toán tr thành: vu ki n (v i m i in)
Có th gi i bài toán trên b ng nhân t ng h n trên Bài toán cn gi i tr thành: vi ,
m c a vi c dùng hàm ph t tuy n tính là các bi n bù bi n m t kh i bài toán
i ng u, và h ng s C ch xu t hi i d ng m t ch n trên cho các nhân t
t v i nhi u thành qu trong th c ti n, và
c gi i Paris Kanellakis c góp này Các hàm ph t phi tuy c s d c bigim ng cng h p ngo i l , tuy nhiên n u không l a ch n hàm ph t c n th n thì bài toán tr thành không l i, và vic tìm li gii tng là r t khó iv SVM phân loại đa lớp
Vng xuyên su t là bi n bài toán phân lo i n-l p thành n bài toán phân lo i hai l c và không thu c c a t ng l quynh l p mà m c v Crammer K et al xu t m gi i quyp b ng cách hình thành bài toán g c sau: vi C > 0 là tham s , là vector tr ng s liên k t v i l p m, và n u n u Chú ý r ng, trong (3), ràng bu c ng vi ng v i ràng bu c không âm Hàm quy nh là
i ng u c c phát tri n trong [Crammer K et al., 2000], [Crammer K et al.,2002] yêu c u m t vector có các bi i ng u Vector
các phn s ch vi t thay cho Vi n u , n u i ng u tr thành: c Phương thứ c d a vào các k thu ự ỹ ật ứ m c khái ni m ệ
Phân tích c m xúc d a vào các k thut m c khái ni m t p trung vào phân tích c m xúc cn qua vi c s d ng các web ontology và các m ng ng phép t p h p thông tin v tình c m và khái ni n các c m xúc B ng cách d a trên các m ng ng n, phân tích c m xúc m c khái ni m s qua tc t không có thông tin gì v vi c s d ng t khoá
Các nhà khoa h c gi i thi phân tích c m xúc d a vào các k thut m c khái ni tri th c v c m xúc chung, ví d SenticNet, và / ho Linked Data and Semantic Web ontology, ví d c DBPedia,
th c hi n phân tích c m xúc trên nhi u mi n M t phân tích m c t và cung c p các công c và k thut m c khái ni m cùng các k thut cho phép mà cho phép m t l u qu ngôn t nhiên (phi c n d u có th x lý b ng mày (có c u trúc) li
Chương II Học chuyển đổi
Gi thit n xuyên sut trong nhi u thu t toán h c máy và khai phá d u li truy n th ng là d u hu n luy li n và d li u ki m tra ph i c bi u di n trong
c ly trong cùng m t mi n và có cùng phân ph i xác sut Tuy nhiên, trong nhi u ng d ng th c t , gi thi t này có th c tho mãn Cho ví dt nhi m v phân lo i trong m t mi n,
chúng ta ch có d li u hu n luy n phù h p v i m t mi n s thích khác , t c là d u sau này có th li t không
Các ký hi
Trong ph n này, chúng tôi gi i thi u m t s ký hi c s d ng trong phu tiên, chúng tôi gi i thi u t mi n và m t nhi m v ng
Trong lun ch a 2 thành ph n: m và m t phân ph i xác su t biên ( P X), Cho ví d , n u nhi m v h c c a chúng ta là phân lo i tài li u, và m i t là m t giá tr nh phân, là không gian vector c a t t c các vector c a t , và là thành ph n th i c a
ng v i các tài li u, và là 1 m X u h c c th Nói chung, n u 2 mi n ế ề là khác nhau, thì chúng có th ể có không gian đặc trưng khác nhau ho c có các ặ phân ph i xác su t biên khác nhauố ấ
Cho mi nh , m t nhi m v cha 2 thành ph n: m t không gian nhãn và m t hàm d f(.), và không tth c b h c phù h p c h c t các b h t n t i cha các c p ,
và Hàm (.) có th f c s d d ng, f(x), c a m u m i x T m xác sut, (x) có th f c vi t thành P y x( | ) Trong ví d phân lo i tài li u trên, là t p t t c các nhãn, và là True, False cho nhi m v phân lo i nh phân, và
n, trong luchúng tôi ch ng h p ch có m t mi n ngu n , và m t mi c dùng trong h u h t các nghiên c c t u d liu mi n ngu
ng là nhãn l p c a m u Trong ví d phân lo i tài li u trên, có th là m t t p các vector v i nhãn l p c , chúng ta ký hi u d u thu c mi li n
Bây g i chúng ng nht v h c chuyi. Định nghĩa 1 (Học chuyển đổi): Vi min ngu n v i nhi m v h c , và min
v i nhi m v h c , h c chuy n vi c c a hàm d s d ng tri th c trong và , hoc
c hoc Cho ví d , trong ví d phân lo i tài li u, là gi a t p tài li u ngu n và t p tài li c các t c
a 2 t p (t c là, chúng s d ng các ngôn ng khác nhau) ho c phân ph i biên c a chúng khác nhau
ng u ki n c hoc Khi min ngu n và mi , và các nhi m v h c c a chúng gi , bài toán h c tr thành m t bài toán h c máy truy n th ng Khi các mi n khác nhau thì ho a các min khác nhau , hoa các mi n gi ng nhau
i xác su t biên gi a d li u các mi
, và phân lo i tài li u trên,
ng hng là khi 2 t p tài li c bi u di n trong các ngôn ng khác
ng hng khi các tài li u mi n ngu n và các tài li u mi t p trung vào các ch khác nhau
Cho các minh và , khi nhi m v h c và khác nhau, thì ho c là
1) không gian nhãn gi a các mi n là khác nhau, t c là, , ho c là 2) phân
33 ph i xác su u ki n gi a các mi n khác nhau, t c là, ,
và Trong ví d phân lo ng hng v trí
n ngu n là phân lo i nh phân, mi i tài li u v i 10 l p
ng h p 2 v ng c a các tài li u ngu ng nhau
Nói chung, khi có t n t i m t s quan h , rõ ràng ho c n, gic
a 2 mi n, chúng ta nói r ng các mi n ngu
3 Phân lo i các k thu t h c chuyạ ỹ ậ ọ ển đổi
Trong hc chuyi, chúng ta có 3 v nghiên c u chính sau:
c Min ngu Các nhi m v ngu n
H c máy truy n th ng gi ng nhau gi ng nhau
H c chuy i h c chuy i qui n p gi ng nhau liên quan
liên quan gi ng nhau
B ng 1: M i quan h gia h c máy truy n th ng các lo i h c chuy i
Chuyển đổi gìt ph n c a tri th c có th c chuyi gi a các mi n và các nhi m v M t s tri th nh v i các mi n ho c nhi m v riêng l , và m t s tri th c có th là chung gi a các mi chúng có th
ng hin ho c nhi m v c có th
c chuyi, thì các thu t toán h c có c c phát tri chuyi tri th c ng v i v chuyển đổi như thế nào
D liu có nhãn min ngu n
Hm v Có Có H i quy, phân loi
T h c Không Có H i quy, phân loi
u ch nh min, l y m u Có Không H i quy, phân loi
H c chuy i không giám sát Không Không Phân c m, gi m chi u
B ng 2: S khác nhau c a các loi hc chuyi
Chuyển đổi khi nào t s ng h i c c thc hi n , chúng ta mu n bi ng h p, tri th c không c n ph i th c chuy i Trong m t s hoàn c nh, khi mi n ngu n và mi
n nhau, chuyi tham lam có th ng h p t i nh t, nó có th làm gi m hi a vi c h c trong mi
ng hc tham chii tiêu c c H u h t công vi c
ng cách gi s r ng mi n ngu n và n nhau Tuy nhiên làm thế nào để tránh được chuyển đổi tiêu c cự là m t v m quan tr ngày càng nhi u s quan tâm
Dc chuyi, chúng tôi t ng h p m i quan h gi a h c máy truy n th ng và các i h c chuy lo i trong b ng 1 i h c chuyi thành 3 lo i, h c chuyển đổi qui n pạ , h c chuyọ ển đổi chuy n n pể ạ , và học chuyển đổi không giám sát, d a trên các tình hu ng khác nhau gi d u a li min
liu mi n ngu n và nhi m v mi ích, nhi m v mi n ngu n Trong h c chuyi qui n p, nhi m v i nhi m v ngu n, trong khi mi và ngu n có th gi ng ho c khác nhau.
ng h p này, m t s d u có nhãn trong mi li c yêu c qui n p m t mô hình d n s d ng trong mi c nh khác nhau c a d u có và không có nhãn trong mi n ngu n, chúng ta có th li phân loc chuyi qui nng h p sau: a Nhiu d li u có nhãn trong mi n ngu n s n sàng ng h p này, h c chuy i qui n v i h m v Tuy nhiên, h c chuy i qui n p ch c hi trong nhi m v m v c g ng h c nhi m v ngung th i. b Không có d u có nhãn trong mi n ngu n s li ng h p này, h c chuy i qui n h xu t l u b i Raina và c ng s [Raina R et al., 2007] Trong t h c, không gian nhãn gi a mi n ngu n có th khác nhau, t c là v m t thông tin mi n ngu n có th c s d ng tr c
36 ti v i h c chuyi qui n liu có nhãn trong mi n ngu n là không s n sàng
2 Trong h c chuy i chuy n n p, các nhi m v ngu , trong khi mi n ngu n và mi Trong hoàn c nh này, không s n sàng có d u có nhãn trong mi li trong khi l i có r t nhi u d u có nhãn trong mi n ngu n Ngoài ra, theo li các hoàn c nh khác nhau gi a mi n ngu phân loi
c chuyi chuy n n p thành 2 lo i a a mi n ngu b a các mi n là gi ng nhau, ,
i xác su t biên c a d li u vào là khác nhau,
ng h p g a h c chuy i chuy n n n s u ch nh mi chuy i tri th c trong phân lo
a ch n m u [Zadrozny B, 2004], mà các gi s c g t
3 Cui cùng, trong h c chuy h c chuyi qui n p, nhi m v i nhi m v ngu n nhau Tuy nhiên, h c chuy i không giám sát t p trung gi i quy t các nhi m v h c không giám sát trong mim, gi m chi u, và t ng h p này, không có d liu có nhãn trong c hai mi n ngu
M i quan h gi a các lo i h c chuy c t ng hp trong bng 2 và hình 2
Hình 2: Tng quan v s khác bi t c a các lo i h c chuy i
D phân lo i h c chuy i ra thành ba lo
tr l i cho câu hhúng ta có th phân lo i thành b n lo
B ng 3 hi th ng h p và mô t ngn g n
ng h p u tiên có th c tham chi là h c chuy n
i d a trên m u (hay còn g i là chuy i m u) [Dai W et al., 2007, [Jiang J et al., 2007], [Zadrozny B, 2004] v i gi s r ng m ph n d u trong mi n ngu n t li
38 có th c s d ng l h c trong mii tr ng s li trng s m u và l y m u quan tr ng là hai k thut chính trong ng c nh này
Chuy i m u i tr ng s m t s d li u có nhãn trong mi n ngu n
Tìm 1 các bi u di n m i t t mà gi m s khác nhau gi a các min ngu i c a các mô hình phân lo i ho c h i quy [Raina R et al., 2007], [Blitzer J et al., 2007]
Khai phá các tham s dùng chung ho c các ti n nghi m gi a các mô hình c a mi n ngu n và mi cho h c chuy i [Lawrence N.D et al., 2004], [Bonilla E,
Xây d ng ánh x c a tri th c quan h gi a mi n ngu n và mic min nhau và gi thi c làm n i l ng trong m i mi n [ Mihalkova L et al., 2007], [Mihalkova L et al., 2008], [Davis J et al., 2008 ].
ng h p th 2 có th c tham chii cách bi u di Blitzer J et al., 2007] ng n sau
ng h h c m t cách bi u di n t i v i ming h p này, tri th c s d chuyi qua các mic bi u di n l i vào trong cách bi u di n m c h c V i cách bi u di n m i, hi a nhim v c k v ng c i thi
ng h p th 3 có th c tham chii tham s [ Lawrence N.D et al., 2004], [Bonilla E, 2008] , [Evgeniou T et al., 2004], v i gi s r ng các nhi m v ngu n và các nhi m v tham s ho c các siêu tham s c a các mô hình Tri th c chuyc mã hoá vào trong các tham s ng cách khai phá các tham s dùng chung, tri thc có th c chuyi qua các nhi m v
ng h p cu i cùng có th c tham chii tri thc quan h [Mihalkova L et al., 2007 ng t i h c chuy i cho các min quan h Gi thi n n sau ng c nh này là m t s quan h gi a d li u trong mi n ngu n và mi c chuyi là m i quan h gi a d u G li thu t h c quan h th ng kê n i tr i lên trong ng c nh này [Mihalkova L al., 2008 Davis J et al., 2008 et ], [ ].
B ng 4 pháp khác nhau s d ng trong các lo i hc chuyi khác nhau
B ng 4 hi th ng hp c c s d ng cho t ng lo i h c chuy i Chúng ta có th th y r ng h c chuy i quy np
c nghiên c u trong r t nhi u nghiên c u, trong khi h c chuy i không giám
40 sát là m t ch nghiên c u m i và ch c nghiên c u trong ng c nh c a
ng h p chuy i cách bi u di n Ngoài ra, bài toán chuy i cách bi u di n
xu t trong c 3 lo i h c chuy i chuyi tham s và chuy i tri th c quan h ch c nghiên c u trong lo i h c chuy i quy n p
Chương III Áp dụng h c chuyọ ển đổi cho bài toán phân lo i c m xúc c c ạ ả ự
chúng tôi s trình bày các thu t toán và c i ti n c u tiên tôi gi i thi u m chính xác truyn th ng cho các thu t toán h c p s d ng SVM t thut toán hn p theo, tôi s trình Ti thut toán h c chuy n i v ng b t ngu n t AdaBoost, thu t toán TrAdaBoost chúng tôi trình bày các c i ti n ca chúng tôi: h c chuy p MulTrAdaBoost, h c chuy i mt phía Unilateral – TrAdaBoost, và ng cách trung bình gi a hai phân ph i và giá tr ng kho ng cách t i tâm trung bình MDS X( ) Cu i cùng là ph t th nghi m
Thut toán AdaBoost là mt thu t toán nh chính xác cho các b h c kém B u v i vi c gi s m N u hu n luy n (các m u này có nhãn)
c sinh ng u nhiên t theo phân ph i xác su t biên
X là t p các m u , còn là t p nhãn có th c gán cho m u Chúng ta s tìm ki m m t gi thit mà phù h p v i h u h t các m u (t c là vi h u h t các i tho i N) Tuy nhiên, m t gi thit nói chung mà chính xác trên t p hu n luy n có th n trên các m u n m ngoài t p hu n luy n; v c tham chi -
ng over-fitting có th c b ng cách h n ch s quá phù h p v i t p hu n luy n
Thut toán AdaBoost c miêu t b ng gi mã trong hình 3 M c tiêu c a thu t
c m t gi thuy t cu i cùng v i t l l n các m u hu n luyc cho b i phân ph i xác su t D Không gii xác sut trên , phân ph i xác su t D ch trên các m u trong t p hu n luy c
u khi n b i các b h c Nói chung, phân ph i xác su t này s c thi t l u,
42 t c là Thu t toán duy trì t p các tr ng s qua các m u hu n luy n
c l p , mt t phân ph i xác su t c tính toán b ng cách chu n hoá các trng s này Phân ph i xác su t này là b h c kém WeakLearn sinh ra m t gi thuy t mà chúng ta hi v ng r ng có l i nh ng v i phân ph i S d ng gi thi t m i , thung sinh ra vector ti p theo , quá trình
c l p l i Sau T c l p, gi thuy t cu i cùng c t ng h p ra t
H g i là AdaBoost b i vì không gi t toán này ch ch nh s thích nghi v i l i c a các gi thuy c tr v b i
WeakLearn N u WeakLearn là m t thu t toán h d b c i (t c là ch thut toán ng u nhiên ch n nhãn), thì v i m i t t gi i h n c a l i, c c bit qu c gi trong [0, 1], và ph thu c vào hia b h trên phân ph i xác su t c sinh ra trong quá
Thu t toán Unilateral TrAdaBoost
5 l ch trung bình c i (Maximum Mean Discrepancy MMD) và giá tr l ch t i tâm trung bình (Mean Discrepancy of Set MDS)
Phn IV: Danh m c các tài li u tham kh o
Chương I Phân ch cảm xúc
Phân tích c m xúc (Sentiment Analysis c g i là khai thác ý ki n ( c n vi c x lý ngôn ng t n, và ngôn ng h nh và trích xu t thông tin mang s c thái ch quan
Nói chung, phân tích cn vi c i nói hay
i vi i v i m t ch c c m xúc c c theo ng c nh c a tài li u
có th là s c tr ng thái tình c m, hoc trng thái c m xúc trong giao ti p
1 Các nhiệm v con c a bài toán phân tích c m xúc ụ ủ ả
M t nhi m v n c a phân tích c m xúc là phân lo i các c m xúc c cạ ả ự c a m t
n [Turney P, 2002] và [Pang B et al., 2002] c
phát hi n c m xúc c c trong n ph m và phim H u h t trong c phân lo i th ng kê, l p trung l p b b qua do gi thi t r ng
n trung l p n m g n biên c a phân lo i hai l p Tuy nhiên r t nhi u nhà nghiên cn ngh r ng, trong t t c các bài toán phân c c c m xúc, ba lo i c m xúc ph i c phát hi c ch ng minh r ng, v i các b phân lo (Maximum Entropy), SVMs có th chính xác khi có s có m t ca lp trung l p
M t nhi m v khác c a phân tích c xác định ch quan / khách quanủ Theo [Pang B et al., 2008] thì nhi m v t bài toán phân lo i thành hai l p ch quan ho c khách quan Theo [ Mihalcea R et al., 2007] b c t m xúc c c: tính ch quan c a t và c m t có th ph thuc vào ng c nh c a chúng và tài liu cha chúng
M t nhi m v phân tích khác m c g i là phân tích c m xúc d a trên ả ự các đặc trưng nh ý ki n hay c m xúc th hi khác nhau ca thc th ví d n tho i thông minh, máy nh s c
t thu c tính hay thành ph n c a m t thc th ví d n thon tho n r t nhi
nh các th c th liên quan, trích xu a chúng, phân lo i c m xúc cc trên t
Do h u h các bài toán con c t c phân tích cu có th quy v các bài toán phân lo i Vì th , trong lu minh h a mch c hc chuyi cho bài toán phân lo i c m xúc c c.
n t phân tích c m xúc có th c nhóm l i thành lo i chính sauba :
Dc thng kê (statistical methods ).
Da vào các kthut concept-level concept ( -level techniques) a Phương pháp dự a vào t khoá ừ
c d a vào các t khóa, theo [Ortony A et al, 1988] thì các
c phân lon lo i này phân lo i b ng cách d a vào các khóa có t
ng rõ ràng n c n, vui, h Các thut toán d a vào t khoá này ch s d n, k t h p v các b t n v i các m i c m xúc c a các t h t p trung ch vào vi c xây d ng các b t ó pháp t ng th d a trên t c hi n phân tích c m xúc trên các th
a s n ph m b ng cách k t h p nhi u t th hi n c m xúc trong cùng m
Chúng ta có th y m t cách rõ ràng r th n, d dàng áp d ng, tuy nhiên h n ch chính xác c a thu t toán không cao là
không có kh i quyc ng h p các câu d ng ph nh a ng này quá ph thu c vào t n b Phương thứ c d ựa vào các phương thứ c th ng kê ố
i v ng kê, các nhà khoa h c s d c
tent Sentiment Analysis), SVMs, túi t (bag of word), và Semantic Orientation Pointwise Mutual Information
d ng Trong các thu t toán k trên, SVMs r t hi u qu gi i quy t các bài toán v i d u có s li chiu l u di n a i
ng ti p c n c a chúng ta t thut toán h c xuyên su t lu h c chuy chính xác
Phn ti là mô t chi ti t v thu t toán SVMs (c SVMs phân lo i nh phân và SVMs phân lo p)
tr (SVM - vi t t t tên ti ng Anh support vector machine) là m t khái ni m trong th ng kê và khoa h c máy tính cho m t t p h c có
phân lo i và phân tích h i quy SVM d ng chu n nh n d u vào và li phân lo i chúng vào hai l t thu t toán phân lo i nh phân V i m t b các ví d hu n luy n thu c hai l p c, thu t toán SVM hu n luy n xây d ng m phân lo i các ví d khác vào hai l p
M t mô hình SVM là m t cách bi u di n các m trong không gian và ranh gi i
nh gi a hai l p sao cho kho ng cách t các ví d h c t i ranh gi i là xa nh t có th Các ví d m c bi u di n trong cùng m c
20 thut toán d c m t trong hai l p tùy thuc vào ví d m phía nào ca ranh gi i i T ng quan v ổ ề máy vectơ hỗ trợ
M xây d ng m t siêu ph ng ho c m t t p h p các siêu ph ng tr trong m t không gian nhi u chi u ho c vô h n chi u, có th c s d ng cho phân loi, h i quy, ho c các nhi m v khác M t cách tr quan c phân lo i t t nh t thì các siêu ph ng n m m d u c a t t c các l p (g i là hàm l li ) càng t t, vì nói chung l càng l n thì sai s t ng quát hóa c a thu t toán phân lo i càng bé
Trong nhi u ng h p, không th phân chia các l p d u m t cách tuy li n tính trong m mô t m t v Vì v y, nhi u khi c n ph i ánh x m d liu vào m t không gian m i nhi u chi vi c phân tách chúng tr nên d i
vi c hi u qu , ánh x s d ng trong thu t toán SVM ch i
ng c li u trong không gian m i có th c tính d dàng t các t nh b ng m t hàm nhân ( , ) phù h p [Press W.H et al., 2009] M t siêu ph ng trong không gian K x y mp hng v i m nh
t h ng snh m t siêu ph ng s d ng trong SVM là m t t h p tuy n tính c u luyli n tp trong không gian mi v i các h s V i siêu ph ng l a ch m x trong không gian
c ánh x vào m t siêu m t ph m th a mãn:
Chú ý r ng n u K x y( , ) nh n giá tr ngày càng nh khi xa d n kh y i x thì m i s h ng c a t gi a x vm ng trong
21 d u hu n luy li c a t ng trên chính là so sánh kho ng cách gim c n d m d lip hm x
c ánh x vào m t siêu ph ng có th ph c t p tùy ý trong không gian ban
u, nên có th phân tách các t p h p th m chí không l i trong không gi u ii L ch s ị ử
Thuc xu t b i Vladimir N Vapnik và d ng chu n hi n nay s d ng l m c xu t b [Cortes C et al., 1995] nh phân p [Crammer K et al.,
2000], [Crammer K et al., 2002] iii SVM phân lo i nh phân (Binary-classicaon) ạ ị
Phân lo i th ng kê là m t nhi m v ph bi n trong h c máy Trong mô hình h c có giám sát, thuc m t s m d u cùng v i nhãn c a chúng li thuc m t trong hai l c M c tiêu c a thu nh xem m t
m d li u m i s c thu c v l p nào M m d li c bi u di i d ng m t vector p-chi u, và ta mu n bi t li u có th chia tách hai l p d u b ng li m t siêu ph u (phân lo i tuy n tính Có nhi u siêu ph ng có th phân ) loc d liu M t l a ch n h p lý trong chúng là siêu ph ng có l l n nh t gia hai lp
Ta có mt tp hu n luy n g m có dng vi mang giá tr 1 ho nh l p c m Mi là mc p-chiu Ta c n tìm siêu ph ng có l l n nh m có =1 và các
m có = -1 M i siêu ph u có th c vii d ng m t t p h p các
22 vi kí hi ng và là m n c a siêu ph ng Tham s
nh kho ng cách gi a g c t và siêu ph pháp tuy n w
Chúng ta c n ch n w và cb i hóa l , hay kho ng cách gi a hai siêu phng song song xa nhau nh t có th trong khi v c d u Các siêu li ph ng nh b ng: và
ý r ng n u d li u hu n luy n có th c chia tách m t cách tuy n tính, thì ta có th chn hai siêu ph ng c a l m nào gi a chúng và sau
ng cách gi n t B ng hình h c kho ng cách gi a hai siêu ph ng là
Vì v y ta mu n c c tiu hóa giá tr
m bm d li u nào trong l u ki n sau, v i m i i ta có: ho c
Tóm l i, ta có bài toán t
B ng cách thêm các nhân t Lagrange , bài toán trên tr thành
n tìm mm yên ng t c m không n m trên l ,
u không n giá tr hàm m c tiêu vì ta có th ch n b ng không
Có th gi i bài toán này b ng cho quy ho
u ki n Karush Kuhn Tucker, l i gi i có th c vi i d ng t h p tuy n tính c hu n luy n
Ch có m t vài nh n giá tr l m ng là các vector h tr n m trên l và th a mãn T u ki n này, ta nh n th y t c giá tr Trên th c t , m t cách th c t b tính b là tính giá tr trung bình t t t c : tr
N u vi u ki n phân lo i di ngu ki n thì s d dàng nh n th y siêu ph ng v i l l n nh ó nhi m v phân lo i, ch ph thu c
, nên i ng u c a SVM chính là bài toán t
u ki n sau ng v i vi c c c ti u hóa theo b
Sau khi gi i xong, có th tính w t các giá tr
xu t m ng m i cho phép thu t toán gán nhãn sai cho m t s m u hu n luy n N u không t n t i siêu ph c hai l p d u, thì thu t toán l m m s li chn m t siêu ph ng phân tách các ví d luy n t p t t nh t có th ng th i c i hóa kho ng cách gi a siêu ph ng v i các ví d này s d ng các bi n bù
Hàm m c tiêu có thêm m t s h ng m pht khi khác không, và bài toán ti
thành vii gi a l l n và m c ph t nh N u hàm ph t là tuy n tính thì bài toán tr thành: vu ki n (v i m i in)
Có th gi i bài toán trên b ng nhân t ng h n trên Bài toán cn gi i tr thành: vi ,
m c a vi c dùng hàm ph t tuy n tính là các bi n bù bi n m t kh i bài toán
i ng u, và h ng s C ch xu t hi i d ng m t ch n trên cho các nhân t
t v i nhi u thành qu trong th c ti n, và
c gi i Paris Kanellakis c góp này Các hàm ph t phi tuy c s d c bigim ng cng h p ngo i l , tuy nhiên n u không l a ch n hàm ph t c n th n thì bài toán tr thành không l i, và vic tìm li gii tng là r t khó iv SVM phân loại đa lớp
Vng xuyên su t là bi n bài toán phân lo i n-l p thành n bài toán phân lo i hai l c và không thu c c a t ng l quynh l p mà m c v Crammer K et al xu t m gi i quyp b ng cách hình thành bài toán g c sau: vi C > 0 là tham s , là vector tr ng s liên k t v i l p m, và n u n u Chú ý r ng, trong (3), ràng bu c ng vi ng v i ràng bu c không âm Hàm quy nh là
i ng u c c phát tri n trong [Crammer K et al., 2000], [Crammer K et al.,2002] yêu c u m t vector có các bi i ng u Vector
các phn s ch vi t thay cho Vi n u , n u i ng u tr thành: c Phương thứ c d a vào các k thu ự ỹ ật ứ m c khái ni m ệ
Phân tích c m xúc d a vào các k thut m c khái ni m t p trung vào phân tích c m xúc cn qua vi c s d ng các web ontology và các m ng ng phép t p h p thông tin v tình c m và khái ni n các c m xúc B ng cách d a trên các m ng ng n, phân tích c m xúc m c khái ni m s qua tc t không có thông tin gì v vi c s d ng t khoá
Các nhà khoa h c gi i thi phân tích c m xúc d a vào các k thut m c khái ni tri th c v c m xúc chung, ví d SenticNet, và / ho Linked Data and Semantic Web ontology, ví d c DBPedia,
th c hi n phân tích c m xúc trên nhi u mi n M t phân tích m c t và cung c p các công c và k thut m c khái ni m cùng các k thut cho phép mà cho phép m t l u qu ngôn t nhiên (phi c n d u có th x lý b ng mày (có c u trúc) li
Chương II Học chuyển đổi
Gi thit n xuyên sut trong nhi u thu t toán h c máy và khai phá d u li truy n th ng là d u hu n luy li n và d li u ki m tra ph i c bi u di n trong
c ly trong cùng m t mi n và có cùng phân ph i xác sut Tuy nhiên, trong nhi u ng d ng th c t , gi thi t này có th c tho mãn Cho ví dt nhi m v phân lo i trong m t mi n,
chúng ta ch có d li u hu n luy n phù h p v i m t mi n s thích khác , t c là d u sau này có th li t không