1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tíh ảm xú sử dụng áh tiếp ận họ huyển đổi

76 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích cảm xúc sử dụng cách tiếp cận học chuyển đổi
Tác giả Nguyễn Quang
Người hướng dẫn PGS.TS. Nguyễn Thị Kim Anh
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 76
Dung lượng 2,05 MB

Cấu trúc

  • 1. Lý do ch  tài (0)
  • 2. L  ch s  nghiên c u (12)
  • 4. Tóm t t các lu (14)
  • 1. Các nhi  m v  con c  a bài toán phân tích c  m xúc (0)
  • 1. L  ch s   c a h c chuy   i (0)
  • 2. Các ký hi (31)
  • 3. Phân lo  i các k  thu  t h  c chuy  i (0)
  • 1. Thu t toán AdaBoost (15)
  • 2. Thu t toán TrAdaBoost (15)
  • 3. Thu t toán MulTrAdaBoost (15)
  • 4. Thu t toán Unilateral TrAdaBoost (15)

Nội dung

Nowaday, It is currently applied to inmany different fields in real world as: market analysis, financial, review customer, .. machine learning approaches for sentiment ana

L  ch s  nghiên c u

 i v i bài toán phân tích c m xúc, b u, các nhà khoa hn các

c phân lon, tin c y vào m t phân tích nông d  m cm xúc c a t v  c xây d ng b ng tay và t p trung vào vi c xây d ng các b t       

n này [Huettner A et al., 2000], [Tong.R.M, 2001] Gc

  d ng các thu t toán phân lo     l c t ng h p b i [Sebastiani F,  

2002], v i các bài toán phân lo c m xúc c c (PC) hay phân lo i   m (OC)

Ngoài ra, [Pang L et al., 2002] so sánh Naive Bayes, Máy vector h (SVMs)  tr và Maximum-Entropy-Based trên bài toán phân lo i c m xúc c c (tích c c hay tiêu     c cho các bài c) phng v n [ Go A et al., 2009] thì l i so sánh trên các câu tr ng   thái trên m ng xã h i [  Melville P et al., 2009] s d ng k t h p c tri th c t các b         t n t v ng và h    cho kt qu t 

Tuy nhiên, r t nhi c h c máy ch làm vi c t   i gi  thi t t p hun luy n và t ki m tra  p  c sinh ra t cùng m t min Khi mi n c a t p ki m tra khác v i t p hu n luy       n, thì h u h t các mô hình   thng kê c n ph c xây d ng l i Tuy nhiên công vi c này có chi phí khá     thm chí là không th [Pan S.J et al., 2010] B i v       chính xác không  nh qua các t p  ki        chính xác là không th  c vi tp ki m tra m  i.

H c chuy  i là m t cách ti p c    gi i quy t v làm th nào t n d ng    nhi u nh t có th d u trong mi n ngu n     li   có liên quan nhn min

   gi i quy t các bài toán m i và khác trong mi   khi các v trong mi n ngu n và mi  là khác nhau, th m chí  c bi u di n b  c

 khác nhau [Pan S.J et al., 2008] D a vào các  ng h p khác nhau v m i    liên h gi a mi    n ngu n và các nhi m v c a chúng, chúng ta có th      chia thành ba lo i h c chuy  c chuyi quy n p, h c chuy  i d n n [ S et al., 2010], [ S et al., 2012], [Blitzer J et al., 2012], [Raina R et  p Si Si al., 2007], và h c chuy i không giám sát [Evgeniou T et al., 2004], [Bonilla E et al., 2008], [Lawrence N.D et al., 2004] H c chuy  i qui n p có th   c tham chit cách ti p c n h c chuy    i d a trên m u [Dai W et al., 

2007], [Jiang J et al., 2007], [Zadrozny B, 2004], [Huang J et al.,, 2007], mà gi  s r ng ch c ch n có các ph n c a d u trong mi n ngu n có th        li    c s d ng   l i cho vi c h c trong mi   i tr ng s i tr ng s m u    và l y m u là hai k u  th c s  d ng trong ng c nh này Chúng ta có th   

14 d dàng s d ng h c chuy    i quy n p v i m t t p d      li c gán nhãn

c phân tích c  gi i quyu tra pháp y

3, Mục đích nghiên cứu c a luủ ận văn, đối tượng, phạm vi nghiên c u ứ

  gi i quy  c t m pháp y, phân tích

i dù  t c c m xúc c c  (tích cc hay tiêu cchúng ta gp phi hai v  là:

1  chính xác c a các thu t toán trên các m ng th c (Twitter, tin nh n       SMSs) không cho k t qu  chính xác cao.

2 Các t p d u ki li i (có th c v n i dung     l n  min d u cli a tp ki m tra  c ly ).

 m u là tăng cường độ chính xác ca bài toán phân tích c m  xúcng nghiên c u c a tôi     là các ng xã h i th c, c th là các m     tin nh  n tho i, các dòng tr ng thái (status) trên các ti u blog, các tweet    trên Twitter Ph m vi nghiên c u c a lu     xu t m t   thut toán d a trên 

c chuy gi i quy t bài toán phân lo i c m xúc c c m t        nhánh c a bài toán phân tích c  ch n c  pháp.

Tóm t t các lu

Lu  xu t m p c n m  gi i quy t hi u qu bài toán     phân tích c m xúc  Lu xut m t thu t toán h c chuy   i mà s  d ng các t p d u c   li  n t  chính xác Ngoài ra lu

 xu t m  i thu t toán quy  nh t p d li u c m xúc t t nh t       nên h c và quy  nh xem t p d li  c s d   h c hay không

1 Lu xu t áp d ng m    gi i quy t bài toán phân  tích cm xúc

2 Lu xu t m c chuyi m i v i chi  c hc t p d u   li  n t i m i m b o sau quá trình h c xác su t c a t p hu     n luy n và t p ki m tra là g n nhau nh     t.

3 Lu xu t m   nh kho ng cách c a 2 t p d u cùng     li mt s  ng d ng c a nó  

Th nghi m ch ra r   xuc k t qu t  t toán h c chuy n  

 i v t toán hmáy vector h (SVMstr ng h p t p hu n luy n c a d       li nghèo nàn, là

 xây dc m t hình phân lo i tt cho t p d u  li

Phn n i dung chính c a lu   c t ch

 Phn II: N i dung  o m xúc o c chuyi o Áp d ng h c chuy  i cho bài toán phân lo i c m xúc   c c 

5     l ch trung bình c i (Maximum Mean Discrepancy  MMD) và giá tr    l ch t i tâm trung  bình (Mean Discrepancy of Set MDS)

 Phn IV: Danh m c các tài li u tham kh o   

Chương I Phân ch cảm xúc

Phân tích c m xúc (Sentiment Analysis   c g i là khai thác ý ki n   (  c n vi c x lý ngôn ng t     n, và ngôn ng h  nh và trích xu t thông tin mang s c thái ch quan   

Nói chung, phân tích cn vi  c i nói hay

i vi i v i m t ch    c c m xúc c c theo ng c nh c a tài li u      

 có th là s   c tr ng thái tình c m,   hoc trng thái c m xúc trong giao ti p  

1 Các nhiệm v con c a bài toán phân tích c m xúc ụ ủ ả

M t nhi m v    n c a phân tích c m xúc là   phân lo i các c m xúc c cạ ả ự c a m t

n [Turney P, 2002] và [Pang B et al., 2002] c

 phát hi n c m xúc c c trong    n ph m và phim H u h t    trong c phân lo i th ng kê, l p trung l p b b qua do gi thi t r ng         

n trung l p n m g n biên c a phân lo i hai l p Tuy nhiên r t nhi u nhà         nghiên cn ngh r ng, trong t t c các bài toán phân c c c m xúc, ba lo i        c m xúc ph i   c phát hi   c ch ng minh r ng, v i các b     phân lo (Maximum Entropy), SVMs có th   chính xác khi có s có m t ca lp trung l p 

M t nhi m v khác c a phân tích c    xác định ch quan / khách quanủ Theo [Pang B et al., 2008] thì nhi m v   t bài toán phân lo i thành hai l p ch quan ho c khách quan Theo [    Mihalcea R et al., 2007] b c t m xúc c c: tính ch quan c a    t và c m t   có th ph thuc vào ng c nh c  a chúng và tài liu cha chúng

M t nhi m v phân tích khác m   c g i là  phân tích c m xúc d a trên ả ự các đặc trưng  nh ý ki n hay c m xúc th hi    khác nhau ca thc th ví d   n tho i thông minh, máy nh s    c

t thu c tính hay thành ph n c a m   t thc th ví d   n thon tho n r t nhi 

nh các th c th liên quan, trích xu  a chúng, phân lo i c m   xúc cc trên t 

Do h u h các bài toán con c t c phân tích cu có th quy v các   bài toán phân lo i Vì th , trong lu   minh h a mch  c hc chuyi cho bài toán phân lo i c m xúc c   c.

   n t phân tích c m xúc có th   c nhóm l i  thành lo i chính sauba  :

 Dc thng kê (statistical methods ).

 Da vào các kthut concept-level concept ( -level techniques) a Phương pháp dự a vào t khoá ừ

c d a vào các t khóa, theo [Ortony A et al, 1988] thì các  

c phân lon lo i này phân lo i b ng cách d a vào     các khóa có t

ng rõ ràng n c  n, vui, h   Các thut toán d a vào t  khoá này ch s d  n, k t  h p v các b t n v i các m i       c m xúc c a các t    h t p trung ch  vào vi c xây d ng các b t      ó pháp t ng th d a trên t      c hi n phân tích c m xúc trên các th   

 a s n ph m b ng cách k t h p nhi u t th hi n c m xúc trong cùng          m

Chúng ta có th y m t cách rõ ràng r th       n, d  dàng áp d ng, tuy nhiên h n ch chính xác c a thu t toán không cao    là    

không có kh  i quyc ng h p các câu d ng    ph nh    a ng này quá ph thu c vào t    n b Phương thứ c d ựa vào các phương thứ c th ng kê ố

 i v ng kê, các nhà khoa h c s d  c

    tent Sentiment Analysis), SVMs, túi t (bag of word), và  Semantic Orientation Pointwise Mutual Information  

  d ng Trong các thu t toán k trên, SVMs r t hi u qu gi i quy t các bài         toán v i d u có s   li  chiu l  u di n   a i

ng ti p c n c a chúng ta     t thut toán h c xuyên su t lu    h c chuy chính xác

Phn ti là mô t chi ti t v thu t toán SVMs (c SVMs phân lo i       nh phân và SVMs phân lo p)

  tr (SVM - vi t t t tên ti ng Anh support vector machine) là m t khái     ni m trong th ng kê và khoa h c máy tính cho m t t p h     c có

 phân lo i và phân tích h i quy SVM d ng chu n nh n d u vào và       li phân lo i chúng vào hai l t thu t toán phân lo i nh    phân V i m t b các ví d hu n luy n thu c hai l p         c, thu t toán SVM  hu n luy n xây d ng m  phân lo i các ví d khác vào hai l p    

M t mô hình SVM là m t cách bi u di n các m trong không gian và ranh gi     i

nh gi a hai l p sao cho kho ng cách t các ví d h c t i ranh gi i là xa nh t          có th Các ví d m    c bi u di n trong cùng m      c

20 thut toán d  c m t trong hai l p   tùy thuc vào ví d  m  phía nào ca ranh gi i i T ng quan v ổ ề máy vectơ hỗ trợ

M xây d ng m t siêu ph ng ho c m t t p h p các siêu ph ng tr         trong m t không gian nhi u chi u ho c vô h n chi u, có th          c s d ng cho phân loi, h i quy, ho c các nhi m v khác M t cách tr quan     c  phân lo i t t nh t thì    các siêu ph ng n m  m d u c a t t c các l p (g i là hàm l li      ) càng t t, vì nói chung l càng l n thì sai s t ng quát hóa c a thu t toán phân lo       i càng bé

Trong nhi u  ng h p, không th phân chia các l p d u m t cách tuy    li  n tính trong m mô t m t v   Vì v y, nhi u khi   c n ph i ánh x    m d liu vào m t không gian m i nhi u chi   vi c phân tách chúng tr nên d   i

  vi c hi u qu , ánh x s d ng trong thu t toán SVM ch        i

ng c  li u trong không gian m i có th   c tính d dàng  t các t   nh b ng m t hàm   nhân ( , ) phù h p [Press W.H et al., 2009] M t siêu ph ng trong không gian K x y    mp hng v i m   nh

 t h ng snh m t siêu ph ng s d ng trong     SVM là m t t h p tuy n tính c     u luyli n tp trong không gian mi v i các h s    V i siêu ph ng l a ch   m x trong không gian

c ánh x vào m t siêu m t ph   m th a mãn: 

Chú ý r ng n u K x y( , ) nh n giá tr ngày càng nh khi xa d n kh   y  i x thì m i s   h ng c a t      gi a x vm ng trong

21 d u hu n luy li     c a t ng trên chính là so sánh kho ng cách  gim c n d   m d  lip hm x

c ánh x vào m t siêu ph ng có th      ph c t p tùy ý trong không gian ban  

u, nên có th phân tách các t p h p th m chí không l i trong không gi     u ii L ch s ị ử

Thuc  xu t b i Vladimir N Vapnik và d ng chu n hi n      nay s d ng l m    c  xu t b        [Cortes C et al., 1995]  nh phân         p [Crammer K et al.,

2000], [Crammer K et al., 2002] iii SVM phân lo i nh phân (Binary-classicaon) ạ ị

Phân lo i th ng kê là m t nhi m v ph bi n trong h c máy Trong mô hình h c có          giám sát, thuc m t s m d u cùng v i nhãn c a chúng    li   thuc m t trong hai l c M c tiêu c a thu     nh xem m t 

m d li u m i s     c thu c v l p nào M   m d li c bi u di i d ng m t vector p-chi u, và ta mu n bi t li u có th chia tách hai l p d u b ng          li  m t siêu ph u (phân lo i tuy n tính Có nhi u siêu ph ng có th phân   )    loc d  liu M t l a ch n h p lý trong chúng là siêu ph ng có l l n nh t         gia hai lp

Ta có mt tp hu n luy n g  m có dng vi mang giá tr 1 ho nh l p c m Mi là mc p-chiu Ta c n tìm siêu ph ng có l l n nh    m có =1 và các

m có = -1 M i siêu ph u có th  c vii d ng m t t p h p các    

22 vi  kí hi  ng và là m  n c a siêu ph ng   Tham s 

nh kho ng cách gi a g c t    và siêu ph pháp tuy n  w

Chúng ta c n ch n w và cb  i hóa l , hay kho ng cách gi a hai siêu    phng song song xa nhau nh t có th trong khi v     c d u Các siêu  li ph ng  nh b ng:  và

 ý r ng n u d li u hu n luy n có th        c chia tách m t cách tuy n tính, thì ta có th  chn hai siêu ph ng c a l    m nào gi a chúng và sau  

  ng cách gi  n t    B ng hình h    c kho ng cách gi a hai siêu ph ng là   

Vì v y ta mu n c  c tiu hóa giá tr  

m bm d li u nào trong l  u ki n sau, v i m i    i ta có: ho c

Tóm l i, ta có bài toán t 

B ng cách thêm các nhân t  Lagrange , bài toán trên tr thành

n tìm mm yên ng  t c m không n m trên l ,

 u không  n giá tr hàm m c tiêu vì ta   có th ch n b ng không 

Có th gi i bài toán này b  ng cho quy ho

u ki n Karush Kuhn Tucker, l i gi i có th       c vi i d ng t h p   tuy n tính c  hu n luy n 

Ch có m t vài  nh n giá tr l   m ng là các vector h tr n m trên l và th a mãn    T u ki n này, ta nh n th y      t  c giá tr Trên th c t , m t cách th c t b      tính b là tính giá tr trung bình t t  t c  : tr

N u vi u ki n phân lo  i di ngu ki n thì s d dàng    nh n th y siêu ph ng v i l l n nh      ó nhi m v phân lo i, ch ph thu     c

, nên   i ng u c a SVM chính là   bài toán t

u ki n sau ng v i vi c c c ti u hóa theo       b

Sau khi gi i xong, có th  tính w t các giá tr   

 xu t m ng m i cho phép thu t toán gán nhãn   sai cho m t s m u hu n luy    n N u không t n t i siêu ph   c hai l p d u, thì thu t toán l m m s   li     chn m t siêu ph ng phân tách các ví d    luy n t p t t nh t có th    ng th i c i hóa kho ng cách gi a siêu ph ng v   i các ví d   này s d ng các bi n bù    

Hàm m c tiêu có thêm m t s h ng m     pht khi khác không, và bài toán ti

 thành vii gi a l l n và m c ph t nh N u hàm ph t là tuy n          tính thì bài toán tr thành: vu ki n (v i m  i in)

Có th gi i bài toán trên b ng nhân t      ng h n trên Bài toán cn gi i tr  thành: vi ,

m c a vi c dùng hàm ph t tuy   n tính là các bi n bù bi n m t kh i bài toán    

i ng u, và h ng s    C ch xu t hi   i d ng m t ch n trên cho các nhân t    

  t v     i nhi u thành qu trong th c ti n, và    

c gi i Paris Kanellakis c  góp này Các hàm ph t phi tuy   c s d c bigim ng cng h p ngo i l , tuy nhiên n u không l a ch n hàm ph t c n th n thì          bài toán tr thành không l i, và vic tìm li gii tng là r t khó  iv SVM phân loại đa lớp

Vng xuyên su t là bi n bài toán phân lo i n-l p thành n bài toán phân lo    i hai l c và không thu c c a t ng l    quynh l p mà m c v Crammer K et al  xu t m   gi i quyp b ng cách hình thành bài toán g c sau:   vi C > 0 là tham s ,  là vector tr ng s liên k t v i l    p m, và n u  n u  Chú ý r ng, trong (3), ràng bu c ng vi ng v i ràng bu c không âm   Hàm quy  nh là

  i ng u c   c phát tri n trong [Crammer K et al., 2000],  [Crammer K et al.,2002] yêu c u m t vector có các bi   i ng u  Vector  

 các phn s ch vi t    thay cho Vi n u  , n u     i ng u tr   thành: c Phương thứ c d a vào các k thu ự ỹ ật ứ m c khái ni m ệ

Phân tích c m xúc d a vào các k  thut m c khái ni m t p trung vào phân tích c   m xúc cn qua vi c s d ng các web ontology và các m ng ng       phép t p h p thông tin v tình c m và khái ni    n các c m xúc B ng   cách d a trên các m ng ng    n, phân tích c m xúc m c khái ni m s qua     tc t không có thông tin gì v vi c s d ng t khoá     

Các nhà khoa h c gi i thi    phân tích c m xúc d a vào các k   thut m c khái ni        tri th c v c m xúc chung, ví d      SenticNet, và / ho Linked Data and Semantic Web ontology, ví d c  DBPedia,

  th c hi n phân tích c m xúc trên nhi u mi n M     t phân tích m c t và cung c p các công c và k    thut m c khái ni m cùng các k   thut cho phép mà cho phép m t l u qu   ngôn t nhiên (phi c n d u có th x lý b ng mày (có c u trúc) li    

Chương II Học chuyển đổi

Gi  thit  n xuyên sut trong nhi u thu t toán h c máy và khai phá d u     li truy n th ng là d u hu n luy   li  n và d li u ki m tra ph i     c bi u di n trong  

c ly trong cùng m t mi n và có cùng phân ph i xác    sut Tuy nhiên, trong nhi u ng d ng th c t , gi thi t này có th         c tho  mãn Cho ví dt nhi m v phân lo i trong m t     mi  n,

chúng ta ch có d li u hu n luy    n phù h p v i m t mi n s thích      khác , t c là d u sau này có th  li  t không

Các ký hi

Trong ph n này, chúng tôi gi i thi u m t s ký hi     c s d ng   trong phu tiên, chúng tôi gi i thi u   t mi n và m t nhi  m v  ng

Trong lun ch a 2 thành ph n: m   và m t phân ph i xác su t biên (   P X),   Cho ví d , n u   nhi m v h c c a chúng ta là phân lo i tài li u, và m       i t là m t giá tr nh phân,    là không gian vector c a t t c các vector c a t , và      là thành ph n th i c  a

ng v i các tài li u, và là 1 m  X u h c c th Nói chung,    n u 2 mi n ế ề là khác nhau, thì chúng có th ể có không gian đặc trưng khác nhau ho c có các ặ phân ph i xác su t biên khác nhauố ấ

Cho mi  nh , m t nhi m v    cha 2 thành ph n: m t không gian nhãn và m t hàm d     f(.), và không tth c b  h c phù h p    c h c t  các b h   t n t i cha các c p  , 

 và Hàm (.) có th f  c s d    d ng, f(x), c a m u m i x T      m xác sut, (x) có th f  c vi t thành  P y x( | ) Trong ví d phân lo i tài li u trên, là t p t t c các nhãn, và là True, False cho       nhi m v phân lo i nh phân, và     

 n, trong luchúng tôi ch  ng h p ch có m t mi   n ngu n  , và m t mi  c dùng trong h u h t các nghiên   c c t      u d  liu mi n ngu   

ng là nhãn l p c a m u    Trong ví d phân lo i tài li u trên,    có th là m t t p các vector v i nhãn l p c    , chúng ta ký hi u d u thu c mi li  n

Bây g i chúng    ng nht v  h c chuyi. Định nghĩa 1 (Học chuyển đổi): Vi min ngu n  v i nhi m v h   c , và min

 v i nhi m v h   c , h c chuy n vi  c c a hàm d      s d ng tri th c trong    và ,   hoc

 c hoc Cho ví d , trong ví d phân lo i tài    li u, là gi a t p tài li u ngu n và t p tài li     c các t c  

a 2 t p (t c là, chúng s d ng các ngôn ng khác nhau) ho c       phân ph i biên c a chúng khác nhau  

  ng u ki n    c hoc Khi min ngu n và mi  , và các nhi m v h c c   a chúng gi , bài toán h c tr thành m t bài toán h c máy     truy n th ng Khi các mi n khác nhau thì ho   a các min khác nhau , hoa các mi n gi ng nhau  

  i xác su t biên gi a d li u các mi         

,   và  phân lo i tài li u trên,  

ng hng là khi 2 t p tài li c bi u di n trong các ngôn ng khác   

ng hng khi các tài li u mi n ngu n và các tài li u mi     t p trung vào các ch khác nhau   

Cho các minh và , khi nhi m v h  c và khác nhau, thì ho c là 

1) không gian nhãn gi a các mi n là khác nhau, t c là,    , ho c là 2) phân 

33 ph i xác su u ki n gi a các mi n khác nhau, t c là,     , 

 và Trong ví d phân lo ng hng v trí 

n ngu n là phân lo i nh phân, mi   i tài li u v i 10 l p   

ng h p 2 v   ng c a các tài li u ngu  ng nhau

Nói chung, khi có t n t i m t s quan h , rõ ràng ho     c n, gic

a 2 mi n, chúng ta nói r ng các mi n ngu   

3 Phân lo i các k thu t h c chuyạ ỹ ậ ọ ển đổi

Trong hc chuyi, chúng ta có 3 v nghiên c u chính sau: 

c Min ngu Các nhi m v ngu  n

H c máy truy n th ng  gi ng nhau  gi ng nhau 

H c chuy i h c chuy  i qui n p  gi ng nhau    liên quan

 liên quan gi ng nhau 

B ng 1: M i quan h   gia h c máy truy n th ng các lo i h c chuy   i

Chuyển đổi gìt ph n c a tri th c có th     c chuyi gi a các mi n   và các nhi m v M t s tri th    nh v i các mi n ho c nhi m v riêng l     , và m t s tri th c có th là chung gi a các mi       chúng có th   

ng hin ho c nhi m v    c có th 

c chuyi, thì các thu t toán h c có c   c phát tri chuyi tri th c ng v i v  chuyển đổi như thế nào

D  liu có nhãn min ngu n 

Hm v  Có Có H i quy, phân  loi

T h c   Không Có H i quy, phân  loi

u ch nh  min, l y m u   Có Không H i quy, phân  loi

H c chuy  i không giám sát Không Không Phân c m,  gi m chi u  

B ng 2: S khác nhau c  a các loi hc chuyi

Chuyển đổi khi nào t s ng h i c c thc hi n  , chúng ta mu n bi ng h p, tri th c không c n    ph i th c chuy  i Trong m t s hoàn c nh, khi mi n ngu n và mi     

n nhau, chuyi tham lam có th  ng h p t i nh t, nó có th     làm gi m hi a vi c h c trong mi  

ng hc tham chii tiêu c c H u h t công vi c    

ng cách gi s r ng mi n ngu n và      n nhau Tuy nhiên làm thế nào để tránh được chuyển đổi tiêu c cự là m t v   m quan tr ngày càng nhi u s quan tâm  

Dc chuyi, chúng tôi t ng h p m i quan h gi a h c máy       truy n th ng và các i h c chuy  lo   i trong b ng 1      i h c  chuyi thành 3 lo i, h c chuyển đổi qui n pạ , h c chuyọ ển đổi chuy n n pể ạ , và học chuyển đổi không giám sát, d a trên các tình hu ng khác nhau gi d u   a  li min

 liu mi n ngu n và nhi m v mi    ích, nhi m v mi n ngu n Trong h c      chuyi qui n p, nhi m v    i nhi m v ngu n, trong khi mi    và ngu n có th gi ng ho   c khác nhau.

ng h p này, m t s d u có nhãn trong mi    li c yêu c qui n p m t mô hình d    n s d ng trong mi    c nh khác nhau c a d u có và không có nhãn trong mi n ngu n, chúng ta có th   li    phân loc chuyi qui nng h p sau:  a Nhiu d li u có nhãn trong mi n ngu n s n sàng      ng h p  này, h c chuy  i qui n    v i h  m v Tuy  nhiên, h c chuy i qui n p ch   c hi trong nhi m v   m v c g ng h c nhi m v       ngung th i. b Không có d u có nhãn trong mi n ngu n s li   ng h p này, h c chuy  i qui n        h xu t l u b i Raina và c ng s [Raina R et al., 2007] Trong t     h c, không gian nhãn gi a mi  n ngu n có th khác nhau,   t c là v m t thông tin mi n ngu n có th       c s d ng tr  c

36 ti   v i h c chuyi qui n liu có nhãn trong mi n ngu n là không s n sàng   

2 Trong h c chuy i chuy n n p, các nhi m v ngu    , trong khi mi n ngu n và mi       Trong hoàn c nh này, không s n sàng có d u có nhãn trong mi   li  trong khi l i có r t nhi u d u có nhãn trong mi n ngu n Ngoài ra, theo     li   các hoàn c nh khác nhau gi a mi n ngu    phân loi

c chuyi chuy n n p thành 2 lo i    a      a mi n ngu       b      a các mi n là gi ng nhau,   ,

  i xác su t biên c a d li    u vào là khác nhau,

ng h p g a h c chuy i chuy n n n s u ch nh mi     chuy i tri th c trong phân lo   

a ch n m u [Zadrozny B, 2004], mà   các gi    s c g t

3 Cui cùng, trong h c chuy   h c chuyi qui n p, nhi m v    i nhi m v ngu  n nhau Tuy nhiên, h c chuy  i không giám sát t p trung gi i quy  t các nhi m v h c không giám sát trong    mim, gi m chi u,   và t ng h p này, không có d  liu có nhãn trong c hai mi n ngu  

M i quan h gi a các lo i h c chuy      c t ng hp trong bng 2 và hình 2

Hình 2: Tng quan v s khác bi t c   a các lo i h c chuy  i

D phân lo i h c chuy  i ra thành ba lo

    tr l i cho câu hhúng ta có th phân lo i thành b n lo  

B ng 3 hi th ng h p và mô t  ngn g n 

ng h p u tiên có th    c tham chi  là h c chuy n 

 i d a trên m u (hay còn g i là chuy  i m u) [Dai W et al., 2007, [Jiang J et  al., 2007], [Zadrozny B, 2004] v i gi s r ng m ph n d u trong mi n ngu n     t   li  

38 có th  c s d ng l    h c trong mii tr ng s  li trng s m u và l y m u quan tr ng là hai k     thut chính trong ng c nh này  

Chuy i m u  i tr ng s m t s d li u có nhãn trong mi n ngu n        

Tìm 1 các bi u di n m i t t mà gi m s khác nhau gi a các        min ngu i c a các mô hình phân lo i ho c h i    quy [Raina R et al., 2007], [Blitzer J et al., 2007]

Khai phá các tham s dùng chung ho c các ti n nghi m gi    a các mô hình c a mi n ngu n và mi     cho h c chuy i [Lawrence N.D et al., 2004], [Bonilla E,

Xây d ng ánh x c a tri th c quan h gi a mi n ngu n và         mic min nhau và gi thi c làm n i l ng trong m i mi n [    Mihalkova L et al., 2007], [Mihalkova L et al., 2008], [Davis J et al., 2008 ].

ng h p th 2 có th    c tham chii cách bi u  di        Blitzer J et al., 2007]  ng n sau 

ng h  h c m t cách bi u di n t    i v i ming h p này, tri th c s d  chuyi qua các mic bi u di n l i vào    trong cách bi u di n m  c h c V i cách bi u di n m i, hi     a nhim v  c k v ng c i thi

ng h p th 3 có th    c tham chii tham s [ Lawrence N.D et al., 2004], [Bonilla E, 2008] , [Evgeniou T et al., 2004], v i  gi s r ng các nhi m v ngu n và các nhi m v          tham s ho c các siêu tham s c a các mô hình Tri th  c chuyc mã hoá vào trong các tham s  ng cách khai phá các tham s dùng chung, tri  thc có th c chuyi qua các nhi m v 

ng h p cu i cùng có th    c tham chii tri thc quan h [Mihalkova L et al., 2007   ng t i h c chuy   i cho các min quan h Gi thi  n n sau ng c nh này là m t s quan h gi a d li u         trong mi n ngu n và mi  c chuyi là m i  quan h gi a d u G  li  thu t h c quan h th ng kê n i tr i lên trong       ng c nh này [Mihalkova L al., 2008 Davis J et al., 2008   et ], [ ].

B ng 4 pháp khác nhau s d ng trong các lo  i hc chuyi khác nhau

B ng 4 hi th ng hp c  c s d ng cho t ng lo i h c chuy   i Chúng ta có th th y r ng h c chuy    i quy np

c nghiên c u trong r t nhi u nghiên c u, trong khi h c chuy     i không giám

40 sát là m t ch nghiên c u m    i và ch  c nghiên c u trong ng c nh c a    

ng h p chuy i cách bi u di n Ngoài ra, bài toán chuy  i cách bi u di n  

    xu t trong c 3 lo i h c chuy         i chuyi tham s và chuy i tri th c quan h  ch c nghiên c u trong lo i h c chuy i quy n p 

Chương III Áp dụng h c chuyọ ển đổi cho bài toán phân lo i c m xúc c c ạ ả ự

chúng tôi s trình bày các thu t toán và c i ti n c    u tiên tôi gi i thi u m   chính xác truyn th ng cho các thu t   toán h     c p s d ng SVM t thut toán hn p theo, tôi s trình Ti  thut toán h c chuy   n i v ng b t  ngu n t   AdaBoost, thu t toán  TrAdaBoost  chúng tôi trình bày các c i ti n ca chúng tôi: h c chuy    p MulTrAdaBoost, h c chuy  i mt phía Unilateral – TrAdaBoost, và  ng cách trung bình gi a hai phân ph i và   giá tr  ng kho ng cách t i tâm trung bình   MDS X( ) Cu i cùng là ph t th nghi m 

Thut toán AdaBoost là mt thu t toán nh  chính xác cho các b  h c kém B  u v i vi c gi s m    N u hu n luy n (các m u này có nhãn)   

c sinh ng u nhiên t   theo phân ph i xác su t biên  

X là t p các m u , còn là t p nhãn có th   c gán cho m u Chúng ta  s tìm ki m m t gi     thit mà phù h p v i h u h t các m    u (t c là  vi h u h t các   i tho i N) Tuy nhiên, m t gi   thit nói chung mà chính xác trên t p hu n luy n có th     n trên các m u n m ngoài t p hu n luy n;      v     c tham chi        -

ng over-fitting có th   c b ng cách h n ch s quá phù h p v i t p        hu n luy n  

Thut toán AdaBoost c miêu t b ng gi mã trong hình 3 M c tiêu c a thu t      

c m t gi thuy t cu i cùng v i t l l       n các m u hu n luyc cho b i phân ph i xác su  t D Không gii xác sut trên , phân ph i xác su t D ch trên các m u trong t p hu n luy    c

u khi n b i các b h c Nói chung, phân ph i xác su t này s        c thi t l u,

42 t c là  Thu t toán duy trì t p các tr ng s     qua các m u hu n luy n   

 c l p , mt t phân ph i xác su t   c tính toán b ng cách chu n hoá   các trng s này Phân ph i xác su t này là       b h c kém WeakLearn sinh ra m t gi thuy  t mà chúng ta hi v ng r ng có l i nh     ng v i phân ph i S    d ng gi thi t m   i , thung sinh ra vector ti p theo  , quá trình

  c l p l i Sau T c l p, gi thuy t cu i cùng     c t ng h p ra t  

H g i là AdaBoost b i vì không gi   t toán này ch ch nh s  thích nghi v i l i c a các gi thuy      c tr v b i   

WeakLearn N u  WeakLearn là m t thu t toán h d b   c   i (t c là ch    thut toán ng u nhiên ch n nhãn), thì   v i m  i t t gi i h n c a l i, c    c bit qu  c gi trong [0, 1], và ph thu c    vào hia b h  trên phân ph i xác su t c sinh ra trong quá

Thu t toán Unilateral TrAdaBoost

5     l ch trung bình c i (Maximum Mean Discrepancy  MMD) và giá tr    l ch t i tâm trung  bình (Mean Discrepancy of Set MDS)

 Phn IV: Danh m c các tài li u tham kh o   

Chương I Phân ch cảm xúc

Phân tích c m xúc (Sentiment Analysis   c g i là khai thác ý ki n   (  c n vi c x lý ngôn ng t     n, và ngôn ng h  nh và trích xu t thông tin mang s c thái ch quan   

Nói chung, phân tích cn vi  c i nói hay

i vi i v i m t ch    c c m xúc c c theo ng c nh c a tài li u      

 có th là s   c tr ng thái tình c m,   hoc trng thái c m xúc trong giao ti p  

1 Các nhiệm v con c a bài toán phân tích c m xúc ụ ủ ả

M t nhi m v    n c a phân tích c m xúc là   phân lo i các c m xúc c cạ ả ự c a m t

n [Turney P, 2002] và [Pang B et al., 2002] c

 phát hi n c m xúc c c trong    n ph m và phim H u h t    trong c phân lo i th ng kê, l p trung l p b b qua do gi thi t r ng         

n trung l p n m g n biên c a phân lo i hai l p Tuy nhiên r t nhi u nhà         nghiên cn ngh r ng, trong t t c các bài toán phân c c c m xúc, ba lo i        c m xúc ph i   c phát hi   c ch ng minh r ng, v i các b     phân lo (Maximum Entropy), SVMs có th   chính xác khi có s có m t ca lp trung l p 

M t nhi m v khác c a phân tích c    xác định ch quan / khách quanủ Theo [Pang B et al., 2008] thì nhi m v   t bài toán phân lo i thành hai l p ch quan ho c khách quan Theo [    Mihalcea R et al., 2007] b c t m xúc c c: tính ch quan c a    t và c m t   có th ph thuc vào ng c nh c  a chúng và tài liu cha chúng

M t nhi m v phân tích khác m   c g i là  phân tích c m xúc d a trên ả ự các đặc trưng  nh ý ki n hay c m xúc th hi    khác nhau ca thc th ví d   n tho i thông minh, máy nh s    c

t thu c tính hay thành ph n c a m   t thc th ví d   n thon tho n r t nhi 

nh các th c th liên quan, trích xu  a chúng, phân lo i c m   xúc cc trên t 

Do h u h các bài toán con c t c phân tích cu có th quy v các   bài toán phân lo i Vì th , trong lu   minh h a mch  c hc chuyi cho bài toán phân lo i c m xúc c   c.

   n t phân tích c m xúc có th   c nhóm l i  thành lo i chính sauba  :

 Dc thng kê (statistical methods ).

 Da vào các kthut concept-level concept ( -level techniques) a Phương pháp dự a vào t khoá ừ

c d a vào các t khóa, theo [Ortony A et al, 1988] thì các  

c phân lon lo i này phân lo i b ng cách d a vào     các khóa có t

ng rõ ràng n c  n, vui, h   Các thut toán d a vào t  khoá này ch s d  n, k t  h p v các b t n v i các m i       c m xúc c a các t    h t p trung ch  vào vi c xây d ng các b t      ó pháp t ng th d a trên t      c hi n phân tích c m xúc trên các th   

 a s n ph m b ng cách k t h p nhi u t th hi n c m xúc trong cùng          m

Chúng ta có th y m t cách rõ ràng r th       n, d  dàng áp d ng, tuy nhiên h n ch chính xác c a thu t toán không cao    là    

không có kh  i quyc ng h p các câu d ng    ph nh    a ng này quá ph thu c vào t    n b Phương thứ c d ựa vào các phương thứ c th ng kê ố

 i v ng kê, các nhà khoa h c s d  c

    tent Sentiment Analysis), SVMs, túi t (bag of word), và  Semantic Orientation Pointwise Mutual Information  

  d ng Trong các thu t toán k trên, SVMs r t hi u qu gi i quy t các bài         toán v i d u có s   li  chiu l  u di n   a i

ng ti p c n c a chúng ta     t thut toán h c xuyên su t lu    h c chuy chính xác

Phn ti là mô t chi ti t v thu t toán SVMs (c SVMs phân lo i       nh phân và SVMs phân lo p)

  tr (SVM - vi t t t tên ti ng Anh support vector machine) là m t khái     ni m trong th ng kê và khoa h c máy tính cho m t t p h     c có

 phân lo i và phân tích h i quy SVM d ng chu n nh n d u vào và       li phân lo i chúng vào hai l t thu t toán phân lo i nh    phân V i m t b các ví d hu n luy n thu c hai l p         c, thu t toán SVM  hu n luy n xây d ng m  phân lo i các ví d khác vào hai l p    

M t mô hình SVM là m t cách bi u di n các m trong không gian và ranh gi     i

nh gi a hai l p sao cho kho ng cách t các ví d h c t i ranh gi i là xa nh t          có th Các ví d m    c bi u di n trong cùng m      c

20 thut toán d  c m t trong hai l p   tùy thuc vào ví d  m  phía nào ca ranh gi i i T ng quan v ổ ề máy vectơ hỗ trợ

M xây d ng m t siêu ph ng ho c m t t p h p các siêu ph ng tr         trong m t không gian nhi u chi u ho c vô h n chi u, có th          c s d ng cho phân loi, h i quy, ho c các nhi m v khác M t cách tr quan     c  phân lo i t t nh t thì    các siêu ph ng n m  m d u c a t t c các l p (g i là hàm l li      ) càng t t, vì nói chung l càng l n thì sai s t ng quát hóa c a thu t toán phân lo       i càng bé

Trong nhi u  ng h p, không th phân chia các l p d u m t cách tuy    li  n tính trong m mô t m t v   Vì v y, nhi u khi   c n ph i ánh x    m d liu vào m t không gian m i nhi u chi   vi c phân tách chúng tr nên d   i

  vi c hi u qu , ánh x s d ng trong thu t toán SVM ch        i

ng c  li u trong không gian m i có th   c tính d dàng  t các t   nh b ng m t hàm   nhân ( , ) phù h p [Press W.H et al., 2009] M t siêu ph ng trong không gian K x y    mp hng v i m   nh

 t h ng snh m t siêu ph ng s d ng trong     SVM là m t t h p tuy n tính c     u luyli n tp trong không gian mi v i các h s    V i siêu ph ng l a ch   m x trong không gian

c ánh x vào m t siêu m t ph   m th a mãn: 

Chú ý r ng n u K x y( , ) nh n giá tr ngày càng nh khi xa d n kh   y  i x thì m i s   h ng c a t      gi a x vm ng trong

21 d u hu n luy li     c a t ng trên chính là so sánh kho ng cách  gim c n d   m d  lip hm x

c ánh x vào m t siêu ph ng có th      ph c t p tùy ý trong không gian ban  

u, nên có th phân tách các t p h p th m chí không l i trong không gi     u ii L ch s ị ử

Thuc  xu t b i Vladimir N Vapnik và d ng chu n hi n      nay s d ng l m    c  xu t b        [Cortes C et al., 1995]  nh phân         p [Crammer K et al.,

2000], [Crammer K et al., 2002] iii SVM phân lo i nh phân (Binary-classicaon) ạ ị

Phân lo i th ng kê là m t nhi m v ph bi n trong h c máy Trong mô hình h c có          giám sát, thuc m t s m d u cùng v i nhãn c a chúng    li   thuc m t trong hai l c M c tiêu c a thu     nh xem m t 

m d li u m i s     c thu c v l p nào M   m d li c bi u di i d ng m t vector p-chi u, và ta mu n bi t li u có th chia tách hai l p d u b ng          li  m t siêu ph u (phân lo i tuy n tính Có nhi u siêu ph ng có th phân   )    loc d  liu M t l a ch n h p lý trong chúng là siêu ph ng có l l n nh t         gia hai lp

Ta có mt tp hu n luy n g  m có dng vi mang giá tr 1 ho nh l p c m Mi là mc p-chiu Ta c n tìm siêu ph ng có l l n nh    m có =1 và các

m có = -1 M i siêu ph u có th  c vii d ng m t t p h p các    

22 vi  kí hi  ng và là m  n c a siêu ph ng   Tham s 

nh kho ng cách gi a g c t    và siêu ph pháp tuy n  w

Chúng ta c n ch n w và cb  i hóa l , hay kho ng cách gi a hai siêu    phng song song xa nhau nh t có th trong khi v     c d u Các siêu  li ph ng  nh b ng:  và

 ý r ng n u d li u hu n luy n có th        c chia tách m t cách tuy n tính, thì ta có th  chn hai siêu ph ng c a l    m nào gi a chúng và sau  

  ng cách gi  n t    B ng hình h    c kho ng cách gi a hai siêu ph ng là   

Vì v y ta mu n c  c tiu hóa giá tr  

m bm d li u nào trong l  u ki n sau, v i m i    i ta có: ho c

Tóm l i, ta có bài toán t 

B ng cách thêm các nhân t  Lagrange , bài toán trên tr thành

n tìm mm yên ng  t c m không n m trên l ,

 u không  n giá tr hàm m c tiêu vì ta   có th ch n b ng không 

Có th gi i bài toán này b  ng cho quy ho

u ki n Karush Kuhn Tucker, l i gi i có th       c vi i d ng t h p   tuy n tính c  hu n luy n 

Ch có m t vài  nh n giá tr l   m ng là các vector h tr n m trên l và th a mãn    T u ki n này, ta nh n th y      t  c giá tr Trên th c t , m t cách th c t b      tính b là tính giá tr trung bình t t  t c  : tr

N u vi u ki n phân lo  i di ngu ki n thì s d dàng    nh n th y siêu ph ng v i l l n nh      ó nhi m v phân lo i, ch ph thu     c

, nên   i ng u c a SVM chính là   bài toán t

u ki n sau ng v i vi c c c ti u hóa theo       b

Sau khi gi i xong, có th  tính w t các giá tr   

 xu t m ng m i cho phép thu t toán gán nhãn   sai cho m t s m u hu n luy    n N u không t n t i siêu ph   c hai l p d u, thì thu t toán l m m s   li     chn m t siêu ph ng phân tách các ví d    luy n t p t t nh t có th    ng th i c i hóa kho ng cách gi a siêu ph ng v   i các ví d   này s d ng các bi n bù    

Hàm m c tiêu có thêm m t s h ng m     pht khi khác không, và bài toán ti

 thành vii gi a l l n và m c ph t nh N u hàm ph t là tuy n          tính thì bài toán tr thành: vu ki n (v i m  i in)

Có th gi i bài toán trên b ng nhân t      ng h n trên Bài toán cn gi i tr  thành: vi ,

m c a vi c dùng hàm ph t tuy   n tính là các bi n bù bi n m t kh i bài toán    

i ng u, và h ng s    C ch xu t hi   i d ng m t ch n trên cho các nhân t    

  t v     i nhi u thành qu trong th c ti n, và    

c gi i Paris Kanellakis c  góp này Các hàm ph t phi tuy   c s d c bigim ng cng h p ngo i l , tuy nhiên n u không l a ch n hàm ph t c n th n thì          bài toán tr thành không l i, và vic tìm li gii tng là r t khó  iv SVM phân loại đa lớp

Vng xuyên su t là bi n bài toán phân lo i n-l p thành n bài toán phân lo    i hai l c và không thu c c a t ng l    quynh l p mà m c v Crammer K et al  xu t m   gi i quyp b ng cách hình thành bài toán g c sau:   vi C > 0 là tham s ,  là vector tr ng s liên k t v i l    p m, và n u  n u  Chú ý r ng, trong (3), ràng bu c ng vi ng v i ràng bu c không âm   Hàm quy  nh là

  i ng u c   c phát tri n trong [Crammer K et al., 2000],  [Crammer K et al.,2002] yêu c u m t vector có các bi   i ng u  Vector  

 các phn s ch vi t    thay cho Vi n u  , n u     i ng u tr   thành: c Phương thứ c d a vào các k thu ự ỹ ật ứ m c khái ni m ệ

Phân tích c m xúc d a vào các k  thut m c khái ni m t p trung vào phân tích c   m xúc cn qua vi c s d ng các web ontology và các m ng ng       phép t p h p thông tin v tình c m và khái ni    n các c m xúc B ng   cách d a trên các m ng ng    n, phân tích c m xúc m c khái ni m s qua     tc t không có thông tin gì v vi c s d ng t khoá     

Các nhà khoa h c gi i thi    phân tích c m xúc d a vào các k   thut m c khái ni        tri th c v c m xúc chung, ví d      SenticNet, và / ho Linked Data and Semantic Web ontology, ví d c  DBPedia,

  th c hi n phân tích c m xúc trên nhi u mi n M     t phân tích m c t và cung c p các công c và k    thut m c khái ni m cùng các k   thut cho phép mà cho phép m t l u qu   ngôn t nhiên (phi c n d u có th x lý b ng mày (có c u trúc) li    

Chương II Học chuyển đổi

Gi  thit  n xuyên sut trong nhi u thu t toán h c máy và khai phá d u     li truy n th ng là d u hu n luy   li  n và d li u ki m tra ph i     c bi u di n trong  

c ly trong cùng m t mi n và có cùng phân ph i xác    sut Tuy nhiên, trong nhi u ng d ng th c t , gi thi t này có th         c tho  mãn Cho ví dt nhi m v phân lo i trong m t     mi  n,

chúng ta ch có d li u hu n luy    n phù h p v i m t mi n s thích      khác , t c là d u sau này có th  li  t không

Ngày đăng: 03/02/2024, 02:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w