1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tíh ngữ nghĩa ẩn trong dữ liệu với plsa

62 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Ngữ Nghĩa Ẩn Trong Dữ Liệu Với PLSA
Tác giả Lưu Trọng Đại
Người hướng dẫn TS. Thân Quang Khoát
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Kỹ thuật máy tính và truyền thông
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2017
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 6,04 MB

Cấu trúc

  • 2.1. H c máy (Machine Learning) (16)
  • 2.2. Ng   n (Hidden semantics) (17)
  • 2.3. Mô hình xác su t (Probabilistic models) (21)
    • 2.4.2. Khái ni (23)
  • 2.5. M t s thu t ng , kí hi u (29)
  • 3.1. Phân tích ng   n (LSA) (31)
  • 3.2. Mô hình PLSA (33)
  • 4.2. Perplexity (42)
    • 4.2.1. Perplexity khi s   ng ch (0)
    • 4.2.3. Kh   ng quát hóa trong quá trình h c (45)
  • 4.4. Th i gian hu n luy n (50)
  • 4.5. Likelihood và convergence (52)
    • 4.5.1. Convergence (52)
    • 4.5.2. Likelihood (55)
  • 4.6. S l n l p trong quá trình hu n luy n (57)

Nội dung

Thuật toán EM để cực đại hóa hàm log-likelihood trong quá trình huấn luyện với tập văn bản.. Quá trình suy diễn trên tập thử nghiệm sau khi mô hình đã được học.. Dùng mô hình ch theo dõi

H c máy (Machine Learning)

Machine learning là mc c a trí tu nhân t  n vi c nghiên c u   và xây d ng các k   thut cho phép các h  th  ng t d   li gii quy t nh ng v n c      th Xu t hi n t nh      trình xây d ng mô hình d   a vào d  liu su t b i m i liên quan ln th ng kê, vì  c    u nghiên c u vi c phân tích d    li   i th ng kê,  Machine learning t p chung vào s ph c t p c a các gi i thu t trong vi c th c thi          tính toán

Chúng ta có th  thy m t s nh ng ng d ng c       th trong th c t mà   Machine learning mang l i Ví d      a xem m t video clip trên  Youtube, khi   thì t lot các video clip g i ý khác r t h p d n và có m    n video mà

 Hay khi ta mua hàng tr c tuy n trên Amazon, khi ta ch n mua    m t s n ph m thì trang Amazon này      t s nh ng s n phn s n ph u này ch ng t Youtube   hay trang bán hàng Amazon u là nh ng h    thng r t thông minh T vi  i dùng xem video hay ch n mua m t s n ph   th và         g phù h p v i nhu c u c   a i dùng Vì sao nh ng h   th  i có kh      do các h  th 

c h c  c hu n luy  có tri th c, r i t      t

ng quynh,    d a trên nh ng tri th c hu n luy n  

 nh ng ng d ng c a Machine learning và khai phá d li     n nay có th  coi Machine learning là m t trong nh      làm vic vi nh ng  ng d u cli c kì ln

c Mc không giám sát (Unsupervised learning) và h c có giám sát (Supervised learning) Chúng ta có  m t vài quan sát v   bin X và bi n Y M c tiêu c a h       p x hàm 

 i v i bài toán hn Y chúng ta có th quan sát 

c trong quá khc s d ng vào trong quá trình h c Hai    bài toán ph bi n trong h c có giám sát ph i k        i, bài toán h ng h p trong quá kh     c Y, mà ch 

c không giám sát Bài toán ph bi n trong h c   

m d li u, bài toán tìm c u trúc n bên trong     d u li

Ng   n (Hidden semantics)

   t c nh ng h th ng thông minh có th      ng g  trang Youtube hay trang bán hàng Amazon Có m t s câu h

  m t máy tính có th t ng hi   c các tài li u và các ngôn ng t nhiên   

  máy tính có th t  chc, hi u, khám phá nh ng ki n th c b ích t m      t

ng l c nh ng vi i ph i giúp cho máy  tính hi c t nh ng th r   a m t t , m t t p nh    ng t , m t câu, m  n nh ng th ph c t      c a nh ng tài  liu hay máy tính t   ng ý ki n, nh ng c m xúc T t c nh      chính là nhng ng  n trong d li u   không ch n là ng

  c a các t v m t ngôn ng mà nó mang hàm ý r     xem xét qua mt s ví d v ng    n

Hình 1 Các ch và m i quan h gi a các ch trong mủ đề ố ệ ữ ủ đề ột tập văn bản [4]

Ví d u tiên ta xét ng    n trong d u d li n Gi s ta có   mt tp các trang web, nh ng n  c p trong t  th ng ch M i m t node trên hình 1 là m t ch       ng n i gi a   các node chính là th hin m i quan h , s    a các ch Các ch và     các m i quan h gi a các ch chính là nh ng ng        n bên trong t p d  liu c th hai (hình 2)   t p nh ng b c nh, nhìn vào m t b c nh thì con ng i có th bi  c n i dung c a b  c  i i v máy tính thì không th bi c Ngay c i v  i, n  t s ng

nh khá llà   bi c n i dung c a nh ng b c nh      này là gì hay n u mu n bi  c   i t n r t nhi u th i gian  y nh ng  ni dung n ch a bên trong nh ng b  c ng ng  n

Hình 2 N i dung n ch a bên trong nh ng bộ ẩ ứ ữ ức ảnh [4]

Hình 3 Những con người và hành động trong một video [4] v i máy tính thì không th bi  c Nh ng  i xu t hi n hay nh  ng ca nhn video chính là nh ng ng   n

Hình 4 Nh ng cữ ộng đồng m ng và m i quan h gi a các cạ ố ệ ữ ộng đồng m ng trong ạ các mạng xã h i ộ [4]

Ta xem xét ti p m t ví d    n hình cho ng  ng cng m ng trong các m ng xã h i Hình 4 ch ra nh ng c     ng m ng và  nh ng n i là   th hi n nh ng m i quan h gi a các c      ng m ng  Nhng cng m ng và các m i quan h gi a chúng chính là nh ng ng       

n Phát hi n ra nh ng c  ng m ng hay các m i quan h gi a các c    ng m ng là r t h u ích trong th   c t

Qua nh ng ví d   trên ta có th  thy ng     t c p khái ning ch không ph i ch    n là ng  n c a các t  

n Và qua các ví d trên ta có th th y xu t phát t th c t nhu        c phát hi n ng   n là r t l n  

Mô hình xác su t (Probabilistic models)

Khái ni

Nhu v    hi n trong các va    n này

Mô hình ch   c Deerwester cùng c ng s xu    [5] ,  là các nghiên c u c ng s  

 cho phép ki m tra và khai thác t p tài li   n d a trên vi c tìm ki m và    thng kê các t  n ch trong m i tài li u, và khám phá ra nh ng ch      

  ti m n trong tài li   t s ti p c n hi n nay trong vi c mô hình    n i dung tài li u d  ng tính phân b xác su t c a m i t      rong tài liu Phân b  n là h n h p nhi u ch , m     i ch  là s   k t h p ca nhi u t kèm phân b xác su t riêng cho t ng t    trong ch 

Hình 7 Phân tích ma tr n t -ậ ừ văn bản Các nghiên cu tiên v mô hình ch ph   i k 

Mô hình LSI (Latent Semantic Indexing) ca Deerwester et al  [5]

Mô hình PLSI (Probabilistic Latent Semantic Indexing) c a Thomas 

Mô hình LDA (Latent Dirichlet Allocation) c [2]

Mô hình ch  : cung c p nh c t  ng t ch c, hi u, tìm ki m và t ng h p tài li       n t l n

Khám phá nh ng ch n trong vô s b tài li u       

Chú thích nhng tài li u theo nh ng ch    

S d ng nh    t chc, tng h p, và tìm ki n

Mô hình ch cho d    lin nh m giúp cho máy hi c ng   c a t   ng th v ch  nào Trong mô hình ch  , vi c   i

ng gi thi n (xem hình 8)  m i m t ch là m t t p h p các t        có quan h ng  i nhau m i m t tài li u nói v nhi u ch v i nh ng m          khác nhau

Hình 8 Mô hình ch ủ đềcho dữliệu văn bản [4]

 máy tính có th hi c thì nh ng gi thi  nh m t 

Xác sut càng cao càng th hi n rõ ch      m i m t tài li u là h   n hp các ch v i các m    khác nhau g i là các t   l (topic mixture) 

Mô hình ch  có t nhi u ng d ng trong th c t r     xem xét m 

Hình 9 Dùng mô hình ch phát hi n các ch n trong tủ đề để ệ ủ đề ẩ ập văn bản [4] hình 9 ta th y mô hình ch phát hi n ra các ch kèm theo các t

        xu t hi n nhi u nh t trong các ch này trong m t t         n c t th 4 trong  hình 9 ta có th  thy ch  này bao g m các t   n computer thy ch    c máy tính

Hình 10 Dùng mô hình ch theo dõi s ủ đề ự thay đổi của ch theo thủ đề ời gian [4]

Hình 11 Dùng mô hình ch phát hi n m i quan h gi a các ch ủ đề ệ ố ệ ữ ủ đề [4]

Dùng mô hình ch có th    theo dõi s   i c a ch theo th i gian Nhìn    hình 10 ta có th thy s  m c a các ch theo th i gian T      y

Hình 12 Dùng mô hình ch tìm ra h ủ đề để ệthống phân c p c a các ch ấ ủ ủ đề [4]

Hình 13 Dùng mô hình ch ủ đề để tìm ra các yế ố ảnh hưởu t ng trong b u c ầ ử [4]

Hay m t s các ví d khác v ng d ng c a mô hình ch           phát hin ra m i quan h gi a các ch      c tìm ra h thng phân c p c a các ch   các y  u t ng trong b u c y có th  thy vi c s d ng mô hình ch trong th c t là khá l n và nó có nhi u ng d ng            r t h u ích  

M t s thu t ng , kí hi u

M t t (word) là m t thành ph n c u t     n T p h p t t c các t      trong m t t   n g i là t   n, m i t   c bi u di n b i m t s      nguyên trong t p t   n W w 1 ,w 2 , ,w N

Mô hình túi t (Bag-of-words) là m t t p h p các t trong t     n không

n th t xu t hi n c a các t Ta có th xem minh h a hình 14 v           mô hình túi t 

Hình 14 Minh ho cho Bag of wordsạ

Ch  (topic) là t p h p các t có quan h ng      i nhau M i ch    là m t phân b xác su t c a các t      z k là bi n ti m n hay chính là ch s c  a

A F : chun Frobenius cho ma tr n 

P d i : xác sut xut hin tài li u  d i

P z : xác sut xut hi n t w j trong ch  z k k | i

P z d : xác sut xut hin c a ch    z trong tài liu k d i

  trình bày các ki n th c v mô hình PLSA, quá trình hu n luy n      (training phase) và quá trình suy din (inference phase) Khi áp d ng cho mô hình  PLSA mc bi u di n theo d  c là m bt túi các t , không quan tâm t i thông tin v   th  t các t trong

n Vì PLSA xu t phát  m d  u i c v mô hình  LSA.

Phân tích ng   n (LSA)

Phân tích ng   n LSA [5] mlà ng dùng trong x lý ngôn ng t    nhiên và tìm ki m thông tin LSA th c hi n phân tích các m i quan h gi a t p các       

 n và các t      b n Trong LSA gi nh r ng nh ng t có ng      

ng xu t hi n trong cùng ng c nh     n là t ng h p   t t c   nh ca t   t t nh bi u l   nh ng ràng bu c l n nhau Nh ng t p ràng bu c        nh s  

ng v  a nh ng t và t p h p m i t khác nhau T p các t khoá c a các         

n cu vào cho các hàng c a ma tr n  

B thut ng c a m  c dùng làm các c t, các ô c a ma   trc khi t o là t n su  t xut hi n c a t khoá-thut ng n

Gi    s r t t p các tài li u  D N v i các t t    m t t   n W w M B ng cách b qua th t     tun t c a các t xu t hi n      trong mi ta có th tóm t t d u trong m t b ng d u ch nh   li   li  t

N Mxu t hi  ng th i c a j w ij,  

, i j n d w bi u th s l n các t      wj c xu t hi n trong tài li u    di  d t phân tích giá tr 

U và V là các ma tr n tr c giao t  c là U t U V t V I ,( U V là các ma trn t , t chuy n v c a ma n U và V), là ma tr   tr ng chéo, t c là m t ma tr n vuông   

ng chéo là các giá tr riêng c a còn các ph n t khác b ng 0       gi m chi u   (gim ct) bn là ma tr n ch gi l i K (K

Ngày đăng: 18/02/2024, 12:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w