Thuật toán EM để cực đại hóa hàm log-likelihood trong quá trình huấn luyện với tập văn bản.. Quá trình suy diễn trên tập thử nghiệm sau khi mô hình đã được học.. Dùng mô hình ch theo dõi
H c máy (Machine Learning)
Machine learning là mc c a trí tu nhân t n vi c nghiên c u và xây d ng các k thut cho phép các h th ng t d li gii quy t nh ng v n c th Xu t hi n t nh trình xây d ng mô hình d a vào d liu su t b i m i liên quan ln th ng kê, vì c u nghiên c u vi c phân tích d li i th ng kê, Machine learning t p chung vào s ph c t p c a các gi i thu t trong vi c th c thi tính toán
Chúng ta có th thy m t s nh ng ng d ng c th trong th c t mà Machine learning mang l i Ví d a xem m t video clip trên Youtube, khi thì t lot các video clip g i ý khác r t h p d n và có m n video mà
Hay khi ta mua hàng tr c tuy n trên Amazon, khi ta ch n mua m t s n ph m thì trang Amazon này t s nh ng s n phn s n ph u này ch ng t Youtube hay trang bán hàng Amazon u là nh ng h thng r t thông minh T vi i dùng xem video hay ch n mua m t s n ph th và g phù h p v i nhu c u c a i dùng Vì sao nh ng h th i có kh do các h th
c h c c hu n luy có tri th c, r i t t
ng quynh, d a trên nh ng tri th c hu n luy n
nh ng ng d ng c a Machine learning và khai phá d li n nay có th coi Machine learning là m t trong nh làm vic vi nh ng ng d u cli c kì ln
c Mc không giám sát (Unsupervised learning) và h c có giám sát (Supervised learning) Chúng ta có m t vài quan sát v bin X và bi n Y M c tiêu c a h p x hàm
i v i bài toán hn Y chúng ta có th quan sát
c trong quá khc s d ng vào trong quá trình h c Hai bài toán ph bi n trong h c có giám sát ph i k i, bài toán h ng h p trong quá kh c Y, mà ch
c không giám sát Bài toán ph bi n trong h c
m d li u, bài toán tìm c u trúc n bên trong d u li
Ng n (Hidden semantics)
t c nh ng h th ng thông minh có th ng g trang Youtube hay trang bán hàng Amazon Có m t s câu h
m t máy tính có th t ng hi c các tài li u và các ngôn ng t nhiên
máy tính có th t chc, hi u, khám phá nh ng ki n th c b ích t m t
ng l c nh ng vi i ph i giúp cho máy tính hi c t nh ng th r a m t t , m t t p nh ng t , m t câu, m n nh ng th ph c t c a nh ng tài liu hay máy tính t ng ý ki n, nh ng c m xúc T t c nh chính là nhng ng n trong d li u không ch n là ng
c a các t v m t ngôn ng mà nó mang hàm ý r xem xét qua mt s ví d v ng n
Hình 1 Các ch và m i quan h gi a các ch trong mủ đề ố ệ ữ ủ đề ột tập văn bản [4]
Ví d u tiên ta xét ng n trong d u d li n Gi s ta có mt tp các trang web, nh ng n c p trong t th ng ch M i m t node trên hình 1 là m t ch ng n i gi a các node chính là th hin m i quan h , s a các ch Các ch và các m i quan h gi a các ch chính là nh ng ng n bên trong t p d liu c th hai (hình 2) t p nh ng b c nh, nhìn vào m t b c nh thì con ng i có th bi c n i dung c a b c i i v máy tính thì không th bi c Ngay c i v i, n t s ng
nh khá llà bi c n i dung c a nh ng b c nh này là gì hay n u mu n bi c i t n r t nhi u th i gian y nh ng ni dung n ch a bên trong nh ng b c ng ng n
Hình 2 N i dung n ch a bên trong nh ng bộ ẩ ứ ữ ức ảnh [4]
Hình 3 Những con người và hành động trong một video [4] v i máy tính thì không th bi c Nh ng i xu t hi n hay nh ng ca nhn video chính là nh ng ng n
Hình 4 Nh ng cữ ộng đồng m ng và m i quan h gi a các cạ ố ệ ữ ộng đồng m ng trong ạ các mạng xã h i ộ [4]
Ta xem xét ti p m t ví d n hình cho ng ng cng m ng trong các m ng xã h i Hình 4 ch ra nh ng c ng m ng và nh ng n i là th hi n nh ng m i quan h gi a các c ng m ng Nhng cng m ng và các m i quan h gi a chúng chính là nh ng ng
n Phát hi n ra nh ng c ng m ng hay các m i quan h gi a các c ng m ng là r t h u ích trong th c t
Qua nh ng ví d trên ta có th thy ng t c p khái ning ch không ph i ch n là ng n c a các t
n Và qua các ví d trên ta có th th y xu t phát t th c t nhu c phát hi n ng n là r t l n
Mô hình xác su t (Probabilistic models)
Khái ni
Nhu v hi n trong các va n này
Mô hình ch c Deerwester cùng c ng s xu [5] , là các nghiên c u c ng s
cho phép ki m tra và khai thác t p tài li n d a trên vi c tìm ki m và thng kê các t n ch trong m i tài li u, và khám phá ra nh ng ch
ti m n trong tài li t s ti p c n hi n nay trong vi c mô hình n i dung tài li u d ng tính phân b xác su t c a m i t rong tài liu Phân b n là h n h p nhi u ch , m i ch là s k t h p ca nhi u t kèm phân b xác su t riêng cho t ng t trong ch
Hình 7 Phân tích ma tr n t -ậ ừ văn bản Các nghiên cu tiên v mô hình ch ph i k
Mô hình LSI (Latent Semantic Indexing) ca Deerwester et al [5]
Mô hình PLSI (Probabilistic Latent Semantic Indexing) c a Thomas
Mô hình LDA (Latent Dirichlet Allocation) c [2]
Mô hình ch : cung c p nh c t ng t ch c, hi u, tìm ki m và t ng h p tài li n t l n
Khám phá nh ng ch n trong vô s b tài li u
Chú thích nhng tài li u theo nh ng ch
S d ng nh t chc, tng h p, và tìm ki n
Mô hình ch cho d lin nh m giúp cho máy hi c ng c a t ng th v ch nào Trong mô hình ch , vi c i
ng gi thi n (xem hình 8) m i m t ch là m t t p h p các t có quan h ng i nhau m i m t tài li u nói v nhi u ch v i nh ng m khác nhau
Hình 8 Mô hình ch ủ đềcho dữliệu văn bản [4]
máy tính có th hi c thì nh ng gi thi nh m t
Xác sut càng cao càng th hi n rõ ch m i m t tài li u là h n hp các ch v i các m khác nhau g i là các t l (topic mixture)
Mô hình ch có t nhi u ng d ng trong th c t r xem xét m
Hình 9 Dùng mô hình ch phát hi n các ch n trong tủ đề để ệ ủ đề ẩ ập văn bản [4] hình 9 ta th y mô hình ch phát hi n ra các ch kèm theo các t
xu t hi n nhi u nh t trong các ch này trong m t t n c t th 4 trong hình 9 ta có th thy ch này bao g m các t n computer thy ch c máy tính
Hình 10 Dùng mô hình ch theo dõi s ủ đề ự thay đổi của ch theo thủ đề ời gian [4]
Hình 11 Dùng mô hình ch phát hi n m i quan h gi a các ch ủ đề ệ ố ệ ữ ủ đề [4]
Dùng mô hình ch có th theo dõi s i c a ch theo th i gian Nhìn hình 10 ta có th thy s m c a các ch theo th i gian T y
Hình 12 Dùng mô hình ch tìm ra h ủ đề để ệthống phân c p c a các ch ấ ủ ủ đề [4]
Hình 13 Dùng mô hình ch ủ đề để tìm ra các yế ố ảnh hưởu t ng trong b u c ầ ử [4]
Hay m t s các ví d khác v ng d ng c a mô hình ch phát hin ra m i quan h gi a các ch c tìm ra h thng phân c p c a các ch các y u t ng trong b u c y có th thy vi c s d ng mô hình ch trong th c t là khá l n và nó có nhi u ng d ng r t h u ích
M t s thu t ng , kí hi u
M t t (word) là m t thành ph n c u t n T p h p t t c các t trong m t t n g i là t n, m i t c bi u di n b i m t s nguyên trong t p t n W w 1 ,w 2 , ,w N
Mô hình túi t (Bag-of-words) là m t t p h p các t trong t n không
n th t xu t hi n c a các t Ta có th xem minh h a hình 14 v mô hình túi t
Hình 14 Minh ho cho Bag of wordsạ
Ch (topic) là t p h p các t có quan h ng i nhau M i ch là m t phân b xác su t c a các t z k là bi n ti m n hay chính là ch s c a
A F : chun Frobenius cho ma tr n
P d i : xác sut xut hin tài li u d i
P z : xác sut xut hi n t w j trong ch z k k | i
P z d : xác sut xut hin c a ch z trong tài liu k d i
trình bày các ki n th c v mô hình PLSA, quá trình hu n luy n (training phase) và quá trình suy din (inference phase) Khi áp d ng cho mô hình PLSA mc bi u di n theo d c là m bt túi các t , không quan tâm t i thông tin v th t các t trong
n Vì PLSA xu t phát m d u i c v mô hình LSA.
Phân tích ng n (LSA)
Phân tích ng n LSA [5] mlà ng dùng trong x lý ngôn ng t nhiên và tìm ki m thông tin LSA th c hi n phân tích các m i quan h gi a t p các
n và các t b n Trong LSA gi nh r ng nh ng t có ng
ng xu t hi n trong cùng ng c nh n là t ng h p t t c nh ca t t t nh bi u l nh ng ràng bu c l n nhau Nh ng t p ràng bu c nh s
ng v a nh ng t và t p h p m i t khác nhau T p các t khoá c a các
n cu vào cho các hàng c a ma tr n
B thut ng c a m c dùng làm các c t, các ô c a ma trc khi t o là t n su t xut hi n c a t khoá-thut ng n
Gi s r t t p các tài li u D N v i các t t m t t n W w M B ng cách b qua th t tun t c a các t xu t hi n trong mi ta có th tóm t t d u trong m t b ng d u ch nh li li t
N Mxu t hi ng th i c a j w ij,
, i j n d w bi u th s l n các t wj c xu t hi n trong tài li u di d t phân tích giá tr
U và V là các ma tr n tr c giao t c là U t U V t V I ,( U V là các ma trn t , t chuy n v c a ma n U và V), là ma tr tr ng chéo, t c là m t ma tr n vuông
ng chéo là các giá tr riêng c a còn các ph n t khác b ng 0 gi m chi u (gim ct) bn là ma tr n ch gi l i K (K