Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép
Trang 1Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
I C M N
Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ãn tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này.
Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng connghiên c u h c t p.
Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h cqua.
m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v na chúng tôi.
c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót,mong nh n c s thông c m và góp ý c a th y cô và các b n.
Tháng 7 n m 2005Sinh viên
Nguy n Th Thanh Hà – Nguy n Trung Hi u
Trang 2Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ký tên
Trang 3Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ký tên
Trang 4Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
C L C
DANH SÁCH CÁC B NG 8
DANH SÁCH CÁC HÌNH V 8
Ph n 1 : TÌM HI U LÝ THUY T 11
Chng 1: T NG QUAN V TÌM KI M THÔNG TIN 11
1 Gi i thi u v tìm ki m thông tin 11
1.1 Khái ni m v tìm ki m thông tin 11
1.2 M t s v n trong vi c tìm ki m thông tin: 11
2 H tìm ki m thông tin – IRS 12
4.5 So sánh IRS v i các h th ng thông tin khác 17
Chng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN 18
1 Ki n trúc c a h tìm ki m thông tin [1.3] 18
2 M t s mô hình xây d ng m t h tìm ki m thông tin [1.2] 19
2.1 Mô hình không gian vector 19
2.6 ánh giá chung v các mô hình 25
3 Các b c xây d ng m t h tìm ki m thông tin [3.2] 25
3.1 Tách t t ng cho t p các tài li u 25
Trang 5Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
2.2.2 nhi u tín hi u (The Signal – Noise Ratio) 40
2.2.3 Giá tr phân bi t t (The Term Discrimination Value) 42
2.3 L p ch m c t ng cho tài li u ti ng Anh 43
Trang 6Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Trang 7Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) 113
3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web) 114
Trang 8Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin 14
Hình 2-1 H tìm ki m thông tin tiêu bi u 18
Trang 9Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Hình 6-17 Xem t khóa câu h i 106
Hình 6-18 Xem t khóa tài li u 107
Hình 6-19 Màn hình chính 109
Hình 6-20 Màn hình tìm ki m nhi u câu h i 110
Hình 6-21 Giao di n tìm ki m trên Web 112
Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m 113
Hình 6-23 Giao di n chi ti t n i dung c a tài li u 114
Trang 10Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máytính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u ii m i ng i trong m i l nh v c Internet hi n nay ã tr thành m t kho t li u kh ng mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công ctìm ki m (search engine) t t Các h th ng tìm ki m thông tin thông d ng nh Google,Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i Tuy nhiên, các hth ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch ath t s phù h p cho các v n b n ti ng Vi t Do ó nhu c u ph i có m t công c tìmki m “hi u” và x lý t t các v n b n tí ng Vi t.
Các h tìm ki m thông tin u ph i th c hi n giai n l p ch m c (indexing)cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v nn Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ngngôn ng ó Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li uti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c.
Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thôngtin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xácnh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.
Trang 11Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ph n 1 : TÌM HI U LÝ THUY T
Chng 1: NG QUAN V TÌM KI M THÔNG TIN
1 Gi i thi u v tìm ki m thông tin
1.1 Khái ni m v tìm ki m thông tin
Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin màng i tìm ki m quan tâm.
1.2t s v n trong vi c tìm ki m thông tin:
t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thôngtin ã thu hút s chú ý r t l n V i m t l ng thông tin kh ng l thì vi c tìm ki mchính xác và nhanh chóng càng tr nên khó kh n h n V i s ra i c a máy tính, r tnhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh vàchính xác Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t.
nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n Gi scó m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u
a mình Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quanvà b i các tài li u không liên quan Rõ ràng gi i pháp này không th c t b i vì t n r tnhi u th i gian.
Trang 12Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho conng i trích ra các tài li u có liên quan trong toàn b t p d li u Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan n câu h i M c ích c a
t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quann yêu c u.
2 tìm ki m thông tin – IRS
Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi :[2.1]
Salton (1989):
“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u vthông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u vthông tin Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a cácthông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c acác thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.”
Kowalski (1997) :
“H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm vàduy trì thông tin Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình
nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”
Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ngi d ng tìm ki m thông tin m t cách nhanh chóng và d dàng Ng i s d ng cóth a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìmki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng
Trang 13Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n vàtr v cho ng i s d ng.
3 Các thành ph n c a m t h tìm ki m thông tin[1.1]
m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR) xác nh các tài li u áp ng cho các yêu c u.
Hình 1-1 Môi trng c a h tìm ki m thông tin
Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m tcách tr c ti p Nh ng trên th c t thì u này không th c vì các câu h i và các t ptài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên hgi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh conng i c Chính vì th xác nh c m i liên h gi a các câu h i và các t p tàili u ph i qua m t b c trung gian.
Trang 14Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin
Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n idung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG) Tách t trongcác t p tài li u và l p ch m c cho tài li u Lúc này có th so sánh tr c ti p gi a các t
a câu h i và các t ch m c c a t p tài li u Và t ó ta s d dàng h n xác nh t ng quan gi a các câu h i và t p tài li u.
4 So sánh IRS v i các h th ng thông tin khác
th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tinkhác Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i(QAS) và h tìm ki m thông tin (IR).
Trang 15Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
ng có m i liên h v i nhau thông qua các khoá ngo i DBMS có m t t p các l nh tr cho ng i s d ng truy v n n d li u c a mình Vì v y mu n truy v n nCSDL trong DBMS ta ph i h c h t các t p l nh này Nh ng ng c l i nó s cung c pcho ta các d li u y và hoàn toàn chính xác Hi n nay DBMS c s d ng r ngrãi trên th gi i M t s DBMS thông d ng : Access, SQL Server, Oracle.
4.2 qu n lý thông tin (IMS)
qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch cnh ng v vi c qu n lý Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi uki u d li u khác nhau Nói chung b t k h th ng nào có m c ích c bi t ph c vcho vi c qu n lý thì ta g i nó là h qu n lý thông tin.
Trang 16Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
4.3 h tr ra quy t nh (DSS)
h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h crút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t ara nh ng quy t nh thay cho con ng i.
th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óannh.
4.4 tr l i câu h i (QAS)
tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng tnhiên Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liênquan n các l nh v c riêng bi t và các ki n th c t ng quát Câu h i c a ng i dùng cóth d ng ngôn ng t nhiên Công vi c c a h tr l i câu h i là phân tích câu truyn c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liênquan l i a ra câu tr l i thích h p.
Tuy nhiên, h tr l i câu h i ch còn ang th nghi m Vi c xác nh ý ngh aa ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi hth ng này.
Trang 17Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
4.5 So sánh IRS v i các h th ng thông tin khác
IRS DBMS QAS MIS
Tìm ki m
i dungtrong các tàili u.
Các ph n tcó ki u dli u ã c
nh ngh a.
Các s ki nrõ ràng.
u tr
Các v n b nngôn ng tnhiên.
Các ph n t li u ng b ng.
Các s ki nrõ ràng và cácki n th c
ng quát.
lý
Các câu truyn khôngchính xác.
Các câu truyn có c utrúc.
Các câu truyn khônggi i h n.
Gi ng DBMSnh ng h trthêm nh ngth t c( Tính
ng, tínhtrung bình,phép chi u…)
ng 1-1 So sánh IRS v i các h th ng thông tin khác
Trang 18Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Chng 2: XÂY D NG M T H TH NG TÌM KI MTHÔNG TIN
1 Ki n trúc c a h tìm ki m thông tin.[1.3]
t h th ng thông tin tiêu bi u nh sau:
Hình 2-1 H tìm ki m thông tin tiêu bi u
th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v nn, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v
Trang 19Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
(1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n
n thu th p c thành các t riêng bi t T ng t , khi ng i dùng nh p câu truy v nthì câu truy v n c ng c phân tích thành các t riêng bi t.
(2) ph n l p ch m c : các t trích c t các v n b n thu th p c sc b ph n này l a ch n làm các t ch m c Các t ch m c ph i là các t thhi n c n i dung c a v n b n.
(3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câutruy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li uliên quan n câu truy v n M i tài li u có m t t ng quan v i câu h i Các tài li unày s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng.
2.t s mô hình xây d ng m t h tìm ki m thông tin[1.2]
c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liênquan n câu h i càng t t Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh mtính toán m t cách chính xác t ng quan này Sau ây là m t s mô hình tìm ki m
b n:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ngcách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câui [ Salton, 1875] Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì phthu c vào các t c s d ng bên trong nó Vector tài li u và vector câu h i sau ó sc tính toán xác nh t ng quan gi a chúng t ng quan càng l n ch ng tài li u ó càng liên quan n câu h i.
Trang 20Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Gi s m t t p tài li u ch g m có hai t là t1 và t2 Vector xây d ng c sm có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph nth hai bi u di n cho s xu t hi n c a t2 Cách n gi n nh t xây d ng vector làánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó không xu thi n Gi s tài li u ch g m có 2 t t1 Ta bi u di n cho tài li u này b i vector nhphân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu thi n c a m i t trong tài li u Trong tr ng h p này, vector nên c bi u di n nhsau: <2,0>
i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v ip các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t Ý t ng chínhlà m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t tphân b trong nhi u tài li u Tr ng s c tính d a trên t n s tài li u ngh ch o(Inverse Document Frequency) liên quan n các t c cho:
n: s t phân bi t trong t p tài li u
Trang 21Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
trong t t c các tài li u tính tr ng s c a t th tj trong tài li u Di, d a vào côngth c:
wqj: là tr ng s c a t tj trong câu truy v n Q.
t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u Di
Trang 22Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
quan n t2 là {d3, d5, d7} Nh v y v i phép and, các tài li u th a yêu c u c a ng idùng là {d3, d5} Ph ng pháp này có m t s khuy t m nh sau:
Ø Các tài li u tr v không c s p x p (ranking)
Ø Câu h i tìm ki m òi h i ph i úng nh d ng c a bi u th c Boolean gâykhó kh n cho ng i dùng
Ø t qu tr v có th là quá ít ho c quá nhi u tài li u
2.3 Tìm ki m Boolean m r ng
Mô hình tìm ki m Boolean không h tr vi c s p x p k t qu tr v b i vì cáctài li u ho c th a ho c không th a yêu c u Boolean T t c các tài li u th a mãn uc tr v , nh ng không có s c l ng nào c tính toán cho s liên quan c achúng i v i câu h i.
Mô hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking)t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i vàtrong tài li u Gi s m t câu h i yêu c u (t1 OR t2) và m t tài li u D có ch a t1 v itr ng s w1 và t2 v i tr ng s w2 N u w1 và w2 u b ng 1 thì tài li u nào có ch a chai t này s có th t s p x p cao nh t Tài li u nào không ch a m t trong hai t này
có th t s p x p th p nh t Ý t ng n gi n là tính kho ng cách Eclide t m(w1, w2) t i g c:
Trang 23Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
SC(Q,Di) = 2 = 1.414
a SC vào kho ng [0,1], SC c tính nh sau:
SC( Q t1 v t2 , di) =
(w )(w )2
+ −
2.4 r ng trong vi c thêm vào tr ng s c a câu h i
u câu h i có tr ng s là q1 và q2 thì t ng quan s c tính nh sau:
SC(Q q1 v q2, di) =
SC(Q q1 ^ q2, di) = 1- (
t ng quan SC t ng quát nh sau:
Trang 24Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
SC(D, Q ( q i v q j )) =
1pppp piijj
u p → ∞ : chuy n v h th ng Boolean thông th ng (không có tr ng s )
u p = 1 : chuy n v h th ng không gian vector
2.4.2 Thêm toán t tng
Các chi n l c tìm ki m không òi h i ng i dùng nh n bi t các toán t ph cp Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán tOR vào gi a các t B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s pth t v i m t s m l n h n 0.
2.5 Mô hình xác su t
Mô hình tìm ki m xác su t tính toán t ng quan gi a câu h i và tài li u d avào xác su t mà tài li u ó liên quan n câu h i Các lý thuy t v xác su t c ápng tính toán liên quan gi a câu h i và tài li u Các t trong câu h i c xemlà u m i xác nh tài li u liên quan Ý t ng chính là tính xác su t c a m i ttrong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu
i.
Trang 25Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
2.6ánh giá chung v các mô hình
Ø Mô hình Boolean c xem là mô hình y u nh t trong các mô hình b i vình ã trình bày nó còn r t nhi u khuy t m.
Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mô hình vectorlàm t t h n mô hình xác su t.
Lu n v n c a chúng em s d ng mô hình không gian vector xây d ng m t th ng tìm ki m thông tin ti ng Vi t.
3 Các bc xây d ng m t h tìm ki m thông tin.[3.2]
3.1 Tách t tng cho t p các tài li u
i v i ti ng Anh, ta tách t d a vào kho ng tr ng Tuy nhiên i v i ti ngVi t, giai n này t ng i khó kh n C u trúc ti ng Vi t r t ph c t p, không ch nthu n d a vào kho ng tr ng tách t Hi n nay có r t nhi u công c dùng tách tti ng Vi t, m i ph ng pháp có u, khuy t m riêng Các ph ng pháp này s ctrình bày chi ti t h n ch ng III : Tách t t ng.
3.2p ch m c cho tài li u
Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c.Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c Các t có kh n ng idi n cho tài li u s c ch n, các t này c g i là key word, do ó tr c khi l p ch
c s là giai n ti n x lý i v i các t trích c ch n ra các key word thíchp Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a
Trang 26Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
vào danh sách g i là stop list i v i ti ng Anh hay ti ng Vi t u có danh sách stoplist Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.
3.3 Tìm ki m
Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vàong s c x lý, ngh a là ta s tách t cho câu h i Ph ng pháp tách t cho câu h ing nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ngthích Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liênquan n câu h i c a ng i dùng.
3.4p x p các tài li u tr v (Ranking)
Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s cp x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi un H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi unh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.
4 Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki mthông tin ti ng Vi t
Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki mthông tin nh Google, Yahoo Search, AltaVista, … Tuy nhiên, ây là các công c c ang i n c ngoài nên chúng ch gi i quy t t t i v i các yêu c u c a h Chúng ta
ng có m t s công c h tr tìm ki m thông tin ti ng Vi t nh : Vinaseek,NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìmki m c ng ch a c c i thi n Nhìn chung, xây d ng m t h th ng tìm ki m thông
Trang 27Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mãti ng Vi t.
4.1 Khó kh n trong vi c tách t ti ng Vi t
Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki mthông tin ti ng Vi t i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ngtr ng tách t Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student.Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng T cóth c ghép t m t hay nhi u ti ng T ph i có ý ngh a hoàn ch nh và có c u t o nnh Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên Trongó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.
Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t Tuynhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t cchính xác 100% Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n tranh cãi.
4.2n b ng mã ti ng Vi t
Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý M t công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ngmã (VNI, TCVN3, ViQR,…).
4.3 Các khó kh n khác
Ø Ti ng Vi t có các t ng ngh a nh ng khác âm Các công c hi n nay không tr vi c xác nh các t ng ngh a Vì v y, k t qu tr v s không y
Trang 28Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ø Ng c l i, có nh ng t ng âm khác ngh a Các h th ng s tr v các tài li ucó ch a các t ã c tách trong câu h i mà không c n xác nh chúng có th c
liên quan hay không Vì v y, k t qu tr v s không chính xác.
Ø t s t xu t hi n r t nhi u nh ng không có ý ngh a trong tài li u Các t nh :và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào N u tìmcách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không
n thi t Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.
Trang 29Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Chng 3: TÁCH T TNG
Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quantr ng trong m t h th ng tìm ki m thông tin i v i ti ng Anh ch n gi n d a vàokho ng tr ng tách t Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng
c vì ti ng Vi t là ngôn ng n l p.
Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t,nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t Ch ng này s trình bày chiti t v m t s ph ng pháp tách t
Trang 30Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ngkhông có ngh a.
giá tr ng pháp, ti ng là n v c u t o t S d ng ti ng t o thành t , ta cóhai tr ng h p nh sau:
Ø m t ti ng: g i là t n Tr ng h p này m t t ch có m t ti ng Ví d nh :ông, bà, …
Ø hai ti ng tr lên: g i là t ph c Tr ng h p này m t t có th có hai haynhi u ti ng tr lên Ví d nh : xã h i, an ninh, h p tác xã,…
3 Các phng pháp tách t ti ng Vi t
3.1 fnTBL (Fast Transformation-based learning)[3.1]
3.1.1 Mô t
Trang 31Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy tt v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào chot qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra Thu t toán k tthúc khi không còn phép bi n i nào c ch n H th ng fnTBL g m hai t p tinchính:
chính xác M i m u (template) c t trên m t dòng riêng bi t Ví d : t p li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nhsau:
Công ty danhtuAn ông danhturieng
dongtugiám sát dongtu
Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n thhai là t lo i t ng ng.
th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c Ví d :chunk_-2 chunk_-1 => chunk
Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , 1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là
chunk_-ng t và s t thì chuy n t lo i hi n hành thành danh t
3.1.2 Áp d ng tách t ti ng Vi t
Trang 32Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng phápnày tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.
Ø Xây d ng t p tin d li u h c: p tin d li u cho vi c tách t ti ng Vi t có d ngnh sau:
Vì Bsao Bcông Bty IVi t BHà I
Bt Bvào Btình Btr ng I….
Các ký t B, I g i là các chunk và có ý ngh a nh sau:Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin)Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)
Trong ví d trên, ta có c các t : Vì, sao, công ty, Vi t Hà, b , t, vào, tìnhtr ng, …
Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,
chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau:chunk_0 word_0 => chunk
Trang 33Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
chunk_0 word_-1 word_0 => chunkchunk_0 word_0 word_1 => chunk
3.1.2.1 Quá trình h c
(1) T t p d li u h c xây d ng t n các t(2) Kh i t o các t
(3) Rút ra t p lu t
b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta scó t n các ti ng (Lexicon) Các ti ng có th xu t hi n trong các t v i các chunkkhác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng.Ví d , i v i t “công ty” thì ti ng “công” có chunk=B nh ng trong t “c a công” thìti ng công có chunk=I.
b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cáchxóa h t các chunk t ng ng T p d li u m i này s c s d ng kh i t o l i cácchunk thông d ng nh t d a vào t n.
b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m ulu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ngvào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v ip d li u h c là t p d li u chu n) Ch n lu t có m cao nh t và l n h n m tng ng cho tr c a vào danh sách lu t c ch n.
t qu ta s c m t t p các lu t c ch n Các lu t có d ng nh sau:SCORE:414 RULE: chunk_0=B word_0=t => chunk=I
SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I
Trang 34Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=ISCORE:231 RULE: chunk_0=B word_0= ng => chunk=ISCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I
SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=ISCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=ISCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=ISCORE:100 RULE: chunk_0=B word_0=th => chunk=I
dòng 2 ta có lu t: n u t hi n hành là “công” (word_0=công) và t tr c ó là“c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk
a t hi n hành là I , ngh a là “c a công” ph i là m t t
Toàn b quá trình h c c mô t nh sau:
Trang 35Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Trang 36Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s táchc các t hoàn ch nh.
Giai n xác nh t cho tài li u m i c mô t nh sau:
Hình 3-2 Giai n xác nh t cho tài li u m i
Trang 37Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
3.2 Longest Matching[1.4]
Ph ng pháp Longest Matching tách t d a vào t n có s n.
Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t cónhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h tcâu V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| muabán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này stách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”,“tr c | bàn là | m t | ly| n c”,…
Trang 38Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Chng 4: P CH M C
1 Khái quát v h th ng l p ch m c
t cách t ng t c tìm ki m thông tin lên là t o ch m c cho các tài li u.Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i,ph i c p nh t l i t p tin ch m c Nh ng i v i h th ng tìm ki m thông tin, ch c np nh t l i t p tin ch m c vào m t kho ng th i gian nh k Do ó, ch m c là m tcông c r t có giá tr
p ch m c bao g m các công vi c sau:
Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u
Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a ttrong m t tài li u.
Trang 39Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ø ng t , lo i b các t có t n s th p Ngh a là, xác nh ng ng th pvà lo i b t t c các t có t n s xu t hi n nh h n giá tr này u này s lo i b các ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng
n vi c th c hi n truy v n.
Ø Các t có t n s xu t hi n trung bình còn l i s c s d ng làm t chc.
Hình 4-1 Các tc s p theo th t
Trang 40Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
n: s t phân bi t trong t p tài li u
FREQik: s l n xu t hi n c a t k trong tài li u Di (t n s t )
DOCFREQk : s tài li u có ch a t k
Khi ó, tr ng s c a t k trong tài li u Di c tính nh sau:
WEIGHTik = FREQik * [log (n) – log (DOCFREQk)]
Tr ng s c a t k trong tài li u Di t ng n u t n s xu t hi n c a t k trong tàili u i t ng và gi m n u t ng s tài li u có ch a t k t ng.
2.2.2 nhi u tín hi u (The Signal – Noise Ratio)
t quan m t ng t c xem xét ó là d a vào thông tin ánh giá t mquan tr ng c a t Trong th c t , n i dung thông tin c a m t n hay m t t có thxác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho Rõ ràng, xác su txu t hi n c a m t t càng cao thì thông tin mà nó ch a càng ít.
i dung thông tin c a m t t c xác nh nh sau: