1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép

118 498 2
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 118
Dung lượng 2,12 MB

Nội dung

Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép

Trang 1

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

I C M N

Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ãn tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này.

Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng connghiên c u h c t p.

Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h cqua.

m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v na chúng tôi.

c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót,mong nh n c s thông c m và góp ý c a th y cô và các b n.

Tháng 7 n m 2005Sinh viên

Nguy n Th Thanh Hà – Nguy n Trung Hi u

Trang 2

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ký tên

Trang 3

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ký tên

Trang 4

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

C L C

DANH SÁCH CÁC B NG 8

DANH SÁCH CÁC HÌNH V 8

Ph n 1 : TÌM HI U LÝ THUY T 11

Chng 1: T NG QUAN V TÌM KI M THÔNG TIN 11

1 Gi i thi u v tìm ki m thông tin 11

1.1 Khái ni m v tìm ki m thông tin 11

1.2 M t s v n trong vi c tìm ki m thông tin: 11

2 H tìm ki m thông tin – IRS 12

4.5 So sánh IRS v i các h th ng thông tin khác 17

Chng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN 18

1 Ki n trúc c a h tìm ki m thông tin [1.3] 18

2 M t s mô hình xây d ng m t h tìm ki m thông tin [1.2] 19

2.1 Mô hình không gian vector 19

2.6 ánh giá chung v các mô hình 25

3 Các b c xây d ng m t h tìm ki m thông tin [3.2] 25

3.1 Tách t t ng cho t p các tài li u 25

Trang 5

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

2.2.2 nhi u tín hi u (The Signal – Noise Ratio) 40

2.2.3 Giá tr phân bi t t (The Term Discrimination Value) 42

2.3 L p ch m c t ng cho tài li u ti ng Anh 43

Trang 6

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Trang 7

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) 113

3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web) 114

Trang 8

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin 14

Hình 2-1 H tìm ki m thông tin tiêu bi u 18

Trang 9

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Hình 6-17 Xem t khóa câu h i 106

Hình 6-18 Xem t khóa tài li u 107

Hình 6-19 Màn hình chính 109

Hình 6-20 Màn hình tìm ki m nhi u câu h i 110

Hình 6-21 Giao di n tìm ki m trên Web 112

Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m 113

Hình 6-23 Giao di n chi ti t n i dung c a tài li u 114

Trang 10

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máytính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u ii m i ng i trong m i l nh v c Internet hi n nay ã tr thành m t kho t li u kh ng mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công ctìm ki m (search engine) t t Các h th ng tìm ki m thông tin thông d ng nh Google,Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i Tuy nhiên, các hth ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch ath t s phù h p cho các v n b n ti ng Vi t Do ó nhu c u ph i có m t công c tìmki m “hi u” và x lý t t các v n b n tí ng Vi t.

Các h tìm ki m thông tin u ph i th c hi n giai n l p ch m c (indexing)cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v nn Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ngngôn ng ó Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li uti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c.

Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thôngtin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xácnh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.

Trang 11

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ph n 1 : TÌM HI U LÝ THUY T

Chng 1: NG QUAN V TÌM KI M THÔNG TIN

1 Gi i thi u v tìm ki m thông tin

1.1 Khái ni m v tìm ki m thông tin

Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin màng i tìm ki m quan tâm.

1.2t s v n trong vi c tìm ki m thông tin:

t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thôngtin ã thu hút s chú ý r t l n V i m t l ng thông tin kh ng l thì vi c tìm ki mchính xác và nhanh chóng càng tr nên khó kh n h n V i s ra i c a máy tính, r tnhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh vàchính xác Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t.

nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n Gi scó m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u

a mình Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quanvà b i các tài li u không liên quan Rõ ràng gi i pháp này không th c t b i vì t n r tnhi u th i gian.

Trang 12

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho conng i trích ra các tài li u có liên quan trong toàn b t p d li u Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan n câu h i M c ích c a

t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quann yêu c u.

2 tìm ki m thông tin – IRS

Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi :[2.1]

Salton (1989):

“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u vthông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u vthông tin Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a cácthông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c acác thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.”

Kowalski (1997) :

“H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm vàduy trì thông tin Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình

nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”

Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ngi d ng tìm ki m thông tin m t cách nhanh chóng và d dàng Ng i s d ng cóth a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìmki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng

Trang 13

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n vàtr v cho ng i s d ng.

3 Các thành ph n c a m t h tìm ki m thông tin[1.1]

m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR) xác nh các tài li u áp ng cho các yêu c u.

Hình 1-1 Môi trng c a h tìm ki m thông tin

Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m tcách tr c ti p Nh ng trên th c t thì u này không th c vì các câu h i và các t ptài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên hgi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh conng i c Chính vì th xác nh c m i liên h gi a các câu h i và các t p tàili u ph i qua m t b c trung gian.

Trang 14

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin

Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n idung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG) Tách t trongcác t p tài li u và l p ch m c cho tài li u Lúc này có th so sánh tr c ti p gi a các t

a câu h i và các t ch m c c a t p tài li u Và t ó ta s d dàng h n xác nh t ng quan gi a các câu h i và t p tài li u.

4 So sánh IRS v i các h th ng thông tin khác

th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tinkhác Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i(QAS) và h tìm ki m thông tin (IR).

Trang 15

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

ng có m i liên h v i nhau thông qua các khoá ngo i DBMS có m t t p các l nh tr cho ng i s d ng truy v n n d li u c a mình Vì v y mu n truy v n nCSDL trong DBMS ta ph i h c h t các t p l nh này Nh ng ng c l i nó s cung c pcho ta các d li u y và hoàn toàn chính xác Hi n nay DBMS c s d ng r ngrãi trên th gi i M t s DBMS thông d ng : Access, SQL Server, Oracle.

4.2 qu n lý thông tin (IMS)

qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch cnh ng v vi c qu n lý Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi uki u d li u khác nhau Nói chung b t k h th ng nào có m c ích c bi t ph c vcho vi c qu n lý thì ta g i nó là h qu n lý thông tin.

Trang 16

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

4.3 h tr ra quy t nh (DSS)

h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h crút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t ara nh ng quy t nh thay cho con ng i.

th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óannh.

4.4 tr l i câu h i (QAS)

tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng tnhiên Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liênquan n các l nh v c riêng bi t và các ki n th c t ng quát Câu h i c a ng i dùng cóth d ng ngôn ng t nhiên Công vi c c a h tr l i câu h i là phân tích câu truyn c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liênquan l i a ra câu tr l i thích h p.

Tuy nhiên, h tr l i câu h i ch còn ang th nghi m Vi c xác nh ý ngh aa ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi hth ng này.

Trang 17

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

4.5 So sánh IRS v i các h th ng thông tin khác

IRS DBMS QAS MIS

Tìm ki m

i dungtrong các tàili u.

Các ph n tcó ki u dli u ã c

nh ngh a.

Các s ki nrõ ràng.

u tr

Các v n b nngôn ng tnhiên.

Các ph n t li u ng b ng.

Các s ki nrõ ràng và cácki n th c

ng quát.

Các câu truyn khôngchính xác.

Các câu truyn có c utrúc.

Các câu truyn khônggi i h n.

Gi ng DBMSnh ng h trthêm nh ngth t c( Tính

ng, tínhtrung bình,phép chi u…)

ng 1-1 So sánh IRS v i các h th ng thông tin khác

Trang 18

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Chng 2: XÂY D NG M T H TH NG TÌM KI MTHÔNG TIN

1 Ki n trúc c a h tìm ki m thông tin.[1.3]

t h th ng thông tin tiêu bi u nh sau:

Hình 2-1 H tìm ki m thông tin tiêu bi u

th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v nn, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v

Trang 19

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

(1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n

n thu th p c thành các t riêng bi t T ng t , khi ng i dùng nh p câu truy v nthì câu truy v n c ng c phân tích thành các t riêng bi t.

(2) ph n l p ch m c : các t trích c t các v n b n thu th p c sc b ph n này l a ch n làm các t ch m c Các t ch m c ph i là các t thhi n c n i dung c a v n b n.

(3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câutruy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li uliên quan n câu truy v n M i tài li u có m t t ng quan v i câu h i Các tài li unày s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng.

2.t s mô hình xây d ng m t h tìm ki m thông tin[1.2]

c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liênquan n câu h i càng t t Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh mtính toán m t cách chính xác t ng quan này Sau ây là m t s mô hình tìm ki m

b n:

2.1 Mô hình không gian vector

Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ngcách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câui [ Salton, 1875] Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì phthu c vào các t c s d ng bên trong nó Vector tài li u và vector câu h i sau ó sc tính toán xác nh t ng quan gi a chúng t ng quan càng l n ch ng tài li u ó càng liên quan n câu h i.

Trang 20

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Gi s m t t p tài li u ch g m có hai t là t1 và t2 Vector xây d ng c sm có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph nth hai bi u di n cho s xu t hi n c a t2 Cách n gi n nh t xây d ng vector làánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó không xu thi n Gi s tài li u ch g m có 2 t t1 Ta bi u di n cho tài li u này b i vector nhphân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu thi n c a m i t trong tài li u Trong tr ng h p này, vector nên c bi u di n nhsau: <2,0>

i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v ip các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t Ý t ng chínhlà m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t tphân b trong nhi u tài li u Tr ng s c tính d a trên t n s tài li u ngh ch o(Inverse Document Frequency) liên quan n các t c cho:

n: s t phân bi t trong t p tài li u

Trang 21

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

trong t t c các tài li u tính tr ng s c a t th tj trong tài li u Di, d a vào côngth c:

wqj: là tr ng s c a t tj trong câu truy v n Q.

t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u Di

Trang 22

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

quan n t2 là {d3, d5, d7} Nh v y v i phép and, các tài li u th a yêu c u c a ng idùng là {d3, d5} Ph ng pháp này có m t s khuy t m nh sau:

Ø Các tài li u tr v không c s p x p (ranking)

Ø Câu h i tìm ki m òi h i ph i úng nh d ng c a bi u th c Boolean gâykhó kh n cho ng i dùng

Ø t qu tr v có th là quá ít ho c quá nhi u tài li u

2.3 Tìm ki m Boolean m r ng

Mô hình tìm ki m Boolean không h tr vi c s p x p k t qu tr v b i vì cáctài li u ho c th a ho c không th a yêu c u Boolean T t c các tài li u th a mãn uc tr v , nh ng không có s c l ng nào c tính toán cho s liên quan c achúng i v i câu h i.

Mô hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking)t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i vàtrong tài li u Gi s m t câu h i yêu c u (t1 OR t2) và m t tài li u D có ch a t1 v itr ng s w1 và t2 v i tr ng s w2 N u w1 và w2 u b ng 1 thì tài li u nào có ch a chai t này s có th t s p x p cao nh t Tài li u nào không ch a m t trong hai t này

có th t s p x p th p nh t Ý t ng n gi n là tính kho ng cách Eclide t m(w1, w2) t i g c:

Trang 23

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

SC(Q,Di) = 2 = 1.414

a SC vào kho ng [0,1], SC c tính nh sau:

SC( Q t1 v t2 , di) =

(w )(w )2

+ −

2.4 r ng trong vi c thêm vào tr ng s c a câu h i

u câu h i có tr ng s là q1 và q2 thì t ng quan s c tính nh sau:

SC(Q q1 v q2, di) =

SC(Q q1 ^ q2, di) = 1- (

t ng quan SC t ng quát nh sau:

Trang 24

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

SC(D, Q ( q i v q j )) =

1pppp piijj

u p → ∞ : chuy n v h th ng Boolean thông th ng (không có tr ng s )

u p = 1 : chuy n v h th ng không gian vector

2.4.2 Thêm toán t tng

Các chi n l c tìm ki m không òi h i ng i dùng nh n bi t các toán t ph cp Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán tOR vào gi a các t B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s pth t v i m t s m l n h n 0.

2.5 Mô hình xác su t

Mô hình tìm ki m xác su t tính toán t ng quan gi a câu h i và tài li u d avào xác su t mà tài li u ó liên quan n câu h i Các lý thuy t v xác su t c ápng tính toán liên quan gi a câu h i và tài li u Các t trong câu h i c xemlà u m i xác nh tài li u liên quan Ý t ng chính là tính xác su t c a m i ttrong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu

i.

Trang 25

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

2.6ánh giá chung v các mô hình

Ø Mô hình Boolean c xem là mô hình y u nh t trong các mô hình b i vình ã trình bày nó còn r t nhi u khuy t m.

Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mô hình vectorlàm t t h n mô hình xác su t.

Lu n v n c a chúng em s d ng mô hình không gian vector xây d ng m t th ng tìm ki m thông tin ti ng Vi t.

3 Các bc xây d ng m t h tìm ki m thông tin.[3.2]

3.1 Tách t tng cho t p các tài li u

i v i ti ng Anh, ta tách t d a vào kho ng tr ng Tuy nhiên i v i ti ngVi t, giai n này t ng i khó kh n C u trúc ti ng Vi t r t ph c t p, không ch nthu n d a vào kho ng tr ng tách t Hi n nay có r t nhi u công c dùng tách tti ng Vi t, m i ph ng pháp có u, khuy t m riêng Các ph ng pháp này s ctrình bày chi ti t h n ch ng III : Tách t t ng.

3.2p ch m c cho tài li u

Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c.Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c Các t có kh n ng idi n cho tài li u s c ch n, các t này c g i là key word, do ó tr c khi l p ch

c s là giai n ti n x lý i v i các t trích c ch n ra các key word thíchp Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a

Trang 26

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

vào danh sách g i là stop list i v i ti ng Anh hay ti ng Vi t u có danh sách stoplist Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.

3.3 Tìm ki m

Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vàong s c x lý, ngh a là ta s tách t cho câu h i Ph ng pháp tách t cho câu h ing nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ngthích Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liênquan n câu h i c a ng i dùng.

3.4p x p các tài li u tr v (Ranking)

Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s cp x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi un H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi unh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.

4 Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki mthông tin ti ng Vi t

Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki mthông tin nh Google, Yahoo Search, AltaVista, … Tuy nhiên, ây là các công c c ang i n c ngoài nên chúng ch gi i quy t t t i v i các yêu c u c a h Chúng ta

ng có m t s công c h tr tìm ki m thông tin ti ng Vi t nh : Vinaseek,NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìmki m c ng ch a c c i thi n Nhìn chung, xây d ng m t h th ng tìm ki m thông

Trang 27

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mãti ng Vi t.

4.1 Khó kh n trong vi c tách t ti ng Vi t

Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki mthông tin ti ng Vi t i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ngtr ng tách t Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student.Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng T cóth c ghép t m t hay nhi u ti ng T ph i có ý ngh a hoàn ch nh và có c u t o nnh Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên Trongó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.

Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t Tuynhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t cchính xác 100% Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n tranh cãi.

4.2n b ng mã ti ng Vi t

Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý M t công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ngmã (VNI, TCVN3, ViQR,…).

4.3 Các khó kh n khác

Ø Ti ng Vi t có các t ng ngh a nh ng khác âm Các công c hi n nay không tr vi c xác nh các t ng ngh a Vì v y, k t qu tr v s không y

Trang 28

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ø Ng c l i, có nh ng t ng âm khác ngh a Các h th ng s tr v các tài li ucó ch a các t ã c tách trong câu h i mà không c n xác nh chúng có th c

liên quan hay không Vì v y, k t qu tr v s không chính xác.

Ø t s t xu t hi n r t nhi u nh ng không có ý ngh a trong tài li u Các t nh :và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào N u tìmcách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không

n thi t Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.

Trang 29

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Chng 3: TÁCH T TNG

Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quantr ng trong m t h th ng tìm ki m thông tin i v i ti ng Anh ch n gi n d a vàokho ng tr ng tách t Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng

c vì ti ng Vi t là ngôn ng n l p.

Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t,nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t Ch ng này s trình bày chiti t v m t s ph ng pháp tách t

Trang 30

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ngkhông có ngh a.

giá tr ng pháp, ti ng là n v c u t o t S d ng ti ng t o thành t , ta cóhai tr ng h p nh sau:

Ø m t ti ng: g i là t n Tr ng h p này m t t ch có m t ti ng Ví d nh :ông, bà, …

Ø hai ti ng tr lên: g i là t ph c Tr ng h p này m t t có th có hai haynhi u ti ng tr lên Ví d nh : xã h i, an ninh, h p tác xã,…

3 Các phng pháp tách t ti ng Vi t

3.1 fnTBL (Fast Transformation-based learning)[3.1]

3.1.1 Mô t

Trang 31

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy tt v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào chot qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra Thu t toán k tthúc khi không còn phép bi n i nào c ch n H th ng fnTBL g m hai t p tinchính:

chính xác M i m u (template) c t trên m t dòng riêng bi t Ví d : t p li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nhsau:

Công ty danhtuAn ông danhturieng

dongtugiám sát dongtu

Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n thhai là t lo i t ng ng.

th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c Ví d :chunk_-2 chunk_-1 => chunk

Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , 1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là

chunk_-ng t và s t thì chuy n t lo i hi n hành thành danh t

3.1.2 Áp d ng tách t ti ng Vi t

Trang 32

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng phápnày tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.

Ø Xây d ng t p tin d li u h c: p tin d li u cho vi c tách t ti ng Vi t có d ngnh sau:

Vì Bsao Bcông Bty IVi t BHà I

Bt Bvào Btình Btr ng I….

Các ký t B, I g i là các chunk và có ý ngh a nh sau:Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin)Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)

Trong ví d trên, ta có c các t : Vì, sao, công ty, Vi t Hà, b , t, vào, tìnhtr ng, …

Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,

chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau:chunk_0 word_0 => chunk

Trang 33

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

chunk_0 word_-1 word_0 => chunkchunk_0 word_0 word_1 => chunk

3.1.2.1 Quá trình h c

(1) T t p d li u h c xây d ng t n các t(2) Kh i t o các t

(3) Rút ra t p lu t

b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta scó t n các ti ng (Lexicon) Các ti ng có th xu t hi n trong các t v i các chunkkhác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng.Ví d , i v i t “công ty” thì ti ng “công” có chunk=B nh ng trong t “c a công” thìti ng công có chunk=I.

b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cáchxóa h t các chunk t ng ng T p d li u m i này s c s d ng kh i t o l i cácchunk thông d ng nh t d a vào t n.

b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m ulu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ngvào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v ip d li u h c là t p d li u chu n) Ch n lu t có m cao nh t và l n h n m tng ng cho tr c a vào danh sách lu t c ch n.

t qu ta s c m t t p các lu t c ch n Các lu t có d ng nh sau:SCORE:414 RULE: chunk_0=B word_0=t => chunk=I

SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I

Trang 34

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=ISCORE:231 RULE: chunk_0=B word_0= ng => chunk=ISCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I

SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=ISCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=ISCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=ISCORE:100 RULE: chunk_0=B word_0=th => chunk=I

dòng 2 ta có lu t: n u t hi n hành là “công” (word_0=công) và t tr c ó là“c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk

a t hi n hành là I , ngh a là “c a công” ph i là m t t

Toàn b quá trình h c c mô t nh sau:

Trang 35

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Trang 36

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s táchc các t hoàn ch nh.

Giai n xác nh t cho tài li u m i c mô t nh sau:

Hình 3-2 Giai n xác nh t cho tài li u m i

Trang 37

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

3.2 Longest Matching[1.4]

Ph ng pháp Longest Matching tách t d a vào t n có s n.

Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t cónhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h tcâu V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| muabán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này stách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”,“tr c | bàn là | m t | ly| n c”,…

Trang 38

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Chng 4: P CH M C

1 Khái quát v h th ng l p ch m c

t cách t ng t c tìm ki m thông tin lên là t o ch m c cho các tài li u.Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i,ph i c p nh t l i t p tin ch m c Nh ng i v i h th ng tìm ki m thông tin, ch c np nh t l i t p tin ch m c vào m t kho ng th i gian nh k Do ó, ch m c là m tcông c r t có giá tr

p ch m c bao g m các công vi c sau:

Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u

Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a ttrong m t tài li u.

Trang 39

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ø ng t , lo i b các t có t n s th p Ngh a là, xác nh ng ng th pvà lo i b t t c các t có t n s xu t hi n nh h n giá tr này u này s lo i b các ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng

n vi c th c hi n truy v n.

Ø Các t có t n s xu t hi n trung bình còn l i s c s d ng làm t chc.

Hình 4-1 Các tc s p theo th t

Trang 40

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

n: s t phân bi t trong t p tài li u

FREQik: s l n xu t hi n c a t k trong tài li u Di (t n s t )

DOCFREQk : s tài li u có ch a t k

Khi ó, tr ng s c a t k trong tài li u Di c tính nh sau:

WEIGHTik = FREQik * [log (n) – log (DOCFREQk)]

Tr ng s c a t k trong tài li u Di t ng n u t n s xu t hi n c a t k trong tàili u i t ng và gi m n u t ng s tài li u có ch a t k t ng.

2.2.2 nhi u tín hi u (The Signal – Noise Ratio)

t quan m t ng t c xem xét ó là d a vào thông tin ánh giá t mquan tr ng c a t Trong th c t , n i dung thông tin c a m t n hay m t t có thxác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho Rõ ràng, xác su txu t hi n c a m t t càng cao thì thông tin mà nó ch a càng ít.

i dung thông tin c a m t t c xác nh nh sau:

Ngày đăng: 14/11/2012, 10:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w