0
Tải bản đầy đủ (.pdf) (40 trang)

Tách tt ng cho tp các tài li u

Một phần của tài liệu XÂY DỰNG HỆ THỐNG TÌM KIẾM THÔNG TIN TIẾNG VIỆT DỰA TRÊN CÁC CHỈ MỤC LÀ TỪ GHÉP (NGUYẾN THANH HÀ VS NGUYỄN TRUNG HIẾU) - 1 POTX (Trang 25 -40 )

3. Các bc xây d ng m th tìm k im thông tin [2]

3.1 Tách tt ng cho tp các tài li u

i v i ti ng Anh, ta tách t d a vào kho ng tr ng. Tuy nhiên i v i ti ng Vi t, giai n này t ng i khó kh n. C u trúc ti ng Vi t r t ph c t p, không ch n thu n d a vào kho ng tr ng tách t . Hi n nay có r t nhi u công c dùng tách t ti ng Vi t, m i ph ng pháp có u, khuy t m riêng. Các ph ng pháp này s c trình bày chi ti t h n ch ng III : Tách t t ng.

3.2 p ch m c cho tài li u

Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c. Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c. Các t có kh n ng i di n cho tài li u s c ch n, các t này c g i làkey word, do ó tr c khi l p ch

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

vào danh sách g i là stop list. i v i ti ng Anh hay ti ng Vi t u có danh sách stop list. Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.

3.3 Tìm ki m

Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vào ng s c x lý, ngh a là ta s tách t cho câu h i. Ph ng pháp tách t cho câu h i ng nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ng thích. Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liên quan n câu h i c a ng i dùng.

3.4 p x p các tài li u tr v (Ranking)

Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s c p x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi u n. H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi u nh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.

4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki mthông tin ti ng Vi t

thông tin ti ng Vi t

Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki m thông tin nh Google, Yahoo Search, AltaVista, …. Tuy nhiên, ây là các công c c a ng i n c ngoài nên chúngch gi i quy t t t i v i các yêu c u c a h . Chúng ta ng có m t s công c h tr tìm ki m thông tin ti ng Vi t nh : Vinaseek, NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìm ki m c ng ch a c c i thi n. Nhìn chung, xây d ng m t h th ng tìm ki m thông

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mã ti ng Vi t.

4.1 Khó kh n trong vi c tách t ti ng Vi t

Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki m thông tin ti ng Vi t. i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ng tr ng tách t . Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student. Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng. T có th c ghép t m t hay nhi u ti ng. T ph i có ý ngh a hoàn ch nh và có c u t o n nh. Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên. Trong ó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.

Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t. Tuy nhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t c chính xác 100%. Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n tranh cãi.

4.2 n b ng mã ti ng Vi t

Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý. M t công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ng mã (VNI, TCVN3, ViQR,…).

4.3 Các khó kh n khác

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ø Ng c l i, có nh ng t ng âm khác ngh a. Các h th ng s tr v các tài li u có ch a các t ã c tách trong câu h i mà không c n xác nh chúng có th c

liên quan hay không. Vì v y, k t qu tr v s không chính xác.

Ø t s t xu t hi n r t nhi u nh ng không có ý ngh a trong tài li u. Các t nh : và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào. N u tìm cách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ch ng 3:

TÁCH T T NG

Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quan tr ng trong m t h th ng tìm ki m thông tin. i v i ti ng Anh ch n gi n d a vào kho ng tr ng tách t . Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng

c vì ti ng Vi t là ngôn ng n l p.

Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t, nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t. Ch ng này s trình bày chi ti t v m t s ph ng pháp tách t .

1. Tách t trong Ti ng Anh

Do c m ng pháp c a ti ng Anh, tách t ch n gi n d a vào kho ng tr ng phân bi t t .

2. Tách t trong Ti ng Vi t


2.1 t s c m chính v t ti ng Vi t [2.2]

2.1.1 Ti ng

m t ng âm, ti ng là âm ti t. Âm ti t bao g m nh ng n v b c th p h n g i là âm v . M i âm v c ghi b ng m t ký t g i là ch .

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ng không có ngh a. giá tr ng pháp, ti ng là n v c u t o t . S d ng ti ng t o thành t , ta có hai tr ng h p nh sau: Ø m t ti ng: g i là t n. Tr ng h p này m t t ch có m t ti ng. Ví d nh : ông, bà, …

Ø hai ti ng tr lên: g i là t ph c. Tr ng h p này m t t có th có hai hay nhi u ti ng tr lên. Ví d nh : xã h i, an ninh, h p tác xã,…

2.1.2

là n v nh nh t t o thành câu. Trong t câu, chúng ta dùng t ch không dùng ti ng.

2.2 Tách t t ng ti ng Vi t

Tách t t ng ti ng Vi t d a trên m t s ph ng pháp có s n. Sau ây chúng ta s nghiên c u m t s ph ng pháp c s d ng tách t cho các v n b n ti ng Vi t.

3. Các ph ng pháp tách t ti ng Vi t

3.1 fnTBL (Fast Transformation-based learning) [3.1]

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy t t v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào cho t qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra. Thu t toán k t thúc khi không còn phép bi n i nào c ch n. H th ng fnTBL g m hai t p tin chính:

Ø p tin d li u h c (Training): T p tin d li u h c c làm th công, òi h i

chính xác. M i m u (template) c t trên m t dòng riêng bi t. Ví d : t p li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nh sau: Công ty danhtu An ông danhturieng dongtu giám sát dongtu

Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n th hai là t lo i t ng ng.

Ø p tin ch a các m u lu t (rule-template): M i lu t c t trên m t dòng, h

th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c. Ví d : chunk_-2 chunk_-1 => chunk

Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , chunk_- 1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng pháp này tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.

Ø Xây d ng t p tin d li u h c: p tin d li u cho vi c tách t ti ng Vi t có d ng

nh sau: Vì B sao B công B ty I Vi t B Hà I B t B vào B tình B tr ng I …. Các ký t B, I g i là các chunk và có ý ngh a nh sau: Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin) Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)

Trong ví d trên, ta có c các t : Vì, sao, công ty, Vi t Hà, b , t, vào, tình tr ng, …

Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

chunk_0 word_-1 word_0 => chunk chunk_0 word_0 word_1 => chunk

3.1.2.1 Quá trình h c

(1) T t p d li u h c xây d ng t n các t (2) Kh i t o các t

(3) Rút ra t p lu t

b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta s có t n các ti ng (Lexicon). Các ti ng có th xu t hi n trong các t v i các chunk khác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng. Ví d , i v i t “công ty” thì ti ng “công” có chunk=B nh ng trong t “c a công” thì ti ng công có chunk=I.

b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cách xóa h t các chunk t ng ng. T p d li u m i này s c s d ng kh i t o l i các chunk thông d ng nh t d a vào t n.

b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m u lu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ng vào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v i p d li u h c là t p d li u chu n). Ch n lu t có m cao nh t và l n h n m t ng ng cho tr c a vào danh sách lu t c ch n.

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I SCORE:231 RULE: chunk_0=B word_0= ng => chunk=I SCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I

SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I SCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=I SCORE:100 RULE: chunk_0=B word_0=th => chunk=I

dòng 2 ta có lu t: n u t hi n hành là “công” (word_0=công) và t tr c ó là “c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk

a t hi n hành là I , ngh a là “c a công” ph i là m t t . Toàn b quá trình h c c mô t nh sau:

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Hình 3-1 Quá trình h c

3.1.2.2 Xác nh t cho tài li u m i

(1) Tài li u m i a vào ph i có nh d ng gi ng nh t p tin d li u h c, ngh a là m i ti ng trên m t dòng.

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s tách c các t hoàn ch nh.

Giai n xác nh t cho tài li u m i c mô t nh sau:

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

3.2 Longest Matching [1.4]

Ph ng pháp Longest Matching tách t d a vào t n có s n.

Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t có nhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h t câu. V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| mua bán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này s tách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”, “tr c | bàn là | m t | ly| n c”,…

3.3 t h p gi a fnTBL và Longest Matching

Chúng ta có th k t h p gi a hai ph ng pháp fnTBL và Longest Matching có c k t qu tách t t t nh t. u tiên ta s tách t b ng Longest Matching, u ra

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ch ng 4:

P CH M C

1. Khái quát v h th ng l p ch m c

t cách t ng t c tìm ki m thông tin lên là t o ch m c cho các tài li u. Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i, ph i c p nh t l i t p tin ch m c. Nh ng i v i h th ng tìm ki m thông tin, ch c n p nh t l i t p tin ch m c vào m t kho ng th i gian nh k . Do ó, ch m c là m t công c r t có giá tr .

p ch m c bao g m các công vi c sau:

Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u

Một phần của tài liệu XÂY DỰNG HỆ THỐNG TÌM KIẾM THÔNG TIN TIẾNG VIỆT DỰA TRÊN CÁC CHỈ MỤC LÀ TỪ GHÉP (NGUYẾN THANH HÀ VS NGUYỄN TRUNG HIẾU) - 1 POTX (Trang 25 -40 )

×