1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép (Nguyến Thanh Hà vs Nguyễn Trung Hiếu) - 1 potx

40 252 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 312,42 KB

Nội dung

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép IC M N Chúng em xin g i l i c m n chân thành nh t n tình h ng d n, giúp n th y H B o Qu c, ng i ã chúng em su t th i gian th c hi n lu n v n Chúng c m n Cha, M gia ình, nh ng ng i ã d y d , khuy n khích, ng viên chúng nh ng lúc khó kh n, t o m i u ki n cho chúng nghiên c u h c t p Chúng em c m n th y, cô khoa Công Ngh Thơng Tin ã dìu d t, gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu nh ng n m h c qua m n ch Lê Thúy Ng c b n ã t n tình óng góp ý ki n cho lu n v n a c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót, mong nh n c s thơng c m góp ý c a th y b n Tháng n m 2005 Sinh viên Nguy n Th Thanh Hà – Nguy n Trung Hi u Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép CL C DANH SÁCH CÁC B NG DANH SÁCH CÁC HÌNH V Ph n : TÌM HI U LÝ THUY T 11 Ch ng 1: T NG QUAN V TÌM KI M THƠNG TIN 11 Gi i thi u v tìm ki m thông tin 11 1.1 Khái ni m v tìm ki m thơng tin 11 1.2 M t s v n vi c tìm ki m thông tin: .11 H tìm ki m thơng tin – IRS 12 Các thành ph n c a m t h tìm ki m thông tin [1.1] 13 So sánh IRS v i h th ng thông tin khác 14 4.1 H qu n tr c s d li u (DBMS) 15 4.2 H qu n lý thông tin (IMS) 15 4.3 H h tr quy t nh (DSS) 16 4.4 H tr l i câu h i (QAS) 16 4.5 So sánh IRS v i h th ng thông tin khác 17 Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THƠNG TIN 18 Ki n trúc c a h tìm ki m thông tin [1.3] 18 M t s mơ hình xây d ng m t h tìm ki m thơng tin [1.2] 19 2.1 Mơ hình khơng gian vector 19 2.2 Tìm ki m Boolean .21 2.3 Tìm ki m Boolean m r ng .22 2.4 M r ng vi c thêm vào tr ng s c a câu h i .23 2.4.1 M r ng cho s t tu ý 23 2.4.2 Thêm toán t t ng 24 2.5 Mơ hình xác su t 24 2.6 ánh giá chung v mơ hình 25 Các b c xây d ng m t h tìm ki m thơng tin [3.2] 25 3.1 Tách t t ng cho t p tài li u 25 3.2 L p ch m c cho tài li u .25 3.3 Tìm ki m 26 3.4 S p x p tài li u tr v (Ranking) 26 Nh ng khó kh n vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t .26 4.1 Khó kh n vi c tách t ti ng Vi t .27 4.2 V n b ng mã ti ng Vi t 27 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 4.3 Các khó kh n khác .27 Ch ng 3: TÁCH T T NG 29 Tách t Ti ng Anh 29 Tách t Ti ng Vi t 29 2.1 M t s c m v t ti ng Vi t [2.2] 29 2.1.1 Ti ng 29 2.1.2 T .30 2.2 Tách t t ng ti ng Vi t 30 Các ph ng pháp tách t ti ng Vi t .30 3.1 fnTBL (Fast Transformation-based learning) [3.1] 30 3.1.1 Mô t 30 3.1.2 Áp d ng tách t ti ng Vi t 31 3.2 Longest Matching [1.4] 37 3.3 K t h p gi a fnTBL Longest Matching .37 Ch ng 4: L P CH M C 38 Khái quát v h th ng l p ch m c 38 Ph ng pháp l p ch m c [1.1] 38 2.1 Xác nh t ch m c 38 2.2 Các ph ng pháp tính tr ng s c a t 40 2.2.1 T n s tài li u ngh ch o 40 2.2.2 nhi u tín hi u (The Signal – Noise Ratio) 40 2.2.3 Giá tr phân bi t t (The Term Discrimination Value) 42 2.3 L p ch m c t ng cho tài li u ti ng Anh 43 L p ch m c cho tài li u ti ng Vi t 45 T p tin ngh ch o tài li u .46 4.1 Phân bi t gi a t p tin ngh ch o t p tin tr c ti p 46 4.2 T i s d ng t p tin ngh ch o l p ch m c .47 Ph n : PHÂN TÍCH VÀ THI T K 49 Ch ng 5: PHÂN TÍCH .49 S UseCase h th ng 49 S L p 51 2.1 S l p th hi n 51 2.2 S l p x lý 52 Tách t 53 3.1 S UseCase 53 3.2 S Tu n t 53 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 3.3 S C ng tác 54 3.4 S L p 54 L p ch m c 55 4.1 S UseCase 55 4.2 S Tu n t 56 4.2.1 T o m i ch m c 56 4.2.2 C p nh t ch m c .57 4.3 S C ng tác 58 4.3.1 T o m i ch m c 58 4.3.2 C p nh t ch m c .59 4.4 S L p 60 Tìm ki m .61 5.1 S UseCase 61 5.2 S Tu n t 61 5.3 S C ng tác 62 5.4 S L p 63 Ch ng 6: THI T K VÀ CÀI T 64 C u trúc l u tr d li u 64 1.1 T p tin l u n i dung tài li u .64 1.1.1 C u trúc DTD / XSD 64 1.1.2 Tài li u XML 66 1.2 T p tin sau tách t tài li u 67 1.2.1 C u trúc DTD / XSD 67 1.2.2 Tài li u XML 68 1.3 T p tin ch a t không th hi n n i dung c a v n b n (stop list) 70 1.3.1 C u trúc DTD / XSD 70 1.3.2 Tài li u XML 71 1.4 T p tin ch m c o ( Inverted ) 71 1.4.1 C u trúc DTD / XSD 71 1.4.2 Tài li u XML 73 1.5 T p tin sau tách t câu h i 74 1.5.1 C u trúc DTD / XSD 74 1.5.2 Tài li u XML 75 1.6 T p tin ch a t c a câu h i sau lo i b t danh sách StopList 76 1.6.1 C u trúc DTD / XSD 76 1.6.2 Tài li u XML 77 1.7 T p tin ch a t câu h i tài li u liên quan 77 1.7.1 C u trúc DTD / XSD 77 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 1.7.2 Tài li u XML 79 1.8 T p tin ch a t ng quan gi a câu h i tài li u .80 1.8.1 C u trúc DTD / XSD 80 1.8.2 Tài li u XML 82 Chi ti t l p i t ng 83 2.1 Các l p trình tách t 83 2.1.1 S l p 83 2.1.2 L p tách t ghép 83 2.1.3 L p tách t 86 2.1.4 L p giao di n tách t 89 2.2 Các l p trình l p ch m c 91 2.2.1 S l p .91 2.2.2 L p l p ch m c 92 2.2.3 L p giao di n t o m i ch m c 94 2.2.4 L p giao di n c p nh t ch m c 96 2.3 Các l p trình tìm ki m 98 2.3.1 S l p .98 2.3.2 L p tìm ki m .99 2.3.3 L p giao di n tìm ki m 105 M t s hình giao di n khác 109 3.1 Màn hình c a ch ng trình 109 3.2 Màn hình tìm ki m nhi u câu h i 110 3.3 Màn hình tìm ki m ( giao di n Web) 112 3.4 Màn hình tr v tài li u tìm c ( giao di n Web) 113 3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web) 114 Ph n : T NG K T 115 Ch ng trình th nghi m 115 ánh giá k t qu t c 115 H ng phát tri n 116 TÀI LI U THAM KH O 117 Sách 117 Lu n v n 117 Website 117 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép DANH SÁCH CÁC B NG ng 1-1 So sánh IRS v i h th ng thông tin khác 17 ng 4-1 Cách t p tin ngh ch o l u tr .47 ng 4-2 Cách t p tin tr c ti p l u tr 47 ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o .48 ng 5-1 Danh sách Actor .50 ng 5-2 Danh sách UseCase 50 DANH SÁCH CÁC HÌNH V Hình 1-1 Mơi tr ng c a h tìm ki m thơng tin 13 Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin 14 Hình 2-1 H tìm ki m thơng tin tiêu bi u .18 Hình 3-1 Quá trình h c 35 Hình 3-2 Giai n xác nh t cho tài li u m i 36 Hình 4-1 Các t c s p theo th t 39 Hình 4-2 Quá trình ch n t làm ch m c 45 Hình 5-1 S Use-case c a h th ng 49 Hình 5-2 S l p th hi n 51 Hình 5-3 S l p x lý 52 Hình 5-4 S Use-case tách t 53 Hình 5-5 S tu n t tách t .53 Hình 5-6 S c ng tác tách t .54 Hình 5-7 S l p tách t .54 Hình 5-8 S use-case l p ch m c .55 Hình 5-9 S tu n t t o m i ch m c 56 Hình 5-10 S tu n t c p nh t ch m c 57 Hình 5-11 S c ng tác t o m i ch m c 58 Hình 5-12 S c ng tác c p nh t ch m c 59 Hình 5-13 S l p l p ch m c 60 Hình 5-14 S use-case tìm ki m .61 Hình 5-15 S tu n t tìm ki m 61 Hình 5-16 S c ng tác tìm ki m .62 Hình 5-17 S l p tìm ki m .63 Hình 6-1 S l p tách t .83 Hình 6-2 L p tách t ghép 83 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Hình 6-3 L p tách t .86 Hình 6-4 L p giao di n tách t 89 Hình 6-5 Màn hình tách t .89 Hình 6-6 Màn hình chi ti t tách t 90 Hình 6-7 S l p l p ch m c .91 Hình 6-8 L p l p ch m c 92 Hình 6-9 L p giao di n t o m i ch m c 94 Hình 6-10 Màn hình t o m i ch m c 95 Hình 6-11 L p Màn hình c p nh t ch m c 96 Hình 6-12 Màn hình c p nh t ch m c 97 Hình 6-13 S l p tìm ki m .98 Hình 6-14 L p x lý tìm ki m .99 Hình 6-15 L p giao di n tìm ki m .105 Hình 6-16 Màn hình tìm ki m .106 Hình 6-17 Xem t khóa câu h i 106 Hình 6-18 Xem t khóa tài li u 107 Hình 6-19 Màn hình 109 Hình 6-20 Màn hình tìm ki m nhi u câu h i 110 Hình 6-21 Giao di n tìm ki m Web 112 Hình 6-22 Giao di n tài li u tr v sau tìm ki m 113 Hình 6-23 Giao di n chi ti t n i dung c a tài li u 114 Nguy n Th Thanh Hà - 0112215 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép U Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr máy tính ngày nhi u ó vi c tìm ki m thơng tin xác nhu c u thi t y u i m i ng i i m i l nh v c Internet hi n ã tr thành m t kho t li u kh ng mà vi c tìm ki m thơng tin kho t li u c n ph i c h tr b i cơng c tìm ki m (search engine) t t Các h th ng tìm ki m thơng tin thông d ng nh Google, Yahoo Search ã áp ng th ng c xây d ng c ph n nhu c u ó c a m i ng i Tuy nhiên, h x lý tìm ki m v n b n ti ng Châu Âu, chúng ch a th t s phù h p cho v n b n ti ng Vi t Do ó nhu c u ph i có m t công c tìm ki m “hi u” x lý t t v n b n tí ng Vi t Các h tìm ki m thơng tin cho v n b n n Giai ngôn ng u ph i th c hi n giai n l p ch m c (indexing) trích t ch m c (index term) bi u di n t t nh t n i dung c a v n n ph thu c vào ngôn ng c a v n b n ph ng pháp x lý t ng ó Hi n ch a có nhi u h th ng tìm ki m thông tin kho tài li u ti ng Vi t có khai thác c tr ng c a ti ng Vi t cho vi c l p ch m c Vì v y m c tiêu c a lu n v n nh m xây d ng m t h th ng tìm ki m thơng tin b ng ti ng Vi t có s d ng k t qu c a x lý ngôn ng t nhiên t nh ng xác c ch m c t (word) hay t ghép (compound word) c a ti ng Vi t Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép vào danh sách g i stop list i v i ti ng Anh hay ti ng Vi t list Chi ti t v trình l p ch m c s c mơ t ch u có danh sách stop ng IV: L p ch m c 3.3 Tìm ki m Ng ng s i dùng nh p câu h i yêu c u tìm ki m, câu h i mà ng c x lý, ngh a ta s tách t cho câu h i Ph ng nên ph ng pháp tách t cho câu h i ng pháp tách t cho tài li u thu th p c thích Sau ó, h th ng s tìm ki m t p tin ch m c quan n câu h i c a ng 3.4 i dùng nh p vào mb os t xác ng nh tài li u liên i dùng p x p tài li u tr v (Ranking) Các tài li u sau ã xác nh liên quan n câu h i c a ng p x p l i, b i tài li u ó có nh ng tài li u liên quan n H th ng s d a vào m t s ph ng pháp nh t, s p x p l i (ranking) tr v cho ng xác i dùng s c n câu h i nhi u nh tài li u liên quan nhi u i dùng theo th t u tiên Nh ng khó kh n vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t Hi n nay, ã quen thu c v i r t nhi u cơng c h tr vi c tìm ki m thông tin nh Google, Yahoo Search, AltaVista, … Tuy nhiên, ây công c c a ng in c nên chúng ch gi i quy t t t ng có m t s cơng c h tr i v i yêu c u c a h Chúng ta tìm ki m thơng tin ti ng Vi t nh : Vinaseek, NetNam,…Các công c c ng tách t ch y u d a vào kho ng tr ng nên vi c tìm ki m c ng ch a c c i thi n Nhìn chung, Nguy n Th Thanh Hà - 0112215 26 xây d ng m t h th ng tìm ki m thông Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép tin ti ng Vi t, g p khó kh n vi c tách t ti ng Vi t xác nh b ng mã ti ng Vi t 4.1 Khó kh n vi c tách t ti ng Vi t Có th nói tách t giai thơng tin ti ng Vi t tr ng i v i ti ng Anh, vi c xác tách t Ví d , câu: “I am a student” s Tuy nhiên, th n khó kh n nh t xây d ng m t h tìm ki m nh t ch n gi n d a vào kho ng c tách thành t : I, am, a, student i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c ti ng T có c ghép t m t hay nhi u ti ng T ph i có ý ngh a hồn ch nh có c u t o n nh Câu: “Tôi m t sinh viên” ó, t “sinh viên” c tách thành t : Tôi, là, m t, sinh viên Trong c hình thành t ti ng: sinh viên Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t Tuy nhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph xác 100% Và vi c l a ch n ph ng pháp t c ng pháp t t nh t c ng ang v n tranh cãi 4.2 n b ng mã ti ng Vi t Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý M t công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ng mã (VNI, TCVN3, ViQR,…) 4.3 Các khó kh n khác Ø Ti ng Vi t có t tr vi c xác ng ngh a nh ng khác âm Các công c hi n không nh t Nguy n Th Thanh Hà - 0112215 ng ngh a Vì v y, k t qu tr v s không 27 y Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ø Ng c l i, có nh ng t có ch a t ã ng âm khác ngh a Các h th ng s tr v tài li u c tách câu h i mà không c n xác nh chúng có th c liên quan hay khơng Vì v y, k t qu tr v s khơng xác Ø t s t xu t hi n r t nhi u nh ng khơng có ý ngh a tài li u Các t nh : và, v i, nh ng,… có t n s xu t hi n r t l n b t c v n b n N u tìm cách tr v tài li u có ch a nh ng t s thu c k t qu vô ích, khơng n thi t Do ó, c n tìm cách lo i b t tr Nguy n Th Thanh Hà - 0112215 28 c tìm ki m Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ch Tr ng 3: TÁCH T c l p ch m c giai tách t Nh ng c ti ng Vi t ngôn ng i v i ti ng Anh ch n gi n d a vào i v i ti ng Vi t không th d a vào kho ng tr ng n l p Hi n nay, có r t nhi u ph nh ng v n ch a th ng nh t ph ti t v m t s ph NG n tách t cho tài li u, ây công vi c quan tr ng m t h th ng tìm ki m thông tin kho ng tr ng T ng pháp c xu t tách t cho ti ng Vi t, ng pháp t t nh t Ch ng s trình bày chi ng pháp tách t Tách t Ti ng Anh Do tr ng c m ng pháp c a ti ng Anh, tách t ch n gi n d a vào kho ng phân bi t t Tách t Ti ng Vi t 2.1 ts c m v t ti ng Vi t [2.2] 2.1.1 Ti ng m t ng âm, ti ng âm ti t Âm ti t bao g m nh ng âm v M i âm v nv b c th p h n g i c ghi b ng m t ký t g i ch Nguy n Th Thanh Hà - 0112215 29 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép m t ng ngh a, ti ng n v nh nh t có ngh a, nh ng c ng có m t s ti ng khơng có ngh a giá tr ng pháp, ti ng hai tr Ø n v c u t o t S d ng ti ng t o thành t , ta có ng h p nh sau: m t ti ng: g i t n Tr ng h p m t t ch có m t ti ng Ví d nh : ơng, bà, … Ø hai ti ng tr lên: g i t ph c Tr ng h p m t t có th có hai hay nhi u ti ng tr lên Ví d nh : xã h i, an ninh, h p tác xã,… 2.1.2 n v nh nh t t o thành câu Trong t câu, dùng t ch không dùng ti ng 2.2 Tách t t Tách t t ng ti ng Vi t ng ti ng Vi t d a m t s ph ta s nghiên c u m t s ph ng pháp c s d ng ng pháp có s n Sau ây chúng tách t cho v n b n ti ng Vi t Các ph ng pháp tách t ti ng Vi t 3.1 fnTBL (Fast Transformation-based learning) [3.1] 3.1.1 Mô t Nguy n Th Thanh Hà - 0112215 30 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép Ýt ng c a ph tv n ng pháp h c d a s bi n ó ta s áp d ng phép bi n t qu t t nh t s c ch n thúc khơng cịn phép bi n i, t i m i b c áp d ng l i v i v n i i (TBL) gi i quy t c, phép bi n i cho ã a Thu t toán k t c ch n H th ng fnTBL g m hai t p tin chính: Ø p tin d li u h c (Training): T p tin d li u h c xác M i m u (template) li u h c cho vi c xác c c làm th cơng, ịi h i t m t dịng riêng bi t Ví d : t p nh t lo i c a m t v n b n có th có nh d ng nh sau: Công ty danhtu An ông danhturieng dongtu giám sát dongtu Trong ví d m i m u g m có hai ph n: ph n hai t lo i t Ø u tiên t , ph n th ng ng p tin ch a m u lu t (rule-template): M i lu t th ng fTBL s d a vào m u lu t c t m t dòng, h áp d ng vào t p tin d li u h c Ví d : chunk_-2 chunk_-1 => chunk Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , chunk_- 1= s t , chunk=danh t lu t có ý ngh a nh sau: n u hai t tr c ó ng t s t chuy n t lo i hi n hành thành danh t 3.1.2 Áp d ng tách t ti ng Vi t Nguy n Th Thanh Hà - 0112215 31 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Sau nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph tách t cho ti ng Vi t, ch c n thay Ø Xây d ng t p tin d li u h c: im ts ng pháp nh d ng cho phù h p p tin d li u cho vi c tách t ti ng Vi t có d ng nh sau: Vì B B cơng B ty I Vi t B Hà I B tB vào B tình B tr ng I … Các ký t B, I g i chunk có ý ngh a nh sau: Ti ng có chunk=B ngh a ti ng ó b t u m t t (begin) Ti ng có chunk=I ngh a ti ng ó n m m t t (inside) Trong ví d trên, ta có c t : Vì, sao, cơng ty, Vi t Hà, b , t, vào, tình tr ng, … Ø Xây d ng t p tin ch a m u lu t: Sau tìm hi u v t ti ng Vi t, chúng em xây d ng c lu t áp d ng cho vi c tách t ti ng Vi t nh sau: chunk_0 word_0 => chunk Nguy n Th Thanh Hà - 0112215 32 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép chunk_0 word_-1 word_0 => chunk chunk_0 word_0 word_1 => chunk 3.1.2.1 Quá trình h c (1) T t p d li u h c xây d ng t n t (2) Kh i t o t (3) Rút t p lu t b có t c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta s n ti ng (Lexicon) Các ti ng có th xu t hi n t v i chunk khác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i chunk t Ví d , ng ng i v i t “cơng ty” ti ng “cơng” có chunk=B nh ng t “c a cơng” ti ng cơng có chunk=I b c (2) t t p d li u h c, t o t p d li u h c chunk b ng cách xóa h t chunk t ng ng T p d li u m i s chunk thông d ng nh t d a vào t b kh i t o l i n c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào m u lu t ã cho, ta s rút c lu t ng viên, ng v i m i lu t ng viên ta l i áp d ng vào t p d li u ang xét tính m cho (d a vào s l i phát sinh so sánh v i p d li u h c t p d li u chu n) Ch n lu t có ng c s d ng ng cho tr c t qu ta s a vào danh sách lu t c m t t p lu t m cao nh t l n h n m t c ch n c ch n Các lu t có d ng nh sau: SCORE:414 RULE: chunk_0=B word_0=t => chunk=I SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I Nguy n Th Thanh Hà - 0112215 33 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I SCORE:231 RULE: chunk_0=B word_0= ng => chunk=I SCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I SCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=I SCORE:100 RULE: chunk_0=B word_0=th => chunk=I dịng ta có lu t: n u t hi n hành “công” (word_0=cơng) t tr c ó “c a” (word_-1=c a) chunk c a t hi n hành B ( chunk_0=B) chuy n chunk a t hi n hành I , ngh a “c a cơng” ph i m t t Tồn b trình h c Nguy n Th Thanh Hà - 0112215 c mô t nh sau: 34 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Hình 3-1 Quá trình h c 3.1.2.2 Xác (1) Tài li u m i nh t cho tài li u m i a vào ph i có nh d ng gi ng nh t p tin d li u h c, ngh a m i ti ng m t dòng (2) D a vào t n, gán chunk thông d ng nh t cho ti ng tài li u m i Nguy n Th Thanh Hà - 0112215 35 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép (3) Áp d ng lu t có c t giai n h c vào tài li u ang xét ta s tách c t hoàn ch nh Giai n xác nh t cho tài li u m i Hình 3-2 Giai Nguy n Th Thanh Hà - 0112215 n xác c mô t nh sau: nh t cho tài li u m i 36 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 3.2 Longest Matching [1.4] Ph ng pháp Longest Matching tách t d a vào t Theo ph ng pháp này, n có s n tách t ti ng Vi t ta i t trái sang ph i ch n t có nhi u âm ti t nh t mà có m t t câu V i cách này, ta d dàng tách n, r i c ti p t c cho t k ti p cho nh t c xác ng /câu nh : ”h p tác| mua bán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph tách t sai tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”, “tr c | bàn | m t | ly| n 3.3 c”,… t h p gi a fnTBL Longest Matching Chúng ta có th k t h p gi a hai ph có a ph ng pháp s c k t qu tách t t t nh t ng pháp s u tiên ta s tách t b ng Longest Matching, u vào cho ph Nguy n Th Thanh Hà - 0112215 ng pháp fnTBL Longest Matching u ng pháp fnTBL h c lu t 37 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ch P CH M C ng 4: Khái quát v h th ng l p ch m c t cách t ng t c tìm ki m thơng tin lên t o ch m c cho tài li u Tuy nhiên, vi c l p ch m c có m t nh c ph i c p nh t l i t p tin ch m c Nh ng m l n, ó thêm m t tài li u m i, i v i h th ng tìm ki m thông tin, ch c n p nh t l i t p tin ch m c vào m t kho ng th i gian nh k Do ó, ch m c m t cơng c r t có giá tr p ch m c bao g m công vi c sau: Ø Xác Ø nh t có kh n ng i di n cho n i dung c a tài li u ánh tr ng s cho t này, tr ng s ph n ánh t m quan tr ng c a t m t tài li u Ph ng pháp l p ch m c [1.1] 2.1 Xác Ø nh t ch m c Cho m t t p g m có n tài li u V i m i tài li u, tính t n s c a m i t riêng bi t tài li u ó G i FREQik: t n s xu t hi n c a t k tài li u i Ø Xác nh t n s c a t k t p tài li u, ký hi u TOTFREQk b ng cách tính t ng t n s xu t hi n c a k t t c n tài li u: Nguy n Th Thanh Hà - 0112215 38 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép n TOTFREQK = ∑ FREQ ik i=1 Ø li u Xác p x p t gi m d n d a vào t n s xu t hi n c a t p tài nh giá tr ng ng cao lo i b t t c t có t n s xu t hi n l n h n giá tr Ø ng t , lo i b t có t n s th p Ngh a là, xác lo i b t t c t có t n s xu t hi n nh h n giá tr nh ng ng th p u s lo i b xu t hi n t p tài li u, nên s có m t c a t c ng không nh h ng n vi c th c hi n truy v n Ø Các t có t n s xu t hi n trung bình cịn l i s c s d ng làm t ch c Hình 4-1 Các t Nguy n Th Thanh Hà - 0112215 c s p theo th t 39 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 2.2 Các ph ng pháp tính tr ng s c a t Tr ng s c a m t t ph n ánh t m quan tr ng c a t m t t xu t hi n th ó tài li u Ý t ng ng xuyên t t c tài li u quan tr ng h n ch xu t hi n t p trung m t s tài li u 2.2.1 n s tài li u ngh ch ây ph o ng pháp tính tr ng s mà mơ hình khơng gian vector ã s d ng tính tr ng s c a t tài li u n: s t phân bi t t p tài li u FREQik : s l n xu t hi n c a t k tài li u Di (t n s t ) DOCFREQk : s tài li u có ch a t k Khi ó, tr ng s c a t k tài li u Di c tính nh sau: WEIGHTik = FREQik * [log (n) – log (DOCFREQk)] Tr ng s c a t k tài li u Di t ng n u t n s xu t hi n c a t k tài li u i t ng gi m n u t ng s tài li u có ch a t k t ng 2.2.2 t quan nhi u tín hi u (The Signal – Noise Ratio) mt ng t c xem xét ó d a vào thông tin quan tr ng c a t Trong th c t , n i dung thông tin c a m t xác ánh giá t m n hay m t t có th nh d a vào xác su t xu t hi n c a t v n b n ã cho Rõ ràng, xác su t xu t hi n c a m t t cao thơng tin mà ch a i dung thơng tin c a m t t Nguy n Th Thanh Hà - 0112215 c xác 40 nh nh sau: Nguy n Trung Hi u - 0112216 ... 11 Ch ng 1: T NG QUAN V TÌM KI M THƠNG TIN 11 Gi i thi u v tìm ki m thơng tin 11 1. 1 Khái ni m v tìm ki m thông tin 11 1. 2 M t s v n vi c tìm ki m thơng tin: .11 H tìm. .. 11 7 Website 11 7 Nguy n Th Thanh Hà - 011 2 215 Nguy n Trung Hi u - 011 2 216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép DANH SÁCH CÁC B NG ng 1- 1 So sánh... 11 3 Hình 6-2 3 Giao di n chi ti t n i dung c a tài li u 11 4 Nguy n Th Thanh Hà - 011 2 215 Nguy n Trung Hi u - 011 2 216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép

Ngày đăng: 12/08/2014, 12:21

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w