1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép pot

38 345 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 1,71 MB

Nội dung

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép • XSD Nguy n Th Thanh Hà - 0112215 81 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 1.8.2 Tài li u XML Nguy n Th Thanh Hà - 0112215 82 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép Chi ti t l p it ng 2.1 Các l p trình tách t 2.1.1 l p Hình 6-1 S 2.1.2 l p tách t p tách t ghép Hình 6-2 L p tách t ghép p tách t ghép s có nhi m v tách m t v n b n thành t riêng bi t Nguy n Th Thanh Hà - 0112215 83 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép u vào m t chu i v n b n u m t chu i ch a t , m i t s cách i d u xu ng dòng ( ‘\r\n’ ) Ví d : chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t chu i u = “Thanh niên\r\nVN\r\n ng m i, t m nhìn m i.” ng l c\r\ncho\r\nnh ng\r\ný t ng\r\n i\r\nt m nhìn\r\nm i\r\n” 2.1.2.1 Ý ngh a c a bi n thành ph n: • ch : m ng ký t ch m,…) c bi t (d u ch m, d u ph y, ch m than, ch m h i, hai tách v n b n thành c m t • hVietnamese : b ng b m l u t t c t t n ti ng Vi t 2.1.2.2 Các hàm : - Hàm TachThanhCumTu( ) : tách chu i v n b n thành c m t d a vào kí t c bi t nh : d u ch m, ph y, ch m h i, ch m than… * Thu t toán : void TachThanhCumTu (chu i v n b n) { while(g p t c bi t u tiên chu i v n b n) { // C t ph n u thành m t c m t // Gán chu i v n b n thành ph n sau } } Nguy n Th Thanh Hà - 0112215 84 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ví d : chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.” tr v ta s có chu i c m t : chu i = “Thanh niên VN” chu i = “ ng l c cho nh ng ý t ng m i” chu i = “t m nhìn m i” - Hàm TachMangTieng( ) : tách m t c m t thành t ng ti ng d a vào kh ang tr ng * Thu t toán : void TachMangTieng(c m t ) { while(g p ký t kho ng tr ng u tiên c m t ) { // C t ph n u thành m t ti ng // Gán c m t thành ph n sau } } Ví d : chu i u vào = “ ng l c cho nh ng ý t ti ng = { ng m i” tr v m ng chu i ch a ng”;”l c”;”cho” “nh ng”;”ý”;”t ng”;”m i”} - Hàm XacDinhTu( ) : g p ti ng l i thành t , so sánh t n ti ng Vi t ta s l u l i t vào m ng t Nguy n Th Thanh Hà - 0112215 85 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép * Thu t toán : void XacDinhTu(m ng ti ng) { B1 : gán t = ti ng u tiên B2 : so sánh t có t B3 : n u t có t n hay khơng n có ti ng tr lên ta s l u l i B4 : N u m ng ti ng v n cịn t := t + ti ng ti p theo Ng c l i k t thúc hàm B5 : Quay l i B2 } i m ng ti ng c a ví d sau g i hàm ta s có m ng t nh sau: ng chu i t ={” 2.1.3 ng l c”;”cho” “nh ng”;”ý t ng”; ”m i”} p tách t Hình 6-3 L p tách t Nguy n Th Thanh Hà - 0112215 86 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép p tách t s có nhi m v t o t p tin v n b n Xml t t p tin v n b n g c, sau ó s trích t v n b n cu i l u l i t trích li u ch a t c v i tài ó thành t p tin Xml tách t 2.1.3.1 Ý ngh a c a bi n thành ph n: • ttg : it ng thu c l p CTachTuGhep 2.1.3.2 Các hàm : - Hàm TaoXML( ) : chuy n m t t p tin v n b n có c u trúc thành t p tin XML * Thu t toán : void TaoXML (t p tin v n b n) { T o t p tin Xml l u l i n i dung t p tin v n b n // D ch tr t p tin while(ch a h t t p tin v n b n) { B1 : tìm t khóa DOC l y ph n giá tr B2 : tìm t khóa TITLE l y ph n giá tr B3 : tìm t khóa AUTHOR l y ph n giá tr B4 : tìm t khóa DATE l y ph n giá tr B5 : tìm t khóa NEW l y ph n giá tr B6 : tìm t khóa CONTENT l y ph n giá tr l u l i ph n giá tr vào t p tin Xml Nguy n Th Thanh Hà - 0112215 87 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép }// ENDWHILE } - Hàm Tachtu( ) : c ph n n i dung c a t p tin XML v n b n dùng ng thu c l p CTachTuGhep i trích thành t * Thu t toán : string Tachtu (t p tin v n b n Xml) { - y ph n n i dung (CONTENT) t p tin Xml Dùng it ng c a l p tách t ghép tách t t qu tr v s m t m ng ch a t riêng bi t } - Hàm KetQuaToXmlWord( ) : t sau trích s c l u thành t p tin XML m i g i “t p tin sau tách t tài li u” * Thu t toán : void KetQuaToXmlWord(chu i ch a t ) { B1 : T o m t t p tin Xml B2 : Tách t ng t chu i B3 : Ki m tra t ó có l u t p tin Xml ch a ? o u ch a : l u t ó l u tài li u t o u r i : ki m tra tài li u ó ã ng ng c l u t ó ch a u ch a ta m i l u tài li u ó Nguy n Th Thanh Hà - 0112215 88 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép B4 : N u ch a h t chu i quay l i b c B5 : L u t p tin Xml l i } 2.1.4 p giao di n tách t Hình 6-4 L p giao di n tách t * Giao di n tách t : Hình 6-5 Màn hình tách t Nguy n Th Thanh Hà - 0112215 89 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép - Ng i dùng có th ch n ng d n t i t p tin v n b n c n tách t - ListBox1 ch a t p tin v n b n ng d n ã ch n - ListBox2 ch a t p tin v n b n c ch n - ListBox3 ch a t p tin xml ã c tách t - ListBox4 ch a DocID t p tin xml ã tách t c tách t Vì m t t p tin v n b n xml s ch a nhi u tài li u m i tài li u s có DocID Ng DocID ó i dùng có th ch n xem k t qu tách t t n s c a m i t tài li u ó Sau ch n m t DocID s có giao di n nh sau : Hình 6-6 Màn hình chi ti t tách t Nguy n Th Thanh Hà - 0112215 90 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép wqj = : N u t j có câu truy v n Q wqj = : N u t j khơng có câu truy v n Q Th c ch t ta ch c n c ng t ng quan t ng t khóa c a câu h i ta s có ng quan c a câu h i v i tài li u Ví d : t p tin TuongQuan.xml sau g i hàm TaoFileDoTuongQuan - Hàm TinhDoTuongQuan( ) : hàm nh m tính tài li u có liên quan t ng quan gi a câu h i n Trên th c t ta g i hàm v a nêu * Thu t toán : void TinhDoTuongQuan() { ThemDocVaWeight(); BoSungCacDocThieu(); TaoFileDoTuongQuan(); } Nguy n Th Thanh Hà - 0112215 104 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép 2.3.3 p giao di n tìm ki m Hình 6-15 L p giao di n tìm ki m 8.3.1 Ý ngh a c a bi n thành ph n : § Term : m ng chu i ch a t khóa c a câu h i § DocID : m ng chu i ch a DocID liên quan § Sim : m ng s th c ch a (DocID t t n câu h i ng quan c a câu h i v i tài li u ng ng) § Words : m ng s nguyên ch a s t c a câu h i có tài li u (DocID t ng ng) § n : t ng s tài li u liên quan § tk : it n câu h i ng c a l p x lý tìm ki m Nguy n Th Thanh Hà - 0112215 105 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép * Giao di n tìm ki m : Hình 6-16 Màn hình tìm ki m - Sau tìm ki m xong ng i s d ng có th xem t khóa c a câu h i Ví d v i câu i : an tồn giao thơng t i Tp HCM b n s có c t khóa nh sau : Hình 6-17 Xem t khóa câu h i Nguy n Th Thanh Hà - 0112215 106 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép - Xem t khóa c a tài li u : ngh a ng i s d ng ch n m t tài li u ó ch n ch c n ng xem t khóa tài li u h s th y t khóa ó xu t hi n v i t n s tr ng s t ng ng c a Hình 6-18 Xem t khóa tài li u 8.3.2 Các hàm c a l p : - Hàm TimKiem_Click( ) : hàm s dùng tách t câu h i r i tính t it ng c a l p x lý tìm ki m ng quan c a tài li u v i câu h i * Thu t toán : void TimKiem_Click() { CtimKiem tk = new CtimKiem; tk.TachTuCauHoi(câu h i) tk.LoaiBoSLCauHoi(câu h i); tk.TinhDoTuongQuan(); // Sau g i hàm ta s t o c t p tin TuongQuan.xml ta Nguy n Th Thanh Hà - 0112215 107 c t p tin TuongQuan.xml a vào m ng DocID, Sim, Words Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép SapXepUuTien(); HienThiTaiLieu(); } - Hàm s p x p u tiên : dùng gi i thu t InterchangeSort liên quan s p x p tài li u n câu h i nhi u nh t * Thu t toán : void SapXepUuTien () { // u tiên theo Words (s t c a câu h i tài li u) // u tiên theo Sim ( t ng quan c a tài li u v i câu h i) } - Hàm hi n th tài li u : ta s hi n th tài li u lên Form cho ng Nguy n Th Thanh Hà - 0112215 108 i dùng xem Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép t s hình giao di n khác 3.1 Màn hình c a ch ng trình Hình 6-19 Màn hình Ch ng trình s có ch c n ng : • Tách t : tách t tài li u • o m i ch m c : t o t p tin Inverted • p nh t ch m c : c p nh t thêm tài li u vào t p tin Inverted • Tìm ki m : gõ câu h i nh n tài li u tr v Nguy n Th Thanh Hà - 0112215 109 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép • Thốt : thóat h th ng ch ng trình 3.2 Màn hình tìm ki m nhi u câu h i Hình 6-20 Màn hình tìm ki m nhi u câu h i Các câu h i s c l u m t t p tin Xml theo c u trúc Ví d t p tin CauHoi.xml sau : kinh t tri th c Nguy n Th Thanh Hà - 0112215 110 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép án tham nh ng l n Nguy n Th Thanh Hà - 0112215 111 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 3.3 Màn hình tìm ki m ( giao di n Web) Hình 6-21 Giao di n tìm ki m Web Nguy n Th Thanh Hà - 0112215 112 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép 3.4 Màn hình tr v tài li u tìm c ( giao di n Web) Hình 6-22 Giao di n tài li u tr v sau tìm ki m Nguy n Th Thanh Hà - 0112215 113 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép 3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web) ` Hình 6-23 Giao di n chi ti t n i dung c a tài li u Nguy n Th Thanh Hà - 0112215 114 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a ch m c t ghép Ph n : Ch NG K T ng trình th nghi m th ng tìm ki m thơng tin ti ng Vi t (Search4VN) c cài u hình : Pentium IV, CPU 2.0 Ghz, b nh Ram 256 MB, li u c l p ch m c 13.000 tài li u t ng dung l a c ng 40 GB, s tài ng kho ng 35 MB L p ch m c cho toàn b d li u t o thành t p tin Inverted.xml có dung l Ch t máy có ng trình h tr d ng giao di n : giao di n Web ch cho ng ng 40 MB i s d ng tìm ki m, giao di n Window Application cho Admin s d ng, c hai giao di n phát tri n mơi tr t c Nhìn chung, lu n v n ã hoàn thành nh ng yêu c u Ø Nghiên c u c cách th c ho t ra: ng c a m t h th ng tìm ki m thơng tin c mơ hình xây d ng m t h tìm ki m thơng tin Ø Tìm hi u ph Ø Tìm hi u ph c ng Visual studio NET ánh giá k t qu Ø Tìm hi u u ng pháp tách t ng pháp l p ch m c cho tài li u Ø Áp d ng xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c có c u trúc th ng có m t s u m nh sau: Ø Tách t ti ng Vi t xác Ø Tham s hóa y u t liên quan Nguy n Th Thanh Hà - 0112215 n l p ch m c tra c u 115 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép Ø Tìm ki m nhanh Các tài li u tr v Ø Tóm t t c s p x p xác c n i dung tài li u tr v Ø Giao di n thân thi n, d s d ng Tuy nhiên, h th ng m t s khuy t Ø Ch a t ng l y m c n c i thi n: c tài li u m i gi ng nh m t h th ng Search Engine Ø Ch a h tr b gõ Ø Ch a h tr ch c n ng tìm ki m nâng cao ng phát tri n Ø Tìm hi u k t h p cơng c tách t cho k t qu tách t t t nh t Ø tr b gõ ti ng Vi t Ø tr ch c n ng tìm ki m nâng cao Ø ng t c c p nh t ch m c, tìm ki m Ø Thêm ch c n ng t ng l y tài li u c p nh t vào t p tin ch m c phát tri n thành m t trang Web tìm ki m cho ti ng Vi t Nguy n Th Thanh Hà - 0112215 116 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép TÀI LI U THAM KH O Sách [1.1] Gerard Salton/ Michael J.McGill; Introduction to Modern Information Retrieval [1.2] David A.Grossman/Ophir Frieder; Information Retrival: Algorithms and Heuristics [1.3] C.J van RIJSBERGEN Department of Computing Science University of Glassgow; Information Retrival [1.4] inh n; lý ngôn ng t nhiên Lu n v n [2.1] Thành Giang Lu n án th c s khoa h c Tìm hi u v cách xác xây d ng công c xác [2.2] Nguy n H i Quy n, L nh t lo i Giáo viên h nh t lo i ng d n : T.S H B o Qu c ng Th Hoàng Thuý Lu n v n c nhân tin h c o khoá cho v n b n ti ng Vi t GVHD: Chu T t Bích San [2.3] Lê Thúy Ng c, M Nhung Lu n v n c nhân tin h c Tìm hi u v Search Engine xây d ng ng d ng cho Search Engine ti ng Vi t Giáo viên ng d n : Th.S Nguy n Th Di m Tiên Website [3.1] http://nlp.cs.jhu.edu/~rflorian/fntbl/tbl-toolkit/ Nguy n Th Thanh Hà - 0112215 117 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a ch m c t ghép [3.2] http://www.dcs.gla.ac.uk [3.3] http://www.vinaseek.com [3.4] http://www.google.com [3.5] http://www.yahoo.com Nguy n Th Thanh Hà - 0112215 118 Nguy n Trung Hi u - 0112216 ... Trung Hi u - 0112216 Xây d ng h th ng t? ?m ki m th? ?ng tin ti ng Vi t d a ch m c t ghép * Thu t toán : void TachTuCauHoi (c? ?u h i) { CTachTuGhep ttg = new CTachTuGhep String str = ttg.TachTuGhep (c? ?u... c? ?ch th c ho t ra: ng c a m t h th ng t? ?m ki m th? ?ng tin c m? ? h? ?nh xây d ng m t h t? ?m ki m th? ?ng tin Ø T? ?m hi u ph Ø T? ?m hi u ph c ng Visual studio NET ánh giá k t qu Ø T? ?m hi u u ng pháp t? ?ch t. .. tr v Nguy n Th Thanh H? ? - 0112215 109 Nguy n Trung Hi u - 0112216 Xây d ng h th ng t? ?m ki m th? ?ng tin ti ng Vi t d a ch m c t ghép • Th? ? ?t : th? ?at h th ng ch ng trình 3.2 M? ?n h? ?nh t? ?m ki m nhi

Ngày đăng: 12/08/2014, 12:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w