1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án công nghệ thông tin Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt

97 284 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 97
Dung lượng 3,99 MB

Nội dung

ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt LỜI NÓI ĐẦU Ngày nay, các thành tựu trong tin học được áp dụng rất nhiều trong các lĩnh vực của xã hội. Thông tin đã trở thành một nhu cầu quan trọng, quan trọng đến mức trở nên thường xuyên, cấp thiết cho bất kỳ ai muốn thành công trong xã hội hiện đại. Trước nhu cầu trao đổi, cung cấp thông tin nói trên hàng loạt các phương tiện truyền tải thông tin đã ra đời mà một trong những thành quả nổi bật nhất là mạng toàn cầu Internet. Các kho dữ liệu trên Internet là một nguồn thông tin vô cùng to lớn. Nhưng làm sao để có thể tìm được đúng thông tin mình cần trong biển thông tin có thể nói là vô tận như thế? Vấn đề đó đã được giải quyết với sự trợ giúp của các search engine. Search engine là một vấn đề đã được các nhà khoa học và các công ty nổi tiếng trên thế giới quan tâm nghiên cứu. Các search engine nổi tiếng trên thế giới hiện nay như: Goole, Yahoo!,… vẫn đang được bổ sung và phát triển không ngừng để có thể đáp ứng được nhu cầu tìm kiếm thông tin ngày càng gia tăng. Tại Việt Nam, các search engine tiếng Việt cũng đã góp phần không nhỏ cho nhu cầu tìm kiếm thông tin tiếng Việt. Để góp chút công sức cho việc phát triển các search engine tại Việt Nam, tôi đã quyết định chọn đề tài: “Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt” làm đề tài cho đồ án tốt nghiệp của mình. Trước hết, tôi xin chân thành cảm ơn các thầy cô giáo trường Đại học Bách Khoa Hà Nội đã truyền đạt kiến thức và giúp đỡ để tôi có được ngày hôm nay. Tôi xin bày tỏ lòng biết ơn đến thày Huỳnh Quyết Thắng, Trưởng bộ môn Công nghệ phần mềm, khoa Công nghệ thông tin trường Đại học Bách Khoa Hà Nội, người đã trực tiếp hướng dẫn, giúp đỡ và tạo mọi điều kiện cho tôi thực hiện đề tài này. Tôi xin cảm ơn GS.Nguyễn Văn Lợi, Viện phó Viện Ngôn ngữ đã giúp đỡ và có những đánh giá để tôi ngày càng hoàn thiện phần tiếng Việt của mình. Tôi xin cảm ơn công ty VDC ( 292 Tây Sơn) đã giúp đỡ tôi về mặt kỹ thuật để thử nghiệm BKSearcher trên môi trường Internet. Hoàng Minh Sơn 1 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt Tôi xin cảm ơn công ty Multi-Tech, nơi tôi đã thực tập, tập thể công ty đã luôn tạo mọi điều kiện để tôi hoàn thành đề tài này. Và cuối cùng tôi xin được gửi lời cảm ơn đến gia đình và bạn bè, những người luôn ở bên và động viên, khích lệ tôi trong thời gian vừa qua. Hà Nội, ngày 30 tháng 4 năm 2004 Sinh viên Hoàng Minh Sơn Hoàng Minh Sơn 2 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt MỤC LỤC DANH MỤC HÌNH VẼ HÌNH 1. MÔ HÌNH KIẾN TRÚC CHUNG CỦA SEARCH ENGINE 12 Hoàng Minh Sơn 3 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt HÌNH 2: KIẾN TRÚC METACRAWLER [19] 17 HÌNH 3: TRÁNH TRÙNG LẶP BẰNG MD5 22 HÌNH 4. MƯỜI TERM CÓ TRỌNG SỐ CAO NHẤT TRONG TRỌNG TÂM CỦA NHÓM HAI TẬP DỮ LIỆU 39 HÌNH 5. MÔ HÌNH THUẬT TOÁN 39 HÌNH 6: QUY TRÌNH XÂY DỰNG CHỈ MỤC 47 HÌNH 7: HOẠT ĐỘNG CỦA TỪ ĐIỂN 48 HÌNH 8: CẤU TRÚC BỘ ĐỆM VĂN BẢN 49 HÌNH 9: CẤU TRÚC BỘ ĐỆM GÓI 49 HÌNH 10 : MÔ TẢ CẤU TRÚC VẬT LÝ CỦA FILE TẠM 50 HÌNH 11: MÔ TẢ THÔ SƠ CỦA CẤU TRÚC LEXICON 51 HÌNH 12: CẤU TRÚC LEXION VÀ INVERTED FILE 53 HÌNH 13: ĐỊNH DẠNG CỦA REL 55 HÌNH 14: KẾT QUẢ TÍNH REL. CỦA TRUY VẤN HAI TERM VỚI MỘT VĂN BẢN 55 HÌNH 15: CẤU TRUC MỘT BLOCK CỦA LUT 60 HÌNH 16: MÔ HÌNH TÌM KIẾM SỬ DỤNG PHƯƠNG PHÁP CONCEPT INDEXING 62 HÌNH 17: CÂY ĐỎ ĐEN 68 HÌNH 18: CẤU TRÚC MỘT NODE CỦA MWBT 69 HÌNH 19: PHƯƠNG PHÁP TÌM PHẦN TỬ THAY THẾ 72 HÌNH 20: CẤU TRÚC CỦA MWBT CẢI TIẾN 73 HÌNH 21: MÔ TẢ HOẠT ĐỘNG CỦA MWBT TỐI ƯU TÌM KIẾM 76 HÌNH 22: MÔ TẢ HOẠT ĐỘNG CƠ BẢN CỦA RESPOSITORY 79 HÌNH 23: MÔ TẢ CƠ CHẾ HOẠT ĐỘNG CỦA CACHE 80 HÌNH 24: GIẢI THUẬT TÌM KIẾM BLOCK CÓ CACHE 81 HÌNH 25: CHỐNG XUNG ĐỘT THEO CHAINING 84 HÌNH 26: GIẢI THUẬT CHỐNG XUNG ĐỘT OPEN ADDRESSING 85 HÌNH 27: HOẠT ĐỘNG CƠ BẢN CỦA LEXICON VÀ INVERTED FILE 86 HÌNH 28: CẤU TRÚC VẬT LÝ CỦA LEXICON VÀ INVERTED FILE 87 HÌNH 29: CẤU TRÚC MỘT BLOCK CỦA INVERTED FILE 87 HÌNH 30: CẤU TRÚC MỘT PHẦN TỬ CỦA LEXICON 88 HÌNH 31: GIAO DIỆN BKSEARCHER LÚC BẮT ĐẦU 91 HÌNH 32: GIAO DIỆN BKSEARCHER VỚI TRUY VẤN HỘI NGHỊ KHOA HỌC 91 Hoàng Minh Sơn 4 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt PHẦN 1 ĐẶT VẤN ĐỀ Hoàng Minh Sơn 5 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt 1.1. THÔNG TIN VÀ VẤN ĐỀ KHAI THÁC, XỬ LY THÔNG TIN 1.1.1. Sự bùng nổ thông tin Kỷ nguyên thông tin đang tới và thế giới đang chuyển từ giai đoạn thiếu thốn sang giai đoạn tràn ngập thông tin. Vì vậy, việc xử lý và tìm được thông tin cần thiết sẽ là chìa khoá để thành công. Thông thường, đa số người dùng khai thác thông tin trên mạng không biết chính xác thông tin cần tìm nằm ở đâu trên biển thông tin mênh mông của Internet. Chính vì thế, sử dụng những hệ thống tìm kiếm là giải pháp tốt nhất. Trên thực tế, 77% công tác tìm kiếm được thực hiện bởi các hệ thống tìm kiếm. Theo các nghiên cứu mới nhất, cứ mỗi giây lại có thêm 40 trang Web mới bổ sung vào con số 6,4 tỷ trang đã có trên mạng. Có nghĩa là để tìm được trang thông tin cần thiết, bạn phải "đãi cát tìm vàng" dù có rất nhiều công cụ tìm kiếm. Để giúp bạn, Google, Microsoft và Yahoo! đã cải tiến công cụ tìm kiếm của họ và hiện đang dẫn đầu xu hướng kết hợp sức mạnh của công nghệ với trí phán xét thông minh của con người để mang lại kết quả mong muốn cho người dùng. Tìm kiếm thông tin không chỉ là vấn đề của toàn Internet, mà còn là của từng website. Sẽ rất khó khăn cho độc giả của những website có hàng trăm hay hàng ngàn trang thông tin mà không có hệ thống tìm kiếm. Do đó, ứng dụng hệ thống tìm kiếm cho website là phương thức nâng cao khả năng truyền thông và quảng bá thông tin của website trên Internet. Sau khi mỗi website phải vất vả lôi kéo độc giả, thì sau đó lại phải giúp đỡ họ khỏi ngộp thở trong biển thông tin của chính mình. Một hệ thống tìm kiếm thông tin thực sự sẽ giúp tiết kiệm thời gian tìm kiếm thông tin, cũng có nghĩa là tiết kiệm: tiền bạc, sức lực, cơ hội kinh doanh Thông tin đã trở thành một nhu cầu quan trọng, quan trọng đến mức trở nên thường xuyên, cấp thiết cho bất kì ai muốn thành công trong xã hội. 1.1.2. Khai thác và xử lý thông tin Dựa vào những phân tích ở trên ta thấy nổi lên một vấn đề là: làm thế nào để khai thác, tìm kiếm thông tin từ rất nhiều nguồn dữ liệu lớn khác nhau? Hoàng Minh Sơn 6 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt Khai thác thông tin: Khai thác thông tin được hiểu là quy trình tách, tạo ra những thông tin mới, có ý nghĩa từ các nguồn dữ liệu bao gồm các giao dịch, các tài liệu ,các email, trang web… và sử dụng thông tin này để đưa ra các quyết định kinh doanh, sản xuất cụ thể. Dữ liệu, thông tin và các tính chất của nó: Nguyên liệu cơ bản ban đầu của quá trình khai thác thông tin là dữ liệu. Tuy nhiên loại dữ liệu thường thấy hiện nay là các văn bản và các trang web, những loại tài liệu phi cấu trúc. Các nhà phân tích công nghiệp ước lượng rằng dữ liệu phi cấu trúc chiếm 80% thông tin doanh nghiệp so với 20% các dữ liệu có cấu trúc, nó bao gồm dữ liệu dưới các dạng khác nhau như text, hình ảnh, video và âm thanh. Trong đó, text là dữ liệu phi cấu trúc phổ biến nhất. Với sự bùng nổ thông tin như đã nói ở trên, chỉ riêng việc quản lý khối lượng thông tin khổng lồ đã là một khó khăn, ngay cả khi quản lý được khối lượng thông tin đó rồi thì khó khăn mới nảy sinh là làm thế nào để có thể trích ra được trong đó những thông tin thật sự cần. Có thể nói: khối lượng dữ liệu khổng lồ mà người sử dụng có thể truy xuất nếu không được tổ chức lưu trữ tốt và kèm theo một phương thức xử lý hiệu quả để có thể khai thác được thông tin trên đó thì chúng cũng chỉ là những thông tin chết chứ không mang lại chút ích lợi nào cả. Hoàng Minh Sơn 7 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt 1.2. MỤC ĐÍCH VÀ LÝ DO LỰA CHỌN ĐỀ TÀI Sự phát triển vượt bậc của nền công nghệ thông tin thế giới và hiện tượng bùng nổ thông tin trong những năm gần đây đã khẳng định tầm quan trọng sống còn của các search engine. Nhận thức được vai trò của các search engine trong việc tìm kiếm và khai thác thông tin trong xã hội hiện đại nói chung và trong lĩnh vực công nghệ thông tin nói riêng, một số công ty lớn trên thế giới đã nhanh chóng xây dựng các search engine hỗ trợ cho việc tìm kiếm trên mạng như: yahoo.com, google.com, panvietnam.com, vinaseek.com, … Tác dụng của những hệ thống này đối với người sử dụng để tìm kiếm thông tin trên Internet là không thể chối cãi. Với lượng thông tin khổng lồ trên mạng như hiện nay, search engine thực sự là một công cụ tối cần thiết cho người dùng Internet khai thác, tìm kiếm thông tin. Khái niệm về search engine đã có từ khá sớm và trên thế giới đã có rất nhiều nghiên cứu về search engine và các vấn đề liên quan (đặc biệt là Information Retrieval). Một trong những nghiên cứu đó là của trường đại học Standford (Mỹ) và kết quả là search engine Google đứng đầu trên thế giới hiện nay. Để xây dựng một search engine cần phải biết rất nhiều vấn đề lý thuyết liên quan, trong đó có các lý thuyết về ngôn ngữ, lý thuyết về information retrieval, cấu trúc dữ liệu và giải thuật, cơ sở dữ liệu, tối ưu hóa, tính toán song song,… Đề tài search engine là một trong nhứng đề tài mang tính lý thuyết cũng như có tính thực tế cao. Việt Nam cũng có hai search engine đáng kể là Vinaseek của công ty Tinh Vân, PanVietNam của NetNam. Chúng ta không thể so sánh các search engine này với các search engine nổi tiếng trên thế giới. Đặc điểm của các search engine này là khả năng tìm kiếm tài liệu tiếng Việt. Tuy nhiên, người dùng vẫn chưa thực sự hài lòng với các kết quả tìm kiếm do các search engine này mang lại do đã khá quen thuộc với các search engine của nước ngoài với kết quả tìm kiếm (cả tiếng Anh và tiếng Việt) khá tốt. Ở Việt Nam, mặc dù số lượng thông tin tiếng Việt so với mỏ thông tin khổng lồ trên Internet là rất nhỏ, nhưng dưới góc độ một con người thì lượng Hoàng Minh Sơn 8 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt thông tin này vẫn còn là rất lớn và quá trình tìm kiếm thông tin trên đó bằng cách thủ công là không thể. Trong giai đoạn mà các nhu cầu tìm kiếm thông tin trên mạng Internet cũng như tìm kiếm tài liệu tiếng Việt nói chung đang được quan tâm, đề tài này được phát triển với mục đích chính nhằm vào việc xây dựng một search engine tiếng Việt cho người Việt. Search engine này phải giải quyết được các vấn đề tìm kiếm trong tiếng Việt và hỗ trợ tiếng Việt một cách hoàn thiện, đặc biệt là vấn đề font chữ tiếng Việt. Nhận thức được tầm quan trọng của việc tìm kiếm thông tin tiếng Việt, những khó khăn chuyên môn cũng như các vấn đề về cú pháp và ngữ nghĩa tiếng Việt nhưng tôi cũng xin mạnh dạn lựa chọn việc Xây dựng một search engine tiếng Việt làm đề tài cho đồ án tốt nghiệp lần này. Hoàng Minh Sơn 9 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt 1.3. CÁC MỤC TIÊU CỤ THỂ Trong phạm vi đồ án tốt nghiệp này, tôi tập trung vào những mục tiêu cụ thể để xây dựng hệ thống tìm kiếm thông tin tiếng Việt mà tôi đã tiến hành cài đặt và thử nghiệm trên thực tế tại các trang web sau: http://www.bksearcher.com http://www.vietnamseek.com BKSearcher là một đề tài nghiên cứu công phu, có ý nghĩa khoa học cũng như thực tiễn cao có những đặc điểm sau: • Phát triển độc lập trên nền .NET, không dựa trên các search engine nguồn mở • Xây dựng iCrawler có khả năng thu thập tốt, có chọn lọc, tránh trùng lặp các trang web • Cải thiện cách tính độ tương quan giữa các văn bản và truy vấn làm cho ý nghĩa tìm kiếm cao hơn [1] (được thày Nguyễn Đức Nghĩa phản biện, đăng trên Tạp chí Khoa học và Công nghệ 2-2004) • Xây dựng hệ thống Lexicon và Inverted file và tối ưu theo phương pháp tìm kiếm trên để dễ dàng cho việc tìm kiếm và cập nhật thông tin [18] (đã được phản biện và sẽ đăng trên tạp chí Tin học và Điều khiển số tới) • Cân đối thuật toán phân tích tiếng Việt, giúp loại bỏ những thiếu sót về mặt ngữ nghĩa và tăng ý nghĩa tìm kiếm với văn bản tiếng Việt (đã được GS.Nguyễn Văn Lợi, Viện Ngôn ngữ học đánh giá) • Được đánh giá qua cuộc thi NCKH -2003 và Giải nhì SPTin học trẻ lần II - 2004 • Hệ thống chạy rất tốt, đã được VDC đánh giá cao và đồng ý hỗ trợ về mọi mặt kỹ thuật Hoàng Minh Sơn 10 [...]...ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt PHẦN 2 CƠ SỞ LÝ THUYẾT VÀ THIẾT KẾ HỆ THỐNG Hoàng Minh Sơn 11 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt 2.1 MÔ HÌNH HỆ TRÍCH CHỌN THÔNG TIN Hình sau đây đưa ra kiến trúc mức cao của một search engine, trong đó các thành phần của... trúc mà một người sử dụng của hệ thống thu hồi thông tin rất dễ dàng hiểu được Hơn nữa, các câu hỏi được biểu diễn bởi các biểu thức logic mà có ngữ nghĩa của nó Do có được tính đơn giản và tính phổ biến, kiểu Hoàng Minh Sơn 31 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt logic đã thu hút được sự chú ý rất lớn trong nhiều năm qua và đã được các hệ thống thư mục thương mại lúc ban... nay vẫn chưa thực sự hiệu quả và triệt để, những phương pháp này đều đòi hỏi một số lần tìm kiếm khổng lồ với một lượng bộ nhớ khổng lồ để có thể biểu diễn ngữ nghĩa của văn bản Hoàng Minh Sơn 30 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt Bởi vậy, hiện nay tất cả các hệ trích chọn thông tin thế giới mà có số lượng văn bản được quản lý tương đối đều biểu diễn văn bản và truy... cho các bài toán phân loại văn bản (ví dụ, chỉ định một văn bản vào một tập các văn bản hoặc chủ đề có trước) thực sự là một thách thức Trong những năm gần đây có rất Hoàng Minh Sơn 35 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt nhiều thuật toán phân loại văn bản được phát triển, cùng với những machine learning đã ngày càng làm phát triển lĩnh vực trích chọn thông tin (Information... nhiều web site có mức độ quan trọng hơn các trang web ít được tham khảo IB(p) rất hữu ích cho việc xếp hạng các kết quả trong tìm kiếm (ranking) IB(p) được tính dựa trên các trang Hoàng Minh Sơn 17 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt web đã được tìm về thay vì toàn bộ web và lúc đó được ký hiệu là IB’(p) Nếu giả sử trong trường hợp lý tưởng iCrawler duyệt được toàn bộ... Công thức sau chứng tỏ rằng các văn bản dài hơn sẽ chứa nhiều thông tin hơn và do vậy sẽ có xác suất chứa thông tin hữu ích với người dùng là cao hơn tuy nhiên việc lựa chọn công thức này đòi hỏi nhiều tính toán đặc biệt ∑f t ,d k t ,d k là một con số khổng lồ chỉ có INT64 mới chứa được nên chúng ta chấp nhận chọn công thức P(d j ) = Hoàng Minh Sơn 1 |D| 34 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông. .. trong thực tế và rất thành công Tuy triển khai theo nhiều hướng khác nhau, nhưng nói chung các công trình đó đều phải giải quyết những vấn đề căn bản nêu trên Một trong những nghiên cứu thành công là MetaCrawler của đại học Washington sau này chuyển sang cho AOL Kiến trúc của MetaCrawler như sau: Hoàng Minh Sơn 16 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt Hình 2: Kiến trúc MetaCrawler... liên kết của nó Được đánh chỉ sử dụng liên kết 2.1.3.6 Cấu trúc một URI tuyệt đối và cách lọc liên kết từ trang đã tải 2.1.3.6.1 Cấu trúc một URI tuyệt đối Hoàng Minh Sơn 26 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt URI (Uniform Resource... khám phá web và đánh chỉ mục, search engine có thể sẽ lưu trữ lại các trang web mà nó tải về từ mạng Kho dữ liệu trang web (Page repository) trong hình vẽ dùng để lưu trữ tập các trang web này một cách tạm thời Đôi khi, search engine bảo lưu cả nội dung của trang web mà nó viếng Hoàng Minh Sơn 13 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt thăm (cache) ngoài việc đánh chỉ mục các... thu thập phần tương ứng Khi gặp một URL của phần khác thì báo lại URL Hoàng Minh Sơn 20 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt này cho trung tâm điều phối và URL này được dùng làm URL khởi đầu cho vùng tương ứng  Kết gán/ủy quyền tĩnh (Static assignment): Không giống như kết gán động, các phần của web được giao cho các tiến trình trước khi bắt đầu quá trình thu thập Như vậy . Sơn 4 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt PHẦN 1 ĐẶT VẤN ĐỀ Hoàng Minh Sơn 5 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt 1.1. THÔNG TIN VÀ VẤN. Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt PHẦN 2 CƠ SỞ LÝ THUYẾT VÀ THIẾT KẾ HỆ THỐNG Hoàng Minh Sơn 11 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt 2.1 Minh Sơn 6 ĐHBK Hà Nội Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt Khai thác thông tin: Khai thác thông tin được hiểu là quy trình tách, tạo ra những thông tin mới, có ý nghĩa từ các

Ngày đăng: 24/04/2015, 22:14

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w