1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn tốt nghiệp xây dựng module tìm kiếm xử lý với các văn bản tiếng việt

118 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 118
Dung lượng 3,03 MB

Nội dung

Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Mục đích nội dung ĐATN Tìm hiểu lý thuyết hệ thống truy hồi thông tin, tìm hiểu cơng cụ Tìm kiếm cho Doanh Nghiệp (Enterprise Search) Microsoft, từ nghiên cứu phân tích đưa giải pháp để xây dựng module tìm kiếm áp dụng cho văn tiếng Việt Các nhiệm vụ cụ thể ĐATN Có nhiệm vụ cần giải ĐATN này:  Tìm hiểu nghiên cứu lý thuyết truy hồi thông tin (Information Retrieval)  Tìm hiểu nắm bắt cách sử dụng cơng cụ Enterprise Search Microsoft  Phân tích tìm cách giải tốn tìm kiếm văn tiếng Việt để xây dựng module tìm kiếm  Thiết kế, xây dựng kiểm thử module tìm kiếm áp dụng với văn tiếng Việt Lời cam đoan sinh viên: Tôi – Nguyễn Mạnh Tú cam kết ĐATN cơng trình nghiên cứu thân hướng dẫn thầy giáo PGS TS Huỳnh Quyết Thắng Các kết nêu ĐATN trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày 17 tháng 05 năm 2008 Tác giả ĐATN Nguyễn Mạnh Tú Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày tháng 05 năm2008 Giáo viên hướng dẫn PGS TS Huỳnh Quyết Thắng Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Trong ĐATN tìm hiểu chức kiến trúc công cụ Enterprise Search Microsoft đồng thời sử dụng cơng cụ để xây dựng module tìm kiếm dành riêng cho văn tiếng Việt ĐATN tổ chức thành chương với nhiệm vụ chương sau: Chương 1: Tìm hiểu lý thuyết hệ thống truy hồi thông tin, mơ hình cổ điển sử dụng để xây dựng hệ thống truy hồi thông tin: Boolean, Không gian vector Xác suất Mơ hình tổng qt hệ thống truy hồi, phương pháp đánh giá tính hiệu hệ thống truy hồi nhiệm vụ ĐATN Chương 2: Tìm hiểu cơng cụ Enterprise Search Microsoft về: chức năng, kiến trúc hoạt động, mơ hình triển khai cho doanh nghiệp phương pháp lập trình với cơng cụ Chương 3: Phân tích đưa giải pháp áp dụng vào xây dựng module tìm kiếm xử lý với văn tiếng Việt, gồm nhiệm vụ chính: - Tìm hiểu kĩ thuật xử lý ngơn ngữ tự nhiên vào tách từ văn tiếng Việt - Tìm hiểu BM25 cải tiến phương pháp đánh trọng số áp dụng cho văn có cấu trúc - Xây dựng câu truy vấn kết nối module tìm kiếm với cơng cụ Enterprise Search Chương 4: Thiết kế xây dựng module tìm kiếm, cụ thể hóa phân tích chương thành chương trình cụ thể Cuối chương kết thử nghiệm hướng phát triển tương lai Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM ABSTRACT OF THESIS The people in your organization are hard at work making things happen When they need publicly available information to get the job done, they know how to search on the Internet to find it But when they need information available within your business, they need enterprise search You want a search solution that allows you to deliver the simple, easy-to-use experience your users expect, while at the same time meeting the security and manageability requirements your IT environment demands In order to bridge this gap, I spend a long time to research and develop a search engine that people in companies can use to quickly find information availble in their bussiness As a result of my research this report structures as following: Chapter 1: Overview about information retrieval, three common classical models: Boolean model, space vector model, probabilitic model The architecture of an IR system, methods used to evaluate the performance, effective of the IR system Chapter 2: Study Enterprise Search provided by Microsoft Corp: Features, architecture, deloyment model and programming principles Chapter 3: Analyze and propose solution to apply to build Vietnamese search engine module This can be devided into three main mission: - Research natural language processing techique and apply to process Vietnamese documents - Study BM25 algorithm for weighting term and improve compound weighting mothod - Develop query statement and joint our module to Enterprise search tool Chapter 4: Design and develop search module, implement previous analyzed (in chapter 3), deploy and test to demonstrate the program Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM LỜI CẢM ƠN Để hồn thành tốt đồ án này, trước hết cho gửi lời cảm ơn chân thành đến thầy giáo, PGS TS Huỳnh Quyết Thắng – Trưởng môn Công nghệ phần mềm, Phó trưởng khoa Cơng nghệ thơng tin, Trường đại học Bách khoa Hà nội – người giành nhiều tâm huyết, thời gian hướng dẫn, bảo suốt thời gian thực tập làm đồ án Tôi xin gửi lời cảm ơn chân thành đến TS Nguyễn Việt Hải – giám đốc Công ty dịch vụ giá trị gia tăng Gnet anh Bùi Trung Nguyên - người hướng dẫn kỹ thuật, giải pháp cho trong thời gian thực tập Công ty eDT Tôi xin gửi lời cảm ơn chân thành đến anh Nguyễn Xn Tài – giám đốc cơng ty tìm kiếm trực tuyến NAISCORP – người tạo điều kiện cho thực hành kiểm thử sản phẩm thời gian làm đồ án Thời gian làm việc eDT, Gnet NAISCORP khoảng thời gian đẹp Tôi nhận nhiều giúp đỡ, hỗ trợ nhiệt tình từ nhiều anh, chị, em ba Công ty Cho gửi lời cảm ơn chân thành đến họ Cuối cho gửi lời cảm ơn đến bố mẹ - người nuôi dạy trưởng thành, anh chị em sát cánh động viên tôi, bạn lớp CNPM đóng góp ý kiến cho đồ án Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM MỤC LỤC DANH MỤC THUẬT NGỮ .7 DANH MỤC HÌNH DANH MỤC BẢNG .11 MỞ ĐẦU 12 Chương 13 Lý thuyết sở truy hồi thông tin Enterprise Search 13 1.1 Tổng quan hệ thống truy hồi thông tin: 13 1.2 Các mơ hình truy hồi thơng tin: 14 1.2.1 Mơ hình Boolean 15 1.2.2 Mô hình khơng gian vector 16 1.2.3 Mơ hình xác suất 19 1.3 Các độ đo hiệu hệ thống truy hồi thông tin 26 1.3.1 Độ xác (Precision) .26 1.3.2 Độ truy hồi (Recall) .26 1.3.3 Độ đo F 28 1.4 Mơ hình mơ tơ tìm kiếm thơng tin .28 1.5 Vai trị vị trí hệ thống thu thập thông tin đánh mục thông tin 30 1.6 Cơ sở lý thuyết lập mục thông tin .32 1.6.1 Khái niệm mục thông tin .32 1.6.2 Cấu trúc mục ngược 33 1.6.3 Khó khăn, thách thức việc lập mục 34 1.7 Tìm kiếm thông tin 35 1.8 Tổng quan Enterprise Search 39 1.8.1 Nhu cầu thực tế Enterprise Search .39 1.8.2 Vấn đề sử dụng Enterprise Search Việt Nam 39 1.8.3 Các ứng dụng phân loại Enterprise Search .39 1.8.4 Một số giải pháp Enterprise Search nhà cung cấp 40 1.9 Phạm vi, lý chọn đề tài nghiên cứu 41 Kết chương .42 Chương 43 Tìm hiểu cơng cụ Enterprise Search Microsoft 43 2.1 Giới thiệu chung SharePoint 43 2.1.1 Tổng quan SharePoint .43 2.1.2 Các chức SharePoint 2007 45 2.1.3 Kiến trúc SharePoint 2007 46 2.2 Chức Tìm kiếm cho Doanh Nghiệp MOSS 2007: .48 2.2.1 Mơ hình kiến trúc Enterprise Search .49 2.2.2 Các tính Enterprise Search 59 2.2.3 Quản lý ứng dụng nghiệp vụ BDC .62 2.3 Phương pháp lập trình với Enterprise Search 63 2.3.1 Tạo câu truy vấn 64 2.3.2 Phương pháp lấy siêu liệu Enterprise Search 69 2.3.3 Ngôn ngữ CAML: 69 2.3.4 Các kĩ thuật đánh mục tìm kiếm: 71 Kết chương .72 Chương 74 Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM Giải pháp xây dựng ứng dụng tìm kiếm thơng tin tiếng Việt Enterprise Search 74 3.1 Giải pháp đề xuất: 74 3.2 Phân tách từ câu truy vấn snippet văn để đánh trọng số: 76 3.2.1 Bài toán tách từ tiếng Việt: 76 3.2.2 Tách từ theo giải thuật đồ thị: 77 3.3 Đánh trọng số cho term tính điểm cho văn bản: .78 3.3.1 Giải thuật đánh trọng số BM25: 79 3.3.2 Lựa chọn công thức đánh trọng số phù hợp với module tìm kiếm: .80 3.3.3 Tính điểm cho văn theo phương pháp Tổ hợp tuyến tính: 82 3.3.4 Lập file mục cho module tìm kiếm: .85 3.3.5 Cải tiến phương pháp tính điểm cho văn bản: .88 3.4 Xây dựng câu truy vấn: 91 3.5 Sắp xếp document trình bày kết quả: 93 Kết chương: .93 Chương 95 Thiết kế, cài đặt thử nghiệm module tìm kiếm thơng tin tiếng Việt Enterprise Search 95 4.1 Thiết kế thành phần module tìm kiếm 95 4.4.1 Thiết kế lớp 95 4.4.1.1 Module WordSegmentation: 95 4.4.1.2 Module FileInvert: 98 4.4.1.3 Module Search: 102 4.4.1.4 Hoạt động module tìm kiếm: 104 4.4.2 Thiết kế giao diện 106 4.2 Cài đặt triển khai thử nghiệm 108 4.4.1 Cài đặt cấu hình SharePoint 108 4.4.2 Cài đặt module tìm kiếm 108 4.4.3 Dữ liệu dùng để kiểm thử: 110 4.3 Một số kết chương trình .110 4.4 Đánh giá hướng phát triển .112 4.4.1 Ưu điểm module 112 4.4.2 Hạn chế module 112 4.4.3 Những việc làm hướng phát triển tương lai 113 Tài liệu tham khảo .115 Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM DANH MỤC THUẬT NGỮ Số thứ tự Từ viết tắt API BDC BI BIM CAML CMS CNTT CRM CSDL 10 DBMS 11 ERP 12 13 HĐH HQTCSDL 14 HTML 15 IIS 16 IR 17 LOB 18 MOSS 19 NLP 20 PM 21 RF 22 RSV 23 SOAP 24 SQL Ý nghĩa Application Programming Interface Giao diện lập trình ứng dụng Business Data Catalog Business Intelligence Kinh doanh thơng minh Binary Independence Model Mơ hình nhị phân độc lập Collaborative Asscociate Markup Language Ngôn ngữ đánh dấu liên kết cộng tác Content Management System Hệ quản trị nội dung Công nghệ thông tin Customer Relationship Management Hệ quản lý quan hệ khách hàng Cơ Sở Dữ liệu Database Management System Hệ quản trị sở liệu Enterprise Resource Plannning Hoạch định tài nguyên doanh nghiệp Hệ Điều Hành Hệ quản trị sở liệu Hypertext Markup Language Ngôn ngữ đánh dấu siêu văn Internet Information System Information Retrieval Truy hồi thông tin Line Of Business Các ứng dụng nghiệp vụ Microsoft Office SharePoint Server 2007 Gói dịch vụ SharePoint Microsoft Nature Language Processing Xử lý ngơn ngữ tự nhiên Probabilistic Model Mơ hình xác suất Relevance Feedback Hồi tiếp độ liên quan Retrieval Status Value Giá trị trạng thái truy hồi văn Simple Object Access Protocol Giao thức truyền nhận Web Service Structure Query Language Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM 25 SSO 26 SSP 27 SVM 28 URL 29 WSS 30 XML Ngôn ngữ truy vấn cấu trúc Single Sign On Đăng nhập lần Shared Services Provider Hệ cung cấp dịch vụ dùng chung Space Vector Model Mô hình khơng gian véc tơ Uniform Resource Locator Window SharePoint Service 3.0 Gói dịch vụ MOSS 2007 Extensible Markup Language Ngôn ngữ đánh dấu mở rộng Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM DANH MỤC HÌN Hình 1: Phân loại mơ hình truy hồi thơng tin .14 Hình 2: Minh hoạ mơ hình vector 19 Hình 3: Minh hoạ độ xác recall 27 Hình 4: Một ví dụ đồ thị Precision – Recall 27 Hình 5: Kiến trúc mơ tơ tìm kiếm 29 Hình 6: Ngun tắc hoạt động mơ tơ tìm kiếm 30 Hình 7: Kiến trúc mơ tơ tìm kiếm 31 Hình 8: Minh hoạ file mục ngược 33 Hình 9: Ví dụ cấu trúc mục ngược 34 Hình 10: Minh họa chức Relevance Feedback Google .36 Hình 11: Optimal query vector dùng để phân tách sưu tập thành hai tập relevant document irrelevant document 37 Hình 12: Minh họa giải thuật Rocchio Revised query câu truy vấn nhận từ Initial query sau chỉnh sửa câu truy vấn Initial query 37 Hình 13: Các hình thức cung cấp Enterprise Search có giới 40 Y Hình 1: Kiến trúc Microsoft Office SharePoint Server 2007 .46 Hình 2: Minh họa giao diện Search Microsoft Office SharePoint Server 2007 49 Hình 3: Mơ hình kiến trúc logic Enterprise Search 50 Hình 4: Mơ hình triển khai Enterprise Search server 51 Hình 5: Mơ hình triển khai Enterprise Search có phân server dùng để indexing server dùng để thực thi truy vấn 52 Hình 6: Mơ hình triển khai Enterprise Search cho doanh nghiệp lớn, có nhiều server dùng cho indexing xử lý truy vấn, mô hình đảm bảo tính fail tolerent 53 Hình 7: Kiến trúc bên Enterprise Search 55 Hình 8: Nguyên lý hoạt động Enterprise Search 58 Hình 9: Giao diện tìm kiếm nâng cao Enterprise Search .61 Hình 10: Mơ hình kiến trúc Business Data Catalog .63 Hình 11: Quy trình tìm kiếm thông tin Enterprise Search 64 Hình 12: Định dạng chuẩn ngơn ngữ CAML 70 Hình 1: ManagedProperties SharePoint quản lý .83 Hình 2: Một vài trọng số trườngtrong SharePoint 85 Hình 3: Lược đồ tạo file mục cho module tìm kiếm .87 Hình 4: Ví dụ minh họa văn A B 89 Hình 5: Lưu đồ giải thuật tính tốn mảng băm trọng số cho văn cụ thể .90 Hình 6: Cấu trúc đối tượng DocumentData 91 Hình 7: Kết module tìm kiếm trình bày theo danh sách 93 Hình 1: Liên kết DictionaryManager 97 Hình 2: Thiết kế lớp Tfidf 101 Hình 3: Thiết kế lớp Vocabulary 102 Hình 4: Hoạt động module tìm kiếm 104 Hình 5: Biểu đồ diễn tiến module tìm kiếm 105 Hình 6: Trang SearchPage.aspx gồm TextBox Button Tìm kiếm 106 Hình 7: Trang ResultsPage.aspx gồm TextBox, Button Tìm kiếm Repeater 106 Sinh viên thực hiện: Nguyễn Mạnh Tú – Khóa K48 – Lớp CNPM Hình 8: Cấu trúc thông tin hiển thị cho người dùng 107 Hình 9: Tạo Website IIS 109 Hình 10: Cấu hình đến đường dẫn chứa module tìm kiếm 109 Hình 11: Cấu hình module tìm kiếm gọi đến Web Service SharePoint 110 Hình 12: Các file liệu lưu SharePoint máy chủ có url http:\\estest dùng để kiểm thử 110 Hình 13: Nhập thơng tin tìm kiếm trang SearchPage.aspx 110 Hình 14: Danh sách kết trả trang ResultsPage.aspx 111

Ngày đăng: 23/06/2023, 16:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[18] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze.An Introduction to Information Retrieval version 2008. Cambridge University Press Cambridge, Englandwww-csli.stanford.edu/~hinrich/information-retrieval-book.html[19] MSDN. http://msdn.microsoft.com Link
[20] David A.Grossman, Orphir Freider. Information Retrieval Algorithms and Heuristics 2004 trang 4. Springer.http://books.google.com/books?id=3oU4F8vQCZIC&printsec=frontcover&dq=information+retrieval+algorithms+and+heuristics&sig=kAnt72WWZIE3d_8zHputVfAOiQc Link
[22] Microsoft Corporation. Windows SharePoint Service 3.0 Evaluation Guide. Free Documenthttp://technet.microsoft.com/en-us/windowsserver/sharepoint/bb400753.aspx Link
[23] Microsoft Corporation. Microsoft Office SharePoint Server 2007 Evalution Guide. Free Documenthttp://office.microsoft.com/en-us/sharepointserver/HA101680161033.aspx Link
[24] Kevin Hoffman, Robert Foster. Microsoft SharePoint 2007 Development. Sams Pubish.http://www.flazx.com/ebook7890.php[25] Technet. http://technet.microsoft.com Link
[1] W. B. Frakes et al., Information Retrieval. Prentice-Hall, Inc., Upper Saddle River, NJ, 1992 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w