Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
7 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Trần Quốc Cường HỆ THỐNG TÌM KIẾM THƠNG TIN QUA MẠNG KHĨA LUẬN CAO HỌC NGÀNH: KHOA HỌC MÁY TÍNH Mã số: 60480101 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ THANH HÙNG TP HỒ CHÍ MINH - NĂM 2016 LỜI CAM ĐOAN Lời đầu tiên, xin gửi lời cảm ơn chân thành đến tồn thể q thầy trường Đại học Cơng Nghệ Thông Tin – Đại học Quốc gia Thành phố Hồ Chí Minh, q thầy ngành khoa học máy tính dạy dỗ, truyền đạt kiến thức quý báu cho suốt thời gian học tập rèn luyện trường Tiếp theo, xin gửi lời cám ơn sâu sắc đến Thầy hướng dẫn TS Ngô Thanh Hùng, cám ơn thầy tận tình hướng dẫn tạo điều kiện tốt để tơi hồn thành khóa luận cao học Vì thời gian thực khóa luận ngắn nên khóa luận đạt đến thành định nhiều vấn đề hạn chế mong Thầy/Cơ thơng cảm góp ý giúp tơi để hồn thành tốt Nhân tiện, tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn khoa học Thầy TS Ngô Thanh Hùng Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung khóa luận Xin chân thành cảm ơn ! Học viên Trần Quốc Cường MỤC LỤC LỜI CAM ĐOAN DANH MỤC CHỮ VIẾT TẮT DANH MỤC HÌNH DANH MỤC BẢNG CHƯƠNG TỔNG QUAN ĐỀ TÀI 1.1 Tên đề tài: 1.2 Mục tiêu đề tài 1.3 Nội dung, phạm vi phương pháp nghiên cứu đề tài 1.3.1 Nội dung nghiên cứu 1.3.2 Phạm vi nghiên cứu 1.3.3 Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn 1.4 1.4.1 Ý nghĩa khoa học 1.4.2 Ý nghĩa thực tiễn 10 CHƯƠNG CƠ SỞ LÝ THUYẾT 11 Kỹ thuật tìm kiếm tồn văn Full-text Search 11 2.1 2.1.1 Lập mục 11 2.1.2 Inverted Index 12 2.1.3 Tokenization 13 2.1.4 Xử lý truy vấn với inverted index 19 2.1.5 Scoring 19 2.1.6 Thư viện LUCENE 22 2.1.6.1 Giới thiệu Lucene 22 2.1.6.2 Lucene thành phần ứng dụng tìm kiếm 22 2.1.6.3 Các tiến trình hoạt động 23 a Xây dựng tập mục tìm kiếm 23 b Tìm kiếm tập mục 23 2.1.6.4 Tiến trình phân tích Lucene 24 Kỹ thuật chuyển đổi định dạng Tika Parser 24 2.2 2.2.1 Giới thiệu 24 2.2.2 Ứng dụng Apache Tika 25 2.2.3 Kiến trúc Tika 26 a Cơ chế phát ngôn ngữ (Language detection mechanism): 26 b Cơ chế phát MIME (MIME detection mechanism) 27 c Giao diện phân tích (Parser interface) 27 d Lớp Tika Facade (Tika Facade class): 27 2.2.4 Đặc tính Tika 28 2.2.5 Các chức Tika 28 a Phát loại tài liệu 28 b Khai thác nội dung 28 c Khai thác siêu liệu 29 d Nhận biết ngôn ngữ 29 2.3 Hệ thống Compass 29 2.3.1 Giới thiệu 29 2.3.2 Mơ hình ngun tắc hoạt động Compass: 30 a Cấu trúc: 30 b Nguyên tắc hoạt động 31 c Đặc điểm hệ thống 31 CHƯƠNG PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 32 3.1 Mô tả yêu cầu hệ thống 32 3.2 Phân tích thiết kế hệ thống 32 3.2.1 Mơ hình hệ thống: 32 3.2.2 Mơ hình chi tiết 33 3.2.2.1 Lập mục 33 3.2.2.2 Phân tách thành n-tree theo chủ đề 33 3.2.2.3 Đăng nhập hệ thống: 34 3.2.2.4 Thực tìm kiếm: 35 CHƯƠNG CÀI ĐẶT VÀ KIỂM THỬ HỆ THỐNG 40 4.1 Nền tảng công nghệ sử dụng 40 4.2 Cài đặt hệ thống 40 4.2.1 Môi trường cài đặt: 40 4.2.2 Cài đặt 40 4.2.2.1 Lập mục: 40 4.2.2.2 Lập n-tree: 41 4.2.2.3 Tìm kiếm: 41 4.3 Mô tả hệ thống 42 4.4 Kiểm thử hệ thống 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 ❖ Kết đạt 50 ❖ Một số hạn chế 50 ❖ Hướng phát triển 51 TÀI LIỆU THAM KHẢO 52 PHỤ LỤC 53 DANH MỤC CHỮ VIẾT TẮT TF Term Frequency IDF Inverse Document Frequency DF Document Frequency RAM Ramdom Access Memory SQL Structured Query Language NoSQL Not Only SQL XML Extensible Markup Language HTML HyperText Markup Language JSON JavaScript Object Notation GUI Graphical User Interface CPU Central Processing Unit API Application Programing Interface HTTP Hypertext Transfer Protocol JMX Java Management Extensions TM Topic Map DANH MỤC HÌNH Hình 2.1 – Quá trình lập mục 13 Hình 2.2 - Ví dụ tìm kiếm sử dụng Boolean logic 19 Hình 2.3 - Ví dụ Parametric Index 20 Hình 2.4 -Các thành phần ứng dụng tìm kiếm 22 Hình 2.5- Các thao tác tiến trình lập mục 23 Hình 2.6 -Qui trình chuyển đổi nội dung tìm kiếm 24 Hình 2.7- Tiến trình phân tích trình lập mục 24 Hình 2.8 – Minh họa ứng dụng Tika parser 25 Hình 2.9 – Minh họa tiến trình hoạt động Tika parser 25 Hình 2.10 – Minh họa cấu trúc Tika parser 26 Hình 2.11 – Minh họa cấp độ kỹ thuật tìm kiếm 29 Hình 2.12 – Minh họa số chủ đề liên quan 30 Hình 2.13 – Sơ lược thành phần Compass 31 Hình3.1- Mơ hình sơ lược hệ thống 32 Hình3.2- Minh họa tiến trình tạo mục 33 Hình3.3- Minh họa tiến trình tạo Topic map 33 Hình3.4- minh họa cách tạo n-tree Topic Map 34 Hình3.5- Minh họa chức người dùng 35 Hình3.6- Minh họa tiến trình thực tìm kiếm 35 Hình3.7-Minh họa cho n-tree dạng “vòng” 37 Hình3.8-Minh họa cho n-tree dạng nhánh 38 Hình3.9-Minh họa cho n-tree 39 Hình4.1-Minh họa hệ thống tìm kiếm thơng tin qua mạng 42 Hình 4.2 – Màn hình ứng dụng 43 Hình 4.3 - Các chức dành cho khách 43 Hình 4.4 - Các chức dành cho quyền quản trị 44 DANH MỤC BẢNG Bảng 2.1 - Một số quy luật thuật toán Porter 16 Bảng 2.2 - Ví dụ so sánh thuật toán Porter and thuật toán stemming khác 17 Bảng 2.3 - Ví dụ so sánh thuật tốn Porter thuật tốn Krovetz 18 Bảng 3.1- Bảng ví dụ minh họa phương pháp tìm kiếm Full Text Search 36 Bảng 4.1- Bảng mô tả chủ đề mẫu thể liệu 45 Bảng 4.2- Kết thu người dùng nhập từ “chương” 46 Bảng 4.3- Kết thu người dùng nhập “nhân viên” 47 Bảng 4.4: mơ tả ví dụ chạy thử nghiệm từ đồng nghĩa với từ “chương” 48 Bảng 4.5: mô tả ví dụ chạy thử nghiệm từ đồng nghĩa với từ “nhân viên” 48 CHƯƠNG TỔNG QUAN ĐỀ TÀI Ngày nay, phát triển Internet làm thay đổi mạnh mẽ cách thức hoạt động tổ chức, quan Các ứng dụng web, mạng xã hội, điện toán đám mây góp phần làm cho cơng việc trở nên dễ dàng hơn, đa dạng Tuy nhiên, điều góp phần vào việc tạo khối lượng thơng tin vơ lớn q trình tìm kiếm thơng tin trở nên khó khăn Cũng dung lượng liệu lớn với tốc độ gia tăng dung lượng nhanh, việc lưu trữ tìm kiếm liệu trở thành thách thức khơng nhỏ Hiện nay, xuất hệ thống tìm kiếm từ trang: Yahoo, Google để tìm kiếm thông tin Nhưng doanh nghiệp, quan để thực việc tìm kiếm văn nội bộ, khơng thể thực trang tìm kiếm mà cần phải có hệ thống hỗ trợ cho việc tìm kiếm từ Internet văn nội để đảm bảo cho liệu tìm kiếm xác nhất, giảm thời gian Vì vậy, khóa luận tập trung nghiên cứu kỹ thuật để xây dựng hệ thống tìm kiếm thơng tin qua mạng 1.1 Tên đề tài: “Hệ thống tìm kiếm thông tin qua mạng” 1.2 Mục tiêu đề tài - Tìm hiểu kỹ thuật, cơng nghệ để xây dựng hệ thống lưu trữ tìm kiếm thơng tin cho nội doanh nghiệp - Hệ thống cho phép tải tài liệu văn doanh nghiệp lên máy chủ trung tâm Máy chủ lập mục tài liệu nhằm hỗ trợ việc tìm kiếm tồn văn tìm kiếm theo từ liên quan chủ đề 1.3 Nội dung, phạm vi phương pháp nghiên cứu đề tài 1.3.1 Nội dung nghiên cứu Xây dựng hệ thống tìm kiếm dựa phương pháp tìm kiếm theo tồn văn tìm kiếm theo từ liên quan chủ đề Nghiên cứu sử dụng kỹ thuật sau: - Nghiên cứu kỹ thuật tìm kiếm tồn văn (lập mục, chuyển đổi văn dạng Text) - Nghiên cứu xây dựng n-tree từ đồng nghĩa - Xây dựng Website tìm kiếm thơng tin cho nội doanh nghiệp 1.3.2 Phạm vi nghiên cứu - Đề tài dùng cơng nghệ Web application để giúp người dùng truy cập nơi đâu - Sử dụng công nghệ Compass(open source framework) để tìm kiếm từ cụm từ “từ khóa” theo từ đồng nghĩa đề tìm kiếm từ có liên quan phạm vi giới hạn 1.3.3 Phương pháp nghiên cứu Đề tài thực dựa phương pháp khảo sát, phân tích áp dụng kiến thức nghiên cứu, tìm hiểu để xây dựng hệ thống 1.4 Ý nghĩa khoa học thực tiễn 1.4.1 Ý nghĩa khoa học - Đề tài sử dụng phương pháp thuật tốn tìm kiếm mà sử dụng nhằm tìm kiếm liệu nhanh chóng, xác, đầy đủ - Sử dụng n-Tree từ đồng nghĩa để cải tiến khả tìm kiếm đầy đủ thơng tin ❖ Hướng phát triển Do có hạn chế nên hướng phát triển đề tài tập trung vào nội dung: - Tạo giao diện cho người dùng định nghĩa từ đồng nghĩa liên quan theo chủ đề Người dùng cập nhật, thêm, xóa chủ đề khác - Xử lý ngôn ngữ tự nhiên để kết cho từ thích hợp có ý nghĩa theo người dùng mong muốn, xây dựng hệ thống tìm kiếm theo ngữ nghĩa - Sắp xếp kết tìm kiếm để hiển thị cho người dùng kết tốt - Nạp liệu để hiển thị từ gợi ý cho người dùng - Cải tiến tối ưu hệ thống tìm kiếm liệu để có tốc độ tìm kiếm nhanh - Phần quyền cho người sử dụng để phận khác quản lý vùng liệu khác 51 TÀI LIỆU THAM KHẢO [1] Đỗ Phúc (2005), Giáo trình Khai thác liệu, Đại học Công Nghệ Thông tin -Đại Học Quốc Gia TPHCM [2] Hoàng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc (2005) Giáo trình Các hệ sở tri thức Đại học Công Nghệ Thông tin - Đại Học Quốc Gia TPHCM [3] Hoàng Kiếm (2013), Slide giảng Môn học Công nghệ tri thức Ứngdụng, Đại học Công Nghệ Thông tin, NXBĐHQG TPHCM [4] Manning, Christopher D, Prabhakar Raghavan, and Hinrich Schütze (2008) Introduction to information retrieval Vol Cambridge: Cambridge university press [5] Amol Sonawane (2009), Using Apache Lucene to search text IBM [6] Eszter & Rolf (1996), Improved Findability Through Semantic Search Ovitas AS – information management [7] Shijin Yuan (2010), Implementation for full-text search and rank optimization in e-commerce Editions IEEE [8] E S Atlam (2004), A compact memory space of dynamic full-text search using Bigram index Editions IEEE [9] L Zhong (2010), Natural Language Ontology Based on Basic Semantic Character Meaning Editions IEEE [10] Kỹ thuật TiKa: http://www.tutorialspoint.com/tika/tika_quick_guide.htm (ngày xem: 11/4/2016) 52 PHỤ LỤC I Dữ liệu để phân tách n-tree: quy-định nội-quy nội-quy nguyên-tắc nguyên-tắc luật-lệ luật-lệ nội-quy 53 trường đại-học đại-học cao-đẳng cao-đẳng trung-cấp trung-cấp trường cơ-quan đơn-vị đơn-vị cơ-quan công-ty cơ-quan sổ quyển quyển cuốn kiểm-tra kiểm-soát kiểm-soát kiểm-nghiệm kiểm-nghiệm kiểm-duyệt kiểm-duyệt kiểm-tra thông-tin tin-tức tin-tức thông-báo thơng-báo tin-tức chính chánh chánh chính ngành nghề nghề ngành trình-bày diễn-giải diễn-giải giải-thích giải-thích trình-bày công-nghệ-thông-tin tin-học tin-học máy-tính nhân-viên công-nhân nhân-viên cán-bộ nhân-viên viên-chức công-nhân người-lao-động người-lao-động nhân-viên quá-trình tiến-trình tiến-trình quá-trình công-việc việc-làm việc-làm nhiệm-vụ thực-hiện thực-thi thực-thi thi-hành thi-hành thực-hiện đề-án đề-tài đề-tài dự-án dự-án đề-án mục-tiêu mục-đích mục-đích kết-quả kết-quả mục-tiêu vận-dụng áp-dụng áp-dụng vận-dụng liên-quan quan-hệ quan-hệ liên-đới liên-đới liên-kết ranh-giới biên-giới biên-giới giáp-ranh biên-giới địa-phận chương phần phần mục ... xuất hệ thống tìm kiếm từ trang: Yahoo, Google để tìm kiếm thơng tin Nhưng doanh nghiệp, quan để thực việc tìm kiếm văn nội bộ, thực trang tìm kiếm mà cần phải có hệ thống hỗ trợ cho việc tìm kiếm. .. liệu tìm kiếm xác nhất, giảm thời gian Vì vậy, khóa luận tập trung nghiên cứu kỹ thuật để xây dựng hệ thống tìm kiếm thơng tin qua mạng 1.1 Tên đề tài: Hệ thống tìm kiếm thơng tin qua mạng ... ngôn ngữ thông tin để xác định ngôn ngữ 2.3 Hệ thống Compass 2.3.1 Giới thiệu Hệ thống tìm kiếm compass dựa vào tảng: - Dựa kỹ thuật tìm kiếm Full Text Search kết hợp với Topic map - Tìm kiếm định