Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
372,46 KB
Nội dung
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TRƢƠNG KIM TÚTÌMHIỂU PHƢƠNG PHÁPXỬLÝTÌMKIẾMTHEOKÝTỰĐẠIDIỆNCỦALUCENE LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TRƢƠNG KIM TÚTÌMHIỂU PHƢƠNG PHÁPXỬLÝTÌMKIẾMTHEOKÝTỰĐẠIDIỆNCỦALUCENE Ngành: Hệ thống Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60.48.0104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà Nội – Năm 2016 LỜI CẢM ƠN Tơi muốn bày tỏ lòng biết ơn sâu sắc tới người giúp đỡ q trình làm luận văn, đặc biệt tơi xin cám ơn PGS TS Nguyễn Trí Thành, với lòng kiên trì, thầy bảo chi tiết cho lời nhận xét quí báu bước làm luận văn Đồng thời xin gửi lời cảm ơn tới thầy cô giáo khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà nội truyền đạt kiến thức cho suốt thời gian học tập nghiên cứu vừa qua Tôi xin chân thành cảm ơn quan, bạn bè, đồng nghiệp, gia đình người thân chia sẻ, giúp đỡ, động viên, tạo điều kiện thuận lợi để tơi hồn thành nhiệm vụ học tập luận văn Hà Nội, tháng năm 2016 Học viên Trƣơng Kim Tú LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn tơi tự nghiên cứu tìmhiểu dựa tài liệu tơi trình bày theo ý hiểu thân hướng dẫn trực tiếp PGS TS Nguyễn Trí Thành Các nội dung nghiên cứu, tìmhiểu kết thực nghiệm hoàn toàn trung thực Luận văn chưa công bố cơng trình Trong q trình thực luận văn tham khảo tài liệu số tác giả, tất thống tin liên quan đến tài liệu tham khảo liệt kê mục “TÀI LIỆU THAM KHẢO” cuối luận văn Tôi xin chịu trách nhiệm hoàn toàn lời cam đoan mình, có sai, tơi chịu hình thức kỷ luật theo quy định Hà Nội, tháng năm 2016 Học viên Trƣơng Kim Tú MỤC LỤC MỞ ĐẦU Đặt vấn đề Mục tiêu nghiên cứu Cấu trúc luận văn Chương TỔNG QUAN 1.1 Tổng quan phươngpháptìmkiếm 1.2 Tổng quan phươngphápxửlýtìmkiếmtheokýtựđạidiện 10 1.3 Ý nghĩa khoa học thực tiễn đề tài Error! Bookmark not defined 1.3.1 Ý nghĩa khoa học Error! Bookmark not defined 1.3.2 Ý nghĩa thực tiễn Error! Bookmark not defined Chương CÁC GIẢI PHÁP CÀI ĐẶT TÌMKIẾMTHEOKÝTỰĐẠIDIỆN Error! Bookmark not defined 2.1 Giới thiệu cấu trúc mục ngược Error! Bookmark not defined 2.2 Tìmkiếmtheokýtựđạidiện Error! Bookmark not defined 2.2.1 Chỉ mục quay Error! Bookmark not defined 2.2.2 Chỉ mục k-gram Error! Bookmark not defined 2.2.3 Giải pháptìmkiếm dựa Otomat Error! Bookmark not defined 2.2.3.1 Giới thiệu số khái niệm liên quan đến otomat Error! Bookmark not defined 2.2.3.2 Biểu diễn truy vấn theokýtựđạidiện dạng biểu thức quy quy tắc chuyển đổi từ biểu thức quy sang otomat Error! Bookmark not defined 2.2.3.3 Giải pháptìmkiếm dựa Otomat Error! Bookmark not defined 2.2.4 Giải pháptìmkiếm dựa máy chuyển đổi hữu hạn trạng thái Error! Bookmark not defined 2.2.4.1 Giới thiệu máy chuyển đổi hữu hạn trạng thái Error! Bookmark not defined 2.2.4.2 Giải pháptìmkiếm dựa máy chuyển đổi hữu hạn trạng thái Error! Bookmark not defined Chương GIỚI THIỆU LUCENE Error! Bookmark not defined 6 3.1 Giới thiệu Lucene Error! Bookmark not defined 3.1.1 Lập mục Lucene Error! Bookmark not defined 3.1.1.1 Quy trình lập mục Error! Bookmark not defined 3.1.1.2 Các toán tử Error! Bookmark not defined 3.1.2 TìmkiếmLucene Error! Bookmark not defined 3.1.2.1 Quy trình tìmkiếmLucene Error! Bookmark not defined 3.1.2.2 Giới thiệu số kỹ thuật tìmkiếmLucene Error! Bookmark not defined 3.2 Giới thiệu tìmkiếmtheokýtựđạidiệnLucene Error! Bookmark not defined Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢError! Bookmark not defined 4.1 Quy trình thực nghiệm Error! Bookmark not defined 4.1.1 Thu thập liệu tiền xửlý Error! Bookmark not defined 4.1.2 Tạo tài liệu Error! Bookmark not defined 4.1.3 Phân tích Error! Bookmark not defined 4.1.4 Lập mục Error! Bookmark not defined 4.1.5 Tìmkiếm Error! Bookmark not defined 4.2 Xây dựng chương trình thực nghiệm Error! Bookmark not defined 4.2.1 Thu thập liệu tiền xửlý Error! Bookmark not defined 4.2.2 Tạo tài liệu Error! Bookmark not defined 4.2.3 Phân tích Error! Bookmark not defined 4.2.4 Lập mục Error! Bookmark not defined 4.2.5 Tìmkiếm Error! Bookmark not defined 4.3 Đánh giá kết thực nghiệm Error! Bookmark not defined 4.3.1 Kết Error! Bookmark not defined 4.3.2 Đánh giá kết Error! Bookmark not defined 4.3.2.1 Phươngpháp đánh giá Error! Bookmark not defined 4.3.2.2 Đánh giá Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 Phụ lục: Quy tắc viết biểu thức quy Java Error! Bookmark not defined 8 MỞ ĐẦU Đặt vấn đề Ngày nay, với đời mạng Internet phát triển nhanh chóng, vượt bậc mạng truyền thông, khối lượng lớn thông tin cập nhật đưa lên mạng thường xun Các thơng tin tập tin có cấu trúc phi cấu trúc, nằm rải rác nhiều nơi Câu hỏi đặt làm để tìm thơng tin cách nhanh chóng hiệu Để đáp ứng yêu cầu đó, có nhiều phươngpháptìmkiếm thơng tin cơng cụ tìmkiếm thơng tin đời Google, Yahoo, Altavista, Bing… Tuy nhiên, thông tin cần tìmkiếm nhiều đa dạng nhu cầu tìmkiếm thơng tin người dùng ngày cao nên việc nghiên cứu, tìmhiểu để khám phá hiểu biết sâu cách thu thập, lưu trữ, biểu diễn, tổ chức tìmkiếm thơng tin hiệu nhanh thực cần thiết Dựa nhu cầu nhiều kỹ thuật tìmkiếm nâng cao đưa giới thiệu áp dụng nhiều công cụ tìmkiếm phổ biến Tuy nhiên, phạm vi nghiên cứu luận văn dừng lại việc giới thiệu nét phươngpháptìmkiếm phổ biến nay, sau tập trung vào việc tìmhiểuphươngpháptìmkiếmtheokýtựđạidiệntừ khái quát, giải thuật cài đặt thực tế với thư viện tìmkiếm mạnh mẽ Lucene Mục tiêu nghiên cứu Nghiên cứu luận văn hướng tới mục tiêu sau: Tìmhiểutìmkiếm nói chung tìmkiếmtheokýtựđạidiện nói riêng Tìmhiểu giải pháptìmkiếmtheokýtựđạidiệnTìmhiểu giải pháptìmkiếmtheokýtựđạidiệnLucene Tiế n hành thực nghiê ̣m tim ̀ kiế m theo ký tự đa ̣i diê ̣n của Lucene cho tiế ng Viê ̣t Cấu trúc luận văn Luận văn chia thành phần với nội dung sau: Chƣơng trình bày tổng quan phươngpháptìmkiếm Các kiến thức trình bày bao gồm phươngpháp chung sử dụng tìm kiếm, đặc biệt phươngpháptìmkiếmtheokýtựđạidiện ý nghĩa mặt khoa học thực tiễn nhằm mang lại kiến thức lĩnh vực tìmkiếm 9 Chƣơng Trình bày sâu kỹ thuật xửlý truy vấn giải thuật tìmkiếmtheokýtựđạidiện Các kỹ thuật trình bày chương sở lý thuyết cho việc tìmhiểu cài đặt chương trình ứng dụng chương Chƣơng giới thiệu thư viện Lucene tính tìmkiếmtheokýtựđạidiện Lucene, từ vận dụng vào việc xây dựng chương trình thử nghiệm tính tìmkiếmtheokýtựđạidiệnLucene Phần kết luận tổng kết kết đạt luận văn hướng nghiên cứu 10 Chƣơng TỔNG QUAN Chương luận văn cung cấp nhìn tổng quan tìmkiếm thơng tin Internet thách thức vấn đề Để giải tốt vấn đề gặp phải tìmkiếm thơng tin nhiều phươngpháptìmkiếmtừ đến nâng cao đề xuất, có phươngpháptìmkiếmtheokýtựđạidiện Các khái niệm phươngpháp trình bày cách ngắn gọn nội dung chương 1.1 Tổng quan phƣơng pháptìmkiếm Internet xem kho thông tin khổng lồ vô tận, cung cấp từ hàng triệu Website khắp giới, chứa đựng toàn kiến thức nhân loại Trên Internet người dùng tìm vơ số thơng tin bổ ích kiến thức lĩnh vực từ khoa học lịch sử, văn học… Tuy nhiên, nguồn tri thức lại khơng xếp theo trật tự Vì vậy, trước kho thơng tin người dùng chưa có mục đích tìmkiếm rõ ràng thời gian lượng thơng tin q nhiều Thêm không thành thạo, người dùng khó khăn việc tìm thấy thơng tin cần thiết lượng lớn kết tìmkiếm Chính phươngpháptìmkiếm thơng tin Internet xem kỹ vô quan trọng cần thiết Các phươngpháptìmkiếm cần phải kể đến gồm: Tìmkiếm xác, tìmkiếmtheokýtựđại diện, tìmkiếmtheo mệnh đề, tìmkiếm xấp xỉ tìmkiếm cụm từ Trong tìmkiếm xác, tài liệu chứa xác từ khóa người dùng nhập vào hiển thị Còn trường hợp người dùng khơng nhớ xác từ khóa tìm kiếm, tìmkiếmtheokýtựđạidiện giải pháp phù hợp sử dụng sử dụng kýtự “?” “*” để đạidiện cho không kýtự hay chuỗi kýtự (gồm chuỗi có độ dài 0) Tìmkiếmtheo mệnh đề có sử dụng toán tử logic AND, OR để liên kết câu truy vấn đơn tạo thành mệnh đề tìmkiếm phức tạp Để tăng tính liên quan tài liệu trả tìmkiếm cụm từkỹ thuật hữu ích Tìmkiếm xấp xỉ kỹ thuật tìmkiếm hay sử dụng tìmkiếm thơng tin, phươngpháp trả kết chứa thuật ngữ gần giống với thuật ngữ truy vấn đưa người sử dụng Ngồi phươngpháptìmkiếm trình bày trên, số phươngpháptìmkiếm nâng cao cơng cụ tìmkiếm sử dụng nhằm 11 làm mịn kết tìm kiếm: Tìmkiếm tập hợp, tìmkiếmtheo trường xác định Trong tìmkiếmtheo tập hợp, kết tìmkiếm hiển thị tập hợp, kết hợp với tìmkiếm khác hay từ khóa khác Tìmkiếmtheo trường cụ thể cho phép người dụng lựa chọn trường cụ thể để thực tìmkiếm thay thực tìmkiếm với tất trường 1.2 Tổng quan phƣơng phápxửlýtìmkiếmtheokýtựđạidiện Truy vấn theokýtựđạidiện sử dụng tình sau đây: (1) người dùng khơng chắn cách viết thuật ngữ truy vấn (ví dụ, Sydney với Sidney, dẫn đến truy vấn theokýtựđạidiện S*dney); (2) người dùng biết có nhiều biến thể cách viết thuật ngữ (ví dụ, color với colour); (3) người dùng tìmkiếm tài liệu chứa biến thể thuật ngữ nhận thơng qua giải thuật stemming, khơng chắn cơng cụ tìmkiếm có thực giải thuật stemming hay khơng (ví dụ, judicial, với judiciary, dẫn đến truy vấn theokýtựđạidiện judicia*); (4) người dùng không chắn cách viết từ hay cụm từ nước ngồi (ví dụ, truy vấn Universit* Stuttgart) Các sở liệu, cơng cụ tìmkiếm khác sử dụng kýtự khác làm kýtựđạidiện Tuy nhiên, dấu * dấu ? kýtựđạidiện sử dụng phổ biến Trong phạm vi nghiên cứu luận văn hai kýtựđạidiện phổ biến dấu * dấu ? tìmhiểu Dấu * đạidiện cho chuỗi kýtự bất kỳ, gồm chuỗi có độ dài Ví dụ: o s*food tìm kiếm: seafood soyfood o enzym* tìm kiếm: enzyme enzymes enzymatic enzymic o Hof*man* tìmkiếm Hofman Hofmann Hoffman Hoffmann Dấu ? đạidiện cho khơng kýtự Ví dụ: wom?n tìm kiếm: woman women Trong truy vấn tìmkiếm sử dụng kết hợp kýtựđạidiện khác Ví dụ: organi?ation* tìm kiếm: organisation organisations organisational organization organizations organizational Các sở liệu, cơng cụ tìmkiếm khác có quy tắc khác việc tìmkiếmtheokýtựđại diện, cho việc thực tìmkiếm đạt hiệu Tuy nhiên, để tận dụng tối lợi ích mà kỹ thuật 12 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Văn Định (2012) “Giáo trình Otomat Ngơn ngữ hình thức” NXB Đại học Nơng Nghiệp Tiếng Anh Christian Charras, Thierry Lecroq (2004), Handbook of Exact String Matching Algorithms, College Publications Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze (2009), An Introduction to Information Retrieval, Cambridge University Press, England, Online edition (c) 2009 Cambridge UP G.Berry, R.Sethi (1986), “From regular expressions to deterministic automata”, Theoretical Computer Science, Elsevier Science Publishers B.V (North-Holland), pp.117-126 Michael McCandless, Erik Hatcher, Otis Gospodnetic (2009), Lucene in action 2nd Edition, Manning Publications Keneilwe Zuva, Tranos Zuva (2012), “Evaluation of Information Retrieval”, International Journal of Computer Science & Information Technology (IJCSIT), Vol (No 3), June 2012 Lingpipe, and Gate, Manu Konchady (2008), Building Search Applications: Lucene, Mustru Publishing, 1st edition Mehryar Mohri (1997), “Finite-State Transducers in Laguage and Speech Processing”, Computational Linguistics, Volume 23 Issue 2, June 1997, pp.269-311 Paul Clough, Mark sanderson (2013), “Evaluating the performance of information retrieval systems using test collections”, IR Information Research, Vol 18 (No 2), June, 2013 10 Ricardo Baeza -Yates, Berthier Ribeiro - Neto (1999), Morden Information Retrieval, Addison Wesley 11 Stoyan Mihov and Denis Maurel (2001), Direct Construction of Minimal Acyclic Subsequential Transducers 12 William B.Frakes, Ricardo Baeza-Yates (1992), Information Retrieval: Data Structures & Algorithms, Prentice Hall, 1st edition ... tiêu sau: Tìm hiểu tìm kiếm nói chung tìm kiếm theo ký tự đại diện nói riêng Tìm hiểu giải pháp tìm kiếm theo ký tự đại diện Tìm hiểu giải pháp tìm kiếm theo ký tự đại diện Lucene Tiế n... nhớ xác từ khóa tìm kiếm, tìm kiếm theo ký tự đại diện giải pháp phù hợp sử dụng sử dụng ký tự “?” “*” để đại diện cho không ký tự hay chuỗi ký tự (gồm chuỗi có độ dài 0) Tìm kiếm theo mệnh đề có... Ngoài phương pháp tìm kiếm trình bày trên, số phương pháp tìm kiếm nâng cao cơng cụ tìm kiếm sử dụng nhằm 11 làm mịn kết tìm kiếm: Tìm kiếm tập hợp, tìm kiếm theo trường xác định Trong tìm kiếm theo