1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu phương pháp xử lý tìm kiếm theo ký tự đại diện của lucene (tt)

12 67 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 372,46 KB

Nội dung

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TRƢƠNG KIM TÌM HIỂU PHƢƠNG PHÁP XỬ TÌM KIẾM THEO TỰ ĐẠI DIỆN CỦA LUCENE LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TRƢƠNG KIM TÌM HIỂU PHƢƠNG PHÁP XỬ TÌM KIẾM THEO TỰ ĐẠI DIỆN CỦA LUCENE Ngành: Hệ thống Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60.48.0104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà Nội – Năm 2016 LỜI CẢM ƠN Tơi muốn bày tỏ lòng biết ơn sâu sắc tới người giúp đỡ q trình làm luận văn, đặc biệt tơi xin cám ơn PGS TS Nguyễn Trí Thành, với lòng kiên trì, thầy bảo chi tiết cho lời nhận xét quí báu bước làm luận văn Đồng thời xin gửi lời cảm ơn tới thầy cô giáo khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà nội truyền đạt kiến thức cho suốt thời gian học tập nghiên cứu vừa qua Tôi xin chân thành cảm ơn quan, bạn bè, đồng nghiệp, gia đình người thân chia sẻ, giúp đỡ, động viên, tạo điều kiện thuận lợi để tơi hồn thành nhiệm vụ học tập luận văn Hà Nội, tháng năm 2016 Học viên Trƣơng Kim LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn tơi tự nghiên cứu tìm hiểu dựa tài liệu tơi trình bày theo ý hiểu thân hướng dẫn trực tiếp PGS TS Nguyễn Trí Thành Các nội dung nghiên cứu, tìm hiểu kết thực nghiệm hoàn toàn trung thực Luận văn chưa công bố cơng trình Trong q trình thực luận văn tham khảo tài liệu số tác giả, tất thống tin liên quan đến tài liệu tham khảo liệt kê mục “TÀI LIỆU THAM KHẢO” cuối luận văn Tôi xin chịu trách nhiệm hoàn toàn lời cam đoan mình, có sai, tơi chịu hình thức kỷ luật theo quy định Hà Nội, tháng năm 2016 Học viên Trƣơng Kim MỤC LỤC MỞ ĐẦU Đặt vấn đề Mục tiêu nghiên cứu Cấu trúc luận văn Chương TỔNG QUAN 1.1 Tổng quan phương pháp tìm kiếm 1.2 Tổng quan phương pháp xử tìm kiếm theo tự đại diện 10 1.3 Ý nghĩa khoa học thực tiễn đề tài Error! Bookmark not defined 1.3.1 Ý nghĩa khoa học Error! Bookmark not defined 1.3.2 Ý nghĩa thực tiễn Error! Bookmark not defined Chương CÁC GIẢI PHÁP CÀI ĐẶT TÌM KIẾM THEO TỰ ĐẠI DIỆN Error! Bookmark not defined 2.1 Giới thiệu cấu trúc mục ngược Error! Bookmark not defined 2.2 Tìm kiếm theo tự đại diện Error! Bookmark not defined 2.2.1 Chỉ mục quay Error! Bookmark not defined 2.2.2 Chỉ mục k-gram Error! Bookmark not defined 2.2.3 Giải pháp tìm kiếm dựa Otomat Error! Bookmark not defined 2.2.3.1 Giới thiệu số khái niệm liên quan đến otomat Error! Bookmark not defined 2.2.3.2 Biểu diễn truy vấn theo tự đại diện dạng biểu thức quy quy tắc chuyển đổi từ biểu thức quy sang otomat Error! Bookmark not defined 2.2.3.3 Giải pháp tìm kiếm dựa Otomat Error! Bookmark not defined 2.2.4 Giải pháp tìm kiếm dựa máy chuyển đổi hữu hạn trạng thái Error! Bookmark not defined 2.2.4.1 Giới thiệu máy chuyển đổi hữu hạn trạng thái Error! Bookmark not defined 2.2.4.2 Giải pháp tìm kiếm dựa máy chuyển đổi hữu hạn trạng thái Error! Bookmark not defined Chương GIỚI THIỆU LUCENE Error! Bookmark not defined 6 3.1 Giới thiệu Lucene Error! Bookmark not defined 3.1.1 Lập mục Lucene Error! Bookmark not defined 3.1.1.1 Quy trình lập mục Error! Bookmark not defined 3.1.1.2 Các toán tử Error! Bookmark not defined 3.1.2 Tìm kiếm Lucene Error! Bookmark not defined 3.1.2.1 Quy trình tìm kiếm Lucene Error! Bookmark not defined 3.1.2.2 Giới thiệu số kỹ thuật tìm kiếm Lucene Error! Bookmark not defined 3.2 Giới thiệu tìm kiếm theo tự đại diện Lucene Error! Bookmark not defined Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢError! Bookmark not defined 4.1 Quy trình thực nghiệm Error! Bookmark not defined 4.1.1 Thu thập liệu tiền xử Error! Bookmark not defined 4.1.2 Tạo tài liệu Error! Bookmark not defined 4.1.3 Phân tích Error! Bookmark not defined 4.1.4 Lập mục Error! Bookmark not defined 4.1.5 Tìm kiếm Error! Bookmark not defined 4.2 Xây dựng chương trình thực nghiệm Error! Bookmark not defined 4.2.1 Thu thập liệu tiền xử Error! Bookmark not defined 4.2.2 Tạo tài liệu Error! Bookmark not defined 4.2.3 Phân tích Error! Bookmark not defined 4.2.4 Lập mục Error! Bookmark not defined 4.2.5 Tìm kiếm Error! Bookmark not defined 4.3 Đánh giá kết thực nghiệm Error! Bookmark not defined 4.3.1 Kết Error! Bookmark not defined 4.3.2 Đánh giá kết Error! Bookmark not defined 4.3.2.1 Phương pháp đánh giá Error! Bookmark not defined 4.3.2.2 Đánh giá Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 Phụ lục: Quy tắc viết biểu thức quy Java Error! Bookmark not defined 8 MỞ ĐẦU Đặt vấn đề Ngày nay, với đời mạng Internet phát triển nhanh chóng, vượt bậc mạng truyền thông, khối lượng lớn thông tin cập nhật đưa lên mạng thường xun Các thơng tin tập tin có cấu trúc phi cấu trúc, nằm rải rác nhiều nơi Câu hỏi đặt làm để tìm thơng tin cách nhanh chóng hiệu Để đáp ứng yêu cầu đó, có nhiều phương pháp tìm kiếm thơng tin cơng cụ tìm kiếm thơng tin đời Google, Yahoo, Altavista, Bing… Tuy nhiên, thông tin cần tìm kiếm nhiều đa dạng nhu cầu tìm kiếm thơng tin người dùng ngày cao nên việc nghiên cứu, tìm hiểu để khám phá hiểu biết sâu cách thu thập, lưu trữ, biểu diễn, tổ chức tìm kiếm thơng tin hiệu nhanh thực cần thiết Dựa nhu cầu nhiều kỹ thuật tìm kiếm nâng cao đưa giới thiệu áp dụng nhiều công cụ tìm kiếm phổ biến Tuy nhiên, phạm vi nghiên cứu luận văn dừng lại việc giới thiệu nét phương pháp tìm kiếm phổ biến nay, sau tập trung vào việc tìm hiểu phương pháp tìm kiếm theo tự đại diện từ khái quát, giải thuật cài đặt thực tế với thư viện tìm kiếm mạnh mẽ Lucene Mục tiêu nghiên cứu Nghiên cứu luận văn hướng tới mục tiêu sau:     Tìm hiểu tìm kiếm nói chung tìm kiếm theo tự đại diện nói riêng Tìm hiểu giải pháp tìm kiếm theo tự đại diện Tìm hiểu giải pháp tìm kiếm theo tự đại diện Lucene Tiế n hành thực nghiê ̣m tim ̀ kiế m theo ký tự đa ̣i diê ̣n của Lucene cho tiế ng Viê ̣t Cấu trúc luận văn Luận văn chia thành phần với nội dung sau: Chƣơng trình bày tổng quan phương pháp tìm kiếm Các kiến thức trình bày bao gồm phương pháp chung sử dụng tìm kiếm, đặc biệt phương pháp tìm kiếm theo tự đại diện ý nghĩa mặt khoa học thực tiễn nhằm mang lại kiến thức lĩnh vực tìm kiếm 9 Chƣơng Trình bày sâu kỹ thuật xử truy vấn giải thuật tìm kiếm theo tự đại diện Các kỹ thuật trình bày chương sở thuyết cho việc tìm hiểu cài đặt chương trình ứng dụng chương Chƣơng giới thiệu thư viện Lucene tính tìm kiếm theo tự đại diện Lucene, từ vận dụng vào việc xây dựng chương trình thử nghiệm tính tìm kiếm theo tự đại diện Lucene Phần kết luận tổng kết kết đạt luận văn hướng nghiên cứu 10 Chƣơng TỔNG QUAN Chương luận văn cung cấp nhìn tổng quan tìm kiếm thơng tin Internet thách thức vấn đề Để giải tốt vấn đề gặp phải tìm kiếm thơng tin nhiều phương pháp tìm kiếm từ đến nâng cao đề xuất, có phương pháp tìm kiếm theo tự đại diện Các khái niệm phương pháp trình bày cách ngắn gọn nội dung chương 1.1 Tổng quan phƣơng pháp tìm kiếm Internet xem kho thông tin khổng lồ vô tận, cung cấp từ hàng triệu Website khắp giới, chứa đựng toàn kiến thức nhân loại Trên Internet người dùng tìm vơ số thơng tin bổ ích kiến thức lĩnh vực từ khoa học lịch sử, văn học… Tuy nhiên, nguồn tri thức lại khơng xếp theo trật tự Vì vậy, trước kho thơng tin người dùng chưa có mục đích tìm kiếm rõ ràng thời gian lượng thơng tin q nhiều Thêm không thành thạo, người dùng khó khăn việc tìm thấy thơng tin cần thiết lượng lớn kết tìm kiếm Chính phương pháp tìm kiếm thơng tin Internet xem kỹ vô quan trọng cần thiết Các phương pháp tìm kiếm cần phải kể đến gồm: Tìm kiếm xác, tìm kiếm theo tự đại diện, tìm kiếm theo mệnh đề, tìm kiếm xấp xỉ tìm kiếm cụm từ Trong tìm kiếm xác, tài liệu chứa xác từ khóa người dùng nhập vào hiển thị Còn trường hợp người dùng khơng nhớ xác từ khóa tìm kiếm, tìm kiếm theo tự đại diện giải pháp phù hợp sử dụng sử dụng tự “?” “*” để đại diện cho không tự hay chuỗi tự (gồm chuỗi có độ dài 0) Tìm kiếm theo mệnh đề có sử dụng toán tử logic AND, OR để liên kết câu truy vấn đơn tạo thành mệnh đề tìm kiếm phức tạp Để tăng tính liên quan tài liệu trả tìm kiếm cụm từ kỹ thuật hữu ích Tìm kiếm xấp xỉ kỹ thuật tìm kiếm hay sử dụng tìm kiếm thơng tin, phương pháp trả kết chứa thuật ngữ gần giống với thuật ngữ truy vấn đưa người sử dụng Ngồi phương pháp tìm kiếm trình bày trên, số phương pháp tìm kiếm nâng cao cơng cụ tìm kiếm sử dụng nhằm 11 làm mịn kết tìm kiếm: Tìm kiếm tập hợp, tìm kiếm theo trường xác định Trong tìm kiếm theo tập hợp, kết tìm kiếm hiển thị tập hợp, kết hợp với tìm kiếm khác hay từ khóa khác Tìm kiếm theo trường cụ thể cho phép người dụng lựa chọn trường cụ thể để thực tìm kiếm thay thực tìm kiếm với tất trường 1.2 Tổng quan phƣơng pháp xử tìm kiếm theo tự đại diện Truy vấn theo tự đại diện sử dụng tình sau đây: (1) người dùng khơng chắn cách viết thuật ngữ truy vấn (ví dụ, Sydney với Sidney, dẫn đến truy vấn theo tự đại diện S*dney); (2) người dùng biết có nhiều biến thể cách viết thuật ngữ (ví dụ, color với colour); (3) người dùng tìm kiếm tài liệu chứa biến thể thuật ngữ nhận thơng qua giải thuật stemming, khơng chắn cơng cụ tìm kiếm có thực giải thuật stemming hay khơng (ví dụ, judicial, với judiciary, dẫn đến truy vấn theo tự đại diện judicia*); (4) người dùng không chắn cách viết từ hay cụm từ nước ngồi (ví dụ, truy vấn Universit* Stuttgart) Các sở liệu, cơng cụ tìm kiếm khác sử dụng tự khác làm tự đại diện Tuy nhiên, dấu * dấu ? tự đại diện sử dụng phổ biến Trong phạm vi nghiên cứu luận văn hai tự đại diện phổ biến dấu * dấu ? tìm hiểu  Dấu * đại diện cho chuỗi tự bất kỳ, gồm chuỗi có độ dài Ví dụ: o s*food tìm kiếm: seafood soyfood o enzym* tìm kiếm: enzyme enzymes enzymatic enzymic o Hof*man* tìm kiếm Hofman Hofmann Hoffman Hoffmann  Dấu ? đại diện cho khơng tự Ví dụ: wom?n tìm kiếm: woman women  Trong truy vấn tìm kiếm sử dụng kết hợp tự đại diện khác Ví dụ: organi?ation* tìm kiếm: organisation organisations organisational organization organizations organizational Các sở liệu, cơng cụ tìm kiếm khác có quy tắc khác việc tìm kiếm theo tự đại diện, cho việc thực tìm kiếm đạt hiệu Tuy nhiên, để tận dụng tối lợi ích mà kỹ thuật 12 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Văn Định (2012) “Giáo trình Otomat Ngơn ngữ hình thức” NXB Đại học Nơng Nghiệp Tiếng Anh Christian Charras, Thierry Lecroq (2004), Handbook of Exact String Matching Algorithms, College Publications Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze (2009), An Introduction to Information Retrieval, Cambridge University Press, England, Online edition (c) 2009 Cambridge UP G.Berry, R.Sethi (1986), “From regular expressions to deterministic automata”, Theoretical Computer Science, Elsevier Science Publishers B.V (North-Holland), pp.117-126 Michael McCandless, Erik Hatcher, Otis Gospodnetic (2009), Lucene in action 2nd Edition, Manning Publications Keneilwe Zuva, Tranos Zuva (2012), “Evaluation of Information Retrieval”, International Journal of Computer Science & Information Technology (IJCSIT), Vol (No 3), June 2012 Lingpipe, and Gate, Manu Konchady (2008), Building Search Applications: Lucene, Mustru Publishing, 1st edition Mehryar Mohri (1997), “Finite-State Transducers in Laguage and Speech Processing”, Computational Linguistics, Volume 23 Issue 2, June 1997, pp.269-311 Paul Clough, Mark sanderson (2013), “Evaluating the performance of information retrieval systems using test collections”, IR Information Research, Vol 18 (No 2), June, 2013 10 Ricardo Baeza -Yates, Berthier Ribeiro - Neto (1999), Morden Information Retrieval, Addison Wesley 11 Stoyan Mihov and Denis Maurel (2001), Direct Construction of Minimal Acyclic Subsequential Transducers 12 William B.Frakes, Ricardo Baeza-Yates (1992), Information Retrieval: Data Structures & Algorithms, Prentice Hall, 1st edition ... tiêu sau:     Tìm hiểu tìm kiếm nói chung tìm kiếm theo ký tự đại diện nói riêng Tìm hiểu giải pháp tìm kiếm theo ký tự đại diện Tìm hiểu giải pháp tìm kiếm theo ký tự đại diện Lucene Tiế n... nhớ xác từ khóa tìm kiếm, tìm kiếm theo ký tự đại diện giải pháp phù hợp sử dụng sử dụng ký tự “?” “*” để đại diện cho không ký tự hay chuỗi ký tự (gồm chuỗi có độ dài 0) Tìm kiếm theo mệnh đề có... Ngoài phương pháp tìm kiếm trình bày trên, số phương pháp tìm kiếm nâng cao cơng cụ tìm kiếm sử dụng nhằm 11 làm mịn kết tìm kiếm: Tìm kiếm tập hợp, tìm kiếm theo trường xác định Trong tìm kiếm theo

Ngày đăng: 11/11/2017, 09:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w