Ứng dụng kỹ thuật tìm kiếm thông tin vào hệ thống tra cứu tài liệu thư viện tại trường đại học trà vinh

26 649 0
Ứng dụng kỹ thuật tìm kiếm thông tin vào hệ thống tra cứu tài liệu thư viện tại trường đại học trà vinh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NGỌC ĐAN THANH ỨNG DỤNG KỸ THUẬT TÌM KIẾM THÔNG TIN VÀO HỆ THỐNG TRA CƯU TÀI LIỆU THƯ VIỆN TẠI TRƯỜNG ĐẠI HỌC TRÀ VINH Chuyên ngành : Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS VÕ TRUNG HÙNG Phản biện 1: PGS.TS LÊ VĂN SƠN Phản biện 2: PGS.TS TRẦN CAO ĐỆ Luận văn bảo vệ Hội đồng chấm luận văn tốt nghiệp Thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày tháng năm 2013 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết đề tài Đề tài đặt từ nhu cầu tra cứu thông tin tài liệu Thư viện Trường Đại học Trà Vinh (ĐHTV) Qua khảo sát thực tế cho thấy số lượng tài liệu quản lý Thư viện có 18.316 đầu sách với 58.990 sách thuộc nhiều chuyên ngành 100 loại báo, tạp chí Hàng ngày, số lượng sinh viên cán giáo viên đến mượn sách tra cứu thông tin tài liệu thư viện đông Cho nên vấn đề xác định tài liệu có liên quan đến nội dung cần tìm độc giả có ý nghĩa quan trọng Trong hệ thống tra cứu triển khai Thư viện, người sử dụng chủ yếu tìm kiếm dựa thông tin chung tài liệu mà chưa thật tìm kiếm bên nội dung chưa thể cung cấp kết thỏa đáng cho người sử dụng Do đó, cần phải tăng cường ứng dụng cơng nghệ thông tin vào hệ thống để cải thiện chất lượng phục vụ Hiện nay, có nhiều cơng cụ hỗ trợ tìm kiếm liệu văn bản, số thư viện mã nguồn mở Lucene Nó cung cấp hàm tiện ích hỗ trợ tìm kiếm theo danh sách từ khóa tập liệu phi cấu trúc Trong phạm vi đề tài “Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tra cứu tài liệu thư viện Trường Đại học Trà Vinh” sở vận dụng tính hỗ tợ Lucene để xây dựng ứng dụng tìm kiếm hồn chỉnh nhằm mục đích cải thiện hiệu tìm kiếm nâng cao chất lượng học tập nghiên cứu trường sinh viên giáo viên Mục tiêu nhiệm vụ nghiên cứu Cải thiện chất lượng tìm kiếm thơng tin Thư viện Trường ĐHTV Nghiên cứu lý thuyết liên quan đến tìm kiếm thơng tin thư viện mã nguồn mở Lucene; Xây dựng mơ hình giải pháp; Triển khai xây dựng hệ thống tra cứu tài liệu; Đánh giá kết thử nghiệm Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài gồm: Cơ sở lý thuyết tìm kiếm thơng tin (Information Retrieval); Thư viện mã nguồn mở Lucene; Cách tổ chức liệu Thư viện Trường ĐHTV Phạm vi đề tài áp dụng cho việc tra cứu tài liệu ngành Công nghệ Thông tin quản lý Thư viện Trường ĐHTV Phương pháp nghiên cứu Phương pháp tài liệu: Nghiên cứu tài liệu liên quan đến tìm kiếm thơng tin; Nghiên cứu phương pháp phân tích, lập mục thư viện mã nguồn mở Lucene Phương pháp điều tra: Tìm hiểu hệ thống tra cứu triển khai Thư viện Trường ĐHTV Phương pháp thực nghiệm: Triển khai xây dựng hệ thống tra cứu tài liệu có ứng dụng kỹ thuật tìm kiếm thơng tin Bố cục đề tài Sau phần mở đầu dẫn nhập đề tài, luận văn gồm có chương: Chương trình bày vấn đề liên quan đến tìm kiếm thơng tin khái niệm, ngun tắc hoạt động, mơ hình tìm kiếm thông tin, độ đo tương đồng ứng dụng tìm kiếm thơng tin Chương tiến hành khảo sát thư viện mã nguồn mở Lucene triển khai ứng dụng minh họa Chương tiến hành phân tích thiết kế hệ thống triển khai ứng dụng dựa thư viện mã nguồn mở Lucene Cuối kết luận hướng phát triển Tổng quan tài liệu nghiên cứu Trong công tác quản lý thư viện nói chung cụ thể dịch vụ hỗ trợ bạn đọc tra cứu tài liệu nói riêng vấn đề xác định tài liệu có liên quan đến nội dung cần tìm kiếm có ý nghĩa quan trọng Hầu hết Trường Đại học tăng cường công nghệ thông tin nhằm cải thiện chất lượng phục vụ Thư viện Cụ thể phần lớn trường Trường Đại học Luật Hà Nội, Trường Đại học Thủy Lợi, Đại học Quốc gia Thành phố Hồ Chí Minh, … tích hợp phân hệ tra cứu tài liệu OPAC hỗ trợ bạn đọc tìm kiếm thơng tin thư mục ấn phẩm lưu giữ Cơ sở liệu thư viện, xác định vị trí tài liệu kho sách, biết loại tài liệu mượn nhà hay đọc chỗ, … Tuy nhiên, tỉnh Trà Vinh chưa có đơn vị có hệ thống hỗ trợ tra cứu thông tin theo nội dung tài liệu Vì thế, tơi tiến hành nghiên cứu kỹ thuật tìm kiếm thơng tin cụ thể sử dụng thư viện mã nguồn mở Lucene để triển khai hệ thống tìm kiếm Thư viện Trường Đại học Trà Vinh nhằm mục đích nâng cao chất lượng kết tìm kiếm giúp bạn đọc tra cứu trực nội dung tài liệu CHƯƠNG TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THƠNG TIN 1.1 GIỚI THIỆU VỀ TÌM KIẾM THƠNG TIN 1.1.1 Khái niệm Tìm kiếm thơng tin (Information Retrieval - IR) tìm kiếm tài nguyên (thường tài liệu - documents) tập liệu phi cấu trúc (thường văn dạng text) lưu trữ máy tính nhằm thỏa mãn nhu cầu thơng tin 1.1.2 Nguyên tắc hoạt động Nguyên tắc hoạt động hệ thống tìm kiếm thơng tin so khớp nhu cầu thông tin người sử dụng với tài liệu lưu trữ sở liệu hệ thống Một đối tượng tài liệu thường văn Mơ hình 1.1 mơ tả hoạt động hệ thống IR: Hình 1.1 Mơ hình hoạt động hệ thống tìm kiếm thơng tin 1.1.3 Đánh giá kết tìm kiếm Độ xác (Precision): định nghĩa tỷ lệ tài liệu liên quan tập kết trả về, đo lường tính xác hệ thống Hay rõ ước tính có tài liệu thật liên quan tìm thấy: Đ í } |{ |{ { }| }| Độ bao phủ (Recall): định nghĩa tỷ lệ tài liệu liên quan sở liệu tài liệu, đo lường tính tồn diện hệ thống: } { }| |{ Đ ủ }| |{ Kết qu sai (Fall-out): đo tỉ lệ tài liệu khơng có liên quan trả tổng tài liệu không liên quan: } |{ |{ { }| }| 1.1.4 Các thao tác trình lập mục Có nhiều phương pháp để biểu diễn tài liệu phương pháp tự động thực theo bước: Tách từ - Tokenization; Loại bỏ từ thông dụng – stop word; Qui từ gốc – stemming; Đánh trọng số cho từ mục – term weighting 1.2 CÁC MƠ HÌNH TÌM KIẾM THƠNG TIN 1.2.1 Mơ hình luận lý Mơ hình luận lý (Boolean model) dựa lý thuyết tập hợp cổ điển lý thuyết logic Boolean Trong mơ hình này, tài liệu biểu diễn dạng tập từ khoá, thường lưu tập tin mục đảo Tập tin mục đảo danh sách từ khoá mã xác định tài liệu có chứa từ khố Một truy vấn bao gồm tập hợp từ khố có kết hợp với toán tử logic AND, OR, NOT Quá trình tìm kiếm thực dựa tài liệu có chứa từ truy vấn 1.2.2 Mơ hình xác suất Các mơ hình xác suất (Probabilistic model) áp dụng lý thuyết xác suất để truy tìm thơng tin Mơ hình xếp hạng tài liệu dựa xác suất liên quan tài liệu so với câu truy vấn cho (Robertson and Jone 1976) Truy tìm thơng tin dựa xác suất liên quan đến câu truy vấn tài liệu cao dựa xác suất không liên quan tài liệu, nghĩa trội giá trị ban đầu Cho tập tài liệu D, câu truy vấn q giá trị ban đầu (cut-off value) α Đối với mơ hình xác suất, việc tính tốn xác suất liên quan khơng liên quan tài liệu so với câu truy vấn Sau đó, tiến hành xếp tài liệu giảm dần theo mức độ liên quan chúng với câu truy vấn Trong danh sách tài liệu xếp hạng, tài liệu có xác suất liên quan tới câu truy vấn mà trội giá trị ban đầu (cutoff value) tìm thấy 1.2.3 Mơ hình khơng gian vector Mơ hình khơng gian vector (Vector Space model) mơ hình tiếng nghiên cứu Mơ hình biểu diễn tài liệu câu truy vấn vector đặc trưng biểu diễn từ có xuất bên chúng Mỗi tài liệu biểu thị đặc trưng vector trọng số vector luận lý Các vector biểu không gian nhiều chiều Trong hướng tương ứng từ xuất tài liệu Biểu mẫu đơn giản đặc trưng nhận giá trị biết từ có xuất hay không xuất tài liệu câu truy vấn Phổ biến hơn, đặc trưng gán giá trị số biết tần số xuất từ 1.3 CÁC ĐỘ ĐO TƯƠNG ĐỒNG Có nhiều độ đo khác cố gắng chuẩn hoá mức độ tương đồng khoảng cách tài liệu câu truy vấn hệ số dice (dice coefficient), hệ số Jaccard, hệ số overlap hệ số cosin Hệ số dice định nghĩa mức độ tương đồng theo công thức: (∑ ) ( ) ∑ ∑ Xét ví dụ ta thu mức độ tương đồng tài liệu câu truy vấn: ( ) ( ) Tương tự ta có bảng mức độ tương đồng sau: Sim 0.89 0.67 0.86 Hệ số Jaccard định nghĩa theo c ng thức: ∑ ( ) ∑ ∑ ∑ Xét ví dụ ta thu mức độ tương đồng tài liệu câu truy vấn: ( ( ) ) ( ) Tương tự ta có bảng mức độ tương đồng sau: Sim 1.6 1.5 Theo hệ số cosin có cơng thức: ( ) ( ) ‖ ‖‖ ‖ ∑ √∑ √∑ Xét ví dụ ta thu mức độ tương đồng tài liệu câu truy vấn: ( ) √ √ √ Tương tự ta có bảng mức độ tương đồng sau: Sim 0.89 0.89 0.95 Theo hệ số overlap định nghĩa độ tương đồng: ∑ ( ) ∑ (∑ Mức độ tương đồng tài liệu ( ) (( ) câu truy vấn: )( )) Tương tự ta có bảng mức độ tương đồng sau: Sim 1.4 1.5 ỨNG DỤNG CỦA HỆ THỐNG TÌM KIẾM THƠNG TIN 1.4.1 Cơng cụ tìm kiếm Google Google Search Engine ưa chuộng nhất, đặc trưng giúp Google có kết tìm kiếm xác thuật tốn 10 CHƯƠNG THƯ VIỆN LUCENE 2.1 GIỚI THIỆU VỀ LUCENE 2.1.1 Lịch sử phát triển Lucene thư viện mã nguồn mở hỗ trợ chức cần thiết hệ thống tìm kiếm thơng tin Mã nguồn thư viện Lucene đặt trang web: http://lucene.apache.org/core/ Tại đây, tải thêm tài liệu tương ứng với phiên Lucene 2.1.2 Lucene thành phần ứng dụng tìm kiếm Lucene thư viện mã nguồn mở, cung cấp thành phần cần thiết ứng dụng tìm kiếm Lucene hỗ trợ hai thành phần chính: lập mục tìm kiếm Hình 2.1 Các thành phần ứng dụng tìm kiếm 11 2.1.3 Các lớp đối tượng Lucene a Các lớp đối tượng lập mục IndexWriter: lớp đối tượng trung tâm tiến trình lập mục Lớp tạo tập mục mở tập mục có sẵn khơng phép đọc hay tìm kiếm tập mục Directory: lớp đối tượng xác định vị trí tập mục Analyzer: sử dụng để phân tích văn trước lập mục Document: lớp đối tượng biểu diễn tập hợp trường, trường chứa nội dung văn cần lập mục Field: trường thông tin tài liệu Mỗi Field có tên giá trị phù hợp để lưu trữ trường thông tin định b Các lớp đối tượng tìm kiếm IndexSearcher: mở tập mục tạo trước đối tượng IndexWriter tiến hành tìm kiếm Term: đơn vị để tìm kiếm Đối tượng Term cần hai tham số: tham số thứ cho biết tên Field tham số thứ hai cho biết giá trị Field Query: lớp đối tượng truy vấn thông tin Thư viện Lucene hỗ trợ số loại truy vấn như: TermQuery, BooleanQuery, PhraseQuery, PrefixQuery, … Tất đối tượng truy vấn dẫn xuất từ lớp cha Query TopDocs: lớp đối tượng đơn giản chứa liên kết đến N tài liệu có liên quan nhiều đến câu truy vấn Mỗi tài liệu danh sách có mã xác định docID để truy xuất đến tài liệu kết 12 2.2 CÁC TIẾN TRÌNH HOẠT ĐỘNG 2.2.1 Xây dựng tập mục tìm kiếm a Cách mơ hình hố nội dung văn với Lucene Trước hết, nội dung văn thơ ban đầu bóc tách biểu diễn dạng đối tượng Document Field, sau lưu vào tập mục Khi bắt đầu tìm kiếm, giá trị Field so khớp với câu truy vấn trả kết b Tiến trình lập mục Trong trình lập mục, tài liệu nguồn ban đầu rút trích lấy nội dung văn Lucene tạo đối tượng Document để quản lý, tổ chức Field để lưu trữ văn Sau đó, văn Field phân tích để tạo token Cuối cùng, token lưu trữ vào tập mục dạng cấu trúc phân đoạn Hình 2.2 Các thao tác tiến trình lập mục 13 2.2.2 Tìm kiếm tập mục Khi người sử dụng truy vấn tập mục Lucene, đối tượng TopDocs trả Đối tượng chứa danh sách đối tượng ScoreDoc xếp mặc định theo điểm số (score) Hình 2.3 Qui trình chuyển đổi nội dung tìm kiếm 2.2.3 Tiến trình phân tích Lucene Phân tích tiến trình chuyển đổi giá trị trường thông tin sang dạng biểu diễn nhất, biểu diễn mục từ Những mục từ sử dụng để xác định tài liệu có liên quan với câu truy vấn suốt trình tìm kiếm Để tách giá trị trường thông tin thành mục từ cần phải thực số thao tác như: rút trích từ, loại bỏ dấu câu, chuyển đổi sang ký tự thường, gỡ bỏ stopword, qui đổi từ gốc, … Hình 2.4 Tiến trình phân tích q trình lập mục 14 2.3 CÀI ĐẶT THỬ NGHIỆM LUCENE CORE 2.3.1 Tải mã nguồn Lucene Core Trước tiên, người sử dụng truy cập vào website http://lucene.apache.org/core/ để tải phiên Lucene Sau tải về, người sử dụng cần giải nén vào thư mục làm việc mà không cần cài đặt Sau giải nén, kiểm tra lại để đảm bảo thư mục vừa giải nén có chứa đầy đủ tập tin jar 2.3.2 Thử nghiệm Dữ án thử nghiệm nhận văn đầu vào tập tin txt với nội dung cho sau: Tên tập tin Nội dung t1.txt Cong nghe thong tin la mot nhung nganh duoc quan tam nhat hien t2.txt Ke toan va quan tri van phong la hai nganh duoc lua chon nhieu gioi sinh vien t3.txt Trong giao trinh se huong dan cac ky thuat co ban ve giai he phuong trinh Gauss su dung ngon ngu lap trinh C t4.txt Tim hieu cac van de lien quan den tim kiem thong tin t5.txt Tim hieu cac ky thuat lap trinh game 2.3.3 Kết thử nghiệm Giả sử tập tin đầu vào cho trình lập mục lưu trữ thư mục E:\dataDir kết sau lập mục lưu trữ thư mục E:\indexDir Sau thực thi tập tin kết tiến trình lập mục lưu trữ thư mục thiết lập trước 15 Hình 2.5 Các tập tin kết xuất sau trình lập mục Với nội dung truy vấn “thong tin” kết tìm kiếm trả gồm tập tin t1.txt t4.txt với điểm số 0.5341575 Hình 2.6 Kết tìm kiếm tập mục 2.4 KẾT LUẬN Nội dung chương trình bày cách tổng quan thư viện mã nguồn mở Lucene Bắt đầu từ việc tải mã nguồn tìm hiểu khái Document Field, Query, … tiến đến nghiên cứu cách thức hoạt động dựa việc khảo sát lớp đối tượng Lucene sau tiến hành triển khai ứng dụng minh họa 16 CHƯƠNG TRIỂN KHAI ỨNG DỤNG 3.1 GIỚI THIỆU 3.1.1 Đại học Trà Vinh Trường Đại học Trà Vinh thành lập theo Quyết định 141/QĐ/2006-TTg ngày 19/6/2006 Thủ tướng phủ, đặt địa Số 126, Quốc lộ 53, Phường 5, Thành phố Trà Vinh, Tỉnh Trà Vinh Điện thoại liên hệ 0743855246 địa website trường http://www.tvu.edu.vn Trường Đại học Trà Vinh (ĐHTV), tiền thân Trường Cao đẳng Cộng đồng Trà Vinh thành lập vào năm 2001 sở triển khai Dự án Cao đẳng Cộng đồng Việt Nam - Canada Cơ quan Phát triển Quốc tế Canada, Hiệp hội Cao đẳng Cộng đồng Canada, số Viện/trường Canada Viện Khoa học Kỹ thuật Ứng dụng tỉnh Saskatchewan, Viện Hàng hải, Viện Kỹ thuật Nông nghiệp tỉnh Québec Trường Đại học – Cao đẳng Malaspina Chính phủ Việt Nam đồng tài trợ tài kỹ thuật 3.1.2 Thư viện Đại học Trà Vinh Tháng năm 2006, đáp ứng nhu cầu phát triển Tỉnh, Trường Đại học Trà Vinh thành lập, ngày 29/12/2006 thành lập Thư viện trường Đại học từ việc tách khỏi phòng Đào Tạo trực thuộc Ban Giám hiệu Thư Viện có 18.316 đầu sách với 58990 sách đủ loại chuyên ngành 100 loại báo, tạp chí hành năm Xét năm 2012, nhu cầu mượn sách độc giả cao, tính trung bình hàng tháng có gần 2.104 lượt mượn Đối tượng mượn em học sinh, sinh viên với số lượt mượn 23.705 17 Từ nhu cầu thực tế đó, thư viện không ngừng nâng cao chất lượng dịch vụ nhằm đáp ứng kịp thời nhu cầu bạn đọc tâm xây dựng Thư viện theo mô hình Trung tâm Thơng tin điện tử đại Hiện tại, Thư viện xây dựng hệ thống website có phục vụ bạn đọc tra cứu thơng tin tài liệu có lưu trữ thư viện Tuy nhiên, hệ thống nhiều hạn chế, chưa thỏa mãn tốt nhu cầu tra cứu thông tin bạn đọc Hệ thống chủ yếu tìm kiếm thơng tin dựa sở liệu đơn giản, thơng tin tìm kiếm cần cung cấp xác, chưa hỗ trợ phép tốn so sánh, … Ví dụ, bạn đọc cần tìm kiếm tài liệu liên quan đến thuật tốn quicksort tài liệu cấu trúc liệu bị bỏ qua Nguyên nhân hệ thống tìm kiếm cách xác dựa tiêu đề tài liệu, chưa hỗ trợ tìm kiếm theo nội dung bên tài liệu Và vấn đề cần cải thiện cho hệ thống tra cứu thư viện 3.1.3 Mục đích hệ thống xây dựng Ứng dụng kỹ thuật, công cụ, mã nguồn mở liên quan đến tìm kiếm thơng tin để cải thiện chất lượng tìm kiếm thông tin thư viện Trường Đại học Trà Vinh 3.2 MÔ TẢ ỨNG DỤNG 3.2.1 Đối tượng sử dụng Đối tượng sử dụng chia thành hai nhóm chính: đối tượng có nhu cầu tra cứu tài liệu; cán quản lý thư viện có nhiệm vụ cập nhật thông tin tư liệu tra cứu tài liệu hỗ trợ bạn đọc 3.2.2 Yêu cầu người sử dụng Hỗ trợ tìm kiếm đa dạng: tìm theo chủ đề, theo năm xuất bản, theo tác giả, tìm dựa nội dung, … 18 Hệ thống cần phải phản hồi kết tìm kiếm nhanh chóng, xác tiện dụng 3.3 ĐỀ XUẤT GIẢI PHÁP 3.3.1 Mơ hình hệ thống Hình 3.2 Mơ hình hệ thống 3.3.2 Bộ sưu tập thơng tin sách Nguồn liệu sách sử dụng cập nhật từ kho sách thư viện Mỗi sách thư viện nhập biên mục nội dung lưu trữ máy tính dạng tập tin văn Thông tin chung sách như: tên sách, tác giả, năm xuất bản, nhà xuất bản, ghi dòng riêng biệt tập tin lưu giữ nội dung sách ... tập liệu phi cấu trúc Trong phạm vi đề tài ? ?Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tra cứu tài liệu thư viện Trường Đại học Trà Vinh? ?? sở vận dụng tính hỗ tợ Lucene để xây dựng ứng dụng. .. nghiên cứu kỹ thuật tìm kiếm thông tin cụ thể sử dụng thư viện mã nguồn mở Lucene để triển khai hệ thống tìm kiếm Thư viện Trường Đại học Trà Vinh nhằm mục đích nâng cao chất lượng kết tìm kiếm. .. hệ thống tra cứu thư viện 3.1.3 Mục đích hệ thống xây dựng Ứng dụng kỹ thuật, công cụ, mã nguồn mở liên quan đến tìm kiếm thơng tin để cải thiện chất lượng tìm kiếm thơng tin thư viện Trường Đại

Ngày đăng: 31/12/2013, 10:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan