Xây dựng và đánh giá hệ thống tìm kiếm thông tin (tt)

26 95 0
Xây dựng và đánh giá hệ thống tìm kiếm thông tin (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN VŨ TÙNG DƯỠNG XÂY DỰNG VÀ ĐÁNH GIÁ HỆ THỐNG TÌM KIẾM THƠNG TIN Chun ngành: Khoa học máy tính Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2016 Cơng trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng Phản biện 1: TS Huỳnh Công Pháp Phản biện 2: TS Lê Xuân Việt Luận văn bảo vệ Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 25 tháng 07 năm 2016 Có thể tìm hiểu luận văn tại: Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết đề tài Cùng với phát triển chung xã hội đặc biệt công nghệ thông tin, nhu cầu học tập người nâng cao nhu cầu tìm kiếm thông tin lớn ngày tăng Tuy nhiên, thực trạng mà cần phải đề cập đến là: Thứ nhất, có nhiều cơng cụ tìm kiếm dẫn đến khó khăn lựa chọn Thứ hai, thơng tin tìm kiếm không chưa phù hợp với yêu cầu người dùng Thứ ba, cơng cụ tìm kiếm khơng có mã nguồn mở nên khó cho việc ứng dụng… Một lý quan trọng dẫn đến hạn chế chất lượng khả ứng dụng phần mềm tìm kiếm Giải pháp giúp giải vấn đề người dùng có lựa chọn phù hợp đáng tin cậy tìm kiếm thơng tin ứng dụng cho cơng việc mình? Một giải pháp cần tập trung nghiên cứu vấn đề liên quan đến tìm kiếm thơng tin, đánh giá hệ thống tìm kiếm thông tin Phát triển công cụ nhằm xây dựng ứng dụng tìm kiếm đánh giá chất lượng hệ thống tìm kiếm Do việc xây dựng cơng cụ để tìm kiếm đánh giá chất lượng tìm kiếm phù hợp bối cảnh Vì tơi định chọn đề tài "Xây dựng đánh giá hệ thống tìm kiếm thơng tin" làm đề tài tốt nghiệp luận văn cao học Mục tiêu nghiên cứu  Mục tiêu chung: Là xây dựng đánh giá chất lượng hệ thống tìm kiếm thông tin  Mục tiêu cụ thể đề tài - Phân tích, chuẩn hóa tài liệu, lập mục tài liệu tìm kiếm phần mềm mã nguồn mở Lucene - Xây dựng mô-đun tương tác kết hợp với Lucene để nhằm mục đích tìm kiếm thơng tin đánh giá kết tìm kiếm Đối tượng phạm vi nghiên cứu  Đối tượng nghiên cứu Cơ sở lý thuyết tìm kiếm thông tin, phương phương pháp lập mục, ngôn ngữ lập trình C#, cơng cụ tìm kiếm (thư viện mã nguồn mở Lucene), phương pháp đánh giá hệ thống tìm kiếm thơng tin (các độ đo, cách đánh giá)  Phạm vi nghiên cứu - Phương pháp thu thập, chuẩn hóa lập mục tập tài liệu phương pháp đánh giá hệ thống tìm kiếm, ngơn ngữ C# - Bộ tài liệu tiếng Việt khoảng 255 tài liệu Phương pháp nghiên cứu Tôi sử dụng hai phương pháp phương pháp nghiên cứu tài liệu, phương pháp điều tra phương pháp thử nghiệm Bố cục đề tài CHƯƠNG NGHIÊN CỨU TỔNG QUAN CHƯƠNG GIẢI PHÁP XÂY DỰNG HỆ THỐNG CHƯƠNG TRIỂN KHAI THỰC NGHIỆM Tổng quan tài liệu nghiên cứu Trong trình nghiên cứu, thực đề tài, tơi nhận thấy có số hướng nghiên cứu kết cơng bố sau: - Các báo lĩnh vực liên quan xử lý văn bản; tìm kiếm truy xuất thông tin - Nguồn tài liệu từ luận văn thạc sĩ lĩnh vực liên quan hệ thống tìm kiếm thơng tin; đánh giá hệ thống tìm kiếm truy xuất thơng tin; thuật tốn tìm kiếm truy xuất thông tin CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THƠNG TIN 1.1.1 Giới thiệu tìm kiếm thơng tin a Khái niệm Tìm kiếm thơng tin (Information Retrieval - IR) tìm kiếm tài nguyên (thường tài liệu - documents) tập liệu phi cấu trúc (thường văn dạng text) lưu trữ máy tính nhằm thỏa mãn nhu cầu thông tin b Nguyên tắc hoạt động Nguyên tắc hoạt động hệ thống tìm kiếm thơng tin so khớp nhu cầu thông tin người sử dụng với tài liệu lưu trữ sở liệu hệ thống Hình 1.1 Mơ hình hoạt động hệ thống tìm kiếm thơng tin 1.1.2 Một số mơ hình tìm kiếm thơng tin Mục tiêu hệ tìm kiếm thơng tin kết trả tài liệu liên quan đến câu hỏi truy vấn tốt Vì người ta nghiên cứu đưa nhiều mơ hình tìm kiếm nhằm tính tốn cách xác độ tương quan Một số mơ hình tìm kiếm bản: Mơ hình tìm kiếm boolean, mơ hình tìm kiếm boolean mở rộng, mơ hình khơng gian vector, mơ hình xác suất 1.1.3 Một số cơng cụ áp dụng a Cơng cụ tìm kiếm mạng internet  Giới thiệu tìm kiếm mạng internet Máy truy tìm hay máy tìm kiếm (search engine), hay gọi với nghĩa rộng cơng cụ tìm kiếm (search tool), nguyên thuỷ phần mềm nhằm tìm trang mạng Internet có nội dung theo yêu cầu người dùng dựa vào thơng tin mà chúng có Trữ lượng thơng tin cơng cụ tìm kiếm thực chất loại sở liệu (database) cực lớn Việc tìm tài liệu dựa từ khóa (keyword) người dùng gõ vào trả danh mục trang WEB có chứa từ khóa mà tìm  Một số cơng cụ áp dụng - GOOGLE (http://www.google.com) - BING (http://www.bing.com) - BAIDU (http://www.baidu.com) b Cơng cụ tìm kiếm máy tính cá nhân  Giới thiệu tìm kiếm máy tính cá nhân Cơng cụ tìm kiếm máy tính cá nhân hay Desktop Search phần mềm dùng để tìm kiếm nội dung tệp tin liệu máy tính cá nhân, hoạt động nhanh tìm kiếm WEB Các công cụ thiết kế để tìm kiếm thơng tin máy tính người sử dụng e-mail, văn bản, âm phim ảnh…  Một số công cụ áp dụng - Windows Desktop Search - Google Desktop 1.2 TỔNG QUAN VỀ ĐÁNH GIÁ KẾT QUẢ TÌM KIẾM 1.2.1 Giới thiệu Khi nhu cầu tìm kiếm thơng tin phát triển, có nhiều mơ hình, thuật tốn, hệ thống truy xuất thơng tin đời Do đó, việc đánh giá mơ hình, thuật tốn, hệ thống truy xuất thơng tin điều bắt buộc phải làm Mục tiêu việc so sánh phương pháp để khẳng định phương pháp thực tốt (chứ tốt ngẫu nhiên) phương pháp việc đạt mục đích dự định Khơng có đánh giá, khó để biết phương pháp tốt Tuy nhiên, để làm điều cần có có tảng phương pháp đánh giá xây dựng tốt đáng tin cậy 1.2.2 Đánh giá hệ thống tìm kiếm thơng tin  Các tiêu chuẩn dùng để đánh giá Có tiêu chuẩn dùng để đánh giá hệ thống tìm kiếm thơng tin: - Tiêu chuẩn tính hiệu quả: Tức xác, tính đầy đủ kết trả so với mục đích tìm kiếm người sử dụng - Tiêu chuẩn tính hiệu năng: Gồm có tốc độ tìm kiếm thuật tốn, khả lưu trữ, thời gian trả cho người sử dụng, thời gian lập mục, kích thước mục… - Tiêu chuẩn khả sử dụng hệ thống: Tức nghiên cứu, học hỏi hệ thống tìm kiếm, người khơng biết tin học hay chuyên gia tin học sử dụng hệ thống  Các mơ hình đánh giá Có mơ hình thường dùng để đánh giá: - Đánh giá hộp trắng: Là đánh giá hệ thống dựa kết việc đánh giá tất thành phần hệ thống - Đánh giá hộp đen: Đánh giá cách xem hệ thống thực thể hợp tiến hành đánh giá chung hệ thống mà khơng đánh giá xác thành phần bên hệ thống - Đánh giá hướng hệ thống: Là hướng đánh giá dựa câu truy vấn mức độ liên quan tài liệu trả so với câu truy vấn - Đánh giá hướng người dùng (User Studies Evaluation): đánh giá mức độ hài lòng người sử dụng  Một số phương pháp đánh giá - Phương pháp Cranfield - Phương pháp TREC 1.2.3 Các độ đo Có độ đo thường dùng đánh giá hệ thống tìm kiếm thơng tin độ đo xác độ đo bao phủ: - Độ xác (precision): Là ước tính có tài liệu thật liên quan tìm thy: |{Tập tài liệu liên quan} {Tập kết quả}| Độ xác |{Tập kết quả}| - bao phủ (Recall): Đo lường tính tồn diện hệ thống: |{Tập tài liệu liên quan} {Tập kết quả}| Độ bao phủ |{Tập tài liệu liên quan}| Theo cỏc cơng thức tính tốn ta thấy việc tính độ đo khơng đơn gian, việc kiểm tra tài liệu có liên quan hay khơng có liên quan đến u cầu truy vấn cần phải tiến hành kiểm tra thủ công tốn thực liệu lớn 1.2.4 Phương pháp tính độ xác Có nhiều phương pháp sử dụng độ đo để tính tốn đánh giá hệ thống tìm kiếm thơng tin Phương pháp độ xác trung bình (Chỉ sử dụng độ xác khơng quan tâm đến độ bao phủ) phương pháp dựa giá trị đơn Swet's E-measure chiều dài tìm kiếm trung bình sử dụng giá trị để tính tốn Phương pháp tính độ xác dựa 11 điểm chuẩn độ bao phủ sử dụng hai độ đo độ bao phủ độ xác 1.3 MỘT SỐ MÃ NGUỒN MỞ VỀ TÌM KIẾM THƠNG TIN 1.3.1 Giới thiệu Lucene 1.3.2 Giới thiệu Solr 1.3.3 Giới thiệu Sphinx 1.4 TIỂU KẾT CHƯƠNG Chương nghiên cứu tổng quan hệ thống tìm kiếm thơng tin như: Giới thiệu tìm kiếm thơng tin, số mơ hình tìm kiếm cơng cụ tìm kiếm áp dụng Nghiên cứu tổng quan đánh giá kết tìm kiếm như: Giới thiệu, đánh giá hệ thống tìm kiếm, độ đo phương pháp đánh giá hệ thống tìm kiếm Nghiên cứu tổng quan số thư viện mã nguồn mở tìm kiếm thơng tin thư viện mã nguồn mở Lucene, Solr hay Sphinx CHƯƠNG GIẢI PHÁP XÂY DỰNG CÔNG CỤ 2.1 GIỚI THIỆU 2.2 MƠ HÌNH HỆ THỐNG Trong mơ hình đề xuất này, xây dựng hai giai đoạn giai đoạn xây dựng hệ thống tìm kiếm giai đoạn xây dựng hệ thống đánh giá Trong giai đoạn xây dựng hệ thống tìm kiếm gồm có thành phần sau: Bộ sưu tập tài liệu, thư viện mã nguồn mở Lucene, tập tài liệu sau đánh mục, giao diện yêu cầu tìm kiếm Hình 2.1 Mơ hình tìm kiếm đánh giá tìm kiếm 10 2.3.2 Giải pháp tìm kiếm  Mục đích: Truy vấn thơng tin để tìm kiếm tài liệu liên quan  Đầu vào: Câu truy vấn  Đầu ra: Tập tài liệu liên quan  Xử lý: - Nhập câu truy vấn - Chọn trường thông tin - Biên dịch câu truy vấn - Tìm kiếm Hình 2.3 Tìm kiếm tài liệu dựa câu hỏi truy vấn 2.3.3 Giải pháp đánh giá  Mục đích: Đánh giá kết tìm kiếm  Đầu vào: Kết tài liệu liên quan tìm kiếm  Đầu ra: Kết đánh giá  Xử lý: - Khi có tập tài liệu kết quả, tiến hành đánh giá hệ thống dựa tập tài liệu đánh giá thông qua độ đo (độ xác, độ bao phủ) + Độ xác thứ hạng k (P(k)): Giả sử 11 Retrieved(k) tập gồm k tài liệu đầu mà hệ thống tìm Độ xác hạng k (P(k)) định nghĩa sau:  Relevent  retrieved(k)   k   P(k) =  + Độ xác trung bình: Là độ đo kết hợp độ xác mức bao phủ tính cơng thức sau: Retrieved MAP  Relevant  Rel(i).P(i) k 1 Hình 2.4 Đánh giá kết tìm kiếm dựa tập tài liệu đánh giá 2.4 CÁC TIẾN TRÌNH HOẠT ĐỘNG CỦA LUCENE 2.4.1 Xây dựng tập mục tìm kiếm: gồm phần sau:  Cách mơ hình hóa nội dung văn với Lucene  Các thủ tục tập mục: Thêm tài liệu vào tập mục, xóa tài liệu từ tập mục, cập nhập tài liệu tập mục  Các thủ tục tập mục Có nhiều phương pháp để biểu diễn tài liệu phương pháp tự động thực theo bước: - Bước 1: Tách từ - Tokenization 12 - Bước 2: Loại bỏ từ thông dụng – stop word - Bước 3: Qui từ gốc – stemming - Bước 4: Đánh trọng số cho từ mục – term weighting  Các tuỳ chọn cho Field: Lựa chọn cho mục, tùy chọn cho lưu trữ, tùy chọn cho Vector mục từ, kết hợp tùy chọn  Thiết lập mức độ quan trọng cho tài liệu trường Không phải tất tài liệu trường tạo có mức độ quan trọng Nâng cao mức độ quan trọng cho chúng thực suốt tiến trình lập mục tiến trình tìm kiếm  Cắt giảm trường thông tin (Field truncation) Khi lập mục cho tài liệu có kích thước chưa xác định, để đảm bảo cung cấp đủ nhớ RAM dung lượng đĩa cứng cần thiết, thư viện Lucene cho phép giới hạn số mục từ cần lập mục trường tương ứng  Tối ưu hóa tập mục Khi tạo mục cho nhiều tài liệu, có nhiều segment tạo Lúc tìm kiếm hệ thống thực tìm qua tất segment kết hợp kết lại Để giảm thiểu số lượng segment tiết kiệm nhớ, Lucene hỗ trợ phương thức cho phép hợp segment lại vài segment, vừa đơn giản, tiết kiệm nhớ vừa tìm kiếm nhanh 2.4.2 Tìm kiếm tập mục Mục đích hệ thống tìm kiếm phải trả kết xác thời gian nhanh Khả Lucene trả hàng trăm, hàng nghìn hàng triệu tài liệu liên quan thời gian ngắn với phương thức đơn giản Một số lớp sử 13 dụng cho tìm kiếm bao gồm: IndexSearcher, Query, QueryParser, TopDocs, ScoreDoc  Phân tích truy vấn: QueryParse QueryParser Lucene lớp đối tượng sử dụng để tạo câu truy vấn từ nội dung tìm kiếm người sử dụng  Tìm kiếm với đối tượng IndexSearcher Tồn q trình tìm kiếm thực dựa số lớp đối tượng IndexSearcher, IndexReader, TopDocs… Và mối quan hệ chúng minh họa sơ đồ bên: QueryIndexSearcherTopDos IndexSearcherIndex  Danh sách kết quả: TopDocs Khi gọi tìm kiếm với phương thức search (Query, n) nhận kết trả TopDocs, đối tượng chứa danh sách n mã tài liệu xếp thứ tự theo mức độ liên quan  Công thức tính điểm số Lucene Lucene sử dụng cơng thức tính điểm số tương đồng bên để xác định độ tương đồng câu truy vấn q người sử dụng với tài liệu d có kho liệu tìm kiếm dựa so khớp với mục từ t câu truy vấn  tinq (tf(tind)xidf(t2)xboost(t.fieldind)x lengthNorm(t.fieldind))xcood(q, d)xqueryNorm(q)  Các loại truy vấn Lucene hỗ trợ: Tìm kiếm theo mục từ: TermQuery, Tìm kiếm theo phạm vi: RangeQuery, Tìm kiếm chuỗi ký tự: PrefixQuery, Tìm kiếm với tốn tử logic: BooleanQuery, Tìm kiếm với ký tự thay thế: WildcardQuery, Tìm kiếm theo cụm từ: PharseQuery, Tìm kiếm mục từ tương tự: FuzzyQuery, Lấy tất tài 14 liệu: MatchAllDocsQuery 2.4.3 Tiến trình phân tích Lucene Các bước Lucene thường sử dụng để phân tích như:  Sử dụng trình phân tích: dùng chuyển văn sang mục từ  Từ vựng - Token: Analyzer lớp sở, thực chuyển liệu văn sang dòng từ vựng (Token) lớp TokenStream  Loại bỏ từ thường dùng - Stopword: StopAnalyzer thực loại bỏ số từ đặc biệt gọi stop word  Chuẩn hố từ - Stemming: Tiến trình xử lý cuối loại bỏ hình thái khác từ để đưa dạng gốc  Phân tích ngơn ngữ: Chúng ta phải giải nhiều vấn đề phân tích văn với ngơn ngữ khác 2.5 THU THẬP BỘ TÀI LIỆU Hệ thống tìm kiếm sử dụng nguồn tài liệu có sẵn từ hệ thống lưu trữ cá nhân quan nhờ trình sưu tầm vài năm trở lại Nguồn liệu lưu trữ nhiều hình thức file doc, docx, xls, xlsx, ppt, pptx, pdf 2.6 TIỂU KẾT CHƯƠNG Chương nghiên cứu đề xuất mơ hình tìm kiếm đánh giá hệ thống tìm kiếm thơng tin Trong mơ hình, tơi đề xuất trình bày giai đoạn gồm đánh mục cho tài liệu, giai đoạn tìm kiếm tài liệu sau giai đoạn đánh giá hệ thống tìm kiếm thơng qua tập tài liệu đánh giá Trong giai đoạn đưa mơ hình đề xuất cách xử lý Ngồi việc phân tích tiến trình Lucene, thu thập tài liệu giải pháp để xây dựng hoàn thiện hệ thống 15 CHƯƠNG TRIỂN KHAI THỰC NGIỆM 3.1 CƠNG CỤ THỰC NGHIỆM 3.1.1 Ngơn ngữ lập trình Cơng cụ sử dụng để xây dựng ứng dụng thử nghiệm luận văn ngôn ngữ lập trình Microsoft Visual C# C# ngơn ngữ lập trình hướng đối tượng phát triển Microsoft, phần khởi đầu cho kế hoạch NET họ Tên ngơn ngữ bao gồm kí tự thăng theo Microsoft theo ECMA #, bao gồm dấu số thường Microsoft phát triển C# dựa C++ Java C# miêu tả ngơn ngữ có cân C++, Visual Basic, Delphi Java 3.1.2 Mã nguồn Lucene a Tải mã nguồn lucene: Người dùng khắp nơi truy cập địa http://lucene.apache.org để tìm hiểu tải mã nguồn phiên Lucene b Các thành phần Lucene.NET: Các thành phần Lucene ứng dụng hệ thống: Lucene.Net.Documents, Lucene.Net.Analysis, Lucene.Net.Analysis, Lucene.Net.Index, Lucene.Net.Store, Lucene.Net.QueryParsers, Ngồi ra, số thành phần có chức bổ trợ cho Lucene Lucene.Net.Util, Lucene.Net.Util.Cache… Sẽ thực thao tác chuyển đổi, ghi nhớ cho truy cập nhanh hay chứa thơng số cho q trình tạo mục tìm kiếm c Các thành phần kế thừa phát triển mới: VietnameseAnayzer, VietnameseStemFilter, AutoGetFont, AutoConvert, ExtractFile 16 3.2 CÁC MƠ-ĐUN HỆ THỐNG 3.2.1 Mơ-đun tạo mục Trong mô-đun này, cho phép người sử dụng thực việc đánh mục cho tập tài liệu, sử dụng lớp đối tượng Directory, Field, Document, Analyzer, TopDocs… Để tiến hành việc đánh mục gồm giai đoạn như: Q trình rút trích tài liệu, q trình phân tích tài liệu q trình lưu mục cho tập tài liệu Hình 3.4 Mơ-đun tạo mục tài liệu 3.2.2 Mơ-đun tìm kiếm Trong mơ-đun này, thực việc tìm kiếm tài liệu dựa yêu cầu truy vấn người dùng Tồn q trình tìm kiếm thực dựa số lớp đối tượng IndexSearcher, IndexReader, TopDocs… Ngồi đoạn code mơ tả đối tượng mà Lucene sử dụng cho việc khai báo đối tượng sử dụng việc tìm kiếm, cuối q trình tìm kiếm 17 Hình 3.5 Mơ-đun tìm kiếm tài liệu 3.2.3 Mơ-đun đánh giá Trong mơ-đun này, tiến hành việc đánh giá hệ thống tìm kiếm dựa tập tài liệu kết thu Việc đánh giá dựa việc tính độ xác hệ thống ứng với độ đo độ liên quan Hình 3.6 Mơ-đun đánh giá kết tìm kiếm 18 3.3 THỬ NGHIỆM Giao diện dùng để tìm kiếm tính tốn độ đo cho việc đánh giá kết tìm kiếm Hình 3.15 Kết tìm kiếm Hình 3.16 Kết đánh giá 19 3.4 KẾT QUẢ VÀ ĐÁNH GIÁ  Thử nghiệm Tiến hành thử nghiệm sau: Tìm kiếm câu truy vấn khác với tổng số tài liệu liên quan trả Tiến hành truy vấn câu truy vấn với tổng số tài liệu liên quan trả ta có bảng kết sau: Bảng 3.1 Bảng giá trị R, P tính với n tài liệu trả Số tài liệu liên N quan trả Số tài liệu Độ bao Độ trả phủ (R) xác (P) 1 1/5=0.2 1/1=1.00 2 2/5=0.4 2/2=1.00 3 2/5=0.4 2/3=0.67 4 3/5=0.6 3/4=0.75 5 3/5=0.6 3/5=0.60 6 4/5=0.8 4/6=0.67 7 4/5=0.8 4/7=0.57 8 4/5=0.8 4/8=0.50 9 4/5=0.8 4/9=0.44 10 10 4/5=0.8 4/10=0.40 11 11 4/5=0.8 4/11=0.36 12 12 4/5=0.8 4/12=0.33 13 13 4/5=0.8 5/13=0.38 14 14 5/5=1.0 5/14=0.36 - Sau lấy độ xác thứ hạng k tài liệu đầu, tiến hành lấy độ xác trung bình (Mean average precision – MAP) để so sánh tổng hợp đưa đánh giá ban đầu cho hệ thống 20 Nhìn bảng giá trị trên, ta thấy giá trị R=0.6 có giá trị P (P=0.75 P=0.6) ngược lại giá trị P=1.0 có giá trị R (R=0.2, R=0.4) Để xây dựng đường cong cho câu truy vấn ta dùng phương pháp tính nội suy độ xác dựa 11 điểm chuẩn độ bao phủ: Xét giá trị R điểm chuẩn 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7 0.8, 0.9, 1.0 Tại vị trí tính giá trị P theo công thức sau: PR(i) = max PR(j) với j>=i Bảng 3.2 Bảng nội suy giá trị P cho câu hỏi thứ k Độ Độ bao phủ Độ Độ bao phủ (R) xác (P) chuẩn hóa 1/5=0.2 1/1=1.00 hóa 1.00 2/5=0.4 2/2=1.00 0.1 1.00 2/5=0.4 2/3=0.67 0.2 1.00 3/5=0.6 3/4=0.75 0.3 1.00 4/5=0.8 3/5=0.60 0.4 1.00 4/5=0.8 4/6=0.67 0.5 0.75 4/5=0.8 4/7=0.57 0.6 0.75 4/5=0.8 4/8=0.50 0.7 0.67 4/5=0.8 4/9=0.44 0.8 0.67 10 4/5=0.8 4/10=0.40 0.9 0.38 11 4/5=0.8 4/11=0.36 1.0 0.38 12 4/5=0.8 4/12=0.33 13 5/5=1.0 5/13=0.38 14 5/5=1.0 5/14=0.36 N xác nội suy 21 Đồ thị RP cho câu hỏi thứ k Hình 3.17 Đồ thị RP cho câu hỏi thứ k  Kết luận: Tiến hành thử nghiệm máy tính cá nhân cấu hình: Intel (R) Core (TM) i3-4005U CPU, tốc độ xử lý 1.70GHz, RAM 4.00 GB, Dung lượng ổ cứng 500 GB, tài liệu thử nghiệm tài liệu nhỏ vừa với khoảng 255 tệp văn ta thu kết sau: Bảng 3.3 Bảng so sánh kết công cụ tìm kiếm Lucene Khả tìm kiếm WDS - Các loại tệp - Các loại tệp - Các loại tệp như: Văn bản, như: Văn bản, như: Văn bản, hình ảnh hình mục ảnh, âm hình thanh, Web - Không giới - Lập GD Không ảnh, âm thanh, Web giới - Có giới hạn số hạn số lượng tài hạn số lượng tài lượng tài liệu liệu lập mục liệu lập mục lâp mục 10.000 tài liệu 22 Lucene Lập mục Thời WDS gian - Thời trung bình: ~ 1s/ trung tài liệu GD gian - Thời bình: trung ~1.2s/ tài liệu gian bình: ~1.3s/ tài liệu - Mức độ tìm - Mức độ tìm - Mức độ tìm kiếm: Tìm kiếm kiếm: Tìm kiếm kiếm: Tìm kiếm theo tên tệp, tiêu theo tên tệp, theo tên tệp, đề, loại tệp, nội ngày lưu tệp, ngày lưu tệp, dung Ngoài chủ đề Chủ chủ đề Chủ Lucene giới yếu theo tên yếu theo tên tệp hạn số lượng tệp thời gian tìm kiếm - Thời gian tìm - Thời gian tìm - Thời gian tìm kiếm: Tìm kiếm Trung kiếm trung bình: kiếm trung bình: bình ~0.05s/ Trung bình ~ Trung bình ~ lần tìm kiếm 0.1s/ lần tìm 0.1s/ lần tìm kiếm kiếm - Kết trả về: - Kết trả về: - Kết trả về: Kết tài liệu Kết tài liệu Kết tài liệu liên quan liên quan liên quan trả so với câu trả so với câu trả so với câu truy vấn tương truy vấn có độ truy vấn có độ ứng có độ chính xác khơng xác không xác ~78% cao không cao không tìm thấy kết tìm thấy kết 23  Đánh giá - Qua nghiên cứu này, thu số kết ban đầu làm tiền đề quan trọng cho nghiên cứu sau Nghiên cứu xem lại cách có hệ thống việc tìm kiếm đánh giá hệ thống tìm kiếm thơng tin - Có thể tích hợp thư viện mã nguồn mở Lucene với nhiều ngôn ngữ khác nhằm phục vụ cho việc tìm kiếm đánh giá hệ thống tìm kiếm thông qua nhiều phương pháp khác - Mô hình tìm kiếm phù hợp cho việc tìm kiếm tài liệu phục vụ cho công việc cá nhân, gia đình hay đơn vị quan tổ chức khép kín (như tổ chun mơn trường học, phòng ban nghành quan nhà nước ) 3.5 TIỂU KẾT CHƯƠNG Trong chương đạt kết thử nghiệm sau: Sử dụng ngơn ngữ lập trình C# xây dựng demo thử nghiệm cho việc lập mục, tìm kiếm tài liệu tính độ đo nhằm phục vụ cho việc tổng hợp đưa kết đánh giá cho hệ thống tìm kiếm thông tin 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua thời gian nghiên cứu, thử nghiệm ứng dụng, luận văn đạt số kết quả: - Bước đầu nghiên cứu, ứng dụng khai thác cơng cụ để giải khó khăn tồn lĩnh vực tìm kiếm - Bước đầu xây dựng thành cơng hệ thống tìm kiếm đánh giá hệ thống tìm kiếm phục vụ yêu cầu cấp thiết cá nhân đơn vị - Mở hướng nghiên cứu ứng dựng lĩnh vực tìm kiếm đánh giá hệ thống tìm kiếm Dựa kết thu xin đề xuất số hướng phát triển sau: - Việc so sánh phương pháp tập liệu chuẩn, dùng chung quan trọng để đánh giá cách khách quan - Việc phân tích thống kê kết thu quan trọng để biết phương pháp tốt thực đánh giá mức độ khác biệt - Nghiên cứu chuyên sâu để có cải tiến phù hợp cho mơ hình phát triển ứng dụng - Cách tiếp cận nên mở rộng lĩnh vực khác khoa học máy tính - Cần nghiên cứu kỹ thuật tinh chỉnh tham số tối ưu phương pháp cho lần nghiên cứu - Mong muốn tiếp tục nghiên cứu phát triển hệ thống Cần trợ giúp nguồn thơng tin, đóng góp nhà phát triển lĩnh vực để góp phần làm nên hệ thống đủ mạnh, có tính ứng dụng cao phục vụ cho nhu cầu nhiều người sử dụng ... text) lưu trữ máy tính nhằm thỏa mãn nhu cầu thông tin b Nguyên tắc hoạt động Nguyên tắc hoạt động hệ thống tìm kiếm thông tin so khớp nhu cầu thông tin người sử dụng với tài liệu lưu trữ sở liệu... truy xuất thông tin - Nguồn tài liệu từ luận văn thạc sĩ lĩnh vực liên quan hệ thống tìm kiếm thơng tin; đánh giá hệ thống tìm kiếm truy xuất thơng tin; thuật tốn tìm kiếm truy xuất thơng tin 3... tâm Thông tin- Học liệu, Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết đề tài Cùng với phát triển chung xã hội đặc biệt công nghệ thông tin, nhu cầu học tập người nâng cao nhu cầu tìm kiếm thơng tin lớn

Ngày đăng: 24/12/2018, 13:10

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan