tổng số tài liệu liên quan theo đánh giá của người- 123docz.net

- Phần thứ hai là tìm kiếm nâng cao theo các khóa dữ liệu mô tả thuộc tính của tài liệu Để hỗ trợ cho việc tìm kiếm nhanh chóng và chính xác hơn, hệ thống đưa ra

U: tổng số tài liệu liên quan theo đánh giá của người dùng có trong kho

tài liệu học tập được thu thập có kích thước khoảng 50 GB, bao gồm hơn 30,000 tập tin tài liệu với các kiểu định dạng khác nhau như pdf, doc, ppt, rar, zip…, dàn trải đủ cho bốn nhóm nhỏ đặc trưng của chuyên ngành KHMT là: Nhóm cơ sở ngành, Công nghệ tri thức và máy học, Xử lý ngôn ngữ tự nhiên và Đồ hoạ máy tính. Tuy nhiên, công tác thực nghiệm cũng gặp nhiều khó khăn vì tốn nhiều chi phí xây dựng và gia công dữ liệu vốn phải có sự can thiệp của con người, đòi hỏi kiến thức của chuyên gia về lĩnh vực và phụ thuộc nhiều vào ngôn ngữ. Hơn nữa, việc đánh giá hiệu quả tìm kiếm của hệ thống cũng đòi hỏi nhiều công sức thủ công cho việc xác định tập tài liệu có liên quan đến từng mẫu truy vấn trên tổng số các tài liệu có trong kho để so sánh với kết quả trả về của các hệ thống.

Với những hạn chế trên, chúng tôi chỉ tiến hành thử nghiệm trên những kho tài liệu được tổ chức theo mô hình SDB với kích thước từ 100, 200, 350 đến 500 tài liệu tiếng Anh về chuyên ngành KHMT trên cả hai hệ thống, bao gồm các bài báo khoa học, sách điện tử, luận văn/luận án, phân bố đều cho 4 nhóm con được nêu ở trên. Các tập tin tài liệu có kích thước từ 50 KB đến 80000 KB. Ứng với mỗi kho tài liệu, thực hiện khảo sát trên 50 câu truy vấn có chọn lọc và tính toán các độ đo recall, precision tương ứng, với ngưỡng chặn là 0.5. Hệ thống hiện tại tìm được hầu hết các tài liệu có liên quan đến nội dung cần tìm và được sắp xếp theo thứ tự độ liên quan giảm dần chính xác hơn so với thứ tự độ liên quan trong hệ thống cũ. Kết quả thực nghiệm với độ đo precision trung bình của hệ thống hiện tại là 87,74% và độ đo recall trung bình là 88,15% trên tập cơ CSDL thử nghiệm so với hệ thống cũ lần lượt là 82,43% và 81,98%.

Gọi S: số lượng tài liệu mà hệ thống tìm thấy được đánh giá là có liên quan theo người dùng.

T: tổng số các tài liệu tìm thấy của hệ thống

U: tổng số tài liệu liên quan theo đánh giá của người dùng có trong kho kho

Bảng 4.1. Thống kê kết quả tìm kiếm trên kho gồm 500 tài liệu từ hệ thống hiện tại ST

Câu truy vấn (q) T S U precisio

n % (S/T) Recall % (S/U) 1 Programming language 51 48 50 94,11 98

2 Data structure and algorithm 145 141 155 97,24 90,97

3 Algorithm using heuristic 41 41 46 100 89,00

4 Conceptual graph 45 40 40 88,89 100

5 Artificial intelligence 98 89 108 90,82 82,41

6 Knowledge representation 62 52 59 83,87 88,14

7 Programming language with

dynamic type checking 59 52 60 88,14 86,67

8 Gesture recognition 24 20 22 83,33 90,01

9 Probabilistic Model 56 49 57 87,50 85,97

10 Information retrieval 98 91 95 92,86 95,79

11 Tree has two degree 28 24 26 89,29 96,15

12 Unsupervised learning 78 72 77 92,31 93,51

Bảng 4.2. Thống kê kết quả tìm kiếm trên kho gồm 500 tài liệu từ hệ thống cũ ST

Câu truy vấn (q) T S U precisio

n % (S/T) Recall % (S/U) 1 Programming language 56 47 50 83,93 94

2 Data structure and algorithm 150 136 155 90,67 87,74

3 Algorithm using heuristic 49 41 46 83,67 89,13

4 Conceptual graph 47 38 40 80,85 95

5 Artificial intelligence 100 86 108 86 79,63

6 Knowledge representation 66 54 59 81,82 91,53

7 Programming language with dynamic type checking

51 48 60 94,12 80

8 Gesture recognition 23 18 22 78,26 81,82

9 Probabilistic Model 56 48 57 85,71 84,21

10 Information retrieval 99 89 95 89,90 93,68

11 Tree has two degree 27 22 26 81,48 84,62

12 Unsupervised learning 79 70 77 88,61 90,91

Bảng 4.3. Bảng so sánh độ chính xác giữa hệ thống mới với hệ thống cũ

Bảng 4.4. Bảng so sánh độ phủ giữa hệ thống mới với hệ thống cũ

4.4. ĐÁNH GIÁ SO SÁNH

Với mô hình tìm kiếm chuyên biệt có tính tập trung cao vào một chuyên ngành như KHMT, kết quả trả về có độ chính xác khá cao trên tập CSDL thử nghiệm, được đánh giá là thoả mãn tốt nhu cầu khai thác thông tin của người sử dụng. Với việc tích hợp khả năng phân tích ngữ nghĩa, ngoài kết quả trả về, chúng

ta có thể tìm thấy những dữ liệu liên quan khác từ đó mở rộng vấn đề ngoài kết quả tìm kiếm.

Từ kết quả thực tế cho thấy, việc cải tiến mô hình ontology cùng với các kỹ thuật xử lý liên quan đã giúp cho hệ thống tìm kiếm với độ chính xác và độ phủ trung bình cao hơn so với hệ thống cũ trên cùng một bộ dữ liệu thử nghiệm. Vẫn có số một trường hợp hệ thống cũ cho ra kết quả tốt hơn, nhưng nhìn chung hệ thống mới đã đem lại kết quả khả quan hơn rất nhiều.

Ngoài kết quả thực nghiệm đã được trình bày ở trên. Việc triển khai và thử nghiệm mô hình giải pháp mới đã đem lại thành công rất đáng khích lệ. Hệ thống cho thấy tính khả thi và thực nghiệm của giải pháp cải tiến về cả mặt mô hình và các kỹ thuật xử lý. Mô hình ontology cải tiến giúp cho hệ thống biểu diễn được thông tin, kiến thức của lĩnh vực đầy đủ và tốt hơn. Việc thêm vào thành phần lớp trong mô hình ontology là hướng tiến cận hiện đại và hiệu quả, và thành phần này sẽ được khai thác nhiều hơn trong việc nghiên cứu phát triển sau này. Bên cạnh đó, thành phần tập các luật suy diễn trong ontology giúp cho hệ thống có khả năng xác định mối quan hệ ngữ nghĩa giữa các đối tượng một cách tự động, nhanh chóng và chính xác so với giải pháp cũ.

CHƯƠNG 5

Tổng số tài liệu liên quan theo đánh giá của người dùng có trong kho

Các phương pháp truy hồi thông tin

Một tập hợp Attr các thuộc tính: