KẾT QUẢ THỬ NGHIỆM

Một phần của tài liệu Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính (Trang 98)

- Phần thứ hai là tìm kiếm nâng cao theo các khóa dữ liệu mô tả thuộc tính của tài liệu Để hỗ trợ cho việc tìm kiếm nhanh chóng và chính xác hơn, hệ thống đưa ra

CÀI ĐẶT – THỬ NGHIỆM

4.3. KẾT QUẢ THỬ NGHIỆM

Để đánh giá hiệu quả truy tìm tài liệu của hệ thống hiện tại so với hệ thống cũ, chúng tôi sử dụng hai độ đo cơ bản là độ chính xác (precision) và độ bao phủ (recall) để đo sự thỏa mãn của người dùng với các tài liệu mà hệ thống tìm thấy.

Hiện tại, chúng tôi đã xây dựng được một bộ dữ liệu chuẩn trên kho tài liệu học tập thuộc lĩnh vực KHMT để thử nghiệm, bao gồm: một ontology theo mô hình CK-ONTO trong giải pháp cũ (thừa kế từ bộ ontology lĩnh vực CNTT, chỉnh sửa và bổ sung thành ontology lĩnh vực KHMT) và một ontology theo mô hình CK-ONTO

cải tiến được đề xuất trong luận văn này (kế thừa từ bộ ontology trên); và một kho tài liệu học tập được thu thập có kích thước khoảng 50 GB, bao gồm hơn 30,000 tập tin tài liệu với các kiểu định dạng khác nhau như pdf, doc, ppt, rar, zip…, dàn trải đủ cho bốn nhóm nhỏ đặc trưng của chuyên ngành KHMT là: Nhóm cơ sở ngành, Công nghệ tri thức và máy học, Xử lý ngôn ngữ tự nhiên và Đồ hoạ máy tính. Tuy nhiên, công tác thực nghiệm cũng gặp nhiều khó khăn vì tốn nhiều chi phí xây dựng và gia công dữ liệu vốn phải có sự can thiệp của con người, đòi hỏi kiến thức của chuyên gia về lĩnh vực và phụ thuộc nhiều vào ngôn ngữ. Hơn nữa, việc đánh giá hiệu quả tìm kiếm của hệ thống cũng đòi hỏi nhiều công sức thủ công cho việc xác định tập tài liệu có liên quan đến từng mẫu truy vấn trên tổng số các tài liệu có trong kho để so sánh với kết quả trả về của các hệ thống.

Với những hạn chế trên, chúng tôi chỉ tiến hành thử nghiệm trên những kho tài liệu được tổ chức theo mô hình SDB với kích thước từ 100, 200, 350 đến 500 tài liệu tiếng Anh về chuyên ngành KHMT trên cả hai hệ thống, bao gồm các bài báo khoa học, sách điện tử, luận văn/luận án, phân bố đều cho 4 nhóm con được nêu ở trên. Các tập tin tài liệu có kích thước từ 50 KB đến 80000 KB. Ứng với mỗi kho tài liệu, thực hiện khảo sát trên 50 câu truy vấn có chọn lọc và tính toán các độ đo recall, precision tương ứng, với ngưỡng chặn là 0.5. Hệ thống hiện tại tìm được hầu hết các tài liệu có liên quan đến nội dung cần tìm và được sắp xếp theo thứ tự độ liên quan giảm dần chính xác hơn so với thứ tự độ liên quan trong hệ thống cũ. Kết quả thực nghiệm với độ đo precision trung bình của hệ thống hiện tại là 87,74% và độ đo recall trung bình là 88,15% trên tập cơ CSDL thử nghiệm so với hệ thống cũ lần lượt là 82,43% và 81,98%.

Gọi S: số lượng tài liệu mà hệ thống tìm thấy được đánh giá là có liên quan theo người dùng.

Một phần của tài liệu Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính (Trang 98)