Mơ tả dữ liệu

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 91 - 93)

CHƯƠNG 4 MƠ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP

4.3. Tìm kiếm tài nguyên học tập dựa trên mạng ngữ nghĩa ontology

4.3.2. Mơ tả dữ liệu

Từ các lĩnh vực đã được xác định, các giáo trình, bài giảng liên quan được thu thập. Sau đĩ, xây dựng từ điển cho các lĩnh vực cơng nghệ thơng tin, trích lọc các câu (record) từ các tài liệu thu thập được. Sau khi tiền xử lý dữ liệu, các bước tách từ, loại bỏ từ dừng (stop words)... thực hiện. Dữ liệu sau khi xử lý thu được gồm cĩ 1.114 record với số chiều của véc-tơ là 1.336 (số thuộc tính) như Bảng 4.6.

Bảng 4.6: Dữ liệu sau khi được xử lý

Stt Lĩnh vực # record Tổng record # thuộc tính

1 Hệ thống thơng tin 131

1.114 1.336

2 Khoa học máy tính 325

3 Kỹ thuật phần mềm 114

4 Mạng máy tính và truyền thơng 544

4.3.3. Kết quả thực nghiệm

Để phân loại dữ liệu, giải thuật SVM được sử dụng; mơ hình phân loại được đánh giá dựa vào các chỉ số độ chính xác (precision), độ bao phủ (recall) và độ đo F1 thể hiện như Bảng 4.7. Kết quả thực nghiệm cho thấy hiệu quả phân loại của các giải thuật SVM là khá tốt, cho độ chính xác > 95%.

Bảng 4.7: Độ đo phân loại sử dụng giải thuật SVM

Lĩnh vực Precision Recall F1

Hệ thống thơng tin 0,937 0,908 0,922

Khoa học máy tính 0,977 0,920 0,948

Kỹ thuật phần mềm 0,991 0,939 0,964

Mạng máy tính và truyền thơng 0,939 0,989 0,963

Tỷ lệ chính xác trung bình 0,955 0,954 0,954

Phân tích ma trận nhầm lẫn ở Bảng 4.8 cho thấy lĩnh vực “Mạng máy tính và truyền thơng” cĩ kết quả phân loại chính xác nhất, chỉ cĩ khoảng 1% số mẫu phân nhầm vào các lĩnh vực khác, trong khi đĩ các lĩnh vực cịn lại cĩ độ nhầm lẫn khi phân loại từ 6% đến 9%. Kết quả phân loại này khả thi và cĩ thể sử dụng cho giai đoạn tìm kiếm sử dụng ngữ nghĩa ontology.

Bảng 4.8: Ma trận nhầm lẫn trong phân loại dữ liệu bằng giải thuật SVM Predicted classes Predicted classes Actual classes a b c d 119 2 1 9 a = Hệ thống thơng tin 22 299 0 4 b = Khoa học máy tính 1 4 107 2 c = Kỹ thuật phần mềm

5 1 0 538 d = Mạng máy tính và truyền thơng Quá trình truy vấn, phân loại, tìm kiếm ngữ nghĩa được thực hiện như lưu đồ cấu trúc hệ thống tìm kiếm ngữ nghĩa ở Hình 4.2. Trong nghiên cứu này, một hệ thống thực nghiệm được xây dựng chạy trên python để thực hiện các bước tiền xử lý query tìm kiếm, sau đĩ một chương trình chạy trên Java dùng để gọi mơ hình phân loại đã được xây dựng sẵn để phân loại query thuộc lớp nào, sau đĩ thực hiện tìm kiếm trên ontology tương ứng trước khi trả kết quả tìm kiếm về cho người dùng. Sơ đồ hệ thống được mơ tả như Hình 4.6.

Hình 4.6: Sơ đồ hệ thống tìm kiếm ngữ nghĩa

Hệ thống được xây dựng sử dụng nhiều cơng cụ, phần mềm. Cụ thể, Java 8 và Python 3.7 là hai ngơn ngữ lập trình; mơi trường lập trình là IDE Spring Tool Suite 3.9; Jena dùng làm thư viện để thao tác với Ontology; Spring MVC Framewrok cung cấp kiến trúc MVC (Model-View-Controller) và các component được sử dụng để phát triển

các ứng dụng web; thực hiện huấn luyện dữ liệu để tạo ra mơ hình phân loại bằng cơng cụ Weka 3.8. Ngồi ra, VnTokenizer cũng sử dụng làm cơng cụ tách từ tiếng Việt; Weka API tích hợp kết quả phân loại vào ứng dụng.

Một ví dụ về kết quả tìm kiếm khi nhập từ khĩa “Tầng presentaion” được minh họa như Hình 4.7.

Hình 4.7: Minh họa về một kết quả tìm kiếm

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 91 - 93)

Tải bản đầy đủ (PDF)

(148 trang)