CHƯƠNG 4 MƠ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP
4.4. Tăng tốc xử lý dữ liệu tìm kiếm bằng kỹ thuật xử lý dữ liệu lớn
Dựa trên các kết quả nghiên cứu trước đây, giải pháp tăng tốc xử lý dữ liệu phục vụ cho tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn được thử nghiệm. Cụ thể, các kỹ thuật xử lý văn bản được sử dụng trên nền tảng Hadoop như tách từ tiếng Việt, loại bỏ từ dừng, tính trọng số TF-IDF, biểu diễn văn bản dưới dạng khơng gian véc-tơ, tính độ tương đồng cosine để đo mức độ tương đồng của các từ khĩa trong tài liệu nhằm trả về tài liệu cĩ độ tương đồng cao nhất. Thực nghiệm trên một số tài liệu tiếng Việt cho thấy việc xử lý song song rút ngắn khá nhiều thời gian xử lý dữ liệu tìm kiếm so với tìm kiếm truyền thống trong khi độ chính xác khơng thay đổi. Nội dung này được trình bày chi tiết ở Phụ lục 1 của luận án.
4.5. Tổng kết chương
Trong chương này, cách tiếp cận tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản được đề xuất, đĩ là sự kết hợp của độ tương đồng ngữ nghĩa của văn bản với độ tương đồng thứ tự của từ trong văn bản. Bên cạnh đĩ, giải pháp tìm kiếm tài nguyên học tập dựa trên mạng ngữ nghĩa ontology cũng được đề xuất. Một giải pháp sử dụng nền tảng Hadoop MapReduce cũng được đề xuất nhằm tăng tốc độ xử lý dữ liệu tìm kiếm. Đối với bài tốn tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản, thực nghiệm được triển khai để tính độ tương đồng của một bài báo khoa học gửi đăng với các bài báo đã xuất bản trước đĩ và độ tương đồng giữa hai bài báo cần so sánh. Đối với vấn đề đặt ra là tìm kiếm tài nguyên học tập cĩ giải quyết vấn đề ngữ nghĩa, các giáo trình, bài giảng thuộc 4 lĩnh vực của cơng nghệ thơng tin được sử dụng để làm thực nghiệm cho mơ hình tìm kiếm dựa trên mạng ngữ nghĩa ontology, trong đĩ cĩ kế thừa vấn đề phân loại tài nguyên học tập của chương trước nhằm thu hẹp khơng gian tìm kiếm. Giải pháp tăng tốc xử lý dữ liệu cũng được thử nghiệm nhằm phục vụ cho tìm
kiếm tài nguyên học tập dựa trên các kỹ thuật xử lý dữ liệu lớn giúp cho quá trình xử lý dữ liệu nhanh hơn nhờ sức mạnh của xử lý song song và phân tán của một cụm máy tính. Kết quả thực nghiệm cho thấy, các giải pháp, mơ hình đề xuất là khả thi để áp dụng cho tìm kiếm thơng tin sự kết hợp của độ tương đồng ngữ nghĩa và dựa trên mạng ngữ nghĩa ontology, cũng như khả năng tăng tốc độ xử lý dữ liệu tìm kiếm.
Từ kết quả tìm kiếm, vấn đề đặt ra là làm thế nào để gợi ý tài nguyên học tập phù hợp với năng lực người học. Trước khi đề cập đến giải pháp gợi ý tài nguyên học tập, chương tiếp sẽ đề xuất các mơ hình dự đốn kết quả học tập, làm tiền đề cĩ thể sử dụng cho gợi ý tài nguyên học tập phù hợp với từng người học.