CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.6. Các nghiên cứu liên quan
2.6.1. Nghiên cứu về phân loại văn bản
Mục đích chính của hệ thống tìm kiếm thơng tin là cung cấp các tài nguyên học tập như mong muốn của người dùng từ khơng gian tìm kiếm rộng lớn. Các hệ thống tìm kiếm sẽ tính tốn độ tương đồng giữa câu truy vấn tìm kiếm và các tài nguyên học tập (hay tài liệu), từ đĩ tìm ra danh sách các tài liệu được sắp xếp theo thứ tự tương tự giảm dần của độ tương đồng. Tuy nhiên, để giới hạn khơng gian tìm kiếm, giúp cho quá trình tìm kiếm nhanh và chính xác hơn thì phân loại văn bản nĩi chung và phân loại câu truy vấn (query) nĩi riêng là nhiệm vụ rất quan trọng nhằm gán nhãn vào tập phân loại gồm nhiều chủ đề cho trước (Mishra et al., 2013).
Cĩ nhiều nghiên cứu về phân loại query tập trung vào hướng tiếp cận biểu thức chính quy dựa vào những nguyên tắc ngữ pháp viết tay (hand-written grammar rules) để xác định lớp của câu hỏi đầu vào (Durme et al., 2003). Với cách tiếp cận này, các nghiên
1
� |���� − ����� | MAE =
n
Trong đĩ, yi là giá trị thực tế của mẫu thứ i; ����� là giá trị dự đốn mẫu thứ i; n là số
giá trị sai số �� = |���� − ����� | đều nhau thì cĩ thể chọn độ đo MSE để đánh giá. Ngược lại,
cứu đã đề xuất cách biểu diễn ý nghĩa văn bản ràng buộc, cùng với chiến lược linh hoạt để so khớp các câu hỏi với các đoạn văn bản được tìm kiếm dựa trên sự tương đồng về ngữ nghĩa và quan hệ trọng số giữa các từ. Cách tiếp cận này đã đạt được những thành cơng nhất định nhưng vẫn tồn tại khơng ít hạn chế (Brown, 2004). Xây dựng mơ hình cho phương pháp này tốn nhiều thời gian và cơng sức, cần cĩ sự cộng tác của những chuyên gia trong lĩnh vực ngơn ngữ học khi xây dựng các mẫu câu hỏi. Ngồi ra, các luật ngữ pháp viết tay và văn phạm của từng loại query khơng được linh động, khi cĩ một query mới xuất hiện thì cần phải được cung cấp những luật mới để xử lý. Vấn đề nhập nhằng của ngữ pháp rất khĩ xử lý, phụ thuộc vào đặc điểm của từng ngơn ngữ. Một vấn đề khác là khi tập câu trả lời được mở rộng hoặc thay đổi kéo theo việc phải viết lại hồn tồn các luật trước đĩ nên hệ thống rất khĩ mở rộng.
Một cách tiếp cận mới để phân loại dữ liệu được các nhà nghiên cứu sử dụng nhiều trong thời gian qua là dựa trên kỹ thuật học máy (machine learning). Chẳng hạn, nhĩm tác giả Trần Cao Đệ và Phạm Nguyên Khang (2012) đã sử dụng giải thuật SVM để giải quyết bài tốn phân loại văn bản và so sánh hiệu quả của nĩ với giải thuật cây quyết định. Kết quả cho thấy phân loại với SVM thực sự tốt hơn phân loại bằng cây quyết định. Ngồi ra, việc dùng kỹ thuật phân tích giá trị đơn SVD (Singular Value
Decomposition) để phân tích và rút gọn số chiều của khơng gian đặc trưng đã giúp nâng cao hiệu quả phân loại với SVM.
Một nghiên cứu khác của nhĩm tác giả Trần Thị Thu Thảo và Vũ Thị Chinh (2012) là xây dựng mơ-đun tách từ theo mơ hình N-gram, sau đĩ mơ hình hĩa văn bản bằng kỹ thuật TF*IDF. Với tập dữ liệu đã được mơ hình hĩa thành véc-tơ, nhĩm tác giả tiến hành phân loại dựa trên giải thuật Nạve Bayes. Kết quả phân loại đạt được khá khả quan, tuy nhiên nghiên cứu này chưa cĩ những so sánh đánh giá phương pháp Nạve Bayes với các phương pháp phân loại khác.
Bên cạnh các kỹ thuật học giám sát và học khơng giám sát được sử dụng phổ biến, gần đây kỹ thuật học tăng cường (reinforcement learning) cũng được sử dụng vào việc phân loại văn bản. Reinforcement learning là một trong ba kỹ thuật học của machine learning, kỹ thuật này giúp xác định hành vi dựa trên hồn cảnh để đạt được lợi ích cao nhất (maximizing the performance). Các kết quả nghiên cứu cho thấy kỹ thuật học tăng cường phân loại văn bản đạt hiệu quả khơng kém so với học giám sát và học khơng giám sát (Chai et al., 2020; Lin et al., 2020).
Các phương pháp tiếp cận dựa trên kỹ thuật học sâu (deep learning) cũng được thực hiện trong nhiều nghiên cứu. Một nhĩm tác giả đã đề xuất ba kiến trúc cơ bản của mơ hình học sâu để phân loại văn bản gồm mạng niềm tin sâu (Deep Belief Neural - DBN), mạng nơ-ron tích chập (Convolutional Neural Network- CNN) và mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) (Zulqarnain Muhammad et al., 2020). Nghiên cứu này rút ra nhận xét, các mơ hình học sâu là những kỹ thuật cĩ tiềm năng cĩ thể sử dụng để phân loại văn bản. Tuy nhiên, tùy vào tập dữ liệu để cĩ thể quyết định sử
dụng kỹ thuật nào cho phù hợp với mơ hình phân loại. Ngồi ra, cần cĩ sự so sánh giữa kỹ thuật học máy truyền thống và kỹ thuật học sâu để cĩ thể đề xuất kỹ thuật nào phù hợp với dữ liệu thực tế.