Để hạn chế trường hợp overfitting, trong các mạng nơ-ron người ta thường dùng kỹ thuật và phương pháp như sau:
Kỹ thuật Dropout: Dropout (Srivastava et al., 2014) là kỹ thuật giúp tránh overfitting bằng cách bỏ đi ngẫu nhiên số phần trăm các nơ-ron của các tầng (layer) và làm giảm sự phụ thuộc lẫn nhau trong suốt quá trình huấn luyện. Kỹ thuật Dropout được thực hiện trong quá trình huấn luyện và kiểm tra. Trong giai đoạn huấn luyện, với mỗi tầng ẩn và mỗi mẫu huấn luyện, ở mỗi epoch chọn ngẫu nhiên p phần trăm số nơ-ron để bỏ qua cả hàm kích hoạt cho các nơ-ron đĩ. Trong giai đoạn kiểm tra, sử dụng tồn bộ các hàm kích hoạt, nhưng giảm với tỷ lệ p phần trăm do chúng ta bị bỏ qua p phần trăm hàm kích hoạt trong q trình huấn luyện. Kỹ thuật Dropout được minh họa như Hình 2.23.
Hình 2.23: Ví dụ mạng nơ-ron trước và sau Dropout (Srivastava et al., 2014) Phương pháp Early Stopping: Khi huấn luyện mơ hình khơng phải lúc nào hàm
mất mát (loss function) của tập train và tập test cũng đồng thời giảm, tới một epoch nào đĩ thì độ mất mát của tập train sẽ tiếp tục giảm nhưng độ mất mát của tập test khơng giảm mà tăng trở lại. Để ngăn chặn hiện tượng Overfitting này thì tại thời điểm đĩ người ta sẽ dừng sớm (Early stopping) việc quá trình huấn luyện vì nếu tiếp tục huấn luyện sẽ khơng cải thiện được mơ hình mà lại tốn tài nguyên, được mình họa như Hình 2.24.
Hình 2.24: Minh họa phương pháp Early stopping (Shin et al., 2016)
Phương pháp Early stopping xác định số epoch được lựa chọn làm điểm dừng phù hợp căn cứ vào sai số trên tập kiểm tra, đĩ là thời điểm sai số trên tập kiểm tra bắt đầu cĩ xu hướng tăng lên.
Phương pháp Cross-Validation: Ý tưởng của Cross-validation là chia tập dữ liệu
huấn luyện gốc ban đầu thành các tập dữ liệu nhỏ và sử dụng các tập dữ liệu này để hiệu chỉnh các siêu tham số (hyperparameter) của mơ hình. Kỹ thuật này hay cịn gọi là k- fold cross validation. Với kỹ thuật k-fold cross validation, tập dữ liệu huấn luyện ban đầu được chia thành k phần bằng nhau, mỗi phần được gọi là một fold. Sau đĩ, sử dụng (k-1) folds để huấn luyện mơ hình, fold cịn lại (gọi là holdout fold) được sử dụng để kiểm tra như minh họa ở Hình 2.25.
Hình 2.25: Minh họa k-fold cross-validation (Sossi Alaoui et al., 2018) 2.5.3.8. Các phương pháp đánh giá mơ hình
Trong thực tế, một bài tốn học máy hay học sâu cĩ thể được giải quyết bằng các phương pháp và mơ hình khác nhau. Tuy nhiên, vấn đề là làm sao đánh giá được hiệu quả của mơ hình. Để làm được điều đĩ cần cĩ độ đo để đánh giá mơ hình được đề xuất (metrics for performance evaluation). Đối với dạng bài tốn phân loại hay dự đốn, cĩ thể sử dụng một số phương pháp để đánh giá mơ hình học máy nĩi chung và học sâu nĩi riêng. Các phương pháp đánh giá mơ hình được sử dụng phổ biến như độ đo Precision, Recall, F-score, AUC, MSE/RMSE, MAE,…
Precision: Đây là độ đo nhằm xem xét trên tập dữ liệu kiểm tra cĩ bao nhiêu dữ
liệu được mơ hình dự đốn đúng (tức là độ chính xác). Hay nĩi cách khác Precision nhằm xác định trong các trường hợp được dự đốn là positive thì cĩ bao nhiêu trường hợp là đúng. Precision được biểu diễn như biểu thức 2.39:
Precision =Total predicted positive𝑇𝑇𝑇𝑇 = 𝑇𝑇𝑇𝑇
𝑇𝑇𝑇𝑇+𝐹𝐹𝑇𝑇 2.39
Recall: Để khách quan hơn, ngồi độ đo Precision người ta dùng thêm độ đo Recall. Độ đo này hay cịn gọi là độ bao phủ, tức là xem xét mơ hình tìm được cĩ khả năng tổng quát hĩa đến mức độ nào. Recall là độ đo nhằm cho biết tỷ lệ dự đốn chính xác các trường hợp positive trên tồn bộ các mẫu thuộc nhĩm positive. Recall được biểu diễn như biểu thức 2.40:
Recall= 𝑇𝑇𝑇𝑇
Total actual positive =𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹 2.40
F-score: là độ đo trung bình hài hịa (harmonic mean) của các độ đo Precision và
Recall (Powers, 2008). Trong những trường hợp hai độ đo Precision và Recall quá chênh lệch, F-score sẽ cân bằng được cả hai độ lớn này và giúp ta đưa ra một đánh giá khách quan hơn. F-score hay F1 được biểu diễn như biểu thức 2.41:
F1 = 2 𝑥𝑥PrecisionPrecision 𝑥𝑥 Recall
Độ đo AUC: AUC gọi là diện tích dưới đường ROC (Area under the ROC Curve).
Đây là một phương pháp tính tốn hiệu suất của một mơ hình phân loại theo các ngưỡng phân loại khác nhau. ROC (Receiver Operating Characteristics) là một đường cong biểu diễn xác suất và AUC biểu diễn mức độ phân loại của mơ hình. AUC cĩ giá trị nằm trong khoảng (0, 1), chỉ số này càng cao thì mơ hình phân loại càng chính xác, được minh họa như Hình 2.26.
Hình 2.26: Minh họa độ đo AUC - ROC (Greulich et al., 2019)
Đường cong ROC biểu diễn bởi cặp chỉ số TPR và FPR, với TPR là trục tung và FPR là trục hồnh. TPR (True Positive Rate) là tỷ lệ các trường hợp phân loại đúng (positive) trên tổng số các trường hợp thực tế là positive. Chỉ số này sẽ đánh giá mức độ dự báo chính xác của mơ hình trên positive. Khi giá trị của nĩ càng cao, mơ hình dự báo càng tốt trên nhĩm positive, được tính theo biểu thức 2.42:
TPR=Total positive𝑇𝑇𝑇𝑇 = 𝑇𝑇𝑇𝑇
TP + FN 2.42
Trong khi đĩ, FPR (False Positive Rate) là tỷ lệ dự báo sai các trường hợp thực
tế là negative thành positive trên tổng số các trường hợp thực tế là negative, được tính theo biểu thức 2.43:
FPR=Total negative𝐹𝐹𝑇𝑇 = 𝐹𝐹𝑇𝑇
FP + TN 2.43
Trong đĩ, TP (true positive) là mẫu mang nhãn dương được phân lớp đúng vào lớp dương; FN (false negative) là mẫu mang nhãn dương bị phân lớp sai vào lớp âm; FP (false positive) là mẫu mang nhãn âm bị phân lớp sai vào lớp dương; TN (true negative) là mẫu mang nhãn âm được phân lớp đúng vào lớp âm.
AUC-ROC là phương pháp đánh giá phổ biến cho các mơ hình phân loại ở những tập dữ liệu mất cân bằng do đặc tính của nĩ là khơng thiên vị (bias) các lớp thiểu số hay đa số (Brownlee, 2020).
Confusion matrix: Khi sử đụng độ chính xác để đánh giá mơ hình chúng ta chỉ
biết bao nhiêu phần trăm lượng dữ liệu được phân loại đúng nhưng khơng chỉ ra được cụ thể mỗi loại được phân loại như thế nào, dữ liệu thuộc lớp nào bị phân loại nhầm vào lớp khác. Để đánh giá được vấn đề này, người ta thường sử dụng một ma trận được gọi là ma trận nhầm lẫn (confusion matrix). Về cơ bản, confusion matrix thể hiện cĩ bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp và được dự đốn là rơi vào một lớp. Chẳng hạn, quan sát ma trận nhầm lẫn 2 lớp được mơ tả như Bảng 2.2.
Độ chính xác của mơ hình là:
Acc(M) =𝑡𝑡+𝑡𝑡𝑏𝑏++𝑑𝑑𝑐𝑐+𝑑𝑑 =𝑇𝑇𝑇𝑇+𝑇𝑇𝐹𝐹𝑇𝑇𝑇𝑇++𝑇𝑇𝐹𝐹𝐹𝐹𝑇𝑇+𝐹𝐹𝐹𝐹 2.44
Độ lỗi của mơ hình (M) được tính như sau: Error_rate(M) = 1− 𝐴𝐴𝑐𝑐𝑐𝑐(𝑅𝑅). Trong đĩ, a (TP - True Positive) là mẫu mang nhãn dương được phân lớp đúng vào lớp dương; b (FN - False Negative) là mẫu mang nhãn dương bị phân lớp sai vào lớp âm; c (FP - False Positive) là mẫu mang nhãn âm bị phân lớp sai vào lớp dương; và d (TN - True Negative) là mẫu mang nhãn âm được phân lớp đúng vào lớp âm.
Bảng 2.2: Minh họa ma trận nhầm lẫn phân 2 lớp
Predicted class Actual class
Class (+) Class (-)
Class (+) a (TP) b (FN)
Class (-) c (FP) d (TN)
Độ đo MSE, RMSE, MAE: Để đánh giá mơ hình dự đốn, chúng ta cĩ thể sử
dụng các độ đo phổ biến như độ lỗi bình phương trung bình MSE (Mean Square Error), độ lỗi trung bình bình phương RMSE (Root Mean Square Error), độ lỗi tuyệt đối trung bình MAE (Mean Absolute Error).
MSE là độ đo dùng để đo bình phương trung bình của các lỗi, tức là chênh lệch bình phương trung bình giữa các giá trị quan sát được thực tế và giá trị dự đốn. Trong khi đĩ, RMSE là căn bậc hai trung bình của sự khác biệt bình phương giữa giá trị dự đốn và giá trị quan sát thực tế. Với độ lỗi MAE, chúng ta lấy giá trị trung bình các phần dư của giá trị thực tế và giá trị dự đốn. Các độ lỗi này lần lượt biểu diễn bởi các biểu thức 2.45, 2.46 và 2.47: MSE =1𝑛𝑛�(𝑦𝑦𝑖𝑖− 𝑦𝑦�𝑖𝑖)2 𝑐𝑐 𝑖𝑖=1 2.45 RMSE =�1 𝑛𝑛 �(𝑦𝑦𝑖𝑖− 𝑦𝑦�𝑖𝑖)2 𝑐𝑐 𝑖𝑖=1 2.46
MAE =1n�|𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖|
n i=1
2.47 Trong đĩ, yi là giá trị thực tế của mẫu thứ i; 𝑦𝑦�𝑖𝑖 là giá trị dự đốn mẫu thứ i; n là số mẫu quan sát.
Các độ đo MAE, MSE và RMSE về cơ bản cĩ đặc tính như nhau và thường cho kết quả đánh giá như nhau. Tuy nhiên, theo khuyến nghị của các nhà nghiên cứu, nếu giá trị sai số 𝜀𝜀𝑖𝑖 = |𝑦𝑦𝑖𝑖− 𝑦𝑦�𝑖𝑖| đều nhau thì cĩ thể chọn độ đo MSE để đánh giá. Ngược lại,
nếu các giá trị sai số 𝜀𝜀𝑖𝑖 quá khác biệt thì nên chọn độ đo MAE để đánh giá. Độ đo RMSE là căn bậc hai của MSE nên về bản chất hai độ đo này là như nhau, chỉ khác biệt là giá trị của RMSE nhỏ hơn nhiều do lấy căn.
2.6. Các nghiên cứu liên quan
Trong những năm gần đây, nhiều nghiên cứu liên quan đến hệ thống gợi ý tài nguyên học tập đã được thực hiện. Các nhĩm giải thuật và các kỹ thuật chính trong hệ thống gợi ý được trình bày ở phần 2.5 của chương này. Một trong những nhiệm vụ của hệ thống gợi ý là tìm kiếm tài nguyên học tập trên hệ thống, trong đĩ tìm kiếm cĩ quan tâm đến ngữ nghĩa. Một vấn đề quan trọng của tìm kiếm tài nguyên học tập là làm sao giới hạn được khơng gian tìm kiếm để quá trình tìm kiếm diễn ra nhanh hơn, hiệu quả hơn. Vì thế, việc phân loại để xác định lĩnh vực của truy vấn khơng thể thiếu trong quá trình tìm kiếm.
Các kỹ thuật phân loại văn bản, tìm kiếm cĩ quan tâm vấn đề ngữ nghĩa, bao gồm tìm kiếm dựa trên độ tương đồng văn bản và tìm kiếm dựa trên mạng ngữ nghĩa ontology, các kỹ thuật trong hệ thống gợi ý đã được trình bày ở các phần 2.2, 2.3, 2.4 và 2.5 của chương này. Dưới đây là tĩm lược các nghiên cứu liên quan đến các vấn đề phân loại, tìm kiếm, dự đốn xếp hạng và gợi ý tài nguyên học tập đã được các cơng trình trước đây đề cập.
2.6.1. Nghiên cứu về phân loại văn bản
Mục đích chính của hệ thống tìm kiếm thơng tin là cung cấp các tài nguyên học tập như mong muốn của người dùng từ khơng gian tìm kiếm rộng lớn. Các hệ thống tìm kiếm sẽ tính tốn độ tương đồng giữa câu truy vấn tìm kiếm và các tài nguyên học tập (hay tài liệu), từ đĩ tìm ra danh sách các tài liệu được sắp xếp theo thứ tự tương tự giảm dần của độ tương đồng. Tuy nhiên, để giới hạn khơng gian tìm kiếm, giúp cho quá trình tìm kiếm nhanh và chính xác hơn thì phân loại văn bản nĩi chung và phân loại câu truy vấn (query) nĩi riêng là nhiệm vụ rất quan trọng nhằm gán nhãn vào tập phân loại gồm nhiều chủ đề cho trước (Mishra et al., 2013).
Cĩ nhiều nghiên cứu về phân loại query tập trung vào hướng tiếp cận biểu thức chính quy dựa vào những nguyên tắc ngữ pháp viết tay (hand-written grammar rules) để xác định lớp của câu hỏi đầu vào (Durme et al., 2003). Với cách tiếp cận này, các nghiên
cứu đã đề xuất cách biểu diễn ý nghĩa văn bản ràng buộc, cùng với chiến lược linh hoạt để so khớp các câu hỏi với các đoạn văn bản được tìm kiếm dựa trên sự tương đồng về ngữ nghĩa và quan hệ trọng số giữa các từ. Cách tiếp cận này đã đạt được những thành cơng nhất định nhưng vẫn tồn tại khơng ít hạn chế (Brown, 2004). Xây dựng mơ hình cho phương pháp này tốn nhiều thời gian và cơng sức, cần cĩ sự cộng tác của những chuyên gia trong lĩnh vực ngơn ngữ học khi xây dựng các mẫu câu hỏi. Ngồi ra, các luật ngữ pháp viết tay và văn phạm của từng loại query khơng được linh động, khi cĩ một query mới xuất hiện thì cần phải được cung cấp những luật mới để xử lý. Vấn đề nhập nhằng của ngữ pháp rất khĩ xử lý, phụ thuộc vào đặc điểm của từng ngơn ngữ. Một vấn đề khác là khi tập câu trả lời được mở rộng hoặc thay đổi kéo theo việc phải viết lại hồn tồn các luật trước đĩ nên hệ thống rất khĩ mở rộng.
Một cách tiếp cận mới để phân loại dữ liệu được các nhà nghiên cứu sử dụng nhiều trong thời gian qua là dựa trên kỹ thuật học máy (machine learning). Chẳng hạn, nhĩm tác giả Trần Cao Đệ và Phạm Nguyên Khang (2012) đã sử dụng giải thuật SVM để giải quyết bài tốn phân loại văn bản và so sánh hiệu quả của nĩ với giải thuật cây quyết định. Kết quả cho thấy phân loại với SVM thực sự tốt hơn phân loại bằng cây quyết định. Ngồi ra, việc dùng kỹ thuật phân tích giá trị đơn SVD (Singular Value Decomposition) để phân tích và rút gọn số chiều của khơng gian đặc trưng đã giúp nâng cao hiệu quả phân loại với SVM.
Một nghiên cứu khác của nhĩm tác giả Trần Thị Thu Thảo và Vũ Thị Chinh (2012) là xây dựng mơ-đun tách từ theo mơ hình N-gram, sau đĩ mơ hình hĩa văn bản bằng kỹ thuật TF*IDF. Với tập dữ liệu đã được mơ hình hĩa thành véc-tơ, nhĩm tác giả tiến hành phân loại dựa trên giải thuật Nạve Bayes. Kết quả phân loại đạt được khá khả quan, tuy nhiên nghiên cứu này chưa cĩ những so sánh đánh giá phương pháp Nạve Bayes với các phương pháp phân loại khác.
Bên cạnh các kỹ thuật học giám sát và học khơng giám sát được sử dụng phổ biến, gần đây kỹ thuật học tăng cường (reinforcement learning) cũng được sử dụng vào việc phân loại văn bản. Reinforcement learning là một trong ba kỹ thuật học của machine learning, kỹ thuật này giúp xác định hành vi dựa trên hồn cảnh để đạt được lợi ích cao nhất (maximizing the performance). Các kết quả nghiên cứu cho thấy kỹ thuật học tăng cường phân loại văn bản đạt hiệu quả khơng kém so với học giám sát và học khơng giám sát (Chai et al., 2020; Lin et al., 2020).
Các phương pháp tiếp cận dựa trên kỹ thuật học sâu (deep learning) cũng được thực hiện trong nhiều nghiên cứu. Một nhĩm tác giả đã đề xuất ba kiến trúc cơ bản của mơ hình học sâu để phân loại văn bản gồm mạng niềm tin sâu (Deep Belief Neural - DBN), mạng nơ-ron tích chập (Convolutional Neural Network- CNN) và mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) (Zulqarnain Muhammad et al., 2020). Nghiên cứu này rút ra nhận xét, các mơ hình học sâu là những kỹ thuật cĩ tiềm năng cĩ thể sử dụng để phân loại văn bản. Tuy nhiên, tùy vào tập dữ liệu để cĩ thể quyết định sử
dụng kỹ thuật nào cho phù hợp với mơ hình phân loại. Ngồi ra, cần cĩ sự so sánh giữa kỹ thuật học máy truyền thống và kỹ thuật học sâu để cĩ thể đề xuất kỹ thuật nào phù hợp với dữ liệu thực tế.
2.6.2. Nghiên cứu về tìm kiếm tài liệu
Thực tế trong thời gian qua đã cĩ nhiều cách tiếp cận về tìm kiếm tài liệu. Tuy nhiên, tìm kiếm tài liệu cĩ quan tâm đến vấn đề ngữ nghĩa luơn được chú trọng bởi nĩ đáp ứng tốt hơn nhu cầu của người dùng. Để đáp ứng nhu cầu này, đa số các nhà nghiên cứu đã tiếp cận tìm kiếm dựa trên tính tốn độ tương đồng văn bản, trong đĩ cĩ vấn đề ngữ nghĩa, và tìm kiếm dựa trên mạng ngữ nghĩa.
2.6.2.1. Tìm kiếm dựa trên độ tương đồng văn bản
Tìm kiếm tài liệu thực chất là kiểm tra độ tương đồng của văn bản để đề xuất những tài liệu phù hợp. Vì vậy, đo độ tương đồng văn bản giữa các từ, câu, đoạn văn và văn bản đĩng vai trị quan trọng trong nghiên cứu và ứng dụng liên quan đến văn bản như tìm kiếm thơng tin, phân loại văn bản, nhận biết chủ đề, tạo câu hỏi, trả lời câu hỏi, tĩm tắt văn bản… Phương pháp tính độ tương đồng văn bản được nhĩm tác giả Gomaa and Fahmy (2013) hệ thống lại thành ba phương pháp chính là dựa trên chuỗi (string-based), dựa trên tập ngữ liệu (corpus-based) và dựa trên tri thức (knowledge-based). Độ tương đồng dựa trên chuỗi được sử dụng để tính độ tương đồng về mặt từ vựng, trong khi độ tương đồng dựa trên tập ngữ liệu và độ tương đồng dựa trên tri thức được sử dụng tính độ tương đồng về mặt ngữ nghĩa.
Một giải thuật được đề xuất tính tốn độ tương đồng văn bản dựa vào sự kết hợp