CHƯƠNG 4 MƠ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP
4.2. Tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản
4.2.2. Mơ tả dữ liệu và phương pháp đánh giá
Tập dữ liệu thực nghiệm gồm 680 bài báo khoa học bằng tiếng Việt, được đăng trên Tạp chí khoa học Trường Đại học Cần Thơ từ năm 2016 đến năm 2018, thuộc 10 lĩnh vực (chủ đề) được mơ tả trong Bảng 4.1.
Bảng 4.1: Phân bổ bài báo thuộc 10 lĩnh vực
Stt Lĩnh vực # huấn luyện # kiểm tra Tổng số mẫu
1 Cơng nghệ 45 5 50 2 Mơi trường 54 6 60 3 Tự nhiên 54 6 60 4 Chăn nuơi 36 4 40 5 Cơng nghệ sinh học 27 3 30 6 Nơng nghiệp 90 10 100 7 Thủy sản 135 15 150 8 Giáo dục 36 4 40
9 Xã hội nhân văn 72 8 80
10 Kinh tế 63 7 70
Tổng cộng 612 68 680
Như đề cập, trong nghiên cứu này mơ hình tìm kiếm dựa trên độ tương đồng về ngữ nghĩa của văn bản (tương đồng cosine) và độ tương đồng về thứ tự từ trong văn bản được đề xuất. Trong các hệ thống tìm kiếm, ngồi các kỹ thuật phục vụ cho việc tìm kiếm, những phương pháp đánh giá kết quả cũng đĩng vai trị quan trọng nhằm đánh giá
được hiệu năng của hệ thống tìm kiếm, từ đĩ kiểm chứng được kỹ thuật tìm kiếm cĩ phù hợp với bài tốn và dữ liệu hay khơng để điều chỉnh cho phù hợp.
Hai độ đo cơ bản được sử dụng để đánh giá một hệ thống tìm kiếm là độ chính xác (Precision) và độ bao phủ (Recall). Trong đĩ, Precision là độ đo được tính bằng số lượng kết quả trả về đúng trên tổng số kết quả trả về, được biểu diễn bằng biểu thức 4.4:
𝑇𝑇𝑟𝑟𝑅𝑅𝑐𝑐𝑖𝑖𝑠𝑠𝑖𝑖𝑜𝑜𝑛𝑛=Số lượng kết quả trả về đúngTổng số kết quả trả về 4.4 Trong khi đĩ, Recall là độ đo được tính bằng số kết quả trả về đúng trên tổng số kết quả đúng, được biểu diễn bằng biểu thức 4.5:
𝑅𝑅𝑅𝑅𝑐𝑐𝑡𝑡𝑅𝑅𝑅𝑅= Số lượng kết quả trả về đúngTổng số kết quả đúng 4.5 Thực tế, tùy thuộc vào bài tốn tìm kiếm người dùng cĩ thể đánh giá thơng qua độ đo Recall hay Precision. Tuy nhiên, nếu xem cả hai độ đo này đều quan trọng thì cĩ thể sử dụng một độ đo phổ biến khác là F-Measure (hay F1) để đánh giá hiệu quả tổng thể của hệ thống tìm kiếm bằng cách kết hợp cả hai độ đo Precision và Recall. Độ đo F1 được biểu diễn bởi biểu thức 4.6:
𝐹𝐹1 = 2∗𝑇𝑇𝑟𝑟𝑅𝑅𝑐𝑐𝑖𝑖𝑠𝑠𝑖𝑖𝑜𝑜𝑛𝑛𝑇𝑇𝑟𝑟𝑅𝑅𝑐𝑐𝑖𝑖𝑠𝑠𝑖𝑖𝑜𝑜𝑛𝑛 ∗ 𝑅𝑅𝑅𝑅𝑐𝑐𝑡𝑡𝑅𝑅𝑅𝑅+𝑅𝑅𝑅𝑅𝑐𝑐𝑡𝑡𝑅𝑅𝑅𝑅 4.6
4.2.3. Kết quả thực nghiệm
Để thực nghiệm tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản, một hệ thống kiểm tra độ tương đồng văn bản (thực nghiệm ở đây là các bài báo khoa học) được phát triển. Hệ thống được xây dựng dựa trên nhiều cơng cụ, phần mềm hỗ trợ. Cụ thể, cơng cụ chuyển định dạng kho dữ liệu MultiDoc Converter, cơng cụ tách từ vựng VnTokenizer, dữ liệu được huấn luyện để tạo ra mơ hình phân loại bằng cơng cụ Weka 3.8, hệ thống được xây dựng dựa trên nền tảng Java, cơng cụ Netbeans.
Trong nghiên cứu này, hai phương pháp tìm kiếm dựa trên độ tương đồng văn bản được thực hiện. Phương pháp thứ nhất là tìm kiếm độ tương đồng của một văn bản trên tồn bộ tập văn bản cĩ sẵn (gồm 10 lĩnh vực khác nhau). Phương pháp thứ hai là tìm kiếm độ tương đồng của một văn bản trên từng lĩnh vực sau khi thực hiện phân loại.
4.2.3.1. Tìm kiếm trên tồn tập dữ liệu chưa thực hiện phân loại
Phương pháp này tìm kiếm độ tương đồng của một bài báo trên tồn bộ tập bài báo chưa được phân loại. Trong thực nghiệm nghiệm này, khái niệm bài báo là tập tin dữ liệu. Tập dữ liệu gồm 10 lĩnh vực, với hơn 600 tập tin bài báo. Quá trình tìm kiếm được mơ tả như sau:
Với mỗi lĩnh vực, lấy ngẫu nhiên 10% tập tin dữ liệu làm mẫu tìm để thực hiện tìm kiếm (10 lĩnh vực cĩ số mẫu khoảng 60 bài báo). Với mỗi bài báo mẫu (query), hệ thống thực hiện tìm kiếm trên tồn bộ tập dữ liệu với một ngưỡng tương đồng (threshold) cho
trước. Kết quả trả về (nếu cĩ) là các bài báo tương đồng với query cần tìm với ngưỡng trên, đồng thời hệ thống cũng xác định trong đĩ các bài báo tìm kiếm được thì bài báo nào cùng lĩnh vực với query.
Trong nghiên cứu này, ngưỡng độ tương đồng để thực hiện tìm kiếm được đặt với threshold > 20%. Các độ đo phổ biến gồm Preision, Recall và F1 để đánh giá mơ hình tìm kiếm được sử dụng. Kết quả tìm kiếm được đánh giá ở Bảng 4.2.
Kết quả đánh giá cho thấy, hai độ đo Precision và Recall khá thấp (dẫn đến độ đo F1 cũng thấp). Kết quả thấp này cĩ thể giải thích được bởi một số lý do.
Bảng 4.2: Kết quả đánh giá tìm kiếm trên tồn tập dữ liệu chưa được phân loại
Stt Lĩnh vực Precision Recall F1 1 Cơng nghệ 0,203 0,108 0,120 2 Mơi trường 0,260 0,342 0,243 3 Tự nhiên 0,354 0,293 0,243 4 Chăn nuơi 0,185 0,444 0,250 5 Cơng nghệ sinh học 0,193 0,500 0,259 6 Nơng nghiệp 0,228 0,432 0,276 7 Thủy sản 0,423 0,381 0,356 8 Giáo dục 0,322 0,401 0,279
9 Xã hội nhân văn 0,554 0,203 0,241
10 Kinh tế 0,213 0,479 0,290
Trung bình 0,293 0,358 0,256
Thứ nhất, kết quả tìm kiếm phụ thuộc vào ngưỡng độ tương đồng (threshold) cho trước, ngưỡng càng thấp thì kết quả tìm kiếm được các bài báo cĩ độ tương đồng với query cần tìm càng nhiều và ngược lại, điều này ảnh hưởng đến độ đo Precision và Recall. Thứ hai, việc tìm kiếm được thực hiện trên tồn bộ tập dữ liệu thay vì trên cùng lĩnh vực với query cần tìm, điều này làm ảnh hưởng đến độ chính xác của kết quả tìm kiếm. Để khắc phục vấn đề này, cần nghiên cứu phân loại bài báo cần tìm (query) trước khi thực hiện tìm trên lĩnh vực tương ứng.
4.2.3.2. Tìm kiếm trên các tập dữ liệu được phân loại
Phương pháp này xây dựng sẵn mơ hình phân loại cho tập dữ liệu gồm 10 lĩnh vực (10 lớp). Khi nhập query là một bài báo cần tìm kiếm độ tương đồng, hệ thống tìm kiếm sẽ phân loại query dựa trên mơ hình phân loại đã được xây dựng để xác định lĩnh vực của bài báo. Sau đĩ, hệ thống thực hiện tìm kiếm trên đúng lĩnh vực của bài báo (query) với một ngưỡng (threshold) cho trước và trả về kết quả là danh sách các bài báo cĩ độ tương đồng phù hợp với threshold.
Trong nghiên cứu này, mơ hình phân loại được xây dựng như sau: chọn ngẫu nhiên 90% bài báo thuộc mỗi lĩnh vực dùng làm tập huấn luyện (train), 10% cịn lại dùng làm
tập kiểm tra (test). Mơ hình phân loại tài nguyên học tập (dữ liệu bài báo) được xây dựng sử dụng giải thuật máy véc-tơ hỗ trợ SVM, với cross-validation là 3-fold, các tham số được sử dụng mặc định. Sở dĩ giải thuật SVM được chọn vì trong nghiên cứu trước đĩ (Dien, T. T. et al., 2019) cho thấy SVM phân loại khá tốt so với các giải thuật cịn lại. Ngồi ra, do tập dữ liệu khơng quá lớn nên việc sử dụng giải thuật SVM là khá phù hợp thay vì phân loại bằng kỹ thuật học sâu như nghiên cứu ở Chương 3 về phân loại tài nguyên học tập.
Kết quả phân loại được trình bày ở Bảng 4.3. Kết quả phân loại này khá tốt, điều này cho thấy các tập tin bài báo được xếp vào lĩnh vực của nĩ tương đối phù hợp. Từ mơ hình phân loại này, việc phân loại bài báo cần tìm (query) được thực hiện trước khi tìm trên tập dữ liệu cĩ cùng lĩnh vực với query.
Bảng 4.3: Kết quả phân loại với giải thuật SVM
Stt Lĩnh vực Precision Recall F1 1 Cơng nghệ 0,857 0,857 0,857 2 Mơi trường 1,000 0,333 0,500 3 Tự nhiên 0,750 1,000 0,857 4 Chăn nuơi 1,000 1,000 1,000 5 Cơng nghệ sinh học 1,000 0,500 0,667 6 Nơng nghiệp 0,786 1,000 0,880 7 Thủy sản 0,947 1,000 0,973 8 Giáo dục 1,000 1,000 1,000
9 Xã hội - Nhân văn 1,000 1,000 1,000
10 Kinh tế 1,000 1,000 1,000
Trung bình 0,934 0,869 91,2%
Một số thực nghiệm tìm kiếm dựa trên độ tương đồng của bài báo được trình bày như Bảng 4.4. Khi người dùng nhập một bài báo để kiểm tra độ tương đồng và chọn ngưỡng tương đồng (SIM threshold), sau đĩ thực hiện tìm kiếm, hệ thống sẽ trả về kết quả là các bài báo tương đồng với bài báo (query) đang xét với ngưỡng cho trước.
Bảng 4.4: Kết quả thực nghiệm kiểm tra độ tương đồng của một số bài báo
Stt Bài báo kiểm tra Kết quả trả về
Lĩnh vực: Cơng nghệ; SIM threshold > 20%
1 Xây dựng quy trình tính tốn cấp phối cho bê tơng tự lèn trên cơ sở tối ưu cấp phối cốt liệu và thể tích vữa
Bài báo 1: Nghiên cứu tận dụng rác thải nhựa gia cơng
bê tơng làm vật liệu xây dựng. SIM = 0,274
Bài báo 2: Phát triển thuật tốn xử lý ảnh để phát hiện
và ước lượng khoảng cách từ hệ camera đến tâm quả cà chua chín trên cây. SIM = 0,210
Stt Bài báo kiểm tra Kết quả trả về
2 Hiện trạng nghề khai thác lưới kéo và lưới rê (Tàu <90 CV) ở tỉnh Kiên Giang
Bài báo 1: Ứng dụng cơng nghệ semi biofloc trong
nuơi tơm thẻ chân trắng. SIM = 0,417
Bài báo 2: Phân tích hiệu quả kỹ thuật và tài chính của
nghề lưới kéo xa bờ (90 CV) ở tỉnh Bến Tre. SIM = 0,351
Lĩnh vực: Khoa học tự nhiên; SIM threshold > 40%
3 Mờ hĩa chuỗi thời gian dựa vào bài tốn phân tích chùm
Bài báo 1: Dự báo đỉnh mặn tại các trạm đo chính củatỉnh Cà Mau bằng mơ hình chuỗi thời gian mờ; SIM
= 0,427
Bên cạnh việc tìm kiếm dựa trên độ tương đồng của một bài báo với tập dữ liệu bài báo cĩ sẵn được phân loại, kiểm tra độ tương đồng của hai bài báo nhất định cũng được thực nghiệm. Ngưỡng threshold được đặt để so sánh hai bài báo, sau khi tính tốn độ tương đồng, hệ thống trả về kết quả như một ví dụ ở Bảng 4.5.
Bảng 4.5: Kết quả thực nghiệm kiểm tra độ tương đồng hai bài báo cho trước
Stt Bài báo thứ 1 Bài báo thứ 2 threshold SIM Kết quả
1 Sinh khối rừng tràm vườn quốc gia U Minh Thượng, tỉnh Kiên Giang
Sinh khối và khả năng hấp thụ CO2 của rừng tràm khu bảo tồn thiên nhiên Lung Ngọc Hồng
> 30% SIM =
0,556
Như vậy, với việc xây dựng mơ hình phân loại cho tập tài liệu cĩ sẵn, mơ hình tìm kiếm dựa trên tính độ tương đồng của văn bản phù hợp cho việc tìm kiếm tài nguyên học tập mà đầu vào là dạng một tài liệu (thực nghiệm của nghiên cứu này là bài báo khoa học). Dữ liệu đầu vào đã được tiền xử lý, rút trích đặc trưng, véc-tơ hĩa và biểu diễn dưới dạng TF-IDF và thứ tự từ. Sau đĩ, tính độ tương đồng ngữ nghĩa (tương đồng cosine) và tương đồng về thứ tự từ của tài liệu. Cuối cùng kết hợp hai độ tương đồng này để cĩ được độ tương đồng văn bản. Kết quả thử nghiệm trên tập dữ liệu tạp chí khoa học tiếng Việt cho thấy cách tiếp cận được đề xuất khá phù hợp để tìm kiếm các tài liệu, văn bản cĩ độ tương đồng nhất định.