Mơ tả dữ liệu và phương pháp đánh giá

CHƯƠNG 4 MƠ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP

4.2. Tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản

4.2.2. Mơ tả dữ liệu và phương pháp đánh giá

Tập dữ liệu thực nghiệm gồm 680 bài báo khoa học bằng tiếng Việt, được đăng trên Tạp chí khoa học Trường Đại học Cần Thơ từ năm 2016 đến năm 2018, thuộc 10 lĩnh vực (chủ đề) được mơ tả trong Bảng 4.1.

Bảng 4.1: Phân bổ bài báo thuộc 10 lĩnh vực

Stt Lĩnh vực 1 Cơng nghệ 2 Mơi trường 3 Tự nhiên 4 Chăn nuơi 5 Cơng nghệ sinh học 6 Nơng nghiệp 7 Thủy sản 8 Giáo dục

9 Xã hội nhân văn

10 Kinh tế

Tổng cộng

Như đề cập, trong nghiên cứu này mơ hình tìm kiếm dựa trên độ tương đồng về ngữ nghĩa của văn bản (tương đồng cosine) và độ tương đồng về thứ tự từ trong văn bản được đề xuất. Trong các hệ thống tìm kiếm, ngồi các kỹ thuật phục vụ cho việc tìm kiếm, những phương pháp đánh giá kết quả cũng đĩng vai trị quan trọng nhằm đánh giá

được hiệu năng của hệ thống tìm kiếm, từ đĩ kiểm chứng được kỹ thuật tìm kiếm cĩ phù hợp với bài tốn và dữ liệu hay khơng để điều chỉnh cho phù hợp.

Hai độ đo cơ bản được sử dụng để đánh giá một hệ thống tìm kiếm là độ chính xác (Precision) và độ bao phủ (Recall). Trong đĩ, Precision là độ đo được tính bằng số lượng

= Số lượng kết quả trả về đúng

kết quả trả về đúng trên tổng số kết quả trả về, được biểu diễn bằng biểu thức 4.4: Trong khi đĩ,

= Số lượng kết quả trả về đúng

kết quả đúng, được biểu diễn bằng biểu thức 4.5: Thực tế, tùy

đo Recall hay Precision. Tuy nhiên, nếu xem cả hai độ đo này đều quan trọng thì cĩ thể sử dụng một độ đo phổ biến khác là F-Measure (hay F1) để đánh giá hiệu quả tổng thể của hệ thống tìm kiếm bằng cách kết hợp cả hai độ đo Precision và Recall. Độ đo F1

1= 2∗∗

được biểu diễn bởi biểu thức 4.6:

4.2.3. Kết quả thực nghiệm

Để thực nghiệm tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản, một hệ thống kiểm tra độ tương đồng văn bản (thực nghiệm ở đây là các bài báo khoa học) được phát triển. Hệ thống được xây dựng dựa trên nhiều cơng cụ, phần mềm hỗ trợ. Cụ thể, cơng cụ chuyển định dạng kho dữ liệu MultiDoc Converter, cơng cụ tách từ vựng VnTokenizer, dữ liệu được huấn luyện để tạo ra mơ hình phân loại bằng cơng cụ Weka 3.8, hệ thống được xây dựng dựa trên nền tảng Java, cơng cụ Netbeans.

Trong nghiên cứu này, hai phương pháp tìm kiếm dựa trên độ tương đồng văn bản được thực hiện. Phương pháp thứ nhất là tìm kiếm độ tương đồng của một văn bản trên tồn bộ tập văn bản cĩ sẵn (gồm 10 lĩnh vực khác nhau). Phương pháp thứ hai là tìm kiếm độ tương đồng của một văn bản trên từng lĩnh vực sau khi thực hiện phân loại.

4.2.3.1. Tìm kiếm trên tồn tập dữ liệu chưa thực hiện phân loại

Phương pháp này tìm kiếm độ tương đồng của một bài báo trên tồn bộ tập bài báo chưa được phân loại. Trong thực nghiệm nghiệm này, khái niệm bài báo là tập tin dữ liệu. Tập dữ liệu gồm 10 lĩnh vực, với hơn 600 tập tin bài báo. Quá trình tìm kiếm được mơ tả như sau:

Với mỗi lĩnh vực, lấy ngẫu nhiên 10% tập tin dữ liệu làm mẫu tìm để thực hiện tìm kiếm (10 lĩnh vực cĩ số mẫu khoảng 60 bài báo). Với mỗi bài báo mẫu (query), hệ thống thực hiện tìm kiếm trên tồn bộ tập dữ liệu với một ngưỡng tương đồng (threshold) cho

trước. Kết quả trả về (nếu cĩ) là các bài báo tương đồng với query cần tìm với ngưỡng trên, đồng thời hệ thống cũng xác định trong đĩ các bài báo tìm kiếm được thì bài báo nào cùng lĩnh vực với query.

Trong nghiên cứu này, ngưỡng độ tương đồng để thực hiện tìm kiếm được đặt với threshold > 20%. Các độ đo phổ biến gồm Preision, Recall và F1 để đánh giá mơ hình tìm kiếm được sử dụng. Kết quả tìm kiếm được đánh giá ở Bảng 4.2.

Kết quả đánh giá cho thấy, hai độ đo Precision và Recall khá thấp (dẫn đến độ đo F1 cũng thấp). Kết quả thấp này cĩ thể giải thích được bởi một số lý do.

Bảng 4.2: Kết quả đánh giá tìm kiếm trên tồn tập dữ liệu chưa được phân loại

Stt Lĩnh vực 1 Cơng nghệ 2 Mơi trường 3 Tự nhiên 4 Chăn nuơi 5 Cơng nghệ sinh học 6 Nơng nghiệp 7 Thủy sản 8 Giáo dục

9 Xã hội nhân văn

10 Kinh tế

Trung bình

Thứ nhất, kết quả tìm kiếm phụ thuộc vào ngưỡng độ tương đồng (threshold) cho trước, ngưỡng càng thấp thì kết quả tìm kiếm được các bài báo cĩ độ tương đồng với query cần tìm càng nhiều và ngược lại, điều này ảnh hưởng đến độ đo Precision và Recall. Thứ hai, việc tìm kiếm được thực hiện trên tồn bộ tập dữ liệu thay vì trên cùng lĩnh vực với query cần tìm, điều này làm ảnh hưởng đến độ chính xác của kết quả tìm kiếm. Để khắc phục vấn đề này, cần nghiên cứu phân loại bài báo cần tìm (query) trước khi thực hiện tìm trên lĩnh vực tương ứng.

4.2.3.2. Tìm kiếm trên các tập dữ liệu được phân loại

Phương pháp này xây dựng sẵn mơ hình phân loại cho tập dữ liệu gồm 10 lĩnh vực (10 lớp). Khi nhập query là một bài báo cần tìm kiếm độ tương đồng, hệ thống tìm kiếm sẽ phân loại query dựa trên mơ hình phân loại đã được xây dựng để xác định lĩnh vực của bài báo. Sau đĩ, hệ thống thực hiện tìm kiếm trên đúng lĩnh vực của bài báo (query) với một ngưỡng (threshold) cho trước và trả về kết quả là danh sách các bài báo cĩ độ tương đồng phù hợp với threshold.

Trong nghiên cứu này, mơ hình phân loại được xây dựng như sau: chọn ngẫu nhiên 90% bài báo thuộc mỗi lĩnh vực dùng làm tập huấn luyện (train), 10% cịn lại dùng làm

tập kiểm tra (test). Mơ hình phân loại tài nguyên học tập (dữ liệu bài báo) được xây dựng sử dụng giải thuật máy véc-tơ hỗ trợ SVM, với cross-validation là 3-fold, các tham số được sử dụng mặc định. Sở dĩ giải thuật SVM được chọn vì trong nghiên cứu trước đĩ (Dien, T. T. et al., 2019) cho thấy SVM phân loại khá tốt so với các giải thuật cịn lại. Ngồi ra, do tập dữ liệu khơng quá lớn nên việc sử dụng giải thuật SVM là khá phù hợp thay vì phân loại bằng kỹ thuật học sâu như nghiên cứu ở Chương 3 về phân loại tài nguyên học tập.

Kết quả phân loại được trình bày ở Bảng 4.3. Kết quả phân loại này khá tốt, điều này cho thấy các tập tin bài báo được xếp vào lĩnh vực của nĩ tương đối phù hợp. Từ mơ hình phân loại này, việc phân loại bài báo cần tìm (query) được thực hiện trước khi tìm trên tập dữ liệu cĩ cùng lĩnh vực với query.

Bảng 4.3: Kết quả phân loại với giải thuật SVM

Stt Lĩnh vực 1 Cơng nghệ 2 Mơi trường 3 Tự nhiên 4 Chăn nuơi 5 Cơng nghệ sinh học 6 Nơng nghiệp 7 Thủy sản 8 Giáo dục

9 Xã hội - Nhân văn

10 Kinh tế

Trung bình

Một số thực nghiệm tìm kiếm dựa trên độ tương đồng của bài báo được trình bày như Bảng 4.4. Khi người dùng nhập một bài báo để kiểm tra độ tương đồng và chọn ngưỡng tương đồng (SIM threshold), sau đĩ thực hiện tìm kiếm, hệ thống sẽ trả về kết quả là các bài báo tương đồng với bài báo (query) đang xét với ngưỡng cho trước.

Bảng 4.4: Kết quả thực nghiệm kiểm tra độ tương đồng của một số bài báo Stt Bài báo kiểm tra Kết quả trả về

Lĩnh vực: Cơng nghệ; SIM threshold > 20%

1 Xây dựng quy trình tínhBài báo 1: Nghiên cứu tận dụng rác thải nhựa gia cơng tốn cấp phối cho bê tơng bê tơng làm vật liệu xây dựng. SIM = 0,274

tự lèn trên cơ sở tối ưu cấp Bài báo 2: Phát triển thuật tốn xử lý ảnh để phát hiện

phối cốt liệu và thể tích vữa và ước lượng khoảng cách từ hệ camera đến tâm quả cà chua chín trên cây. SIM = 0,210

Lĩnh vực: Thủy sản; SIM threshold > 35%

Stt Bài báo kiểm tra Kết quả trả về

2 Hiện trạng nghề khai thác Bài báo 1: Ứng dụng cơng nghệ semi biofloc trong lưới kéo và lưới rê (Tàu nuơi tơm thẻ chân trắng. SIM = 0,417

<90 CV) ở tỉnh Kiên Giang Bài báo 2: Phân tích hiệu quả kỹ thuật và tài chính của nghề lưới kéo xa bờ (90 CV) ở tỉnh Bến Tre. SIM = 0,351

Lĩnh vực: Khoa học tự nhiên; SIM threshold > 40%

3 Mờ hĩa chuỗi thời gian dựa Bài báo 1: Dự báo đỉnh mặn tại các trạm đo chính vào bài tốn phân tích củatỉnh Cà Mau bằng mơ hình chuỗi thời gian mờ; SIM

chùm = 0,427

Bên cạnh việc tìm kiếm dựa trên độ tương đồng của một bài báo với tập dữ liệu bài báo cĩ sẵn được phân loại, kiểm tra độ tương đồng của hai bài báo nhất định cũng được thực nghiệm. Ngưỡng threshold được đặt để so sánh hai bài báo, sau khi tính tốn độ tương đồng, hệ thống trả về kết quả như một ví dụ ở Bảng 4.5.

Bảng 4.5: Kết quả thực nghiệm kiểm tra độ tương đồng hai bài báo cho trước Stt Bài báo thứ 1

1 Sinh khối rừng tràm vườn quốc gia U Minh Thượng, tỉnh Kiên Giang

Sinh khối và khả năng hấp thụ CO2 của rừng tràm khu bảo tồn thiên nhiên Lung Ngọc Hồng

Như vậy, với việc xây dựng mơ hình phân loại cho tập tài liệu cĩ sẵn, mơ hình tìm kiếm dựa trên tính độ tương đồng của văn bản phù hợp cho việc tìm kiếm tài nguyên học tập mà đầu vào là dạng một tài liệu (thực nghiệm của nghiên cứu này là bài báo khoa học). Dữ liệu đầu vào đã được tiền xử lý, rút trích đặc trưng, véc-tơ hĩa và biểu diễn dưới dạng TF-IDF và thứ tự từ. Sau đĩ, tính độ tương đồng ngữ nghĩa (tương đồng cosine) và tương đồng về thứ tự từ của tài liệu. Cuối cùng kết hợp hai độ tương đồng này để cĩ được độ tương đồng văn bản. Kết quả thử nghiệm trên tập dữ liệu tạp chí khoa học tiếng Việt cho thấy cách tiếp cận được đề xuất khá phù hợp để tìm kiếm các tài liệu, văn bản cĩ độ tương đồng nhất định.

Mơ tả dữ liệu và phương pháp đánh giá

Nghiên cứu về phân loại văn bản

Nghiên cứu về tìm kiếm tài liệu