Thực nghiệm phân loại văn bản với SVMs

CHƯƠNG 4. MÔ TẢ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM

4.2 Kết quả thực nghiệm

4.2.4 Thực nghiệm phân loại văn bản với SVMs

Trong phần lý thuyết đó nờu rừ ý nghĩa của việc chọn lựa cỏc hàm trớch chọn đặc trưng (IG, Chi-square). Vì vậy, để có thể đánh giá ý nghĩa và vai trò của các tham

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 55/67

số, ta cần thực nghiệm với nhiều bộ tham số, trên nhiều bộ cơ sở dữ liệu kiểm tra khác nhau để đánh giá hiệu quả phân loại văn bản của chương trình.

Do mỗi trang báo điện tử có cách tạo chủ đề văn bản khác nhau, nên ta sẽ tiến hành huấn luyện và kiểm tra trên tập dữ liệu của cùng một trang, nhằm đảm bảo tính đúng đắn của quá trình thực nghiệm và đưa ra những đánh giá chính xác về chương trình.

Để tiện cho việc theo dừi quỏ trỡnh thực nghiệm, ta quy ước cỏc ký hiệu như sau:

 Ntrain: số lượng văn bản của tập dữ liệu huấn luyện.

 Ntest: số lượng văn bản của tập dữ liệu kiểm tra.

 Pre: độ chính xác (Precision).

 Re: độ bao (Recall).

4.2.4.1 Thực nghiệm quá trình trích chọn tập đặc trƣng

Trong phần thiết kế chương trình đã trình bày chi tiết về hai kỹ thuật lựa chọn tập từ khoá đặc trưng biểu diễn văn bản, đó là: IG và Chi-square. Theo các kỹ thuật này, việc chọn lựa một thuật ngữ làm đặc trưng sẽ phụ thuộc vào kết quả so sánh với các tham số ngưỡng:

 limitOccur – LO: ngưỡng giới hạn số văn bản chứa từ khoá tk.

 limitInfoValue – LI: ngưỡng giá trị thông tin của từ khoá tk.

 IG hoặc Chi-square: lựa chọn hàm IG hoặc Chi-square để tính giá trị ước lượng thông tin.

Với các giá trị đầu vào như đã nêu, quá trình tạo tập đặc trưng sẽ được thử nghiệm trên các tập dữ liệu khác nhau nhằm đánh giá hiệu quả của nó đối với phương pháp SVMs.

Thử nghiệm với bộ dữ liệu báo Vietnamnet, gồm các chủ đề: chính trị, khoa học, kinh tế, và thể thao. Quá trình trích chọn được thử nghiệm với các bộ huấn luyện có kích thước tăng dần, sau đây là các kết quả thu được:

Bảng 4-3: Kết quả thực nghiệm trích chọn tập đặc trưng trên báoVietnamnet.

Ntrain 83 129 168 208 246

LO = 3

LI = 0.005 1173 1601 1890 2206 2365

LO = 3

LI = 0.01 1119 1409 1452 1575 1587

Chi- square

LO = 3

LI = 0.005 350 252 226 249 254

LO = 3

LI = 0.01 173 134 113 125 123

Nhận xét:

Dựa vào các kết quả trích chọn tập đặc trưng trong Bảng 4-3, ta có nhận xét như sau:

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 56/67

- Trên cùng tập dữ liệu huấn luyện, khi ngưỡng LI (tương tự với LO) tăng thì số thuật ngữ đặc trưng tách được sẽ giảm (đều xảy ra trên cả hai kỹ thuật IG và Chi-square).

- Số lượng từ tách theo hàm Chi-square nhỏ hơn rất nhiều so với hàm IG.

- Đặc biệt khi tăng ngưỡng LI (tương tự với LO), số lượng từ tách theo Chi- square sẽ giảm nhanh hơn so với lượng từ tách theo IG.

Việc tăng tham số ngưỡng trích chọn ảnh hưởng như thế nào tới chất lượng của chương trình phân loại? Điều này, sẽ được giải đáp qua phần thực nghiệm tiếp theo.

Chọn CSDL báo VnExpress, gồm dữ liệu huấn luyện: 180 bài.

 Công nghệ thông tin: 44 bài.

 Khoa học: 40 bài.

 Thể thao: 50 bài.

 Y tế: 46 bài.

Dữ liệu kiểm tra: 80 bài.

 Công nghệ thông tin: 19 bài.

 Khoa học: 15 bài.

 Thể thao: 18 bài.

 Y tế: 28 bài.

Giả sử, chọn hàm Chi-square để thực hiện trích chọn, tiến hành huấn luyện và kiểm tra hiệu năng thực thi chương trình, ta có kết quả như sau:

Với: LO = 3, LI = 0.005:

 Thời gian huấn luyện: 8 phút.

 Pre (trung bình) = 0.931.

 Re (trung bình) = 0.891.

Với LO = 3, LI = 0.01:

 Thời gian huấn luyện: 5 phút.

 Pre (trung bình) = 0.952.

 Re (trung bình) = 0.936.

Nhận xét:

Việc thu nhỏ tập đặc trưng ở đây không những đã làm giảm không gian biểu diễn văn bản, giảm chi phí thời gian huấn luyện, mà còn làm tăng chất lượng phân loại của chương trình.

Tuy nhiên, qua nhiều lần thực nghiệm nhận thấy, việc thu nhỏ kích thước tập đặc trưng chỉ thoả mãn khi đạt đến ngưỡng nhất định, thường cặp thông số (LO = 3, LI = 0.01) dành cho cả hai hàm IG và Chi-square sẽ cho kết quả tối ưu, nếu không sẽ có hiệu quả ngược lại (vì khi đó sẽ loại bỏ mất nhiều từ có ý nghĩa quan trọng trong không gian huấn luyện).

4.2.4.2 Thực nghiệm đánh giá hiệu năng phân loại đa lớp

Trong các phần trước đã chỉ ra các bộ tham số huấn luyện tối ưu đạt được với chương trình. Sau đây ta sẽ tiến hành kiểm thử đánh giá một cách tổng quan đối với chương trình phân loại theo phương pháp SVMs trên các tập dữ liệu văn bản tiếng Việt.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 57/67

Để đánh giá hiệu năng của chương trình phân loại SVMs một cách đúng đắn, quá trình thực nghiệm phân loại đa lớp sẽ được kiểm tra theo chiến thuật sau:

 Ta chia bộ dữ liệu kiểm tra thành 10 tập con có kích thước tương đương.

 Tiến hành lặp 10 lần huấn luyện và đánh giá hiệu năng trên các tập con.

 Mỗi lần thực hiện ta sẽ lấy 9 phần làm dữ liệu huấn luyện, 1 phần sẽ làm dữ liệu kiểm tra.

 Ghi nhận kết quả thực hiện phân loại trong mỗi lần.

 Sau đó, đưa ra kết quả đánh giá hiệu năng trung bình của chương trình.

Trường hợp 1: test với CSDL báo Vietnamnet với dung lượng 1.46 MB gồm các chủ đề.

 Chính trị: 54 bài.

 Khoa học: 46 bài.

 Kinh tế: 66 bài.

 Thể thao: 70 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.005).

Bảng 4-4: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Vietnamnet

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung

bình Pre 0.844 0.902 0.969 0.894 0.894 0.944 0.964 0.933 0.85 0.933 0.913

Re 0.779 0.864 0.95 0.867 0.867 0.917 0.964 0.914 0.764 0.914 0.88 Thời

gian 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’

Trường hợp 2: test với CSDL báo VnExpress với dung lượng 1.49 MB, gồm các chủ đề.

 Công nghệ thông tin: 49 bài.

 Khoa học: 49 bài.

 Thể thao: 50 bài.

 Y tế: 50 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.01).

Bảng 4-5: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo VnExpress

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung

bình Pre 0.94 0.804 0.828 0.889 0.894 0.847 0.927 0.888 0.906 0.911 0.883

Re 0.925 0.796 0.825 0.871 0.879 0.846 0.925 0.9 0.913 0.925 0.881 Thời

gian 5’ 5’ 5’ 4’ 4’ 4’ 4’ 4’ 4’ 4’ 4.3’

Trường hợp 3: test với CSDL báo Hanoimoi với dung lượng 898 KB gồm các chủ đề.

 Chính trị xã hội: 35 bài.

 Khoa học công nghệ: 40 bài.

 Kinh tế: 30 bài.

 Sức khoẻ: 30 bài.

 Thể thao: 30 bài.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 58/67

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.01).

Bảng 4-6: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Hanoimoi

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung

bình Pre 0.94 0.95 0.86 0.86 0.91 0.848 0.914 0.895 0.81 0.92 0.891

Re 0.92 0.92 0.85 0.84 0.87 0.827 0.887 0.88 0.76 0.867 0.862 Thời

gian 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’

Trường hợp 4: test với CSDL báo Laodong với dung lượng 785 KB gồm các chủ đề.

 Khoa học: 35 bài.

 Kinh tế: 40 bài.

 Thể thao: 35 bài.

 Văn hoá: 40 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares, (LO = 3, LI = 0.01).

Bảng 4-7: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Laodong

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung

bình Pre 0.906 0.85 0.938 0.929 0.92 0.838 0.917 0.958 0.95 0.905 0.911

Re 0.825 0.8 0.9 0.875 0.9 0.825 0.9 0.938 0.938 0.874 0.878 Thời

gian 2’ 2’ 2’ 1’ 1’ 2’ 2’ 2’ 2’ 2’ 1.8’

Từ các kết quả thu được bên trên, ta có bảng kết quả tổng hợp đánh giá hiệu năng chương trình như sau:

Bảng 4-8: Tổng hợp kết quả phân loại đa lớp trên các bộ dữ liệu (báo Vietnamnet, VnExpress, Hanoimoi, Laodong)

Tên CSDL Tổng số bài Số lớp Kích thước Thời gian Độ chính xác Độ bao

Báo Vietnamnet 236 4 1.46 (MB) 8’ 0.913 0.88

Báo VnExpress 198 4 1.49 (MB) 4.3’ 0.883 0.881

Báo Hanoimoi 165 5 898 (KB) 2’ 0.891 0.862

Báo Laodong 150 4 785 (KB) 1.8’ 0.911 0.878

Nhận xét:

Từ các kết quả thử nghiệm thu được trong Bảng 4-8, ta có một số nhận xét đối với chương trình SVMs phân loại trên tập văn bản tiếng Việt như sau:

 Hiệu năng phân loại SVMs:

Pre ≈ 0.883 – 0.913, Re ≈ 0.862 – 0.88.

Đây là một kết quả phân loại tương đối cao đối với văn bản tiếng Việt, kết quả này cũng rất sát thực với kết quả thực nghiệm của Thorsten Joachims

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 59/67

kiểm tra trên tập văn bản tiếng Anh: với RBF – gamma = 1, độ chính xác trung bình = 0.863 (Bảng 4-5).

 Thời gian huấn luyện là gia tăng tuyến tính theo kích thước dữ liệu, nếu số lượng mẫu lớn thì chi phí thời gian sẽ lớn (hoàn toàn đúng với lý thuyết đánh giá độ phức tạp của giải thuật SVMs).

Thực nghiệm phân loại văn bản với SVMs

Các mô hình biểu diễn văn bản

Bài toán phân loại văn bản