Thực nghiệm và kết quả thực nghiệm

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 66 - 69)

3. Bố cục và cấu trúc của luận văn

5.5. Thực nghiệm và kết quả thực nghiệm

Để kiểm tra tính hiệu quả của việc áp dụng phân cụm vào bài tốn phân loại văn bản, thực nghiệm tiến hành thử nghiệm trên tập Corpus, trình bày ở 5.4. Thực nghiệm cũng tiến hành với các kích thƣớc của tập huấn luyện khác nhau từ bé đến lớn nhằm kiếm tra tính hiệu quả của phƣơng pháp bao gồm 2%, 5%, 10%, 25%, 50%, 75%, 90% (*) dữ liệu là cĩ nhãn. Tại mỗi trƣờng hợp, thực nghiệm tƣơng ứng đƣợc thực hiện cho SVM thơng thƣờng, khơng sử dụng phân cụm, để cĩ kết quả đối sánh.

Thực nghiệm đƣợc tiến hành với 5 nhĩm văn bản là Du lịch, Giáo dục, Kinh tế, Pháp luật, Thể thao, và đƣợc tiến hành qua các bƣớc:

Bước 1: Thực hiện phân đoạn từ và tạo các ma trân tƣơng ứng cho tập huấn luyện và kiểm thử, và xây dựng các ma trận thuộc tính cho tập dữ liệu huấn luyên và kiểm thử, cho từng trƣờng hợp nêu ở (*).

Bước 2: Sau đĩ tạo các siêu thuộc tính và tính trọng số cho chúng, và bổ sung vào các vector tƣơng ứng với mỗi tài liệu, sử dụng cơng cụ bổ trợ mở rộng tập dữ liệu sử dụng phân cụm, giới thiệu ở 7.6

Bước 3: Sử dụng thƣ viện LIBSVM [35] để tiến hành huấn luyện và kiểm thử, sử dụng các tập huấn luyện và kiểm thử mở rộng,

Sử dụng kỹ thuật k-fold cross validation, bảng sau cho giá trị k thực hiện ứng với từng tỉ lệ dữ liệu training:

% 2% 5% 10% 25% 50% 75% 90%

k 50 20 10 4 2 4 10

Bảng 5-1 cho kết quả so sánh giữa phƣơng pháp phân loại sử dụng SVM thƣờng và phƣơng pháp sử dụng phân cụm, cột “SVM+Clu”, biểu thị kết quả của phƣơng pháp sử dụng phân cụm, lần lƣợt cho các trƣờng hợp 2%, 5%, 10%, 25%, 50%, 75% và 90%.

Nhận xét:

- Hiệu năng phân loại: Thực nghiệm trên các nhĩm văn bản Du lịch, Giáo dục, Kinh tế, Pháp luật, Thể thao. Phƣơng pháp sử dụng phân cụm luơn cho

kết quả tốt hơn. Với tỷ lệ tập huấn luyện càng bé, chênh lệch càng lớn. Khoảng cách này thu hẹp dần khi tăng tỷ lệ tập dữ liệu huấn luyện.

- Thời gian: Phƣơng pháp sử dụng phân cụm cĩ thời gian lâu hơn do phải tiến hành phân cụm dữ liệu và kích thƣớc khơng gian thuộc tính cũng lớn hơn.

Nhận xét chung: Thực nghiệm cho thấy phƣơng pháp sử dụng phân cụm đặc biệt thích hợp khi phải làm việc với tập huấn luyện (tập dữ liệu cĩ nhãn nhỏ), và cho độ chính xác cao hơn.

Bảng 5-1: Kết quả thực nghiệm phân lọai sử dụng phân cụm

% training

Du lịch Giáo Dục Kinh Tế Pháp Luật Thể thao

Trung bình (Micro- Average) SVM SVM+ Clu SVM SVM+ Clu SVM SVM+ Clu SVM SVM+ Clu SVM SVM+ Clu SVM SVM+ CLu 2% 55,73 73,66 42,96 63,52 49,34 60,63 58,42 64,676 56,235 69,00 47,76 58,32 5% 67,37 81,57 53,97 73,79 57,84 69,09 66,27 69,63 58,95 77,26 56,95 66,14 10% 83,62 90,68 77,69 91,13 73,72 80,00 85,32 89,51 76,58 91,99 79,54 88,75 25% 86,63 94,33 81,80 94,38 78,07 80,00 89,94 91,69 81,90 93,50 83,78 90,92 50% 88,28 94,35 87,255 95,10 85,40 84,80 90,60 93,27 82,40 94,10 86,85 92,41 75% 91,72 96,88 89,61 94,51 85,60 85,80 92,76 92,86 94,00 96,20 90,77 93,38 90% 93,73 97,63 89,12 94,51 87,70 88,00 92,97 92,97 95,80 96,30 91,92 94,01

Đồ thị, Hình 5-4, sau biểu diễn tƣơng quan kết quả phân loại cĩ sử dụng phân cụm so với phƣơng pháp SVM thƣờng với sự thay đổi kích thƣớc tập huấn luyện từ thấp đến cao.

Hình 5-4: Biểu đồ so sánh độ chính xác theo tỷ lệ tập huấn luyên

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 66 - 69)

Tải bản đầy đủ (PDF)

(119 trang)