Đánh giá thử nghiệm

Một phần của tài liệu Tiếp ận họ không giám sát trong họ ó giám sát với bài toán phân lớp văn bản tiếng việt và đề xuất ải tiến ông thứ tính độ liên quan giữa hai văn bản trong mô hình vétơ (Trang 99 - 111)

PhÇn 3

7.1. Cài đặt chương trình

7.1.1. Lựa chọn công nghệ và môi trường cài đặt

Môi trường .NET và ngôn ngữ lập trình C# đã được lựa chọn để tiến hành cài đặt mô hình kiểm thử cho cả hai hướng tiếp cận. Đây là ngôn ngữ có khả năng xử lý các cơ sở dữ liệu phẳng của bài toán một cách nhanh chóng, ngoài ra các đối tượng cấu trúc dữ liệu có sẵn của C# như DictionaryBase HashTable, , ArrayList,… có cơ chế quản lý tìm kiếm và truy xuất phần tử tối ưu, linh hoạt, rất thích hợp cho các bài toán Text Mining.

7.1.2. Giao diện chương trình Demo

7.1.2.1. Giao diện hướng tiếp cận học không giám sát trong học có giám sát

a- Các giao diện chương trình cài đặt theo hướng tiếp cận học không giám sát

b- Giao diện chính

c- Giao diện Quản lý tập văn bản mẫu d- Giao diện Quản lý từ điển/stop word

e- Quản lý các thông số đầu vào f- Kết quả tách term g- Kết quả phân lớp văn bản

Hình 7.1. Các giao diện chương trình cài đặt hướng tiếp cận học không giám sát

7.1.2.2. Giao diện hướng tiếp cận theo công thức cải tiến

a- Các giao diện chương trình cài đặt theo hướng tiếp cận dựa trên công thức cải tiến

b- Giao diện chính

c- Nhập văn bản cần phân lớp d- Kết quả tách term e- Kết quả độ liên quan giữa văn bản truy vấn và k văn bản mẫu gần nhất

Hình 7.2. Các giao diện chương trình cài đặt hướng tiếp cận theo công thức cải tiến

7.2. Cơ sở dữ liệu thử nghiệm

Cơ sở dữ liệu huấn luyện và kiểm thử của hai hướng tiếp cận sử dụng là các bài báo được tập hợp trên các trang tin điện tử VnExpress.net (http://www.vnexpress.net ) và Vietnamnet (http://www.vnn.vn ).

Tác giả đã xây dựng hai tập văn bản mẫu như sau:

Tập mẫu VnExpresss: có 505 bài thuộc thuộc 8 chủ đề: Du lịch (86 bài), Giáo dục (65 bài), Kinh doanh (66 bài), Ô tô Xe máy– (48 bài), Pháp luật (72 bài), Sức khỏe (76 bài), Thể thao (42 bài), Vi tính (50 bài).

Tập mẫu Vietnamnet: có 259 bài thuộc 7 chủ đề: Bất động sản (34 bài), Bóng đá (22 bài), Chứng khoán (29 bài), Du lịch (64 bài), Hacker & Virus (19 bài), Ô tô–Xe máy (33 bài), Sức khỏe (58 bài).

Các bài báo được ghi lại tên chủ đề, kích thước bài báo để tiện cho việc đánh giá kết quả. Một số thông số của hai tập huấn luyện này được mô tả trong bảng 7.1.

Bảng 7.1. Thông tin mô tả một số thông số của các tập dữ liệu huấn luyện

Thông số Tập dữ liệu VnExpress VietnamNet

Số bài báo 505 259

Số chủ đề (lớp) 8 7

Kích thước bài báo lớn nhất 52KB 14KB

Kích thước bài báo nhỏ nhất 1KB 1KB

Kích thước trung bình của một bài báo 4.26KB 4.24KB

Số thuật ngữ nhiều nhất trong một bài báo 2430 579

Số thuật ngữ ít nhất trong một bài báo 49 43

Số thuật ngữ trung bình trong một bài báo 122 115

7.3. Kết quả thử nghiệm

Các thực nghiệm được tiến hành trên máy tính Pentium IV, 1.6GHz, 256 MRAM.

Các tiêu chí kiểm thử bao gồm tính chính xác và tốc độ phân lớp dựa trên các văn bản truy vấn có nội dung khác nhau, kích thước khác nhau, hiệu quả và tính chính xác của thuật toán tách term,... trên hai mô hình kiểm thử xây dựng.

Kết quả kiểm thử của hai hướng tiếp cận thu được đều cho hiệu quả cao.

Trong quá trình xây dựng tập mẫu học cho hệ thống, nhận thấy hiệu quả của hệ thống phụ thuộc vào chất lượng tập mẫu, một số tham số của các giải thuật sử dụng trong mô hình như: giá trị k trong thuật toán k NN, các chỉ số ngưỡng đầu vào của - thuật toán Apriori,...

7.3.1. Kết quả phân tách các thuật ngữ

7.3.1.1. Đánh giá tốc độ phân tách các thuật ngữ

5000 10000 15000 20000

0 10 20 30 40 50

Tốc độ tách term 25000

ms

Dung lợng văn bản (byte)

Hình 7.3. Tốc độ tách thuật ngữ

Nhận xét:

 Tốc độ tách term trung bình tính theo dung lượng: 75 (Kbytes/giây)

 Các kết quả đo cho thấy tốc độ tách thuật ngữ tương đối ổn định. Với số lượng dữ liệu lớn hơn thì tốc độ tách sẽ có độ ổn định cao hơn.

7.3.1.2. Đánh giá hiệu quả phân tách các thuật ngữ

Hiệu quả tách thuật ngữ được tính theo xác suất tách sai của thuật toán. Xét một đoạn văn bản thuộc chủ đề Vi tính có tiêu đề “Microsoft gặp trục trặc trong việc quảng bá sản phẩm ”.

Nội dung của đoạn văn bản như sau:

...“Sự yếu kém về kiến thức địa lý lẫn chính trị đã khiến Microsoft gặp trục trặc không nhỏ trong việc quảng bá sản phẩm của hãng tới một số nước trên thế giới. Đặc biệt, hãng này đã phải đối mặt với thiệt hại ước tính lên tới hàng triệu USD chỉ do việc bố trí không hợp lý 8 pixel màu trên bản đồ địa lý Ấn Độ. Trên đây chỉ là một trong số khá nhiều các sai phạm thuộc về vấn đề địa lý, ngôn ngữ và chính trị của Microsoft. Sai sót này đã khiến sản phẩm hệ điều hành Windows 95 của Microsoft bị cấm bán tại Ấn Độ. Ngoài ra, các sai sót về lựa chọn âm nhạc, sự yếu kém trong công tác biên dịch từ điển Anh - Tây Ban Nha đã khiến Microsoft quăng hàng đống tiền qua cửa sổ.

Chúng ta hãy trở lại với vụ việc nghiêm trọng nhất mà Microsoft mắc phải. Số là trong khi dùng 800.000 điểm ảnh (pixel) để tô màu bản đồ Ấn Độ, các chuyên gia Microsoft đã chừa ra 8 pixel màu khác biệt (màu xanh) để "trang trí" cho vùng lãnh thổ gây tranh chấp – Kashmir. Điều này, theo Microsoft, có nghĩa là Kashmir không thuộc lãnh thổ Ấn Độ. Kết quả, Microsoft đã phải thu hồi 200.000 bản Windows 95 "bị lỗi", và phải ra sức hàn gắn vết thương ngoại giao không đáng có.“...

Kết quả sau khi tách term và loại bỏ StopWords:

[yếu kém] [kiến thức] [địa lý] [lẫn] [chính trị] [trục trặc] [quảng bá] [sản phẩm] [thế giới] [thiệt hại]

[bố trí] [màu] [bản đồ] [địa lý] [ấn độ] [sai phạm] [địa lý] [ngôn ngữ] [chính trị] [sai sót] [sản phẩm]

[hệ điều hành] [cấm] [ấn độ] [sai sót] [lựa chọn] [âm nhạc] [yếu kém] [công tác] [biên dịch] [từ điển] [quăng] [đống] [cửa sổ] [vụ việc] [nghiêm trọng] [mắc phải] [ảnh] [tô màu] [bản đồ] [ấn độ]

[chuyên gia] [màu] [màu xanh] [trang trí] [lãnh thổ] [tranh chấp] [lãnh thổ] [ấn độ] [thu hồi] [lỗi]

[hàn gắn] [vết thương] [ngoại giao]

Nhận xét:

Kết quả phân tách term và loại bỏ StopWords cài đặt theo thuật toán tách term mô tả trong chương 5 cho hiệu quả chính xác cao (97 98%). Đây cũng là yếu - tố quan trọng góp phần mang lại kết quả thực nghiệm phân lớp tốt cho chương trình thử nghiệm đã xây dựng.

7.3.2. Kết quả phân lớp văn bản

7.3.2.1. Kết quả thử nghiệm phân lớp trên tập mẫu VnExpress

Thử nghiệm hiệu quả phân lớp trên 335 bài báo thuộc các chủ đề: Du lịch, Giáo dục, Kinh doanh, Ô tô xe máy, Pháp luật, Sức khỏe, Thể thao, Vi tính, tác giả thu được kết quả phân lớp được mô tả một phần trong bảng 7.2 dưới đây (với 80 văn bản).

Bảng kết quả thử nghiệm đầy đủ hơn của 335 bài báo này sẽ được trình bày trong phần Phụ lục II.

Bảng 7.2. Kết quả thử nghiệm phân lớp 80 văn bản trên tập mẫu VnExpress

STT Tên bài báo

Kích thước (Byte)

Số thuật xuất ngữ hiện

Chủ đề gốc

Kết quả phân lớp Hướng 1

Kết quả phân lớp Hướng 2

1. 4 ngày thăm đất cố đô chỉ với hơn 1 triệu đồng 4270 170 Du lịch Du lịch Du lịch

2. Đến thăm "Đà Lạt của miền Tây" 4250 165 Du lịch Du lịch Du lịch

3. Đảo du lịch mới Tuần Châu 3030 115 Du lịch Du lịch Du lịch

4. Du lịch Ninh Bình 2296 85 Du lịch Du lịch Du lịch

5. Du lịch hoang dã Hầm Hô 2858 119 Du lịch Du lịch Du lịch

6. Hồ ThácBà - nơi hấp dẫn khách du lịch 5252 209 Du lịch Du lịch Du lịch

7. Một vòng ngắm cảnh Phú Yên 3734 143 Du lịch Du lịch Du lịch

8. Phan Thiết có thêm nhiều loại hình du lịch mới 2760 106 Du lịch Du lịch Du lịch

9. SaPa cùng đón xuân vùng cao với tiếng khèn dân tộc. 2306 87 Du lịch Du lịch Du lịch

10. Xây dựng khu nghỉ mát lớn nhất Việt Nam 2640 77 Du lịch Du lịch Du lịch

11. Khai mạc kỳ thi học sinh giỏi quốc gia 822 49 Giáo dục Giáo dục Giáo dục

12. Học sinh lớp 9 và 12 được tư vấn nghề nghiệp 1473 68 Giáo dục Giáo dục Giáo dục

13. Hơn 70% thí sinh đã làm thủ tục dự thi đại học 6880 342 Giáo dục Giáo dục Giáo dục

14. Trao giải cuộc thi Olympic tiếng Anh tiểu học 1968 65 Giáo dục Giáo dục Giáo dục

15. Bộ GD&ĐT lúng túng trong quản lý ĐH ngoài công lập 5570 173 Giáo dục Giáo dục Giáo dục

16. Các đại học ráo riết chuẩn bị tăng học phí 7834 197 Giáo dục Giáo dục Giáo dục

17. Việt Nam đoạt 6 huy chương vàng Olympic tiếng Nga 2190 62 Giáo dục Giáo dục Giáo dục

18. Học bổng sau đại học của Thụy Sĩ và Hoa Kỳ 1114 46 Giáo dục Giáo dục Giáo dục

19. Sở hữu 5 điểm 10 trong kỳ thi đại học 2004 1145 44 Giáo dục Giáo dục Giáo dục

20. ĐH dân lập Phú Xuân lao đao vì điểm sàn 1891 93 Giáo dục Giáo dục Giáo dục

21. Bắt đầu bán lẻ trái phiếu Chính phủ 2628 73 Kinh doanh Kinh doanh Kinh doanh

22. Bibica giải trình chuyện truy thu thuế 5652 174 Kinh doanh Kinh doanh Kinh doanh

23. Thêm một cao ốc 30 tầng tại Đà Nẵng 2042 63 Kinh doanh Kinh doanh Kinh doanh

24. Đấu giá cổ phần nhà máy len Hà Đông 2230 61 Kinh doanh Kinh doanh Kinh doanh

25. Hà Nội: Đấu giá đất trọn gói chưa có hiệu quả 5230 166 Kinh doanh Kinh doanh Kinh doanh 26. Diện tích căn hộ chung cư phải rộng 50 m2 trở lên 5800 205 Kinh doanh Kinh doanh Kinh doanh

27. Hà Nội có thêm khu đô thị mới Hạ Đình 2424 86 Kinh doanh Kinh doanh Kinh doanh

28. Mekong Capitaltăng đầu tư vào VN 2792 80 Kinh doanh Kinh doanh Kinh doanh

29. 5 công ty chứng khoán bảo lãnh phát hành trái phiếu 1494 49 Kinh doanh Kinh doanh Kinh doanh

30. 5 tỉnh vượt kế hoạch huy động trái phiếu Chính phủ 1958 51 Kinh doanh Kinh doanh Kinh doanh 31. Vĩnh Long: Nhiều chủ nhà trọ liên quan đường dây mại dâm 1680 85 Pháp luật Pháp luật Pháp luật

32. Ngồi tù oan hơn 16 năm 2714 105 Pháp luật Pháp luật Pháp luật

33. Từ 1/7, người được thi hành án phải trả chi phí 2170 78 Pháp luật Pháp luật Pháp luật

34. Tuyên án sai, TAND Tối cao xin lỗi dân 2110 82 Pháp luật Pháp luật Pháp luật

35. Trốn lệnh truy nã suốt 8 năm vẫn không thoát 1410 57 Pháp luật Pháp luật Pháp luật

36. Gần 11 tỷ đồng bỏ ngoài sổ sách tại Công ty Xổ số Nghệ An 1658 58 Pháp luật Pháp luật Pháp luật

37. Phá điểm cờ bạc ở khách sạn Fortuna 2704 88 Pháp luật Pháp luật Pháp luật

38. Giết người tình của vợ 3264 195 Pháp luật Pháp luật Pháp luật

39. Giải thoát một cháu bé bị bắt cóc tống tiền 1375 81 Pháp luật Pháp luật Pháp luật

40. 30 thanh niên ban ngày ngủ, đêm đi ăn trộm 1894 102 Pháp luật Pháp luật Pháp luật

41. Tập luyện để tránh tái phát nhồi máu cơ tim 3500 172 Sức khỏe Sức khỏe Sức khỏe

42. Sử dụng insulin trong điều trị tiểu đường 4845 226 Sức khỏe Sức khỏe Sức khỏe

43. Chấn thương tá tràng tụy dễ gây tử vong- 2605 139 Sức khỏe Sức khỏe Sức khỏe

44. Món ăn Huế dưới góc độ y dược học 8690 559 Sức khỏe Pháp luật Sức khỏe

45. Mang bệnh vì thuốc Đông y 3973 205 Sức khỏe Sức khỏe Sức khỏe

46. Những hiểu lầm về chăm sóc da 6146 199 Sức khỏe Sức khỏe Sức khỏe

47. Anh cho phép sàng lọc phôi 2425 94 Sức khỏe Sức khỏe Sức khỏe

48. Các nguyên nhân gây rụng tóc 4713 299 Sức khỏe Sức khỏe Sức khỏe

49. Tai biến do lạm dụng thuốc bôi da 2976 168 Sức khỏe Sức khỏe Sức khỏe

50. Phục hồi nhan sắc nhờ ánh sáng 4646 281 Sức khỏe Sức khỏe Sức khỏe

51. Armstrong nới rộng khoảng cách trên bảng tổng sắp 4603 170 Thể thao Thể thao Thể thao

52. Thiếu trụ cột, U22 quốc gia vẫn sẽ tập trung 1275 32 Thể thao Thể thao Thể thao

53. Brazil vào chung kết sau loạt penalty căng thẳng 6456 278 Thể thao Thể thao Thể thao 54. Federer giành danh hiệu Grand Slam thứ ba liên tiếp 3677 101 Thể thao Thể thao Thể thao 55. Strata Đồng Nai sẽ phấn đấu lọt vào top 5 hạng Nhất 3513 142 Thể thao Thể thao Thể thao

56. Juventus đoạt ngôi đầu bảng, Roma thắng vất vả 4604 156 Thể thao Thể thao Thể thao

57. Deportivo sa lầy ngay tại Riazor 3148 122 Thể thao Thể thao Thể thao

58. HLV Ferguson hài lòng với tân binh Gabriel Heinze 2348 57 Thể thao Thể thao Thể thao

59. Champions League 2004-2005 khởi tranh đêm mai 18989 569 Thể thao Thể thao Thể thao

60. Serie A khởi tranh: Các đại gia thảnh thơi? 6463 218 Thể thao Thể thao Thể thao

61. Giới thiệu bản demo miễn phí FIFA Football 2005 1134 37 Vi tính Vi tính Vi tính

62. Năm model điện thoại MP3 nổi bật nhất 3585 161 Vi tính Vi tính Vi tính

63. "Đám cưới hoàng gia" của Liên minh Di động Mở 4533 203 Vi tính Vi tính Vi tính

64. VeriSign tăng tốc cập nhật hệ thống tên miền 1682 54 Vi tính Vi tính Vi tính

65. Xu hướng mới trong kinh doanh ĐTDĐ 4169 173 Vi tính Vi tính Vi tính

66. Truy tìm vị trí thuê bao di động 5221 207 Vi tính Vi tính Vi tính

67. Viettel Mobile và S-Fone bị phá sóng? 7382 316 Vi tính Vi tính Vi tính

68. Thế giới... không dây 8309 371 Vi tính Vi tính Vi tính

69. Gọi điện thoại Internet miễn phí từ PDA 1260 49 Vi tính Vi tính Vi tính

70. Sắp qua rồi thời... đĩa mềm! 3540 127 Vi tính Vi tính Vi tính

71. Thuế tiêu thụ đặc biệt với xe hơi khó thay đổi 2430 101 Ô tô xe máy Ô tô xe máy Ô tô xe máy

72. Dịch vụ sơn trong sửa chữa xe hơi 7771 409 Ô tô xe máy Ô tô xe máy Ô tô xe máy

73. Thị trường ôtô tháng 8 tăng không đáng kể 1796 56 Ô tô xe máy Ô tô xe máy Ô tô xe máy

74. Bảo dưỡng xe cơ giới tại VN chưa được quan tâm 2599 116 Ô tô xe máy Ô tô xe máy Ô tô xe máy

75. F104 - xe đua Công thức 1 của Toyota 5944 247 Ô tô xe máy Ô tô xe máy Ô tô xe máy

76. GM Daewoo tung ra xe Magnus 2005 tại Hàn Quốc 2170 83 Ô tô xe máy Ô tô xe máy Ô tô xe máy

78. Triển lãm ôtô Việt Nam tổ chức lần thứ hai 2321 91 Ô tô xe máy Ô tô xe máy Ô tô xe máy 79. Công đoàn của Ssangyong ra điều kiện với SAIC 2335 82 Ô tô xe máy Ô tô xe máy Ô tô xe máy 80. Kiến nghị giảm thuế tiêu thụ đặc biệt với ôtô 1846 85 Ô tô xe máy Ô tô xe máy Ô tô xe máy

Kết quả kiểm thử thu được của hai hướng tiếp cận trên tập mẫu VnExpress:

• Kết quả kiểm thử của hướng tiếp cận học không giám sát:

Độ chính xác =tổng số văn bản phân lớp đúng / tổng số văn bản thử nghiệm = 318/335 = 95%

• Kết quả kiểm thử của hướng tiếp cận cải tiến công thức:

Độ chính xác =tổng số văn bản phân lớp đúng / tổng số văn bản thử nghiệm = 331/335 = 98,5%

7.3.2.2. Kết quả thử nghiệm phân lớp trên tập mẫu VietNamNet

Thử nghiệm hiệu quả phân lớp trên 35 bài báo thuộc các chủ đề: Du lịch, Bất động sản, Chứng khoán, Ô tô xe máy, Sức khoẻ, Bóng đá, Hacker & Virus- . Kết quả kiểm thử thu được trong bảng 7.3.

Bảng 7.3. Kết quả thử nghiệm phân lớp 35 văn bản trên tập mẫu VietNamNet

STT Tên bài báo

Kích thước (Byte)

Số thuật ngữ xuất hiện

Tốc độ phân lớp

(giây)

Chủ đề gốc

Kết quả phân lớp Hướng 1

Kết quả phân lớp Hướng 2

1 Kiến trúc độc đáo trong giếng bậc thang của Ấn Độ 7660 254 0.8 Du lịch Du lịch Du lịch

2 Ấn tượng 'rối trời' tại Festival Huế 5330 195 0.7 Du lịch Du lịch Du lịch

3 Việt Nam, Lào, Thái Lan hợp tác du lịch 3884 122 0.4 Du lịch Du lịch Du lịch

4 Việt Nam hứa hẹn là điểm đến an toàn 3260 86 0.3 Du lịch Du lịch Du lịch

5 Bơi thuyền qua vịnh ở New Zealand 3248 107 0.4 Du lịch Du lịch Du lịch

6 Hà Nội sắp xây dựng khu đô thị Trung Văn 4756 134 0.4 Bất động sản Bất động sản Bất động sản

7 Tái khởi động hàng loạt cao ốc dở dang 5176 147 0.5 Bất động sản Bất động sản Bất động sản

8 Thuế chuyển nhượng đất được tính theo khung giá 1666 47 0.2 Bất động sản Bất động sản Bất động sản

9 Công bố giá bồi thường đất quanh hồ Tây 2232 79 0.3 Bất động sản Du lịch Du lịch

10 Sẽ có thêm 6 khu đất để đấu giá đất tại TP HCM 1084 28 0.1 Bất động sản Bất động sản Bất động sản 11 Mở thêm 4 điểm bán ngoại tệ trái phiếu công trình 6400 191 0.7 Chứng khoán Chứng khoán Chứng khoán

12 Không phát hành nhiều trái phiếu ngoại tệ 2400 73 0.3 Chứng khoán Chứng khoán Chứng khoán

13 Ra mắt hiệp hội kinh doanh chứng khoán Việt Nam 1854 80 0.3 Chứng khoán Chứng khoán Chứng khoán

14 5 công ty chứng khoán bảo lãnh phát hành trái phiếu 1494 52 0.2 Chứng khoán Chứng khoán Chứng khoán

15 TP HCM sẽ có sở giao dịch chứng khoán 3272 98 0.3 Chứng khoán Chứng khoán Chứng khoán

16 Ford tăng mạnh, Toyota giảm trong tháng 4 2946 70 0.3 Ô tô xe máy Ô tô xe máy Ô tô xe máy

17 Isuzu tổ chức cuộc thi lái xe tiết kiệm nhiên liệu 2436 75 0.3 Ô tô xe máy Ô tô xe máy Ô tô xe máy

18 Chiếc xe bạn sở hữu do công ty nào sản xuất? 11132 242 0.8 Ô tô xe máy Ô tô xe máy Ô tô xe máy

19 Vinastar chú trọng thị trường xe tải 2532 86 0.3 Ô tô xe máy Ô tô xe máy Ô tô xe máy

20 Triển lãm ôtô Anh dành cho các hãng xe nhỏ- 4696 111 0.4 Ô tô xe máy Ô tô xe máy Ô tô xe máy

21 Muốn thụ thai, nên hạn chế đạm 4236 116 0.4 Sức khỏe Sức khỏe Sức khỏe

22 Phát hiện nguồn gốc ung thư ở bệnh nhân HIV 3450 107 0.4 Sức khỏe Sức khỏe Sức khỏe

23 Chăm sóc bệnh nhân sốt rét 5130 192 0.6 Sức khỏe Sức khỏe Sức khỏe

24 DHA có lợi gì cho cơ thể? 4102 88 0.3 Sức khỏe Sức khỏe Sức khỏe

25 Ngồi thiền một cách tăng cường sức khoẻ - 16464 579 2.0 Sức khỏe Sức khỏe Sức khỏe

26 HLV Croatia từ chức 1906 34 0.1 Bóng đá Bóng đá Bóng đá

27 Vòng chung kết Cup quốc gia chuẩn bị khởi tranh 3650 96 0.3 Bóng đá Bóng đá Bóng đá

28 Đan Mạch Thuỵ Điển 2 2: Thảm hoạ của bóng đá Italy - - 15360 409 1.6 Bóng đá Bóng đá Bóng đá

29 Hà Lan phải thắng... và hy vọng 14106 311 0.9 Bóng đá Bóng đá Bóng đá

30 Đức tự tin vào chiến thắng trước CH Czech 12150 238 0..7 Bóng đá Bóng đá Bóng đá

31 Bắt hacker không ngăn được Sasser tung ra biến thể mới 45717 145 0.5 Hacker&Virus Hacker&Virus Hacker&Virus 32 Bắt tác giả Sasser, Microsoft phát huy sức mạnh đồng tiền 5199 168 0.6 Hacker&Virus Hacker&Virus Hacker&Virus 33 Sasser làm giàu cho các công ty bảo mật 4430 157 0.6 Hacker&Virus Hacker&Virus Hacker&Virus

34 Sasser đại náo châu Âu 3473 124 0.5 Hacker&Virus Hacker&Virus Hacker&Virus

35 Gần 1,5 triệu người tải công cụ diệt Sasser của Microsoft 4091 123 0.5 Hacker&Virus Hacker&Virus Hacker&Virus

Kết quả kiểm thử thu được của hai hướng tiếp cận trên tập mẫu VietNamNet:

• Kết quả kiểm thử của hướng tiếp cận học không giám sát:

Độ chính xác =tổng số văn bản phân lớp đúng / tổng số văn bản thử nghiệm = 34/35 = 97%

• Kết quả kiểm thử của hướng tiếp cận cải tiến công thức:

Độ chính xác =tổng số văn bản phân lớp đúng / tổng số văn bản thử nghiệm = 34/35 = 97%

Có một trong số 35 bài báo cả hai hệ thống Demo cùng phân lớp sai, đó là bài “Công bố giá bồi thường đất quanh hồ Tây”. Chủ đề gốc của văn bản này thuộc lớp Bất động sản nhưng kết quả hai hệ thống đều phân vào lớp Du lịch. Nguyên nhân là trong bài báo đề cập đến nhiều địa danh quanh Hồ Tây vốn là danh lam thắng cảnh hoặc địa điểm du lịch, ví dụ: công viên nước Hồ Tây, làng hoa Việt Nhật,… Vấn đề này hoàn toàn có thể khắc phục được khi cho hệ thống học một tập mẫu huấn luyện đầy đủ hơn. (Tập mẫu học VietNamNet tại thời điểm kiểm thử tác giả mới xây dựng gồm 259 văn bản cho 7 lớp).

Trong quá trình kiểm thử, khi tiếp tục thử nghiệm trên cùng một trong hai tập mẫu học, với số lượng văn bản truy vấn tiếp tục nhiều hơn, kết quả thực nghiệm thu được trên cả hai hướng đều ổn định và dao động nhỏ xung quanh kết quả hiệu suất

Một phần của tài liệu Tiếp ận họ không giám sát trong họ ó giám sát với bài toán phân lớp văn bản tiếng việt và đề xuất ải tiến ông thứ tính độ liên quan giữa hai văn bản trong mô hình vétơ (Trang 99 - 111)

Tải bản đầy đủ (PDF)

(132 trang)