Thực nghiệm về hiệu quả tách từ

Hiệu quả của một phương pháp tách từ được xác định theo độ chính xác tách từ

(xác suất tách đúng), và xác suất tách sai của thuật toán. Một thuật toán tách từ có hiệu quả càng cao khi có xác suất tách đúng càng cao và xác suất tách sai càng thấp.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 53/67

Để xem xét được hiệu quả của quá trình tách từ, ta theo dõi ví dụ tách từ cho một đoạn văn bản thuộc chủ đề Công nghệ thông tin như sau:

Nội dung văn bản:

“Gmail chuẩn bị tăng dung lượng lên … 2GB

Google vừa tuyên bố kế hoạch tăng dung lượng của hòm thư Gmail từ 1GB lên 2GB sau khi đối thủ Yahoo khẳng định sẽ nâng dung lượng Yahoo Mail! lên 1GB trong thời gian sắp tới.

Tuyên bố trên được chính giám đốc quản lý sản phẩm Gmail, Georges Harik, đưa ra ngày hôm qua (31/1). Ông Harik cho rằng Google sẽ nhanh chóng cho triển khai kế hoạch mà chắc chắn sẽ không có bất cứ sự thay đổi nào.

Lý do mà Google đưa ra trong tuyên bố tăng dung lượng của Gmail là “đè bẹp” sức cạnh tranh của các đối thủ như Yahoo, Hotmail. Ngoài ra, còn do một thực tế nữa đó là chi phí của dịch vụ lưu trữ trực tuyến ngày càng rẻ đi, cho nên việc tăng dung lượng hòm thư là điều hiển nhiên.

Đúng vào ngày Cá Tháng Tư cách đây một năm (1/4/2004), hàng triệu người dùng Internet cảm thấy nghi ngờ khi Google tuyên bố sẽ khai trương dịch vụ Gmail 1GB miễn phí. Sẽ là bất ngờ hơn nếu so sánh với dung lượng hòm thư mà một số đối thủ của Google như Yahoo và Microsoft cung cấp vào thời điểm đó – chỉ miễn phí có 10MB, và người dùng sẽ phải đóng tiền nếu muốn sử dụng nhiều hơn.

(Theo Tintuconline.com.vn)”

Kết quả sau khi phân tách từ dựa theo từ điển sẵn có:

“chuẩn bị/ dung lượng/ lên/ vừa/ tuyên bố/ kế hoạch/ tăng/ dung lượng/ của/ hòm thư/ từ/ lên/ sau khi/ đối thủ/ khẳng định/ sẽ/ nâng/ dung lượng/ lên/ trong/ thời gian/ sắp/ tới/ tuyên bố/ trên/ được/ chính/ giám đốc/ quản lý/ sản phẩm/ đưa ra/ ngày/ hôm qua/ ông/ cho rằng/ sẽ/ nhanh chóng/ cho/ triển khai/ kế hoạch/ mà/ chắc chắn/ sẽ/ không/ có/ bất cứ/ sự thay đổi/ nào/ lý do/ mà/ đưa ra/ trong/ tuyên bố/ tăng/ dung lượng/ của/ là/ đè bẹp/ sức/ cạnh tranh/ của/ các/ đối thủ/ như/ ngoài ra/ còn/ do/ một/ thực tế/ nữa/ đó/ là/ chi phí/ của/ dịch vụ/ lưu trữ/ trực tuyến/ ngày càng/ rẻ/ đi/ cho nên/ việc/ tăng/ dung lượng/ hòm thư/ là/ điều/ hiển nhiên/ đúng/ vào/ ngày/ cá/ tháng/ tư cách/ đây/ năm/ hàng/ triệu/ người dùng/ internet/ cảm thấy/ nghi ngờ/ khi/ tuyên bố/ sẽ/ khai trương/ dịch vụ/ miễn phí/ sẽ/ là/ bất ngờ/ hơn/ nếu/ so sánh/ với/ dung lượng/ hòm thư/ mà/ một số/ đối thủ/ của/ như/ và/ microsoft/ cung cấp/ vào/ thời điểm/ miễn phí/ có/ và/ người dùng/ sẽ/ phải/ đóng/ tiền/ nếu/ muốn/ sử dụng/ nhiều hơn/ theo/ com/”

Kết quả phân tách sau khi loại từ dừng:

“tăng/ dung lượng/ tuyên bố/ kế hoạch/ tăng/ hòm thư/ đối thủ/ dung lượng/ mail/ tuyên bố / chính/ giám đốc/ quản lý/ sản phẩm/ nhanh chóng/ triển khai/ kế hoạch/ tuyên bố/ tăng/ dung lượng/ đè bẹp/ sức/ cạnh tranh/ đối thủ/ chi phí/ dịch vụ/ lưu trữ/ trực tuyến/ rẻ/ tăng/ dung lượng/ hòm thư/ điều/ cá/ tư cách/ hàng/ triệu/ người dùng/ internet/ nghi ngờ/ tuyên bố/ khai trương/ dịch vụ/ miễn phí/ dung lượng/ hòm thư/ đối thủ/ microsoft/ cung cấp/ miễn phí/ người dùng/ đóng/ tiền/ sử dụng/ com/”

Các lỗi của module tách từ là:

 Các từ không tách được: gmail, yahoo, yahoo mail, Georges Harik, Harik,

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 54/67

tiếng Anh và tên trang Web, không có trong từ điển tiếng Việt và cũng chưa có trong từ điển viết tắt và từ mượn (các từ microsoft và internet tách được do đã được đưa vào trong từ điển thuật ngữ).

 Các từ tách sai: tư cách, đây (do có sự nhập nhằng, tách đúng phải là trường hợp: tư, cách đây), và com (trong tintuconline.com.vn).

Như vậy, thống kê các kết quả này, ta có:

 Số lượng từ tách được (khi chưa phân loại từ dừng) là: 141.  Số lượng từ thực tế: 159.

 Số lượng từ tách đúng: 139.  Số lượng từ tách sai: 3.

 Số lượng từ không tách được: 19.

 Số lượng từ sau khi đã loại bỏ từ dừng: 57.

Từ đó, ta tính các tham số đánh giá hiệu năng tách từ:

 Precision = số từ tách đúng/số từ tách được = (139/141).100% = 98.58%.  Recall = số từ tách đúng/số từ thực tế = (139/159).100% = 87.42%.  Tỷ số tách sai/số từ tách được = (3/141).100% = 2.13%  Tỷ số từ không tách được/số từ thực tế = (19/159).100% = 11.95%.  Tỷ số đã loại từ dừng/số từ tách được = (57/141).100% = 40.43% 4.3.2.3 Đánh giá về chức năng tách từ

Qua nhiều ví dụ tổng hợp và nhiều lần thực nghiệm với các văn bản khác nhau, có thể có một số nhận xét đối với module tách từ như sau:

 Chương trình nhìn chung có chất lượng tách từ khá tốt: Tốc độ tách từ trung bình đạt 388 (KB/s), độ chính xác phân tách từ: 95% - 97%. Tuy nhiên, tuỳ thuộc vào nội dung văn bản mà việc tách từ cho văn bản đó có xảy ra nhập nhằng (phân tách sai hoặc không tách được). Với các văn bản thuộc các chuyên ngành có nhiều từ mượn (như Công nghệ thông tin) thì số từ không tách được sẽ nhiều hơn. Còn các văn bản thuộc các chuyên ngành có nhiều tên riêng (ví dụ Du lịch) thì số từ tách sai sẽ tăng lên.

 Từ điển có vai trò quan trọng đối với hiệu quả tách từ của chương trình, do đó với những từ mượn nước ngoài nhưng quan trọng, xuất hiện nhiều trong những văn bản chuyên ngành (ví dụ internet trong chủ đề Công nghệ thông tin) thì cần bổ sung vào từ điển. Do hiệu quả của chương trình phụ thuộc rất nhiều vào từ điển mà chương trình sử dụng, vì thế ta có thể loại bỏ bớt một số từ trong từ điển mà là những từ đã quá cổ, từ rất hiếm khi dùng trong thực tế để có thể giảm thiểu những trường hợp nhập nhằng không đáng có, làm tăng độ chính xác cho quá trình tách từ khoá.

 Việc loại từ dừng làm giảm đáng kể số lượng từ trong văn bản, loại đi những từ hầu như không có ý nghĩa quan trọng đối với quá trình xử lý văn bản.

4.2.4 Thực nghiệm phân loại văn bản với SVMs

Trong phần lý thuyết đã nêu rõ ý nghĩa của việc chọn lựa các hàm trích chọn đặc trưng (IG, Chi-square). Vì vậy, để có thể đánh giá ý nghĩa và vai trò của các tham

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 55/67

số, ta cần thực nghiệm với nhiều bộ tham số, trên nhiều bộ cơ sở dữ liệu kiểm tra khác nhau để đánh giá hiệu quả phân loại văn bản của chương trình.

Do mỗi trang báo điện tử có cách tạo chủ đề văn bản khác nhau, nên ta sẽ tiến hành huấn luyện và kiểm tra trên tập dữ liệu của cùng một trang, nhằm đảm bảo tính đúng đắn của quá trình thực nghiệm và đưa ra những đánh giá chính xác về chương trình.

Để tiện cho việc theo dõi quá trình thực nghiệm, ta quy ước các ký hiệu như sau:

 Ntrain: số lượng văn bản của tập dữ liệu huấn luyện.  Ntest: số lượng văn bản của tập dữ liệu kiểm tra.  Pre: độ chính xác (Precision).

 Re: độ bao (Recall).

4.2.4.1 Thực nghiệm quá trình trích chọn tập đặc trƣng

Trong phần thiết kế chương trình đã trình bày chi tiết về hai kỹ thuật lựa chọn tập từ khoá đặc trưng biểu diễn văn bản, đó là: IG và Chi-square. Theo các kỹ thuật này, việc chọn lựa một thuật ngữ làm đặc trưng sẽ phụ thuộc vào kết quả so sánh với các tham số ngưỡng:

 limitOccur – LO: ngưỡng giới hạn số văn bản chứa từ khoá tk.  limitInfoValue – LI: ngưỡng giá trị thông tin của từ khoá tk.

 IG hoặc Chi-square: lựa chọn hàm IG hoặc Chi-square để tính giá trị ước lượng thông tin.

Với các giá trị đầu vào như đã nêu, quá trình tạo tập đặc trưng sẽ được thử nghiệm trên các tập dữ liệu khác nhau nhằm đánh giá hiệu quả của nó đối với phương pháp SVMs.

Thử nghiệm với bộ dữ liệu báo Vietnamnet, gồm các chủ đề: chính trị, khoa học, kinh tế, và thể thao. Quá trình trích chọn được thử nghiệm với các bộ huấn luyện có kích thước tăng dần, sau đây là các kết quả thu được:

Bảng 4-3: Kết quả thực nghiệm trích chọn tập đặc trưng trên báoVietnamnet.

Ntrain 83 129 168 208 246 IG LO = 3 LI = 0.005 1173 1601 1890 2206 2365 LO = 3 LI = 0.01 1119 1409 1452 1575 1587 Chi- square LO = 3 LI = 0.005 350 252 226 249 254 LO = 3 LI = 0.01 173 134 113 125 123 Nhận xét:

Dựa vào các kết quả trích chọn tập đặc trưng trong Bảng 4-3, ta có nhận xét như sau:

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 56/67

- Trên cùng tập dữ liệu huấn luyện, khi ngưỡng LI (tương tự với LO) tăng thì số thuật ngữ đặc trưng tách được sẽ giảm (đều xảy ra trên cả hai kỹ thuật IG và Chi-square).

- Số lượng từ tách theo hàm Chi-square nhỏ hơn rất nhiều so với hàm IG. - Đặc biệt khi tăng ngưỡng LI (tương tự với LO), số lượng từ tách theo Chi-

square sẽ giảm nhanh hơn so với lượng từ tách theo IG.

Việc tăng tham số ngưỡng trích chọn ảnh hưởng như thế nào tới chất lượng của chương trình phân loại? Điều này, sẽ được giải đáp qua phần thực nghiệm tiếp theo.

Chọn CSDL báo VnExpress, gồm dữ liệu huấn luyện: 180 bài.  Công nghệ thông tin: 44 bài.

 Khoa học: 40 bài.  Thể thao: 50 bài.  Y tế: 46 bài.

Dữ liệu kiểm tra: 80 bài.

 Công nghệ thông tin: 19 bài.  Khoa học: 15 bài.

 Thể thao: 18 bài.  Y tế: 28 bài.

Giả sử, chọn hàm Chi-square để thực hiện trích chọn, tiến hành huấn luyện và kiểm tra hiệu năng thực thi chương trình, ta có kết quả như sau:

Với: LO= 3, LI= 0.005:

 Thời gian huấn luyện: 8 phút.  Pre (trung bình) = 0.931.  Re (trung bình) = 0.891. Với LO = 3, LI = 0.01:

 Thời gian huấn luyện: 5 phút.  Pre (trung bình) = 0.952.  Re (trung bình) = 0.936.

Nhận xét:

Việc thu nhỏ tập đặc trưng ở đây không những đã làm giảm không gian biểu diễn văn bản, giảm chi phí thời gian huấn luyện, mà còn làm tăng chất lượng phân loại của chương trình.

Tuy nhiên, qua nhiều lần thực nghiệm nhận thấy, việc thu nhỏ kích thước tập đặc trưng chỉ thoả mãn khi đạt đến ngưỡng nhất định, thường cặp thông số (LO = 3,

LI = 0.01) dành cho cả hai hàm IG và Chi-square sẽ cho kết quả tối ưu, nếu không sẽ có hiệu quả ngược lại (vì khi đó sẽ loại bỏ mất nhiều từ có ý nghĩa quan trọng trong không gian huấn luyện).

4.2.4.2 Thực nghiệm đánh giá hiệu năng phân loại đa lớp

Trong các phần trước đã chỉ ra các bộ tham số huấn luyện tối ưu đạt được với chương trình. Sau đây ta sẽ tiến hành kiểm thử đánh giá một cách tổng quan đối với chương trình phân loại theo phương pháp SVMs trên các tập dữ liệu văn bản tiếng Việt.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 57/67

Để đánh giá hiệu năng của chương trình phân loại SVMs một cách đúng đắn, quá trình thực nghiệm phân loại đa lớp sẽ được kiểm tra theo chiến thuật sau:

 Ta chia bộ dữ liệu kiểm tra thành 10 tập con có kích thước tương đương.  Tiến hành lặp 10 lần huấn luyện và đánh giá hiệu năng trên các tập con.  Mỗi lần thực hiện ta sẽ lấy 9 phần làm dữ liệu huấn luyện, 1 phần sẽ làm dữ

liệu kiểm tra.

 Ghi nhận kết quả thực hiện phân loại trong mỗi lần.

 Sau đó, đưa ra kết quả đánh giá hiệu năng trung bình của chương trình.

Trƣờng hợp 1: test với CSDL báo Vietnamnet với dung lƣợng 1.46 MB gồm các chủ đề.

 Chính trị: 54 bài.  Khoa học: 46 bài.  Kinh tế: 66 bài.  Thể thao: 70 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.005). Bảng 4-4: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Vietnamnet

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung bình Pre 0.844 0.902 0.969 0.894 0.894 0.944 0.964 0.933 0.85 0.933 0.913 Re 0.779 0.864 0.95 0.867 0.867 0.917 0.964 0.914 0.764 0.914 0.88 Thời gian 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ Trƣờng hợp 2: test với CSDL báo VnExpress với dung lƣợng 1.49 MB, gồm các chủ đề.

 Công nghệ thông tin: 49 bài.  Khoa học: 49 bài.

 Thể thao: 50 bài.  Y tế: 50 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.01). Bảng 4-5: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo VnExpress

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung bình Pre 0.94 0.804 0.828 0.889 0.894 0.847 0.927 0.888 0.906 0.911 0.883 Re 0.925 0.796 0.825 0.871 0.879 0.846 0.925 0.9 0.913 0.925 0.881 Thời gian 5’ 5’ 5’ 4’ 4’ 4’ 4’ 4’ 4’ 4’ 4.3’ Trƣờng hợp 3: test với CSDL báo Hanoimoi với dung lƣợng 898 KB gồm các chủ đề.

 Chính trị xã hội: 35 bài.  Khoa học công nghệ: 40 bài.  Kinh tế: 30 bài.

 Sức khoẻ: 30 bài.  Thể thao: 30 bài.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 58/67

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.01). Bảng 4-6: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Hanoimoi

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung bình Pre 0.94 0.95 0.86 0.86 0.91 0.848 0.914 0.895 0.81 0.92 0.891 Re 0.92 0.92 0.85 0.84 0.87 0.827 0.887 0.88 0.76 0.867 0.862 Thời gian 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ Trƣờng hợp 4: test với CSDL báo Laodong với dung lƣợng 785 KB gồm các chủ đề.

 Khoa học: 35 bài.  Kinh tế: 40 bài.  Thể thao: 35 bài.  Văn hoá: 40 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares, (LO = 3, LI = 0.01). Bảng 4-7: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Laodong

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung bình Pre 0.906 0.85 0.938 0.929 0.92 0.838 0.917 0.958 0.95 0.905 0.911 Re 0.825 0.8 0.9 0.875 0.9 0.825 0.9 0.938 0.938 0.874 0.878 Thời gian 2’ 2’ 2’ 1’ 1’ 2’ 2’ 2’ 2’ 2’ 1.8’

Từ các kết quả thu được bên trên, ta có bảng kết quả tổng hợp đánh giá hiệu năng chương trình như sau:

Bảng 4-8: Tổng hợp kết quả phân loại đa lớp trên các bộ dữ liệu (báo Vietnamnet, VnExpress, Hanoimoi, Laodong)

Tên CSDL Tổng số bài Số lớp Kích thƣớc Thời gian Độ chính xác Độ bao

Các mô hình biểu diễn văn bản

Bài toán phân loại văn bản