Thử nghiệm trên tập dữ liệu tiếng Việt

Một phần của tài liệu Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng (Trang 76)

Với sự phát triển mạnh mẽ của Internet ở Việt Nam, bài toán phân loại văn bản tiếng Việt trở nên quan trọng và được quan tâm nhiều trong thời gian gần đây. Tuy nhiên tiếng Việt khác với tiếng Anh ở chỗ ranh giới giữa các từ không phải chỉ là những khoảng trắng và nó đòi hỏi phải xử lý tách từ trước. Bản thân bài toán tách từ trong tiếng Việt là bài toán khó và ảnh hưởng đến kết quả phân lớp. Khó khăn thứ hai là chưa có kho dữ liệu chuẩn cho tiếng Việt như Reuter, 20 Newsgroups9

trong tiếng Anh.

Luận án xây dựng bộ dữ liệu thử nghiệm gồm các bài báo lấy từ các tờ báo điện tử lớn như VnExpress10, Tuổi Trẻ11, Thanh Niên12 trong thời gian từ 1/2006 – 6/2006 và 9http://ai-nlp.info.uniroma2.it/moschitti/corpora.htm 10 http://www.vnexpress.net 11 http://www.tuoitre.com.vn

được phân chia thành các nhóm dựa trên các chủ đề đã có trên các trang trực tuyến này. Các chủ đề chung được chọn lọc từ các trang web này. Tập dữ liệu thử nghiệm (gọi là TC1) bao gồm 3900 tập tin văn bản được chia thành 7 chủ đề như trong Bảng 3.3. Văn bản có kích thước từ 1KB đến 15KB và số văn bản trong từng lớp >300 (theo [104], khi thực hiện thử nghiệm với số văn bản trong mỗi lớp từ 300 trở lên thì kết quả phân lớp giữa các phương pháp phân lớp khá tương đồng).

Khi áp dụng qui trình phân loại đã đề xuất lên tiếng Việt, luận án chọn lựa đơn vị „tiếng” tương ứng với khái niệm “thuật ngữ” khi biểu diễn đỉnh trong đồ thị dạng đơn giản. Với việc lựa chọn đơn vị “tiếng”, ta không cần thực hiện bước tách từ và vì vậy không bị phụ thuộc vào chất lượng của công cụ tách từ. Bên cạnh đó, biểu diễn văn bản bằng đồ thị quan tâm đến thông tin cấu trúc của văn. Sau khi tách câu, loại bỏ hư từ, xác định trọng số TF×IDF cho tiếng và giữ lại 90%13 số tiếng có trọng số cao và tạo tập “thuật ngữ” cho qui trình phân lớp, thì đồ thị có kích thước trung bình 45 đỉnh/đồ thị. Trong phụ lục B là ví dụ biểu diễn văn bản bằng đồ thị với đỉnh là “tiếng”.

Bảng 3.3. Tập dữ liệu thử nghiệm TC1 cho bài toán phân loại văn bản [CT9]

STT Tên chủ đề Số văn bản nhất (số từ) KTTL nhỏ nhất (số từ) KTTL lớn bình (số từ) KTTL trung

1 Khoa học 358 109 522 235 2 Kinh doanh 654 71 1141 254 3 Sức khỏe 315 57 630 237 4 Thể thao 759 88 1437 413 5 Văn hóa 522 55 900 278 6 Vi tính 457 63 817 198 7 Xã hội 835 32 1234 165 Tổng cộng 3900 32 1437 260

Ký hiệu: KTTL -kích thước của văn bản.

Các chỉ số độ phủ (recall), độ chính xác (precision) và chỉ số cân bằng giữa 2 độ đo trên - F1 (xem công thức trong phụ lục A.1) dùng để đánh giá kết quả phân loại. Luận án sử dụng phương pháp đánh giá chéo (k-fold cross-validation) để chạy thử nghiệm. Sau khi chia tập dữ liệu thành 10 phần, trong mỗi lần thử nghiệm, 9 phần (tương ứng với 90% số văn bản) dùng cho việc tạo tập huấn luyện và phần còn lại (10% số văn bản) là tập thử nghiệm.

Kết quả thử nghiệm phân loại tương ứng với độ đo Dice và độ đo Manhattan được trình bày trong Bảng 3.4.

Bảng 3.4. Kết quả thử nghiệm phân loại [CT3]

Tên chủ đề

Độ đo tƣơng tự Dice Độ đo tƣơng tự Manhattan

Độ phủ (Recall) Độ chính xác (Precision) Độ đo F1 Độ phủ (Recall) Độ chính xác (Precision) Độ đo F1 Khoa học 0.887 0.722 0.796 0.6 0.515 0.544 Kinh doanh 0.931 0.787 0.853 0.866 0.813 0.839 Sức khỏe 0.639 0.875 0.739 0.62 0.721 0.667 Thể thao 0.873 0.968 0.918 0.86 0.896 0.878 Văn hóa 0.798 0.941 0.864 0.8 0.909 0.851 Vi tính 0.717 0.865 0.784 0.615 0.767 0.683 Xã hội 0.792 0.933 0.857 0.65 0.915 0.76 Trung bình 0.805 0.87 0.83 0.716 0.791 0.746

Bộ phân lớp của qui trình đề xuất dùng độ đo tương tự Dice cho kết quả tốt hơn bộ phân lớp dùng độ đo Manhattan. Đó có thể là do bản chất của độ đo Manhattan, đặc biệt trong cách tính độ đo này. Độ đo Manhattan chỉ tính sự khác biệt của đặc trưng giữa hai vectơ, trong khi độ đo Dice xác định số lượng đặc trưng giống nhau ở cả hai vectơ. Hình 3.10 thể hiện biểu đồ so sánh kết quả phân loại theo độ đo Precision, Recall khi dùng độ đo tương tự Dice và Manhattan tương ứng.

Hình 3.10. So sánh kết quả phân loại dùng độ đo Dice và Manhattan [CT3]

Theo [84], [104], thuật toán k-láng giềng gần nhất (k-NN) là một trong những kỹ thuật phân lớp đơn giản, áp dụng phổ biến vào phân loại văn bản và có độ chính xác không thua kém thuật toán SVM. Luận án cài đặt hệ thống VSM (Vector Space Model) sử dụng thuật toán k-NN trên mô hình không gian vectơ với độ đo Cosine [80]. Trong bước tiền xử lý của VSM, luận án sử dụng công cụ tách từ tiếng Việt của nhóm VCL [27] với độ chính xác 97.72%. Công cụ tách từ này là sự kết hợp của hai phương pháp: phương pháp so khớp cực đại dựa trên từ điển và phương pháp máy

0.0 0.2 0.4 0.6 0.8 1.0 Khoa học Kinh doanh Sức khoẻ Thể thao Văn hóa Vi tính Xã hội P re c is io n

Độ đo Manhattan Độ đo Dice

0.0 0.2 0.4 0.6 0.8 1.0 Khoa học Kinh doanh Sức khoẻ Thể thao Văn hóa Vi tính Xã hội R e c a ll

trong tiếng Việt. Sau khi tách từ, VSM xây dựng tập đặc trưng là tập các từ trong văn bản. Tiếp theo, luận án áp dụng phương pháp TF×IDF tính trọng số cho từng đặc trưng. Phương pháp chọn lựa đặc trưng sử dụng độ lợi thông tin (Information gain) cũng được áp dụng cho mô hình không gian vectơ nhằm nâng cao chất lượng phân loại. Bên cạnh đó, luận án cũng thử nghiệm phương pháp lai của tác giả [62] với thuật toán k-NN và độ đo tương tự Manhattan. Phương pháp lai sử dụng cả dạng biểu diễn bằng đồ thị và vectơ. Trong phương pháp này, vectơ nhị phân biểu diễn từng văn bản dựa trên tập đồ thị con phổ biến. Bảng 3.5 trình bày kết quả phân loại tốt nhất của các hệ thống cài đặt theo những phương pháp kể trên theo độ đo F1 và khoảng tin cậy 95% của kết quả phân loại. Trong bảng này, TCG là ký hiệu hệ thống dựa trên qui trình phân loại mà luận án đề xuất. Bằng phương pháp kiểm định giả thiết thống kê (xem phụ lục C), có thể kết luận: ở mức ý nghĩa 5%, kết quả phân loại của TCG tốt hơn VSM và Hybrid ít nhất là 10%.

Bảng 3.5. So sánh kết quả phân loại theo giá trị F1 trung bình [CT6]

Hệ thống

Mô hình biểu

diễn văn bản Mô tả phƣơng pháp

Giá trị F1 trung bình

Khoảng tin cậy 95% VSM Mô hình không gian vectơ k-NN, độ đo tương tự Cosine 0.708 [0.6937, 0.7223] Hybrid Mô hình lai giữa đồ thị và vectơ k-NN, độ đo tương tự Manhattan, “từ” tạo thành đỉnh của đồ thị 0.716 [0.7018, 0.7302] TCG Mô hình đồ thị đơn giản

Độ đo tương tự Dice, đỉnh đồ thị tạo từ đơn vị “tiếng”

0.831 [0.8192, 0.8428]

Hình 3.11 là đồ thị so sánh kết quả phân loại của các hệ thống TCG, Hybrid và VSM trên chủ đề theo độ đo F1. Kết quả của hệ thống TCG dựa trên qui trình phân loại đã đề xuất dùng độ đo Dice trên tập dữ liệu tiếng Việt này cho kết quả tốt nhất.

Trong Bảng 3.6 là tổng thời gian huấn luyện tập văn bản TC1 và thời gian phân loại văn bản trung bình (tính từ thời điểm tiền xử lý văn bản mới cho đến khi phân

lớp hoàn tất) trên máy tính Intel Core Duo 2.56Ghz, 2GB RAM. Thời gian huấn luyện bao gồm:

 Thời gian tiền xử lý dữ liệu.

 Thời gian xây dựng đồ thị biểu diễn văn bản (đối với mô hình VSM thì không có bước này).

 Thời gian xác định tập đặc trưng từ đồ thị (dành cho TCG và Hybrid) hoặc từ tập văn bản (dành cho VSM).

 Thời gian xây dựng vectơ biểu diễn cho chủ đề (cho TCG) hoặc vectơ biểu diễn văn bản (cho Hybrid và VSM).

Hình 3.11. So sánh kết quả phân loại theo chủ đề [CT3]

Thời gian huấn luyện của TCG là nhỏ nhất mặc dù tốn phần lớn thời gian vào quá trình xây dựng đồ thị biểu diễn văn bản so với VSM, nhưng tập đặc trưng rút ra từ đồ thị có kích thước nhỏ hơn rất nhiều so với tập đặc trưng của mô hình không gian vectơ VSM (931 đặc trưng của TCG so với 20608 đăc trưng của VSM). Nhờ các cải tiến của gSpan cũng như đặc điểm của đồ thị biểu diễn văn bản mà thời gian rút trích đặc trưng từ đồ thị rất nhỏ. Vì vậy thời gian của các bước xác định đặc trưng, cũng như xây dựng vectơ biểu diễn văn bản của VSM lớn hơn nhiều so với thời gian thực

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Khoa học Kinh doanh Sức khoẻ Thể thao Văn hóa Vi tính Xã hội

Đ đ o F 1 VSM Hybrid TCG

TCG do tốn nhiều chi phí hơn cho việc xây dựng tập vectơ biểu diễn văn bản thay vì chỉ xây dựng tập vectơ biểu diễn chủ đề như TCG. Thời gian phân loại trung bình một văn bản của TCG cũng giảm rõ rệt so với các hệ thống còn lại do kích thước nhỏ của tập đặc trưng cũng như nhờ phương pháp so sánh theo chủ đề.

Bảng 3.6. So sánh thời gian huấn luyện và phân loại văn bản

Hệ thống

Mô hình biểu diễn văn bản

Tổng thời gian huấn

luyện tập văn bản

(giây)

Thời gian phân loại

trung bình một văn bản (giây) TCG Mô hình đồ thị đơn giản 18.8 2.55 × 10 -3 VSM Mô hình không gian vectơ 25.7 6.06 × 10-2

Hybrid Mô hình lai giữa

đồ thị và vectơ 19.6 1.74 × 10-2

3.5 Kết luận

Trong chương 3, luận án đã trình bày qui trình phân loại văn bản dựa trên biểu diễn đồ thị kết hợp kỹ thuật gSpan cải tiến. Mô hình không gian vectơ là phương pháp biểu diễn văn bản phổ biến. Tuy nhiên mô hình không gian vectơ chỉ tập trung vào tần suất xuất hiện của từ và không nắm bắt được các thông tin cấu trúc như thứ tự, vị trí và sự đồng hiện của từ trong văn bản.

Qui trình phân loại đề xuất sử dụng mô hình đồ thị đơn giản để biểu diễn văn bản. Mô hình đồ thị đã giải quyết hạn chế của biểu diễn vectơ nhờ tận dụng được các thông tin cấu trúc văn bản như vị trí, thứ tự xuất hiện của từ trong văn bản, đồng thời làm giảm sự phụ thuộc vào chất lượng công cụ tách từ trong ngôn ngữ tiếng Việt.

Nhằm tăng tốc độ xử lý khi làm việc với biểu diễn đồ thị, qui trình phân loại sử dụng kỹ thuật khai thác đồ thị con phổ biến để rút trích các đặc trưng đồ thị. Sau đó các đặc trưng này dùng để xây dựng tập vectơ đại diện lớp và tham gia vào bộ phân loại.

Luận án đã phân tích các đặc điểm của các thuật toán tìm đồ thị con phổ biến nói chung, gSpan nói riêng và từ đó đề xuất một số cải tiến để có thể áp dụng gSpan trên tập đồ thị biểu diễn văn bản có hướng. Cụ thể là bổ sung thêm giá trị hướng cạnh vào trong mã DFS, đề xuất định nghĩa thứ tự từ điển trên mã DFS và đưa ra các lưu ý khi phát triển đồ thị con.

Luận án chọn thử nghiệm qui trình phân loại đề xuất trên tập dữ liệu email Enron và tập dữ liệu tin tức tiếng Việt. Kết quả thử nghiệm trên tập email Enron cho thấy biểu diễn đồ thị đơn giản thích hợp hơn đồ thị hình sao khi biểu diễn email. Các kết quả phân loại trên tập tin tức tiếng Việt của TCG tốt hơn phương pháp k-NN trên mô hình không gian vectơ, cũng như trên mô hình biểu diễn lai giữa đồ thị và vectơ. Độ chính xác phân loại trên cả hai bộ dữ liệu chứng minh độ đo tương tự Dice phù hợp hơn các độ đo khác khi xác định lớp cho văn bản mới. Thời gian huấn luyện cũng như phân loại của TCG cũng nhanh hơn mô hình không gian vectơ và mô hình lai.

Chương 4

Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị

4.1 Giới thiệu

Gom cụm văn bản là một trong những bài toán quan trọng của khai thác dữ liệu văn bản, bên cạnh những bài toán khác như phân loại văn bản, tóm tắt văn bản, rút trích thông tin. Gom cụm là quá trình phân chia tập văn bản thành những cụm chủ đề khác nhau. Bài toán này được đặt ra do nhu cầu cần tổ chức, truy vấn thông tin nhanh chóng, chính xác.và có thể hỗ trợ tìm kiếm các láng giềng gần nhất của một văn bản, cải thiện độ chính xác và độ phủ của của các hệ thống truy vấn thông tin, hướng dẫn duyệt trên tập văn bản lớn, hay tổ chức những kết quả trả về của công cụ tìm kiếm, phát sinh các cụm phân cấp dùng để phân loại văn bản mới (tương tự như sự phân loại văn bản Web của Yahoo), …[87].

Phần lớn các phương pháp gom cụm văn bản dựa trên mô hình biểu diễn không gian vectơ và áp dụng các thuật toán gom cụm khác nhau lên mô hình này. Gom cụm phân cấp và thuật toán k-means với các biến thể của nó là những phương pháp được sử dụng phổ biến nhất [87]. Một đặc điểm chung ở các nghiên cứu nói trên là đều dựa trên mô hình túi từ hoặc không gian vectơ biểu diễn văn bản và chỉ tập trung giải quyết bài toán gom cụm cho những tập văn bản cố định, không có sự thay đổi trong phân bố dữ liệu hay cấu trúc cụm theo thời gian. Khi có sự thay đổi, chẳng hạn thêm vào các văn bản mới, thuật toán phải tái gom cụm trên toàn bộ tập dữ liệu và cập nhật cấu trúc cụm. Theo đó, hướng tiếp cận này rất tốn thời gian, thậm chí không khả thi nếu khối lượng văn bản lớn và thi hành chậm so với yêu cầu cần cập nhật cấu trúc cụm thường xuyên, chẳng hạn như khi cần phát hiện các thay đổi của phân bố dữ liệu trong lĩnh vực dịch vụ tài chính nhằm đưa ra các quyết định dựa trên phân bố dữ liệu hiện thời. Trong điều kiện này, chúng ta cần một phương pháp có khả năng xử lý trên văn bản ngay khi nó xuất hiện, nghĩa là quá trình gom cụm chỉ nên tiến hành trên

những văn bản mới, thay vì trên toàn bộ tập văn bản mà vẫn cho hiệu quả tương đương hoặc gần tương đương với các phương pháp truyền thống nói trên. Đây cũng chính là mục tiêu của các phương pháp gom cụm trên tập văn bản có biến động [98].

Luận án tập trung vào gom cụm tập văn bản có biến động – tập văn bản có tăng thêm văn bản, không có giảm đi và thay đổi các văn bản đã có (gọi tắt là gom cụm văn bản động) và đề xuất tiếp cận kết hợp biểu diễn đồ thị và thuật toán Incremental DBSCAN cải tiến. Qui trình gom cụm động đề xuất sử dụng cùng dạng đồ thị đơn giản như trong bài toán phân loại để biểu diễn văn bản do mô hình đồ thị tận dụng được các thông tin cấu trúc văn bản và đồ thị đơn giản cũng đã chứng minh được tính hiệu quả khi áp dụng trong qui trình phân loại văn bản. Do đặc điểm dữ liệu thay đổi liên tục nên không thể áp dụng chung các kỹ thuật hay độ đo đã đề xuất trong qui trình phân loại văn bản của chương 3 vào bài toán gom cụm văn bản động. Bản chất tập dữ liệu huấn luyện trong bài toán phân loại văn bản là tập dữ liệu tĩnh vì vậy các thuật toán, kỹ thuật áp dụng trên tập dữ liệu tĩnh khi chuyển sang tập dữ liệu biến động đòi hỏi tái thực thi mỗi khi có sự thay đổi trong dữ liệu và dẫn đến hiệu quả thời gian thực thi rất thấp. Chính vì vậy với mục tiêu giải quyết hiệu quả bài toán gom cụm văn bản động, luận án nghiên cứu, đề xuất mô hình phù hợp với tính chất biến động của dữ liệu.

Trước hết, tiếp cận đồ thị biểu diễn văn bản được lựa chọn vì nó có thể khắc phục một số nhược điểm của biểu diễn vectơ truyền thống. Các thông tin cấu trúc của văn

Một phần của tài liệu Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng (Trang 76)

Tải bản đầy đủ (PDF)

(162 trang)