1 Tổng quan Ứng dụng Phân loại văn PHÂN LOẠI TIN TỰ ĐỘNG CHO BÁO ĐIỆN TỬ Phân loại tài liệu thư viện Phân loại trình tác nghiệp báo điện tử Phân chia xếp lại luận văn, đồ án trường Đại học Bộ máy tìm kiếm muốn phân chia tài liệu trả thành chuyên mục Æ người đọc dễ nắm bắt nội dung ban đầu kết tìm Tổng quan Tổng quan Sơ đồ minh họa trình phân loại Ứng dụng “Phân loại tin tự động cho báo điện tử” nhằm tìm hiểu thử nghiệm phương pháp phân loại văn áp dụng Tiếng Việt Mô hình hóa VB Document Vector VB cần ầ phân lớp Tính độ Kết hợp hai phương pháp chứng minh có hiệu cao để giải hai toán khác Phân loại Lập nhóm văn Æ đề xuất mô hình cải tiến, phù hợp với toán tương tự Kết luận phân nhóm Pha lập nhóm Vector trọng tâm nhóm Các VB mẫu phân lớp Kết luận phân loại Các phương pháp thực Các phương pháp thực (tiếp) Pha lập nhóm Các VB mẫu phân lớp Pha lập nhóm Tại cần sử dụng phương pháp lập nhóm văn dựa thuật ngữ xuất thường xuyên ? Vector trọng tâm ỗi nhóm hó Pha lập nhóm thực trước, cách “offline” Æđể xác định vector trọng tâm cho nhóm thông tin truy hồi Kỹ thuật lập nhóm phù hợp với yêu cầu “offline”, thuật toán áp dụng cho phương pháp có độ xác cao thời gian xử lý chậm hậ chi hi phí hí lớn, lớ h khô cần không ầ thiết lắ xử lý offline ffli Thuật ngữ thường xuyên thuật ngư xuất nhiều lần văn tập văn bản, thuật ngữ phải có ý nghĩa, chúng đại diện cho nội dung toàn văn Các thuật ngữ thường xuyên tạo tảng việc khai thác quy tắc kết hợp Làm giảm số chiều vector biểu diễn tài liệu Apriori: Loại bỏ dựa độ hỗ trợ Giảm bớt số lượng tập mục cần xét Nguyên tắc giải thuật Apriori – Loại bỏ (prunning) dựa độ hỗ trợ null A Nếu tập mục thường xuyên, tất tập (subsets) tập mục thường xuyên Nếu tập mục không thường xuyên (not frequent), tất tập cha (supersets) tập mục không thường xuyên Tập mục không thường xuyên D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ∀X ,Y : ( X ⊆ Y ) ⇒ s( X ) ≥ s(Y ) Các tập cha tập mục (AB) bị loại bỏ ABCE ABDE ACDE BCDE Độ hỗ trợ tập mục nhỏ độ hỗ trợ tập Khai Phá Dữ Liệu C Nguyên tắc giải thuật Apriori dựa đặc tính không đơn điệu (anti-monotone) độ hỗ trợ B ABCDE Khai Phá Dữ Liệu Các phương pháp thực (tiếp) Các phương pháp thực (tiếp) Bước : Giải thuật Apriori – tính toán tập thuật ngữ thường xuyên Giải thuật Apriori Biến Ck: Các tập thuật ngữ ứng cử mức k Biến Lk: Các tập thuật ngữ thường xuyên mức k L1 = {Các thuật ngữ thường xuyên mức 1}; For (k=1; Lk!=Ø; k++) Begin // Lặp lại thêm tập mục thường xuyên //Bước kết hợp: Kết hợp Lk với thân để tạo Ck+1 //Bước cắt tỉa: Loại bỏ (k+1)-itemsets từ Ck+1 chứa k-itemsets không thường xuyên Ck+1 = ứng cử viên tạo từ Lk For tài liệu t tập văn Tăng số lượng tất ứng cử viên Ck+1 có chứa t Lk+1 = ứng cử viên Ck+1 có GS > min_support End Return Lk Bước : sử dụng thuât toán FIHC để phân nhóm tập thuật ngữ thường xuyên (Frequent Item-based Hierarchical Clustering) Thuật toán FIHC bao gồm hai giai đoạn : Xây dựng Cluster khởi tạo Dựng Cluster 10 3.Chương trình thực nghiệm 3.Chương trình thực nghiệm Mô hình Phần tiền xử lý văn Phần tiền xử lý văn làm công việc tách thuật ngữ, phân tích tổ chức liệu, tổ chức từ điển Pha lập nhóm văn bản, sử dụng thuật toán Apriori FIHC Tách thuật ngữ tiếng Việt : Sử dụng thuật toán đối sánh thuật ngữ dài từ bên phải qua Ví dụ : Ban công tác xác định vấn đề Khi sử dụng thuật toán từ phải qua, ta tách xác câu Kết sau : vấn đề, được, xác định, đã, công tác, ban Và ta cần đảo ngược lại thứ tự Khi phân loại văn ứng dụng việc đọc thông tin vector trọng tâm, so sánh với văn đầu vào vector hóa Æ định phân loại 11 12 3.Chương trình thực nghiệm 3.Chương trình thực nghiệm Phần tiền xử lý văn Phân tích tổ chức liệu: Xây dựng File đầu vào Phân tích tổ chức liệu: (1) Tổ chức từ điển dạng cấu trúc sau: Ví dụ nội dung file ClassID.txt 1 File ClassID.txt file chứa ID tên class, tạo cách duyệt qua tất thư mục thư mục chứa tập văn mẫu 0: Dulich 1: Giaoduc 2: Oto xe may 3: Suckhoe 4: The thao 5: Vitinh 6: Kinhdoanh 13 14 3.Chương trình thực nghiệm 3.Chương trình thực nghiệm File ThreeLine.txt chứa thông số chung trình lập nhóm, gồm dòng: Tổng số nhóm phân từ tập văn mẫu Số lớp ( số thư mục ) tập văn mẫu mẫu Số lượng nhóm phân bổ vào lớp tương ứng bên file ClassID.txt Ví dụ nội dung file ThreeLine.txt : 174 20 22 22 16 27 14 14 39 File InputForYou.txt chứa vectơ trọng tâm tất nhóm, vectơ / dòng Thông tin dòng Số văn ăn th thuộc ộc nhóm/vectơ nhóm/ ectơ trọng tâm đó; ID lớp mà nhóm thuộc về; ID nhóm lớp; Các cặp (Term ID – Trọng số) thể cho chiều vector trọng tâm 15 16 Đánh giá kết Đánh giá kết Xây dựng mẫu kiểm thử Tập kiểm thử xây dựng từ báo thuộc lĩnh vực khác báo điện tử VnExpress (http://www.vnexpress.net) (http://www vnexpress net) Dữ liệu kiểm thử 56 tin VNExpress thuộc chủ đề Giáo dục, Du lịch, Kinh doanh, Ô tô xe máy, Thể Thao, Pháp luật, Vi Tính, Sức khoẻ (theo phân chia chủ đề báo) ghi lại theo chủ đề từ trước Mô hình cải tiến đạt độ xác cao Dữ liệu nói chung tối ưu Các chức g ợ phân p tách rõ ràng g làm g giảm chi phí p tài nguyên tăng tốc độ phân lớp lên nhiều Hai thuật toán Apriori, FIHC đạt độ xác cao chưa ổn định Độ xác : 94,64% 17 18 Hướng phát triển Các thuật toán Apriori, FIHC cài đặt để sử dụng thời gian xử lý “offline” chi phí tính toán lớn Æ cải tiến thuật toán để giảm chi phí lập nhóm Việc tiền ề xử lý văn xử lý thống ố ấ font chữ, định dạng file đầu vào đặc biệt trình tách thuật ngữ có ảnh hưởng quan trọng hệ thống xử lý văn nói chung ứng dụng phân loại tin tự động nói riêng Đây vấn đề cần nghiên cứu sâu đưa giải thuật tốt 19 ... công tác, ban Và ta cần đảo ngược lại thứ tự Khi phân loại văn ứng dụng việc đọc thông tin vector trọng tâm, so sánh với văn đầu vào vector hóa Æ định phân loại 11 12 3.Chương trình thực nghiệm 3.Chương... (Term ID – Trọng số) thể cho chiều vector trọng tâm 15 16 Đánh giá kết Đánh giá kết Xây dựng mẫu kiểm thử Tập kiểm thử xây dựng từ báo thuộc lĩnh vực khác báo điện tử VnExpress (http://www.vnexpress.net)... biệt trình tách thuật ngữ có ảnh hưởng quan trọng hệ thống xử lý văn nói chung ứng dụng phân loại tin tự động nói riêng Đây vấn đề cần nghiên cứu sâu đưa giải thuật tốt 19