Phân loại văn bản bằng phương pháp cây quyết định

91 17 0
Phân loại văn bản bằng phương pháp cây quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA - NGUYỄN MINH QUANG PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP CÂY QUYẾT ĐỊNH Chuyên ngành : CÔNG NGHỆ THÔNG TIN Mã số ngành : 01.02.10 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 04 năm 2004 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: Phó giáo sư, Tiến só PHAN THỊ TƯƠI Cán chấm nhận xét 1: Tiến só DƯƠNG TUẤN ANH Cán chấm nhận xét 2: Tiến só NGUYỄN XUÂN DŨNG Luận văn thạc só bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 04 tháng 06 năm 2004 Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc -oOo - NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Nguyễn Minh Quang Ngày, tháng, năm sinh : 18/01/1972 Chuyên ngành : Công Nghệ Thông Tin Phái : Nam Nơi sinh : Hà Nội Mã số : 01.02.10 I TÊN ĐỀ TÀI Phân loại văn phương pháp định II NHIỆM VỤ VÀ NỘI DUNG: Xây dựng mô hình phân loại cho văn tiếng Việt dựa vào xác suất thống kê, cụ thể sử dụng giải thuật định Việc phân loại dựa nội dung văn để gán văn vào chủ đề định nghóa sẵn Một văn thuộc lúc nhiều chủ đề không thuộc chủ đề cho trước III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương) 01/06/2003 IV NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận án tốt nghiệp) 04/06/2004 V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN Phó giáo sư, Tiến só Phan Thị Tươi Cán hướng dẫn PGS, TS Phan Thị Tươi Chủ nhiệm ngành Bộ môn quản lý ngành TS Dương Tuấn Anh Nội dung đề cương luận văn thạc só Hội Đồng Chuyên Ngành thông qua Ngày PHÒNG ĐÀO TẠO SĐH tháng năm 2004 KHOA QUẢN LÝ NGÀNH Lời cám ơn Đầu tiên xin bày tỏ lòng biết ơn sâu sắc đến PGS, TS Phan Thị Tươi, người trực tiếp hướng dẫn hoàn thành đề tài Mặc dù bận PGS, TS Phan Thị Tươi nhiệt tình dẫn, góp ý, cung cấp tài liệu cho Tôi xin cám ơn thầy cô khoa Công Nghệ Thông Tin trường Đại Học Bách Khoa TPHCM truyền đạt kiến thức, kinh nghiệm quý báu cho suốt trình học tập khoa Tôi xin cám ơn bạn học viên lớp cao học CNTT K12 động viên, giúp đỡ, góp ý cho việc hoàn thành đề tài Mặc dù cố gắng để hoàn thành đề tài thời gian có hạn nên chắn đề tài có hạn chế, sai sót Để đề tài hoàn thiện mong nhận góp ý quý Thầy Cô bạn bè Tóm tắt nội dung Phân loại văn gán văn vào chủ đề định nghóa trước Một văn thuộc nhiều chủ đề Hiện lượng thông tin, văn có từ mạng Internet mạng nội ngày đồ sộ Để chọn lọc, tìm kiếm, phân loại thông tin, văn này, cần phải có công cụ hữu hiệu Đó công cụ tự động phân loại văn dựa xác suất thống kê Công cụ nhà nghiên cứu xây dựng thử nghiệm ngôn ngữ tiếng Anh Trong luận văn này, tác giả xây dựng mô hình phân loại văn cho ngôn ngữ tiếng Việt Về chất, ngôn ngữ tiếng Việt khác so với ngôn ngữ tiếng Anh Đó ngôn ngữ tiếng Việt tồn nhiều từ kép, từ ba, từ bốn như: tạp chí, đủng đỉnh, bất thình lình, tư chủ nghóa, Việc nhận dạng từ văn tương đối khó, phải dựa vào xác suất thống kê lượng văn lớn Ngoài vấn đề phân đoạn từ ngôn ngữ tiếng Việt vấn đề khó cần phải giải Với cách phân đoạn từ khác nhau, câu hiểu theo nhiều nghóa khác Giải thuật tác giả lựa chọn để phân loại văn giải thuật định Đây giải thuật có độ xác cao, thời gian phân loại văn nhanh Giải thuật sử dụng rộng rãi lónh vực trí tuệ nhân tạo Tác giả xây dựng thành công việc phân loại văn tiếng Việt cho hai chủ đề Tin học Viễn thông Các thông số độ xác giải thuật đạt cao so sánh với giải thuật tương tự xây dựng cho văn tiếng Anh tác giả Joachims, Weiss, Yang Abstract Text categorization is the assignment of text documents to predefined categories One document can belong to one or more categories Nowadays, the volume of information, documents from the Internet or from Local Area Network continues to increase rapidly For better filtering, sorting, finding document, there is a need to have an effective tool This tool is the automatic text categorization based on statistic probability This tool has been researched and built for English language documents In this thesis, the author manage to build a text categorization model for Vietnamese language documents Basically, Vietnamese language quite differs from English language Vietnamese language has many words with two, three and four syllables such as: tạp chí, đủng đỉnh, bất thình lình, tư chủ nghóa, To recognize these words, one must base on statistic probability on a large amount of documents Besides that, segmentation in Vietnamese language is another difficult problem to be sold Different segmentations of a sentence lead to different meanings In this thesis, decision tree algorithm has been selected for text categorization This algorithm is accurate and fast for text categorization In artificial intelligence, this algorithm has been widely used The author has successfully built the algorithm for text categorization in two subjects: Informatics and Telecommunications The accuracy of this algorithm is rather high in compare with other similar algorithms built for English language documents of some authors such as Joachims, Weiss, Yang DANH SÁCH HÌNH Phần Trang Phần Hình 2.1 Hình 2.2 14 Hình 2.3 19 Phần Hình 3.1 33 Hình 3.2 34 Hình 3.3 36 Hình 3.4 39 Hình 3.5 41 Hình 3.6 43 Phần Hình 4.1 50 Hình 4.2 52 Hình 4.3 58 Hình 4.4 60 Hình 4.5 61 Hình 4.6 61 Hình 4.7 62 Hình 4.8 62 Hình 4.9 72 Phần DANH SÁCH BẢNG Trang Phần Phần Baûng 2.1 10 Baûng 2.2 14 Baûng 2.3 16 Phần Phần Phần MỤC LỤC Trang PHẦN PHÁT BIỂU VẤN ĐỀ 1.1 1.2 1.3 GIỚI THIỆU ĐỀ TÀI NGHIÊN CỨU KẾT QUẢ ĐẠT ĐƯC VÀ NHỮNG ĐÓNG GÓP PHAÀN CƠ SỞ LÝ THUYẾT CHO PHÂN LOẠI VĂN BẢN 2.1 BIỂU DIỄN VĂN BẢN 2.1.1 Phương pháp Boolean .6 2.1.2 Phương pháp tần xuất từ (word frequency) .7 2.1.3 Phương pháp tf x idf 2.1.4 Phương pháp tfc 2.1.5 Phương phaùp ltc 2.1.6 Phương pháp Entropy 2.2 RÚT GỌN KÍCH THƯỚC MA TRẬN 2.2.1 Phương pháp số lần xuất 2.2.2 Phương pháp độ lợi thông tin .9 2.2.3 Phương pháp thống kê χ 2.2.4 Phương pháp Thông tin tương hỗ 12 2.2.5 Phương pháp Độ mạnh từ 12 2.3 CÁC TẬP VĂN BẢN DÙNG ĐỂ PHÂN LOẠI .13 2.3.1 Tập training, tập validation tập test 13 2.3.2 Các văn tuyển tập Reuters .13 2.4 ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA VIỆC PHÂN LOẠI VĂN BẢN 14 2.4.1 Phân tích giá trị accuracy error 16 2.4.2 Phân tích giá trị recall Precision 17 2.4.3 Thoâng soá F 19 2.4.4 Trung bình Micro trung bình Macro 20 2.5 KẾT LUẬN 23 PHAÀN 24 TỔNG QUAN VỀ CÁC GIẢI THUẬT DÙNG TRONG PHÂN LOẠI VĂN BẢN 24 3.1 GIẢI THUAÄT NAIVE BAYES 25 3.1.1 Một số lý thuyết xác suaát 25 3.1.2 Phân loại văn giải thuật Bayes 26 3.1.3 Đánh giá giải thuật 27 3.2 GIẢI THUẬT K NEAREST NEIGHBORS 28 3.2.1 Giải thuật K Nearest Neighbors .28 3.2.2 Đánh giá giải thuật 29 3.3 GIẢI THUẬT ROCCHIO 30 3.3.1 Giải thuật Rocchio 30 3.3.2 Đánh giá giải thuật 31 3.4 GIẢI THUẬT PERCEPTRONS 31 3.4.1 Giải thuật Perceptrons 31 3.4.2 Đánh giá giải thuật 34 3.5 GIẢI THUẬT CÂY QUYẾT ÑÒNH (DECISION TREE) 35 3.5.1 Entropy 35 3.5.2 Độ lợi thông tin 36 3.5.3 Giải thuật định 37 3.5.4 Xén tỉa định 41 3.5.5 Đánh giá giải thuật 44 3.6 KẾT LUẬN 44 PHAÀN 45 THIẾT KẾ VÀ HIỆN THỰC 45 PHÂN LOẠI VĂN BẢN 45 4.1 GIẢI THUẬT VÀ MIỀN CỦA VĂN BẢN ĐƯC SỬ DỤNG TRONG LUẬN ÁN 45 4.2 GIẢI THUẬT CỦA CÁC BƯỚC TRONG QUÁ TRÌNH XÂY DỰNG CÂY QUYẾT ĐỊNH 46 4.2.1 Giải thuật thống kê từ kép, từ ba .46 4.2.2 Giải thuật phân đoạn từ tiếng Việt 48 4.2.3 Biểu diễn văn theo từ từ điển .54 4.2.4 Chọn từ để xây dựng định 55 4.2.5 Xây dựng ñònh 56 4.2.6 Xén tỉa định 58 4.3 CHƯƠNG TRÌNH HIỆN THỰC 63 4.3.1 Dữ liệu ngôn ngữ lập trình 63 4.3.2 Giao diện chương trình 63 4.3.3 Nhận xét kết cải tiến 69 PHAÀN 73 ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 73 Phân loại văn GVHD: PGS, TS Phan Thị Tươi ƒ Chức Correct Document: chức hiệu chỉnh văn chọn ô Selected Files để việc phân loại xác Các văn thường gặp số lỗi như: bỏ dấu tả sai (ví dụ chữ hòa viết thành hoà), chữ để nhiều khoảng trắng, viết chưa hết câu mà xuống hàng ƒ Chức Make Corpus: chức thống kê tất từ đôi, từ ba có tập Training, Validation Test ƒ Chức Make Dictionary: văn tập Training, Validation Test phân đoạn từ thành từ đơn, từ đôi, từ ba Các từ tập hợp để tạo thành từ điển Từ điển sau dùng để biểu diễn văn ƒ Chức Text Segment: chức để kiểm tra việc phân đoạn từ tiếng Việt cho văn đoạn văn gõ vào Menu Tree gồm chức sau: 66 Phân loại văn GVHD: PGS, TS Phan Thị Tươi ƒ Chức Make Vector Space: chức dùng để tạo không gian vector cho văn thuộc tập Training, Validation Test (Biểu diễn văn thuộc tập từ điển vừa tạo ra) Ngoài ra, chức tính giá trị Chi square cho từ từ điển ƒ Chức Build Tree: chức dùng để xây dựng định cho chủ đề Tin học Viễn thông Cây định tạo đầy đủ (chưa xén tỉa) ƒ Chức Prune Tree: chức dùng để xén tỉa định Tập văn dùng để xén tỉa tập Validation ƒ Chức Evaluate Tree: chức dùng để xác định thông số đánh giá độ xác định sau xén tỉa Tập văn dùng chức tập Test ƒ Chức Define Optimal Document Threshold: chức dùng để xác định ngưỡng xác suất tối ưu cho giá trị thông số F1 lớn Nếu chọn ngưỡng lớn giá trị tối ưu giá trị thông số precision lớn giá trị thông số recall nhỏ ngược lại, chọn ngưỡng nhỏ giá trị tối ưu giá trị thông 67 Phân loại văn GVHD: PGS, TS Phan Thị Tươi số precision nhỏ giá trị thông số recall lớn Một văn cần phân loại duyệt đến nút mà nút có giá trị (số văn tập training nút thuộc chủ đề / tổng số văn tập training nút) lớn giá trị xác suất ngưỡng văn thuộc chủ đề mà không cần phải duyệt đến nút Tập văn dùng chức tập Test ƒ Chức Measure Overall Performance: chức xác định thông số F1 Accuracy tính theo phương pháp trung bình Micro cho toàn giải thuật Menu Option gồm chức sau: ƒ Chức Tree Option: chức cho phép thay đổi giá trị ngưỡng xác suất mà văn duyệt cần phải đạt để thuộc lónh vực Tin học hay Viễn thông Giá trị xác suất mặc định giá trị xác suất ngưỡng tối ưu 68 Phân loại văn GVHD: PGS, TS Phan Thị Tươi 4.3.3 Nhận xét kết cải tiến Giải thuật cho kết khả quan với thông số sau ƒ ƒ Accuracy = 95,1% F1 = 94,2% Các thông số tính theo phương pháp trung bình Micro, phương pháp sử dụng phổ biến việc phân loại văn Theo khảo sát tác giả Kjersti Aas Line Eikvil [KL99], giải thuật định cho ngôn ngữ tiếng Anh tác Joachims, Weiss, Yang nghiên cứu thử nghiệm tuyển tập Reuters Thông số điểm Break-Even (tương đương thông số F1) với phương pháp trung bình Micro đạt sau: - Tác giả Joachims - Tác giả Weiss - Tác giả Yang : 79,4% : 78,9% : 79,0% Các tác giả không đưa thông số Accuracy Một lý thử nghiệm tuyển tập Reuters, thông số không xác Như so với tác giả trên, đề tài đạt thông số F1 cao nhiều Tuy nhiên việc so sánh tương đối Lý tập văn đề tài ngôn ngữ văn hoàn toàn khác với tập văn tác giả Khi sử dụng định nói để phân loại tập gồm 100 văn thuộc lúc hai chủ đề Tin học Viễn thông thông số đánh giá độ xác bị giảm Thông số trung bình Micro hai định hai chủ đề đạt sau: Accuracy = 77,5% F1 = 87,3% 69 Phân loại văn GVHD: PGS, TS Phan Thị Tươi Quan sát định hai chủ đề, lấy ví dụ định chủ đề Viễn thông hình 4.3, tác giả có nhận xét sau: - Các từ “Microsoft”, “phần mềm”, “CNTT”, “Web site” có chủ đề Viễn thông từ sử dụng nhiều văn thuộc chủ đề Tin học Ngược lại chủ đề Viễn thông, từ xuất không nhiều - Các từ dùng để xây dựng định lónh vực Viễn thông chọn từ có giá trị χ (w, cj) lớn (mục 4.2.4) Những từ từ xuất nhiều chủ đề Viễn thông (như từ “thuê bao”, “viễn thông”, “ĐTDĐ” ) từ xuất nhiều chủ đề khác (như từ chủ đề Tin học vừa nêu) Khi xây dựng định, nút giải thuật chọn từ cho từ có giá trị độ lợi thông tin lớn Nói cách khác từ từ dùng để phân chia tập văn training nút thành hai tập văn cho độ đồng chủ đề văn hai tập lớn Với mục đích vậy, định có khuynh hướng xây dựng từ mang tính “đại diện” cho tất chủ đề Vì định chủ đề Viễn thông có nhiều từ mà từ xuất nhiều chủ đề khác (ở chủ đề Tin học) lại xuất chủ đề Viễn thông - Đối với văn gồm từ thuộc chủ đề Viễn thông, định chủ đề phân loại xác Tuy nhiên văn thuộc chủ đề Viễn thông lại có số từ lónh vực khác văn thuộc lúc hai chủ đề độ xác phân loại văn bị giảm xuống Với nhận xét vậy, tác giả thay đổi phương pháp chọn từ để xây dựng định sau: Khi chọn từ dùng để xây dựng định chủ đề cj (mục 4.2.4) tác giả chọn từ có giá trị χ (w, cj) lớn đồng thời từ phải xuất nhiều chủ đề cj Để xác định từ xuất nhiều chủ đề cj, tác giả thực sau: 70 Phân loại văn GVHD: PGS, TS Phan Thị Tươi Gọi A tổng số văn thuộc chủ đề cj có chứa từ w B tổng số văn không thuộc chủ đề cj có chứa từ w Từ w gọi xuất nhiều chủ đề cj A > B Với cách chọn từ để xây dựng định vậy, kết phân loại tập gồm 100 văn thuộc lúc chủ đề với thông số trung bình Micro sau: Accuracy = 89,5% F1 = 94,4% Thông số F1 tăng lên nhiều (từ 87,3% lên 94,4%) Đồng thời thông số Accuracy tăng từ 77,5% lên 89,5%, việc tương đương thông số Error giảm từ 22,5% xuống 10,5% Điều có nghóa số văn bị phân loại sai giảm nửa ( 22,5 / 10,5 = 2,1) Với định xây dựng theo phương pháp mới, kết phân loại văn tập test với thông số trung bình Micro sau: Accuracy = 94,2% F1 = 93,2% Các thông số có thấp không đáng kể so với phương pháp chọn từ để xây dựng cũ (chỉ thấp khoảng 1%) Ở tác giả đưa phương pháp chọn từ để xây dựng định khác Phương pháp có thông số độ xác cao hẳn phương pháp cũ trường hợp tập văn cần phân loại có nhiều văn thuộc lúc nhiều chủ đề Trong trường hợp tập văn có văn thuộc lúc nhiều chủ đề phương pháp có thông số độ xác sấp sỉ phương pháp cũ Vì thực tế, tùy theo đặc điểm văn tùy theo mục đích phân loại văn mà sử dụng hai phương pháp Một nhánh định chủ đề Viễn thông xây dựng theo phương pháp chọn từ khác cho hình 4.9 71 B = 211 A=“Khai thaù c” Y =1 B = 455 A=“tín hiệ u ” Y =1 Y =1 A=“daâ y” B = 61 T = 62 Y =1 A=“ Điệ n thoạ i” B = 278 T = 281 =1 A=“ Di độ n g” B = 283 Hình 4.9 Mộ t nhá nh câ y quyế t định củ a chủ đề “Viễ n thô n g” đượ c xâ y dự ng theo phương phá p mớ i Y =1 A=“Ericsson” B = 195 T = 228 =1 T = 290 B = 666 T = 288 >=1 =1 A=“điệ n thoạ i” B = 61 T = 75 T = 47 Y =1 Y =1 =1 B = 344 B = 922 T = 3525 =1 Chú thích: T: số văn bả n củ a tậ p training có tạ i nú t B: số văn bả n củ a tập training có tạ i nú t thuộc chủ đề củ a câ y A: từ dùng để phân chia cho tậ p training tạ i nú t Y: giá trị phâ n chia củ a từ A T = 3815 2) - Loại nhị phân: đưa vào văn bản, giải thuật xác định xem văn có thuộc chủ đề cho trước hay không Một văn. .. 1, để phân loại văn bản, ta tìm tập training văn giống với văn gán chủ đề văn tập training cho văn cần phân loại Mở rộng giải thuật thay tìm văn giống với văn cần phân loại nhất, ta tìm K văn thoả... cầu phân loại văn ngày tăng, đòi hỏi cần phải có phân loại văn thông minh có độ xác cao Phân loại văn GVHD: PGS, TS Phan Thị Tươi Một vài ứng dụng phân loại văn kể đến là: - Tự động phân loại

Ngày đăng: 16/04/2021, 04:17

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan