NGHIÊN cứu một số PHƯƠNG PHÁP PHÂN lớp cải TIẾN, ỨNG DỤNG vào hệ TRUY tìm văn bản

97 2 0
NGHIÊN cứu một số PHƯƠNG PHÁP PHÂN lớp cải TIẾN, ỨNG DỤNG vào hệ TRUY tìm văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN - BÙI NGUYÊN KHỞI NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP PHÂN LỚP CẢI TIẾN, ỨNG DỤNG VÀO HỆ TRUY TÌM VĂN BẢN : KHOA HỌC MÁY TÍNH : 60 48 01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HƢỚNG DẪN KHOA HỌC: TS VŨ THANH NGUYÊN TP Hồ Chí Minh - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -i- MỤC LỤC Trang MỤC LỤC i DANH MỤC CÁC BẢNG iii DANH MỤC CÁC HÌNH VẼ iv MỞ ĐẦU .1 CHƢƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN 1.1 Giới thiệu toán phân lớp văn 1.1.1 Phân lớp văn dựa cách tiếp cận hệ chuyên gia .4 1.1.2 Phân lớp văn dựa cách tiếp cận máy học 1.2 Phƣơng pháp tách từ 1.2.1 Các đặc điểm văn tiếng Việt 1.2.2 Phƣơng pháp tách từ cách xây dựng ôtômát .10 1.3 Phƣơng pháp biểu diễn văn 15 1.3.1 Các kỹ thuật trích chọn đặc trƣng văn 15 1.3.2 Phƣơng pháp biểu diễn văn mơ hình khơng gian vector 18 1.4 Phƣơng pháp đánh giá hiệu phân lớp .20 CHƢƠNG 2: CÁC PHƢƠNG PHÁP PHÂN LỚP VĂN BẢN PHỔ BIẾN 22 2.1 Thuật toán K-trung bình (K-means) 22 2.2 Thuật toán định (Decision tree) 24 2.3 K-láng giềng gần (K-Nearest Neighbor) 27 2.4 Support Vector Machines (SVM) 31 2.4.1 Giới thiệu 31 2.4.2 Bài toán cách giải .32 2.4.3 Hàm nhân Kernel 38 2.4.4 Thuật toán huấn luyện Sequential Minimal Optimization (SMO) 38 2.5 Đánh giá thuật toán phân lớp văn phổ biến 39 CHƢƠNG 3: CÁC THUẬT TOÁN CẢI TIẾN DỰA TRÊN PHƢƠNG PHÁP PHÂN LỚP VĂN BẢN SUPPORT VECTOR MACHINES 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -ii- 3.1 Fuzzy Support Vector Machines (FSVM) .42 3.1.1 Bài toán cách giải .42 3.1.2 Hàm thành viên 44 3.1.3 Thuật toán huấn luyện Kernel-Adatron 47 3.2 Support Vector Machines Nearest Neighbor (SVM-NN) 47 3.2.1 Ý tƣởng thuật toán SVM-NN .48 3.2.2 Thuật toán SVM-NN 48 3.3 Chiến lƣợc phân lớp đa lớp .51 3.3.1 Chiến lƣợc One-against-Rest (OAR) 51 3.3.2 Chiến lƣợc One-against-One (OAO) 53 3.3.3 Phân lớp đa lớp mờ (Fuzzy OAO) 57 3.4 Đánh giá thuật toán phân lớp cải tiến 59 CHƢƠNG 4: TỔNG QUAN VỀ BÀI TỐN TRUY TÌM VĂN BẢN 61 4.1 Hệ truy tìm văn 61 4.2 Các mơ hình hệ truy tìm văn 62 4.3 Hệ truy tìm văn theo mơ hình khơng gian vector (VSM) .65 4.3.1 Giới thiệu mơ hình VSM 65 4.3.2 Số hóa văn theo mơ hình VSM 66 4.3.3 Ma trận biểu diễn tập văn theo mơ hình VSM 66 4.3.4 Truy vấn văn theo mơ hình VSM 68 CHƢƠNG 5: XÂY DỰNG THỬ NGHIỆM HỆ PHÂN LỚP VÀ TRUY TÌM VĂN BẢN 70 5.1 Phân hệ phân lớp văn .72 5.1.1 Thiết kế phân hệ phân lớp văn 72 5.1.2 Module lựa chọn từ đặc trƣng biểu diễn văn tiếng Việt 73 5.1.3 Module phân lớp lớp sử dụng SVM-NN .73 5.1.4 Phân lớp đa lớp 75 5.1.5 Cài đặt phân hệ phân lớp văn .76 5.1.6 Kết thử nghiệm phân hệ phân lớp văn 79 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -iii- 5.2 Phân hệ truy tìm văn VSM 80 5.2.1 Thiết kế phân hệ truy tìm văn VSM 80 5.2.2 Cài đặt phân hệ truy tìm văn VSM 84 5.2.3 Đánh giá kết cải tiến phân hệ truy tìm văn VSM 86 CHƢƠNG 6: KẾT LUẬN 88 6.1 Đánh giá kết 88 6.2 Hƣớng phát triển 89 TÀI LIỆU THAM KHẢO 90 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -iv- DANH MỤC BẢNG Trang Bảng 1.1: Một số từ dừng văn tiếng Việt 16 Bảng 1.2: Một số hàm tính tốn giá trị thông tin từ phân lớp 17 Bảng 1.3: Định nghĩa tỷ lệ để đánh giá hiệu phân lớp 20 Bảng 2.1: Biểu diễn văn vector nhị phân 25 Bảng 2.2: Ví dụ độ tƣơng tự văn chủ đề 28 Bảng 2.3: Ví dụ độ tƣơng tự văn chủ đề 29 Bảng 2.4: Ví dụ độ tƣơng tự văn chủ đề 29 Bảng 2.5: Ví dụ độ tƣơng tự văn chủ đề 30 Bảng 2.6: Kết so sánh phƣơng pháp phân lớp sử dụng SVM với K-NN 31 Bảng 3.1: Kết so sánh phƣơng pháp phân lớp đa lớp mờ 59 Bảng 4.1: So sánh ƣu khuyết mơ hình truy tìm văn 64 Bảng 5.1: Kết thử nghiệm phân hệ phân lớp văn 79 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -v- DANH MỤC HÌNH VẼ Trang Hình 1.1: Bài tốn phân lớp văn dựa kỹ thuật máy học Hình 1.2: Sơ đồ chuyển trạng thái ký tự 11 Hình 1.3: Phƣơng pháp xây dựng ôtômát âm tiết 12 Hình 1.4: Một tình nhập nhằng 13 Hình 2.1: Xây dựng định cho tập mẫu dùng để huấn luyện 26 Hình 2.2: Quá trình tìm kiếm lời giải định 27 Hình 2.3: Siêu phẳng phân chia tập mẫu huấn luyện 33 Hình 2.4: Ví dụ biên khơng tốt 34 Hình 2.5: Ví dụ biên tối ƣu 34 Hình 2.6: Siêu phẳng phân chia liệu ràng buộc 35 Hình 2.7: Trƣờng hợp liệu có nhiễu 37 Hình 3.1: Sơ đồ kết so sánh phƣơng pháp phân lớp văn sử dụng SVM-NN với KNN SVM (theo tỷ lệ âm sai FN) 49 Hình 3.2: Sơ đồ kết so sánh phƣơng pháp phân lớp văn sử dụng SVM-NN với KNN SVM (theo tỷ lệ dƣơng sai FP) 50 Hình 3.3: Ví dụ phân lớp đa lớp theo chiến lƣợc OAR 52 Hình 3.4: Vùng khơng phân lớp đƣợc theo chiến lƣợc OAR 53 Hình 3.5: Ví dụ phân lớp sử dụng chiến lƣợc OAR OAO 54 Hình 3.6: Ví dụ phân lớp đa lớp theo chiến lƣợc OAO 56 Hình 3.7: Vùng khơng phân lớp đƣợc theo chiến lƣợc OAO 57 Hình 3.8: Vùng khơng thể phân lớp đƣợc loại bỏ 58 Hình 4.1: Kiến trúc hệ truy tìm văn 62 Hình 4.2: Góc vector truy vấn vector văn 66 Hình 4.3: Ma trận từ đặc trƣng – văn 67 Hình 5.1: Sơ đồ thực hệ phân lớp truy tìm văn 71 Hình 5.2: Kiến trúc phân hệ phân lớp văn 72 Hình 5.3: Kiến trúc phân hệ truy tìm văn VSM 80 Hình 5.4: Kiến trúc cải tiến phân hệ truy tìm văn VSM 82 Hình 5.5: Giao diện thực truy vấn hiển thị kết trả 86 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -1- MỞ ĐẦU Ngày nay, việc tìm kiếm thơng tin nói chung nhƣ thơng tin văn nói riêng có vai trò quan trọng lĩnh vực hoạt động ngƣời, trở thành nhu cầu thiết yếu thiếu Với xuất internet khối lƣợng thơng tin văn mạng ngày tăng, hình thành kho văn khổng lồ, làm cho việc tìm kiếm thơng tin văn cần thiết, hữu ích ngày trở nên khó khăn Xuất phát từ thực tế đó, có số nghiên cứu xây dựng hệ truy tìm văn theo mơ hình khác nhau, hệ truy tìm văn theo mơ hình khơng gian vector đƣợc đánh giá có nhiều ƣu điểm Tuy nhiên, hệ truy tìm văn theo mơ hình khơng gian vector bản, việc xử lý truy tìm phải thực tồn tập văn Điều làm nhiều thời gian xử lý, tốc độ truy tìm chậm, đồng thời phải tiêu tốn nhiều không gian lƣu trữ, tài ngun tính tốn, tập văn lớn (hoặc số lƣợng từ đặc trƣng lớn) Bài toán đặt làm để xây dựng hệ thống tự động phân lớp phục vụ truy tìm thơng tin văn theo mơ hình khơng gian vector VSM có cải tiến so với hệ thống truy tìm theo mơ hình khơng gian vector VSM bản, để việc truy tìm đƣợc nhanh chóng hiệu Hƣớng tiếp cận giải nhƣ sau: Việc cải tiến hệ thống truy tìm văn theo mơ hình khơng gian vector VSM đƣợc thực cách kết hợp sử dụng kết phân lớp văn kho văn trƣớc thực kỹ thuật xử lý truy tìm Kết việc cải tiến phân hệ truy tìm văn cải thiện đáng kể tốc độ, hiệu truy tìm khơng phải thực xử lý truy tìm tồn kho văn mà thực truy tìm vài nhóm văn có liên quan với câu truy vấn Hiện tại, có số nghiên cứu kỹ thuật phân lớp văn nhƣ kỹ thuật truy tìm thơng tin văn Luận văn nhằm mục đích tìm hiểu kỹ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -2- thuật áp dụng vào việc xây dựng thử nghiệm hệ thống tự động phân lớp phục vụ truy tìm thơng tin văn thực tế Đối với kỹ thuật phân lớp văn bản, luận văn tìm hiểu cụ thể kỹ thuật phân lớp văn Support Vector Machines (SVM) kết phân lớp tốt phƣơng pháp theo đề tài nghiên cứu trƣớc Ý tƣởng SVM tìm siêu phẳng “tốt nhất” không gian n-chiều để phân chia điểm liệu (văn bản) cho điểm liệu thuộc lớp khác nằm phía siêu phẳng Luận văn nghiên cứu thuật toán phân lớp văn cải tiến dựa kỹ thuật SVM thuật toán Fuzzy SVM cho phép loại bỏ liệu nhiễu trình huấn luyện cải thiện độ xác trình phân lớp, nghiên cứu cài đặt áp dụng thuật toán SVM Nearest Neighbor với việc kết hợp ý tƣởng thuật toán K-Nearest Neighbor thuật toán SVM để cải thiện hiệu phân lớp Đồng thời luận văn nghiên cứu cài đặt áp dụng chiến lƣợc phân lớp văn đa lớp OAR (One - against - Rest), OAO (One - against - One) kỹ thuật cải tiến việc phân lớp đa lớp phân lớp đa lớp mờ Fuzzy OAO (Fuzzy One against - One) Đối với kỹ thuật phục vụ truy tìm văn bản, luận văn tìm hiểu sử dụng mơ hình truy tìm văn theo mơ hình không gian vector VSM (Vector Space Model) Nguyên lý hoạt động cốt lõi hệ truy tìm văn VSM tự động hóa quy trình tìm kiếm văn có liên quan cách tính độ đo tƣơng tự câu truy vấn văn Từ kết nghiên cứu trên, kỹ thuật phân lớp phục vụ truy tìm văn đƣợc cài đặt áp dụng để xây dựng thử nghiệm hệ thống tự động phân lớp phục vụ truy tìm thơng tin văn thực tế theo mơ hình khơng gian vector VSM có cải tiến so với hệ thống truy tìm theo mơ hình VSM LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -3- Nội dung luận văn gồm chƣơng: - Chƣơng 1: Tổng quan toán phân lớp văn - Chƣơng 2: Các phƣơng pháp phân lớp văn truyền thống - Chƣơng 3: Các thuật toán cải tiến dựa phƣơng pháp phân lớp văn Support Vector Machines - Chƣơng 4: Tổng quan tốn truy tìm văn - Chƣơng 5: Xây dựng thử nghiệm hệ phân lớp truy tìm văn - Chƣơng 6: Kết luận LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -4- CHƢƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN 1.1 Giới thiệu toán Bài toán Phân lớp (Text Categorization, Text Classification) đƣợc mô tả nhƣ sau: c lớp nội dung văn Trong thập kỷ 80 hầu hết cách tiếp cận (ít việc thiết đặt thao tác) để phân lớp văn tự động gồm kỹ thuật điều khiển tay chuyên gia tri thức (Knowledge Engineering) Theo thời gian, cách tiếp cận để giải toán phân lớp có thay đổi Đầu thập kỷ 90, cách tiếp cận máy học (Machine Learning) để phân lớp văn đƣợc coi tiếng trở thành thống trị, cộng đồng ngƣời nghiên cứu 1.1.1 Phân lớp văn dựa cách tiếp cận hệ chuyên gia Theo cách tiếp cận này, việc phân lớp văn tự động đƣợc điều khiển tay chuyên gia tri thức hệ chuyên gia có khả đƣa định phân lớp Hệ chuyên gia bao gồm tập luật logic định nghĩa tay, cho loại, có dạng: If (DNF formula) then (category) Công thức DNF (“Disjunctive Normal Form”) hợp mệnh đề liên kết, tài liệu đƣợc phân lớp vào category thỏa mãn cơng thức, nghĩa là, thỏa mãn mệnh đề cơng thức Đây ví dụ luật logic định nghĩa tay: If ((“lúa mì” & “nơng trại”) or (“lúa mì” & “hàng hóa”) or (“thúng để đong lúa mì” & “hàng xuất khẩu”) or (“lúa mì” & “hàng tấn”) or (“lúa mì” & “mùa đơng” & ¬ “sự ơn hịa”)) then “lúa mì” else ¬ “lúa mì” LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -77- + Chạy module Tokenizer để tạo tập tin tách từ nhóm văn + Chạy module SelectTerm để tạo tập tin đặc trƣng nhóm văn + Chạy module CalWVector để tạo vector trọng số W từ đặc trƣng nhóm văn - Huấn luyện: + Chạy modul SVM-NN để huấn luyện phân lớp lớp SVMNN cho cặp nhóm văn bản: (Cơng nghệ – Giáo dục), (Công nghệ - Thể thao), (Công nghệ - Y tế), (Giáo dục – Thể thao), (Giáo dục – Y tế), (Thể thao – Y tế) Chƣơng trình tạo tập tin kết huấn luyện nằm thƣ mục resource Cấu trúc thư mục liệu + Cho bƣớc chuẩn bị huấn luyện đƣợc tổ chức nhƣ sau: Thƣ mục Nhóm văn chứa thƣ mục con: Y te: chứa văn huấn luyện lĩnh vực Y tế Giao duc: chứa văn huấn luyện lĩnh vực Giáo dục Cong nghe: chứa văn huấn luyện lĩnh vực Công nghệ The thao: chứa văn huấn luyện lĩnh vực Thể thao + Cho bƣớc sau chuẩn bị huấn luyện đƣợc tổ chức nhƣ sau: Trong thƣ mục nhóm văn có hai thƣ mục con: Parse: chứa tập tin tách từ chạy module Tokenizer DacTrung: chứa tập tin “dac trung.txt” tập tin chứa từ đặc trƣng nhóm văn chạy modul SelectTerm, tập tin “Wvector.txt” chứa trọng số từ đặc trƣng tính theo phƣơng pháp nghịch đảo tần số văn (IDF) chạy module CalWVector + Cho bƣớc sau huấn luyện đƣợc tổ chức nhƣ sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -78- Thƣ mục resource chứa tập tin liệu cần cho trình huấn luyện Trong thƣ mục resource có thƣ mục svm-nn chứa tập tin kết sau huấn luyện, gồm tập tin: “svm-nn_ congnghe_giaoduc.txt”: Bộ phân lớp lĩnh vực công nghệ giáo dục “svm-nn_ congnghe_ thethao.txt”: Bộ phân lớp lĩnh vực công nghệ thể thao “svm-nn_ congnghe_yte.txt”: Bộ phân lớp lĩnh vực công nghệ y tế “svm-nn_giaoduc_thethao.txt”: Bộ phân lớp lĩnh vực giáo dục thể thao “svm-nn_giaoduc_yte.txt”: Bộ phân lớp lĩnh vực giáo dục y tế “svm-nn_thethao_yte.txt”: Bộ phân lớp lĩnh vực thể thao y tế Bƣớc 2: Tiến hành phân lớp văn - Chạy module Tokenizer để tạo tập tin tách từ văn cần phân lớp - Sau đó, văn cần phân lớp: + Chạy modul SVM-NN phân lớp lớp đƣợc tạo trình huấn luyện, để thực phân lớp lớp SVM-NN cho văn + Chạy modul Classify để thực phân lớp đa lớp cho văn - Kết phân lớp toàn văn cần phân lớp đƣợc lƣu tập tin chứa kết phân lớp ketquaphanlop.txt Lƣu ý: Tập tin chứa kết phân lớp ketquaphanlop.txt đƣợc sử dụng làm liệu đầu vào cho phân hệ truy tìm văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -79- 5.1.6 Kết thử nghiệm phân hệ phân lớp văn Bảng 5.1 dƣới trình bày kết thử nghiệm phân hệ phân lớp văn sử dụng phƣơng pháp phân lớp cải tiến SVM-NN kết hợp chiến thuật phân loại đa lớp OAO, Fuzzy OAO Tập văn thử nghiệm gồm 820 văn huấn luyện, 120 văn kiểm tra thuộc lĩnh vực (công nghệ, giáo dục, thể thao, y tế) Thuật toán SVM-NN với tham số k láng giềng gần đƣợc chọn 50, tham số C 20, tham số d hàm nhân đa thức Kết thử nghiệm cho thấy độ xác phƣơng pháp phân lớp cao Bảng 5.1: Kết thử nghiệm phân hệ phân lớp văn STT Nhóm Số VB đƣợc Số VB đƣợc phân Tỷ lệ % VB đƣợc phân loại loại phân loại Công nghiệp 30 26 86,66 Giáo dục 30 24 80 Thể thao 30 26 86,66 Y tế 30 25 83,33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -80- 5.2 Phân hệ truy tìm văn VSM 5.2.1 Thiết kế phân hệ truy tìm văn VSM Kiến trúc phân hệ truy tìm văn VSM Câu truy vấn Tiền xử lý số hóa câu truy vấn Kết Quả Tạo tập tin chứa đặc trƣng, tập tin chứa đƣờng dẫn văn Tạo ma trận từ đặc trƣng-văn Tập Văn Bản Trả Về Xếp Hạng Tập văn Xử lý truy vấn - Tập tin chứa đặc trƣng - Tập tin chứa đƣờng dẫn văn - Ma trận từ đặc trƣng-văn Hình 5.3: Kiến trúc phân hệ truy tìm văn VSM LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -81- Kiến trúc kiến trúc phân hệ truy tìm văn Mục tiêu luận văn sau nghiên cứu phƣơng pháp phân lớp cải tiến, ứng dụng kết phân lớp phƣơng pháp vào phân hệ truy tìm văn nhằm mục đích cải thiện tốc độ, hiệu truy tìm Bằng việc kết hợp với phân hệ phân lớp văn sử dụng phƣơng pháp SVM-NN chiến lƣợc phân lớp đa lớp OAO; Fuzzy OAO, xây dựng đƣợc mơ hình truy tìm văn có kiến trúc đƣợc cải tiến nhƣ sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -82- Tập văn Phân hệ phân lớp văn (sử dụng thuật toán SVM-NN kết hợp chiến lƣợc phân lớp đa lớp OAO, fuzzy OAO) Câu truy vấn Tiền xử lý số hóa câu truy vấn Tạo ma trận từ đặc trƣng-văn ứng với lớp VB Tập Văn Bản Trả Về Xếp Hạng Kết Quả - Các tập tin chứa đặc trƣng ứng với nhóm VB - Tập tin chứa kết phân lớp VB - Tập tin chứa đƣờng dẫn VB Xử lý truy vấn - Các tập tin chứa đặc trƣng ứng với nhóm VB - Tập tin chứa kết phân lớp VB - Các ma trận từ đặc trƣngvăn ứng với nhóm VB - Tập tin chứa đƣờng dẫn VB Hình 5.4: Kiến trúc cải tiến phân hệ truy tìm văn VSM LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -83- Các modul phân hệ truy tìm văn VSM Phân hệ truy tìm văn bao gồm modul nhƣ sau: - Modul tạo ma trận từ đặc trƣng-văn - Modul xử lý truy tìm bao gồm chức năng: + Tính độ đo Cosin + Xếp hạng kết truy tìm + Giao diện thực truy vấn hiển thị kết trả Modul tạo ma trận từ đặc trƣng-văn Phân hệ phân lớp văn sau thực cung cấp liệu đầu vào cho phân hệ truy tìm văn bản: tập tin chứa đặc trƣng ứng với nhóm văn đƣợc phân lớp, tập tin chứa kết phân lớp văn bản, tập tin chứa đƣờng dẫn văn Từ tập tin chứa đặc trƣng ứng với nhóm văn đƣợc phân lớp, văn đƣợc vector hố thành vector nhóm văn đƣợc biểu diễn thành ma trận ứng với nhóm văn Mỗi cột ma trận biểu diễn vector văn Mỗi ma trận ứng với nhóm văn đƣợc lƣu tập tin Module xử lý truy tìm Chức tính độ đo Cosin Modul thực truy tìm văn tập văn liên quan với câu truy vấn (các văn có độ đo Cosine “cao” với câu truy vấn) cách tính độ đo Cosine vector cột (của ma trận từ đặc trƣng-văn bản) với vecor truy vấn Một văn đƣợc xem nhƣ liên quan đƣợc trả độ đo Cosine vector truy vấn với vector văn lớn ngƣỡng (threshold) Trong cài đặt module này, ngƣỡng đƣợc chọn 0.04 Các bƣớc thực bản: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -84- - Thực lọc tất từ đặc trƣng câu truy vấn cách so sánh với tập tin chứa đặc trƣng ứng với nhóm văn - Nếu từ đặc trƣng câu truy vấn thuộc nhóm văn thực tính tốn độ đo Cosine vector văn thuộc nhóm (từng vector cột ma trận từ đặc trƣng-văn ứng với nhóm văn đó) với vecor truy vấn Nhóm văn tạm gọi nhóm văn có liên quan Nếu từ đặc trƣng câu truy vấn khơng thuộc nhóm văn bản, khơng thực tính tốn độ đo Cosine nhóm văn đó, khơng thực xử lý nhóm văn (khơng truy tìm nhóm văn đó) - Thực so sánh độ đo Cosin tính tốn đƣợc (giữa vector truy vấn vector văn thuộc nhóm văn có liên quan) với ngƣỡng (threshold) để trả văn có liên quan với câu truy vấn Chức xếp hạng kết truy tìm Các văn trả đƣợc hiển thị theo thứ tự độ liên quan với câu truy vấn từ cao đến thấp Việc xếp hạng kết trả đƣợc thực theo thứ tự giảm dần độ đo Cosine tính tốn đƣợc Chức giao diện thực truy vấn hiển thị kết trả Để mang tính ứng dụng thực tiễn cao, giao diện thực truy vấn văn đƣợc thiết kế theo dạng ứng dụng web 5.2.2 Cài đặt phân hệ truy tìm văn VSM Phân hệ truy tìm văn đƣợc cài đặt nhƣ thiết kế trình bày hình 5.4 Dữ liệu đầu vào Hệ truy tìm văn đƣợc cài đặt thử nghiệm tập 120 văn thuộc lĩnh vực (công nghệ, giáo dục, thể thao, y tế) đƣợc phân lớp phân hệ phân lớp văn SVM-NN Sau phân lớp với tập 120 văn trên, ta có tập tin liệu đầu đƣợc dùng làm liệu đầu vào cho phân hệ truy tìm văn nhƣ sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -85- - Các tập tin chứa đặc trƣng ứng với nhóm văn có đƣờng dẫn tƣơng đối nhƣ sau: dactrung/congnghe.txt, dactrung/giaoduc.txt, dactrung/thethao.txt, dactrung/yte.txt - Tập tin chứa kết phân lớp văn bản: dactrung/ketquaphanlop.txt - Tập tin chứa đƣờng dẫn văn bản: dactrung/path.txt Các bƣớc thực - Chạy module tạo ma trận đặc trưng-văn : tạo tập tin chứa ma trận từ đặc trƣng-văn ứng với nhóm văn Ta có tập tin: matrix/congnghe.txt, matrix/giaoduc.txt, matrix/thethao.txt, matrix/yte.txt - Chạy module xử lý truy tìm : thực nhập câu truy vấn, kết truy tìm trả đƣợc hiển thị nhƣ sau: + Hiển thị thơng tin nhóm văn khơng liên quan (khơng thực truy tìm văn thuộc nhóm đó) + Hiển thị văn cần truy tìm, xếp hạng giảm dần theo độ đo Cosin + Mỗi văn trả hiển thị kết phân lớp, độ đo Cosin văn Giao diện thực truy vấn hiển thị kết trả nhƣ sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -86- Hình 5.5: Giao diện thực truy vấn hiển thị kết trả 5.2.3 Đánh giá kết cải tiến phân hệ truy tìm văn VSM Đối với hệ truy tìm văn có kiến trúc bản, module xử lý truy tìm thực tính tốn độ đo Cosin xử lý khác toàn tập văn Điều làm nhiều thời gian tiêu tốn nhiều không gian lƣu trữ, tài ngun tính tốn, tốc độ truy tìm chậm, số lƣợng văn lớn (hoặc số lƣợng từ đặc trƣng lớn) Đối với hệ truy tìm văn có cải tiến cách sử dụng tập tin kết trình phân lớp làm liệu đầu vào, module xử lý truy tìm khơng thực tính tốn độ đo Cosin tất văn mà thực văn thuộc nhóm có từ đặc trƣng liên quan với câu truy vấn Điều làm tiết kiệm nhiều thời gian, khơng gian lƣu trữ, tài ngun tính tốn, qua làm tăng đáng kể tốc độ truy tìm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -87- Chúng ta xem xét cụ thể kết truy tìm hình 5.5 Tập 120 văn thuộc lĩnh vực (công nghệ, giáo dục, thể thao, y tế) đƣợc phân hệ phân lớp phân thành nhóm văn tƣơng ứng Phân hệ truy tìm văn có cải tiến cách sử dụng kết phân lớp bên thực xử lý truy tìm văn nhóm, mà xử lý truy tìm nhóm văn (y tế thể thao) Điều làm tăng tốc độ truy tìm khoảng lần so với hệ truy tìm mà không kết hợp với phân hệ phân lớp văn (do phải xử lý truy tìm tồn nhóm văn bản) Tóm lại, việc kết hợp với phân hệ phân lớp văn bản, phân hệ truy tìm văn cải thiện đáng kể tốc độ, hiệu truy tìm khơng phải thực xử lý truy tìm tồn tập văn mà thực truy tìm vài nhóm văn có liên quan với câu truy vấn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -88- CHƢƠNG 6: KẾT LUẬN 6.1 Đánh giá kết Đối với kỹ thuật phân lớp văn bản, luận văn tìm hiểu kỹ thuật phân lớp văn Support Vector Machines (SVM) Đồng thời luận văn có số nghiên cứu thuật toán phân lớp văn cải tiến dựa kỹ thuật SVM để giải toán phân lớp: - Nghiên cứu thuật toán Fuzzy SVM cho phép loại bỏ liệu nhiễu trình huấn luyện cải thiện độ xác trình phân lớp - Nghiên cứu, cài đặt áp dụng thuật toán SVM Nearest Neighbor với việc kết hợp ý tƣởng thuật toán K-Nearest Neighbor thuật toán SVM để cải thiện hiệu phân lớp - Nghiên cứu,cài đặt áp dụng chiến lƣợc phân lớp văn đa lớp OAR (One - against - Rest), OAO (One - against - One) kỹ thuật cải tiến việc phân lớp đa lớp phân lớp đa lớp mờ Fuzzy OAO (Fuzzy One - against - One) Đối với kỹ thuật phục vụ truy tìm văn bản, luận văn tìm hiểu sử dụng mơ hình truy tìm văn theo mơ hình khơng gian vector VSM (Vector Space Model) Từ kết nghiên cứu trên, luận văn xây dựng thử nghiệm đƣợc hệ thống tự động phân lớp phục vụ truy tìm thơng tin văn thực tế theo mơ hình khơng gian vector VSM có cải tiến so với hệ thống truy tìm theo mơ hình VSM Việc cải tiến hệ thống truy tìm thơng tin văn VSM đƣợc thực cách kết hợp sử dụng kết phân lớp kho văn trƣớc thực kỹ thuật xử lý truy tìm Kết việc cải tiến phân hệ truy tìm văn cải thiện đáng kể tốc độ, hiệu truy tìm khơng phải thực xử lý truy tìm tồn kho văn mà thực truy tìm vài nhóm văn có liên quan với câu truy vấn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -89- Kết cài đặt thực nghiệm hệ thống tốt, cho thấy tính khả thi tƣơng đối triển khai áp dụng vào thực tế Tuy nhiên, luận văn số hạn chế sau cần giải quyết: - Chƣa thực tự động cập nhật kết phân lớp xử lý truy tìm thêm vào văn vào kho văn - Thuật toán cải tiến SVM Nearest Neighbor đƣợc cài đặt có tốc độ thực thi cịn chậm - Chƣa có chức thu thập thông tin tự động website 6.2 Hƣớng phát triển Để luận văn áp dụng vào thực tế tốt hơn, cần phải tiếp tục nghiên cứu, cải tiến số vấn đề sau: - Cho phép thực tự động phân lớp xử lý phục vụ việc truy tìm thêm vào văn vào kho văn - Nghiên cứu cải tiến tốc độ thực thi thuật toán SVM Nearest Neighbor - Nghiên cứu kỹ thuật rút trích thơng tin văn tự động Từ áp dụng xây dựng hệ thống tự động thu thập thông tin văn website, phân loại phục vụ truy tìm thơng tin văn - Thực phân lớp văn vào nhiều nhóm khác (MultiCategorization) - Phát triển thêm ứng dụng nhƣ tóm tắt văn bản, dịch tự động văn sau thu thập phân lớp Hiện nay, toán phân lớp tốn truy tìm thơng tin nói chung nhƣ thơng tin văn nói riêng cịn nhiều vấn đề chƣa đƣợc giải triệt để Do đó, tác giả mong muốn đƣợc góp ý thêm để hoàn thiện tồn luận văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -90- TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Kim Anh, Nguyễn Thị Kim Ngân (2006), “Phân lớp văn tiếng Việt sử dụng phương pháp Support Vector Machines”, Khoa Công nghệ thông tin, ĐHBK Hà Nội [2] Nguyễn Thị Minh Huyền, Vũ Xuân Lƣơng, Lê Hồng Phƣơng (2003), “Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt”, Kỷ yếu Hội thảo ICT.rda’03, trang 22-23 [3] Trang Nhật Quang (2007), “Đề xuất công cụ hỗ trợ thu thập phân loại thông tin tiếng Việt internet”, Luận văn Thạc sĩ, Đại học Khoa học Tự nhiên TP.HCM, TP.HCM Tiếng Anh [4] Enrico Blanzieri, Anton Bryl (2007), “Evaluation of the Highest Probability SVM Nearest Neighbor Classifier With Variable Relative Error Cost”, University of Trento, Italy [5] Enrico Blanzieri, Anton Bryl (2007), “Instance-Based Spam Filtering Using SVM Nearest Neighbor Classifier”, University of Trento, Italy [6] Li-Cheng Jin (2004), “Application of Fuzzy Support Vector Machines in Medical Engineering and Bioinformatics”, Master Thesis, Institute of Electronics and Information Engineering National Kaohsiung University of Applied Sciences, Taiwan [7] Shigeo Abe and Takuya Inoue (2002), “Fuzzy Support Vector Machines for Multiclass Problems”, ESANN‟2002 proceedings, pp 113-118 [8] Shigeo Abe and Takuya Inoue (2001), “Fuzzy Support Vector Machines for Pattern Classification”, In Proceeding of International LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -91- Joint Conference on Neural Networks (IJCNN ‟01), volume 2, pp 1449-1454 [9] Tsui-Feng Hu (2004), “Fuzzy Correlation and Support Vector Learning Approach to Multi-Categorization of Documents”, Master Thesis, Institute of Information Management I-Shou University, Taiwan [10] T.Joachims (1998), “Text Categorization with Support Vector Machines: Learning with Many Relevant Features” in Proceedings of ECML-98, 10th European Conference on Machine Learning, number 1398, pp 137–142 [11] Xiufeng Jiang, Zhang Yi and Jian Cheng Lv (2006), “Fuzzy SVM with a new fuzzy membership function”, Neural Computing and Applications, Volume 15(3), pp 268-276 [12] Yiming Yang, Jan O Pedersen (1997), "A comparative Study on Feature Selection in Text Categorization", Proceedings of {ICML}-97, 14th International Conference on Machine Learning, pp 412-420 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... -iii- 5.2 Phân hệ truy tìm văn VSM 80 5.2.1 Thiết kế phân hệ truy tìm văn VSM 80 5.2.2 Cài đặt phân hệ truy tìm văn VSM 84 5.2.3 Đánh giá kết cải tiến phân hệ truy tìm văn VSM... thuật toán phân lớp cải tiến 59 CHƢƠNG 4: TỔNG QUAN VỀ BÀI TỐN TRUY TÌM VĂN BẢN 61 4.1 Hệ truy tìm văn 61 4.2 Các mơ hình hệ truy tìm văn 62 4.3 Hệ truy tìm văn theo mơ... Việc cải tiến hệ thống truy tìm văn theo mơ hình khơng gian vector VSM đƣợc thực cách kết hợp sử dụng kết phân lớp văn kho văn trƣớc thực kỹ thuật xử lý truy tìm Kết việc cải tiến phân hệ truy tìm

Ngày đăng: 01/11/2022, 19:26