1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN cứu và cải TIẾN PHƯƠNG PHÁP PHÂN đa lớp văn bản BẰNG SUPPORT VECTOR MACHINES

112 120 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐH QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH  KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ CẢI TIẾN PHƯƠNG PHÁP PHÂN ĐA LỚP VĂN BẢN BẰNG SUPPORT VECTOR MACHINES Giảng viên hướng dẫn: TS VŨ THANH NGUYÊN Sinh viên thực hiện: NGUYỄN HOÀNG VŨ LÊ QUÝ QUỐC CƯỜNG Lớp: CNTN02 Khóa: 2007-2011 TP Hồ Chí Minh, tháng năm 2011 MỞ ĐẦU Ngày này, phát triển cơng nghệ đại máy tính nói chung thiết bị lưu trữ nói riêng ngày cải tiến không ngừng với dung lượng tăng dần lên tới số khổng lồ chưa có dấu hiệu dừng lại Bên cạnh đó, bùng nổ internet làm nguồn thông tin kết nối với làm khối lượng thơng tin lớn lại trở nên lớn Chính mà nhu cầu tổ chức, phân loại thông tin ngày trở nên tối cần thiết Thử tưởng tượng đứng trước thư viện lớn với khoảng 1000 đầu sách để lẫn lộn vào nhau, công việc tìm sách đáp ứng ý muốn trở nên thực khó khăn phải xem xét tất đầu sách Nếu 1000 đầu sách chia làm lĩnh vực, khu vực cụ thể cơng việc trở nên đơn giản nhiều Chúng ta cần với khu vực chứa lĩnh vực cần lướt qua số lượng nhỏ sách, chọn sách cần Do vậy, hầu hết thư viện hay nhà sách phân loại cách đầu sách người đọc dễ chọn lựa Chúng ta thấy, ví dụ đưa khối lượng thông tin 1000 đầu sách thư viện đủ gây nhiều khó khăn, hồ liệu internet lại vô lớn, gấp hàng trăm hàng triệu lần ví dụ Giải pháp đưa phân loại thông tin Nhưng vấn đề gặp phải 1000 đầu sách phân loại tay với khối lượng khổng lồ thông tin làm cách phân loại được? Nếu phân loại tay tiêu tốn nhiều thời gian, nhân lực, vật lực, liệu phương pháp có khả thi? May thay, sống thời đại công nghệ Tốc độ xử lý máy tính ngày lớn thực trở thành công cụ đắc lực người, hỗ trợ người nhiều lĩnh vực, có phân loại thơng tin Máy tính trở thành cơng cụ hữu hiệu cho việc phân loại tự động thông tin cách i học, gọi chiến lược máy học áp dụng để giải toán phân lớp văn Để giải phần toán nói trên, chúng em thử nghiệm cơng cụ tự động huấn luyện, phân lớp tổ chức thông tin theo chủ đề máy tính Và từ thuật tốn có từ trước, chúng em xin đưa mơ hình phân đa lớp văn dựa mơ hình phân đa lớp có thuật toán vector hỗ trợ (Support Vector Machines) Hi vọng khóa luận chúng em đóng góp phần cho giải toán tổ chức phân loại thơng tin tự động Khóa luận bao gồm chương, nội dung chương sau: Chương 1: Định nghĩa toán phân loại văn bản, khái niệm bản, trình tiền xử lý văn phương pháp phổ biến, công bố dùng để phân loại văn Từ đưa so sánh phương pháp với để thấy ưu điểm, khuyết điểm phương pháp Chương 2: Đề cập đến sở lý thuyết phương pháp phân lớp Support Vector Machines (SVMs) Trong phần chúng em sâu vấn đề SVMs với giải thuật huấn luyện SMO Trong phần sau chương, chúng em giới thiệu số phương pháp phân đa lớp sử dụng SVMs nhị phân nhận xét, đánh giá Chương 3: Đây phần khóa luận Phần trình bày phương án đề xuất để giải vấn đề phân đa lớp Để giải toán đa lớp, chúng em sử dụng SVMs kết hợp nhị phân để đưa mơ hình tổng qt Bên cạnh chúng em đưa tiêu chuẩn để đánh giá tổng quát xác suất lỗi Cuối độ khái niệm độ tách rời hai lớp với giải thuật thử nghiệm để phát sinh tổng quát đưa để thử nghiệm tổng quát Chương 4: Trong phần đầu chương đề cập đến phần cài đặt SVMs Framework – framework dành cho việc tiền xử lý, huấn luyện phân lớp văn Phần sau thống kê liệu huấn luyện với kết ii phân lớp áp dụng giải thuật đề xuất chương liệu với tham số khác iii LỜI CẢM ƠN Trước tiên, chúng em xin gởi lời cảm ơn chân thành đến thầy hướng dẫn chúng em, TS Vũ Thanh Ngun Trong suốt q trình làm khóa luận, thầy giúp chúng em đặt vấn đề, tìm hiểu vấn đề giải vấn đề Trong thời gian làm việc với thầy chúng em học hỏi nhiều kiến thức bổ ích mà học tinh thần làm thái độ làm việc nghiêm túc Bên cạnh đó, chúng em xin cảm ơn chân thành đến thầy cô khoa Khoa Học Máy Tính Thầy khơng truyền dạy cho chúng em kiến thức tảng vơ bổ ích năm học vừa qua mà chia sẻ cho chúng em kinh nghiệm quý báu phương pháp nghiên cứu Chúng em xin gởi lời cảm ơn chân thành đến tất q thầy trường Đại Học Cơng Nghệ Thơng Tin tận tình giảng dạy truyền đạt kiến thức cho chúng em suốt năm học qua Chúng em xin hứa vận dụng tốt kiến thức q trình học tập, nghiên cứu làm việc tới Gia đình bạn bè vừa cổ động viên nhiệt tình chỗ dựa tinh thần cho chúng em hoàn thành khóa luận Tuy có lúc căng thẳng, mệt mỏi chúng em không chùn bước động viên tích cực từ gia đình bạn bè Xin gởi lời cảm ơn chân thành đến gia đình bạn ln động viên, ủng hộ Mặc dù cố gắng hoàn thiện đồ án với tất nỗ lực thân, chắn khơng thể tránh khỏi thiếu sót Chúng em kính mong nhận thơng cảm bảo quý Thầy Cô bạn Chúng em xin chân thành cảm ơn! iv NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN v NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN vi MỤC LỤC MỞ ĐẦU i LỜI CẢM ƠN iv NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN v NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN vi MỤC LỤC vii CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu toán phân loại văn 1.2 Tiền xử lý văn biểu đặc trưng văn không gian vector 1.2.1 Tiền xử lý văn 1.2.1.1 Tách từ ( tiếng Việt ) 1.2.1.2 Loại bỏ ký tự thừa 1.2.1.3 Loại bỏ từ có chiều dài ngắn 10 1.2.1.4 Loại bỏ từ dừng 10 1.2.1.5 Chỉ giữ lại dạng nguyên mẫu 10 1.2.2 Biểu diễn đặc trưng văn không gian vector 11 1.2.2.1 Chọn lựa đặc trưng 11 1.2.2.2 Vector hóa văn 14 1.3 Một số phương pháp phân lớp phổ biến 17 1.3.1 K láng giềng gần ( K-nearest Neighbor ) 17 1.3.2 Phương pháp định ( decision tree ) 20 1.3.3 Phương pháp Naïve Bayes 21 1.3.4 Mạng nơron nhân tạo 22 1.3.5 Phương pháp Centroid-based vector 25 1.3.6 Phương pháp SVMs 25 CHƯƠNG 2: 2.1 PHƯƠNG PHÁP PHÂN LỚP SVMs 27 Phân lớp SVMs nhị phân 27 2.1.1 Phân lớp tuyến tính 28 2.1.2 SVMs với siêu phẳng có lề cực đại 29 2.1.3 Bài toán tối ưu hóa 32 vii 2.1.4 Trường hợp phân tách tuyến tính - Lề mềm (Soft margin) 33 2.1.5 SVMs phi tuyến - Hàm nhân 35 2.1.6 Giải thuật huấn luyện 37 2.1.7 Ưu khuyết điểm SVMs 45 2.2 Phân loại đa lớp 46 2.2.1 One-versus-All 46 2.2.2 One-Versus-One (OvO, Pairwise) 49 2.2.3 Các phương pháp dựa nhị phân 50 2.2.3.1 Decision Directed Acyclic Graph (DDAG) 51 2.2.3.2 Half-against-Half (HAH) 52 CHƯƠNG 3: CÂY TỔNG QUÁT VÀ XÁC SUẤT LỖI 54 3.1 Mơ hình tổng qt 54 3.2 Xác suất lỗi tổng quát 56 3.2.1 Định nghĩa: 56 3.2.2 Xác định xác suất lỗi 56 3.3 Giải thuật thử nghiệm 60 3.3.1 Độ tách rời hai nhóm 60 3.3.2 Giải thuật xác định cấu trúc 62 CHƯƠNG 4: 4.1 CHƯƠNG TRÌNH PHÂN LỚP, KẾT QUẢ THỰC NGHIỆM 69 SVM Framework 69 4.1.1 Module tiền xử lý văn bản: 71 4.1.2 Module huấn luyện: 71 4.1.3 Module phân lớp 73 4.2 Kết thử nghiệm kết luận 74 4.2.1 Dữ liệu thử nghiệm 74 4.2.2 Kết thử nghiệm 77 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 83 Kết luận kết đạt 83 Hướng phát triển 84 PHỤ LỤC 85 Kết phân lớp R8 85 viii Kết phân lớp R52 87 Kết phân lớp 10ng 90 Kết phân lớp DTR 93 Kết phân lớp r9TTO 95 TÀI LIỆU THAM KHẢO 99 Tiếng Việt 99 Tiếng Anh 99 ix GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.3 0.4 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.7 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.4 0.4 0.4 0.4 PHỤ LỤC 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.9 0.1 0.2 0.3 0.4 94.746% 94.746% 94.746% 94.746% 94.746% 94.746% 94.746% 94.746% 94.746% 94.746% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 86 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.4 0.4 0.4 0.4 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.9 0.8 0.7 0.6 0.5 0.6 0.5 0.8 0.8 0.7 0.5 0.6 0.7 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.8 0.9 1 0.9 0.9 0.9 1 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.792% 94.838% 94.884% 94.929% 94.975% 94.975% 95.021% 95.112% 95.432% 95.523% Alpha 0.9 0.9 0.9 0.9 0.9 0.9 Beta 0.1 0.2 0.3 0.4 0.5 0.6 0.1 Độ xác 96.797% 96.797% 96.797% 96.797% 96.797% 96.797% 96.797% Kết phân lớp R52 PHỤ LỤC 87 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 1 1 0.5 0.6 0.8 0.8 0.8 0.8 0.8 0.8 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.7 0.7 0.7 0.7 0.7 0.7 0.2 PHỤ LỤC 0.2 0.3 0.4 0.5 0.6 1 0.1 0.2 0.3 0.4 0.5 0.6 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 96.797% 96.797% 96.797% 96.797% 96.797% 96.899% 96.899% 96.899% 96.899% 96.899% 96.899% 96.899% 96.899% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 96.95% 97.001% 88 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.3 0.4 0.8 0.8 0.8 0.1 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.3 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.7 0.7 0.7 0.1 0.1 PHỤ LỤC 1 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.7 0.8 0.9 0.1 0.2 97.001% 97.001% 97.001% 97.001% 97.001% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.051% 97.102% 97.102% 89 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.9 0.9 0.9 0.9 0.8 0.7 1 1 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.7 0.8 0.9 1 0.7 0.8 0.9 97.102% 97.102% 97.102% 97.102% 97.102% 97.102% 97.102% 97.102% 97.102% 97.102% 97.102% 97.204% 97.255% 97.306% 97.306% 97.306% 97.306% Kết phân lớp 10ng Alpha 0.9 0.8 0.7 0.6 0.5 0.1 0.2 0.3 0.4 1 1 1 1 PHỤ LỤC Beta 1 1 1 1 1 0.5 0.7 0.6 0.1 0.2 0.3 0.4 0.8 Độ xác 75.253% 75.383% 75.513% 75.565% 75.695% 76.084% 76.318% 76.318% 76.318% 76.318% 76.318% 76.396% 76.422% 76.448% 76.448% 76.448% 76.448% 76.474% 90 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.5 0.6 0.7 0.9 0.1 0.2 0.3 0.4 0.9 0.9 0.9 0.9 0.9 0.9 0.8 0.9 0.9 0.5 0.8 0.5 0.7 0.8 0.8 0.8 0.8 0.8 0.1 0.2 0.3 0.4 0.7 0.8 0.1 0.2 0.3 0.4 0.6 PHỤ LỤC 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.1 0.2 0.3 0.4 0.6 0.7 0.9 0.8 0.5 0.8 0.8 0.7 0.8 0.1 0.2 0.3 0.4 0.7 0.8 0.8 0.8 0.8 0.7 0.6 0.7 0.7 0.7 0.7 0.7 76.526% 76.578% 76.578% 76.603% 76.603% 76.629% 76.629% 76.629% 76.629% 76.629% 76.629% 76.629% 76.629% 76.629% 76.629% 76.655% 76.655% 76.707% 76.811% 76.811% 76.837% 76.863% 76.889% 76.889% 76.889% 76.889% 76.941% 76.993% 76.993% 76.993% 76.993% 76.993% 76.993% 77.019% 77.019% 77.019% 77.019% 77.019% 91 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.6 0.8 0.7 0.7 0.7 0.7 0.5 0.6 0.7 0.6 0.6 0.6 0.6 0.5 0.5 0.5 0.5 0.5 0.6 0.7 0.1 0.2 0.3 0.4 0.1 0.1 0.1 0.1 0.1 0.2 0.2 0.2 0.2 0.2 0.3 0.3 0.3 0.3 PHỤ LỤC 0.8 0.5 0.1 0.2 0.3 0.4 0.6 0.6 0.6 0.1 0.2 0.3 0.4 0.1 0.2 0.3 0.4 0.5 0.5 0.5 0.6 0.6 0.6 0.6 0.1 0.2 0.3 0.4 0.5 0.1 0.2 0.3 0.4 0.5 0.1 0.2 0.3 0.4 77.019% 77.019% 77.045% 77.045% 77.045% 77.045% 77.071% 77.071% 77.071% 77.097% 77.097% 77.097% 77.097% 77.123% 77.123% 77.123% 77.123% 77.123% 77.175% 77.175% 77.201% 77.201% 77.201% 77.201% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% 92 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.3 0.4 0.4 0.4 0.4 0.4 0.5 0.1 0.2 0.3 0.4 0.5 77.227% 77.227% 77.227% 77.227% 77.227% 77.227% Beta 0.5 0.6 0.1 0.2 0.3 0.4 0.1 0.2 0.3 0.4 0.7 0.5 0.5 0.6 0.7 0.5 0.1 0.2 0.3 0.4 0.6 0.1 0.2 0.3 0.4 0.6 Độ xác 89.547% 89.673% 89.798% 89.798% 89.798% 89.798% 89.798% 89.798% 89.798% 89.798% 89.798% 89.924% 89.924% 89.924% 89.924% 89.924% 89.924% 90.05% 90.05% 90.05% 90.05% 90.05% 90.05% 90.05% 90.176% 90.176% 90.176% 90.176% 90.176% Kết phân lớp DTR Alpha 1 0.9 0.9 0.9 0.9 1 1 0.8 0.8 0.9 0.9 0.9 0.9 0.7 0.8 0.8 0.8 0.8 0.8 0.7 0.7 0.7 0.7 0.7 PHỤ LỤC 93 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.7 0.8 0.8 0.8 0.9 0.9 1 0.7 0.7 0.7 0.6 0.6 0.1 0.2 0.3 0.4 0.5 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.1 0.1 0.1 0.1 0.1 0.1 0.2 0.2 0.2 0.2 0.2 0.2 0.3 PHỤ LỤC 0.7 0.8 0.9 0.8 0.9 0.8 0.9 0.7 0.8 0.9 0.5 0.5 0.5 0.5 0.5 0.5 0.1 0.2 0.3 0.4 0.6 0.8 0.9 0.1 0.2 0.3 0.4 0.6 0.1 0.2 0.3 0.4 0.6 0.1 90.176% 90.176% 90.176% 90.176% 90.176% 90.176% 90.176% 90.176% 90.302% 90.302% 90.302% 90.428% 90.428% 90.554% 90.554% 90.554% 90.554% 90.554% 90.554% 90.554% 90.554% 90.554% 90.554% 90.554% 90.554% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 94 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.3 0.3 0.3 0.3 0.3 0.4 0.4 0.4 0.4 0.4 0.4 0.5 0.5 0.5 0.5 0.5 0.5 0.6 0.1 0.1 0.2 0.2 0.3 0.3 0.4 0.4 0.5 0.5 0.1 0.2 0.3 0.4 0.5 0.2 0.3 0.4 0.6 0.1 0.2 0.3 0.4 0.6 0.1 0.2 0.3 0.4 0.6 0.7 0.8 0.9 0.8 0.9 0.8 0.9 0.8 0.9 0.8 0.9 0.7 0.7 0.7 0.7 0.7 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.68% 90.806% 90.806% 90.806% 90.806% 90.806% 90.806% 90.806% 90.806% 90.806% 90.806% 90.932% 90.932% 90.932% 90.932% 90.932% Beta 0.6 Độ xác 81.418% Kết phân lớp r9TTO Alpha 0.1 PHỤ LỤC 95 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.1 0.1 0.2 0.2 0.2 0.3 0.3 0.3 0.3 0.3 0.4 0.4 0.4 0.5 0.5 0.5 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.9 0.9 1 0.1 0.1 0.1 0.1 0.1 0.1 0.2 PHỤ LỤC 0.9 0.1 0.6 0.6 0.7 0.8 0.9 0.6 0.9 0.6 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.9 0.1 0.9 0.1 0.2 0.3 0.4 0.5 0.8 0.2 81.418% 81.269% 81.493% 81.418% 81.418% 81.418% 81.493% 81.493% 81.418% 81.269% 81.493% 81.493% 81.343% 81.493% 81.493% 81.343% 81.418% 81.493% 81.493% 81.493% 81.493% 81.194% 81.269% 81.269% 81.194% 81.045% 81.493% 80.746% 81.418% 81.343% 81.194% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 96 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.2 0.2 0.2 0.2 0.3 0.4 0.4 0.5 0.5 0.9 0.9 1 0.1 0.2 0.2 0.3 0.3 0.3 0.3 0.4 0.4 0.4 0.4 0.4 0.5 0.5 0.5 0.5 0.5 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 PHỤ LỤC 0.3 0.4 0.5 0.9 0.1 0.7 0.8 0.7 0.8 0.7 0.8 0.7 0.8 0.7 0.7 0.8 0.2 0.3 0.4 0.5 0.1 0.2 0.3 0.4 0.5 0.1 0.2 0.3 0.4 0.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.567% 81.642% 81.642% 81.642% 81.642% 81.642% 81.642% 81.642% 81.716% 81.791% 81.791% 81.791% 81.791% 81.716% 81.791% 81.791% 81.791% 81.791% 82.239% 82.313% 82.313% 82.313% 82.313% 82.015% 81.866% 81.866% 97 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ 0.7 0.7 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.9 0.9 0.9 0.9 0.9 0.9 1 1 PHỤ LỤC 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.2 0.3 0.4 0.5 0.6 81.791% 81.866% 82.015% 82.239% 82.239% 82.239% 82.164% 82.164% 82.09% 82.09% 81.866% 81.94% 81.642% 81.791% 81.791% 81.791% 81.716% 81.716% 81.716% 81.716% 81.716% 81.642% 81.642% 98 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vector hỗ trợ SVM, 2005 [2] Trang Nhật Quang, Thu thập thông tin Internet phục vụ cho việc cung cấp tin tức trang web hành thành phố, Luận văn thạc sĩ, Trường ĐH Khoa học Tự Nhiên, 2007 [3] Vũ Thanh Nguyên, Trang Nhật Quang, Ứng dụng thuật tốn phân lớp rút trích thơng tin văn FSVM INTERNET, trang 25 – 36, Tạp chí phát triển KH&CN, tập 12, số 05-2009 Tiếng Anh [4] Yiming Yang, Jan O Pedersen (1997), A comparative Study on Feature Selection in Text Categorization, Proceedings of {ICML}-97, 14th International Conference on Machine Learning, trang 412-420 [5] G Madzarov, D Gjorgjevikj, I Chorbev, A Multi-class SVM Classifier Utilizing Binary Decision Tree, Informatica: An International Journal of Computing and Informatics, trang 225-233, 33, 2009 [6] J Dong, A Krzyzak, C Suen, A Practical SMO Algorithm, Proc, ICPR, 2002 [7] Nello Cristianini John Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge University Press, 2000 [8] Shigeo Abe, Analysis of Multiclass Support Vector Machines, Thyroid TÀI LIỆU THAM KHẢO 99 GVHD: TS VŨ THANH NGUYÊN SVTH: NGUYỄN HOÀNG VŨ, LÊ QUÝ QUỐC CƯỜNG _ [9] F Takahashi, S Abe, Decision-tree-based multiclass support vector machines, Neural Information Processing, 2002 ICONIP'02 Proceedings of the 9th International Conference on [10] G.W Flake S Lawrence, Efficient SVM regression training with SMO, Machine Learning, vol 46, No 1-3, trang 271-290, tháng 3/2002 [11] T Inoue S Abe, Fuzzy Support Vector Machines for pattern classification, Proceedings of International Joint Conference on Neural Networks (IJCNN '01), 2, trang 1449 – 1454, tháng năm 2001 [12] H Lei, Venu Govindaraju Half-against-Half Multi-class Support Vector Machines Multiple Classifier Systems, 6th International Workshop, MSC 2005, Seaside, CA, USA, June 13-15, 2005 [13] Osuna, E., Freund, R., Girosi, F., An Improved Training Algorithm for Support Vector Machines, Proc IEEE NNSP '97, (1997) [14] J.C Platt, N Cristianini, J Shawe-Taylor, Large margin DAGs for Multiclass classification, Advances in Neural Information Processing Systems 12, trang 547-553, The MIT Press, 2000 [15] J Weston, C Watkins Multi-class support vector machines Proceedings of ESANN99, M Verleysen, Ed., Brussels, Belgium, 1999 [16] John C Platt, Sequential Minimal Optimasation: A Fast Algorithm for Training Support Vector Machines, Technical Report MSR-TR-98-14, 1998 [17] V.N Vapnik, Statistical Learning Theory, Wiley, 1998 [18] T-.T Friess, N Cristianini, C Campbell, The Kernel-Adatron Algorithm: a Fast and Simple Learning Procedure for Support Vector Machines, J InShavlik (ed) Machine Learning: Proceedings of the Fifteenth International Conference, Morgan Kaufmann Publishers, San Francisco, California TÀI LIỆU THAM KHẢO 100 ... Tách từ văn - Biểu diễn văn - Phương pháp học để phân loại văn - Đánh giá hiệu phương pháp học 1.2 Tiền xử lý văn biểu đặc trưng văn không gian vector Để máy tính tự động phân loại văn bản, văn phải... lớp cho văn giựa k văn láng giềng + Gán nhãn văn gần Đây phương pháp đơn giản phương pháp xét Theo phương pháp này, văn di gán cho nhãn lớp có chứa văn ( số k văn ) có độ tương tự cao với d Phương. .. Theo phương pháp văn d gán nhãn k văn chọn, lớp chứa tới 4/8 số lượng văn lớp 3/8, lớp 1/8 Tuy nhiên ta dễ thấy hạn chế phương pháp số lượng văn thuộc lớp xấp xỉ số lượng văn thuộc lớp 3, thêm vào

Ngày đăng: 23/12/2018, 06:12

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w