Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,4 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN KIM ANH ỨNG DỤNG THUẬT TOÁN MÁY VECTOR HỖ TRỢ TRONG PHÂN LOẠI THÔNG TIN VĂN BẢN TRÊN HỆ THỐNG WEBSITE TUYỂN DỤNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2016 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN KIM ANH ỨNG DỤNG THUẬT TỐN MÁY VECTOR HỖ TRỢ TRONG PHÂN LOẠI THƠNG TIN VĂN BẢN TRÊN HỆ THỐNG WEBSITE TUYỂN DỤNG CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ:0 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS PHAN THỊ HÀ HÀ NỘI - 2016 i LỜI CAM ĐOAN Luận văn thành trình học tập nghiên cứu tơi giúp đỡ, khuyến khích q thầy sau năm tơi theo học chương trình đào tạo Thạc sĩ, chuyên ngành Khoa học máy tính trường Học viện Cơng nghệ Bưu Viễn thơng Tơi cam đoan cơng trình nghiên cứu riêng tơi Nội dung luận văn có tham khảo sử dụng số thông tin, tài liệu từ nguồn sách, tạp chí liệt kê danh mục tài liệu tham khảo trích dẫn hợp pháp TÁC GIẢ Nguyễn Kim Anh ii LỜI CÁM ƠN Tôi xin gửi lời cảm ơn tri ân tới thầy cô giáo, cán Học viện Cơng nghệ Bưu Viễn thơng giúp đỡ, tạo điều kiện tốt cho tơi q trình học tập nghiên cứu chương trình Thạc sĩ Tơi xin gửi lời cảm ơn sâu sắc tới Tiến sĩ Phan Thị Hà tận tình hướng dẫn, giúp đỡ động viên tơi để hồn thành tốt Luận văn “ỨNG DỤNG THUẬT TOÁN MÁY VECTOR HỖ TRỢ TRONG PHÂN LOẠI THÔNG TIN VĂN BẢN TRÊN HỆ THỐNG WEBSITE TUYỂN DỤNG“ Do vốn kiến thức lý luận kinh nghiệm thực tiễn cịn nên luận văn khơng tránh khỏi thiếu sót định Tơi xin trân trọng tiếp thu ý kiến thầy, cô để luận văn hoàn thiện Trân trọng cám ơn Tác giả iii MỤC LỤC MỞ ĐẦU 1.1 Tính cấp thiết đề tài 1.2 Tổng quan vấn đề nghiên cứu 1.3 Mục đích, đối tượng, phạm vi phương pháp nghiên cứu 1.4 Cấu trúc luận văn Chương - BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1 Phát biểu toán phân loại văn 1.2 Một số phương pháp phân loại văn 1.2.1 Thuật toán K–Nearest Neighbor (kNN) 1.2.2 Thuật toán định (Decision tree) 1.2.3 Thuật toán SVM (Support vector machine) 10 1.2.4 Thuật tốn Nạve Bayes 11 1.3 Các mơ hình biểu diễn văn 13 1.3.1 Mơ hình Boolean 13 1.3.2 Mơ hình khơng gian vector 14 1.3.3 Mơ hình xác suất (Mơ hình túi từ) 16 1.4 Lựa chọn đặc trưng biểu diễn văn 17 1.4.1 Thu gọn đặc trưng biểu diễn 17 1.4.2 Định luật Zipf 18 1.5 Phương pháp đánh trọng số cho từ khóa 18 1.5.1 Phương pháp boolean 19 1.5.2 Phương pháp dựa tần số 19 Chương - ÁP DỤNG SVM VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN 21 2.1 Thu thập tiền xử lý văn 21 2.1.1 Thu thập địa trang web URL 21 2.1.2 Lọc nội dung trang web 22 iv 2.1.3 2.2 Tiền xử lý văn 24 Trình bày chi tiết thuật tốn Máy vector hỗ trợ SVM 32 2.2.1 Giới thiệu thuật toán 32 2.2.2 Ý tưởng thuật toán 32 2.2.3 Thuật toán 33 2.3 Phân loại đa lớp nội dung văn với SVM 42 2.4 Các tham số SVM 45 Chương - THỬ NGHIỆM VÀ ĐÁNH GIÁ 46 3.1 Xây dựng liệu tiền xử lý văn 46 3.2 Giai đoạn phân lớp 49 3.2.1 URL phục vụ cho ứng dụng 49 3.2.2 Triển khai ứng dụng 49 KẾT LUẬN 51 DANH MỤC TÀI LIỆU THAM KHẢO 53 PHỤ LỤC 55 v DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa tiếng Anh Ý nghĩa tiếng Việt SVM Support vector machine NB Naïve Bayes kNN K–Nearest Neighbor K – Láng giềng gần TF Term Frequency Tần số xuất từ IDF Inverse Document Frequency Tần số nghịch từ Máy vector hỗ trợ tập văn RSS Really Simple Syndication Định dạng tài liệu vi DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Biểu diễn văn mơ hình Boolean 14 Bảng 1.2: Biểu diễn văn theo mơ hình Vector 15 Bảng 3.1: Số lượng tập liệu huấn luyện kiểm tra 47 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quy trình phân loại văn [11] Hình 1.2: Phân lớp nhị phân 11 Hình 1.3: Biểu diễn vector văn khơng gian chiều .15 Hình 1.4: Biểu diễn văn theo mơ hình vector [18] 16 Hình 1.5: Biểu diễn văn theo mơ hình túi từ [18] .17 Hình 2.1: Sử dụng Maven cho thư viên JSOUP [19] 23 Hình 2.2: Một website việc làm điển hình .23 Hình 2.3: Nội dung đầu vào mã html 24 Hình 2.4: Nội dung đầu văn trích xuất 24 Hình 2.5: Quy trình tách từ 28 Hình 2.6: Đầu vào thuật toán tách từ 29 Hình 2.7: Quá trình xử lý công cụ vnTokenizer 30 Hình 2.8: Đầu văn tách từ 30 Hình 2.9: Siêu phẳng h phân chia liệu huấn luyện thành lớp + – với khoảng cách biên lớn Các điểm gần h vector hỗ trợ (Support Vector khoanh tròn) 33 Hình 2.10: Phân lớp nhị phân 33 Hình 2.11: Phân lớp văn thuộc chủ đề chiến lược OAR 42 Hình 2.12: Phân lớp văn thuộc chủ đề chiến lược OAO 44 Hình 2.13: Vùng mập mờ phân lớp 44 Hình 3.1: Thông tin RSS website https://www.careerlink.vn/ 46 Hình 3.2: Danh sách RSS thu thập phục vụ giai đoạn huấn luyện 47 Hình 3.3: Các category sử dụng 47 Hình 3.4: Biểu diễn văn dạng vector 48 Hình 3.5: Kết độ xác việc phân loại .49 Hình 3.6: Phân loại URL input vào ứng dụng 50 MỞ ĐẦU 1.1 Tính cấp thiết đề tài Trong sống đại ngày nay, nhu cầu cập nhật sử dụng thông tin internet phần thiết yếu hoạt động hàng ngày người Tại Việt Nam, với bùng nổ công nghệ thông tin, nhu cầu đọc báo, tìm kiếm thơng tin internet trở thành thói quen thường nhật, đó, tìm việc làm nhu cầu thiết yếu Một yêu cầu đặt là: Làm tìm kiếm thơng tin việc làm cách có hiệu nhất? Với khối lượng thông tin lớn địi hỏi phải xử lý nhanh việc phân loại thủ công điều Hướng giải đưa xây dựng giải pháp cho phép tự động phân loại thông tin theo nhóm nghề nghiệp Kỹ thuật Support Vector Machines (SVM) đánh giá công cụ phân loại phổ biến cho toán phân lớp phi tuyến Nhiều ứng dụng xây dựng dựa kỹ thuật SVM hiệu Xuất phát từ yêu cầu thực tế, nhằm hướng tới việc phân loại nội dung văn tiếng Việt, luận văn có tựa đề: “Ứng dụng thuật toán Máy vector hỗ trợ phân loại thông tin văn hệ thống Website tuyển dụng” 1.2 Tổng quan vấn đề nghiên cứu Sự đời phát triển nhanh chóng World Wide Web tạo điều kiện thuận lợi cho việc phân phối chia sẻ thông tin Internet, dẫn đến bùng nổ thơng tin số lượng, chất lượng chủ đề thông tin Trong luận văn này, em tập trung nghiên cứu phương pháp phân loại văn tiếng Việt, cụ thể thu thập tự động nội dung Website, thực tối ưu bước tiền xử lý, sau phân loại nội dung theo số lĩnh vực nghề nghiệp kỹ thuật phân loại tốt máy vector hỗ trợ SVM Công tác phân loại thư viện quan thông tin giới quan tâm Theo Yang & Xiu, “Việc phân loại văn tự động việc gán