Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

91 9 0
Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM ĐÀ NẴNG TÔ TRẦN VÂN THẢO NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH QUẢNG NGÃI LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM ĐÀ NẴNG TÔ TRẦN VÂN THẢO NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH QUẢNG NGÃI Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS.NGUYỄN THỊ NGỌC ANH Đà Nẵng - Năm 2019 i LỜI CAM ĐOAN Tôi xin cam đoan: Tơi cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực Những tư liệu sử dụng luận văn có nguồn gốc trích dẫn rõ ràng, đầy đủ Tác giả luận văn Tô Trần Vân Thảo ii LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành đến quý thầy cô giáo, Khoa chuyên ngành Công nghệ thơng tin, Trường Đại học Sư Phạm tận tình giảng dạy, truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian theo học chương trình Các kiến thức, kinh nghiệm quý báu thầy giáo khơng giúp cá nhân tơi hồn thiện hệ thống kiến thức học tập mà giúp tơi ứng dụng kiến thức cơng việc Đặc biệt, xin gởi lời cảm ơn chân thành sâu sắc đến cô giáo TS Nguyễn Thị Ngọc Anh, người Thầy tận tình hướng dẫn tạo điều kiện tốt để tơi hồn thành luận văn Tơi xin bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè tạo điều kiện để tơi dành thời gian cho khóa học Xin chân thành cảm ơn anh chị em lớp K34 ln hỗ trợ tơi q trình học tập để có kết ngày hơm nay, tơi nhớ lớp K34 thân thương Tuy có nhiều cố gắng, chắn luận văn không tránh khỏi thiếu sót định Tơi mong nhận ý kiến đóng góp quý báu quý thầy cô giáo anh chị, bạn để luận văn ngày hoàn thiện Trân trọng cảm ơn! Đà Nẵng, ngày tháng năm 2019 Tác giả TƠ TRẦN VÂN THẢO iii TĨM TẮT NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH QUẢNG NGÃI Nghành: Hệ Thống Thông Tin Họ tên học viên: Tô Trần Vân Thảo Người hướng dẫn khoa học: TS Nguyễn Thị Ngọc Anh Cơ sở đào tạo: Trường Đại học Sư Phạm – ĐH Đà Nẵng Tóm tắt Luận văn sâu vào nghiên cứu tổng quan phân lớp phân loại văn tiếng việt với toán áp dụng cho việc phân loại văn hành văn phịng tỉnh Quảng Ngãi.Chương trình viết ngơn ngữ c# Microsoft Visual Studio Community 2017, tích hợp module tiền xử lý văn module phân lớp (SVM) Cụ thể, luận văn thực bước sau: nghiên cứu số thuật toán phân loại KNN, Nạve Bayes SVM từ đưa toán áp dụng vào phân loại văn lĩnh vực hành chính; xây dựng từ điển áp dụng vào việc tách từ; xây dựng tập liệu nhãn/lớp áp dụng vào việc huấn luyện; xây dựng chương trình thực nghiệm cho việc phân loại văn Từ khóa: Xư lý văn bản; mơ hình học có giám sát; SVM; Hàm nhân Kernel; Siêu phẳng tối ưu; Xác nhận giáo viên hướng dẫn Người thực đề tài '�1 (1&-t�< 161,Qcirv \l&v'� �� STUDYING MACHINE LEARNING METHOD �-STUDYIN� MONITORING TO DISTRIBUTE TEXT CATEGORIES IN QUANG NGAI PROVINCE Specialized: Information System Full name of master student: To Tran Van Thao Supervisors: Dr Nguyen Thi Ngoc Anh Tranning institution: University Of Science And Education – The University Of Da Nang Abtract This dissertation goes into the research and overview of classification and classification of Vietnamese texts with problems such as classification of electronic news, classification of documents in finance, banking, spam redistribution The program is written in the c # language in Microsoft Visual Studio Community 2017, integrating the preprocessing module and the layered module (SVM) - Studying some classification algorithms such as KNN, Naïve Bayes and SVM, thereby giving the problem of applying to classification of documents in the administrative field - Develop a dictionary to apply to the separation - Build label / class data set applied to training - Develop an experimental program for text classification Key words: Keywords: SVM; Kernel kernel; Optimal super flat; Supervior’s confirmation Student !fatHh, 16 1;.6'-;., V&v '\h� iv MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn luận văn Nội dung luận văn CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Tổng quan học máy 1.1.1 Khái niệm học máy 1.1.2 Phân loại phương pháp học máy 1.1.3 Các ứng dụng học máy 1.2 Tổng quan phân lớp liệu 1.2.1 Giới thiệu phân lớp 1.2.2 Các loại phân lớp liệu 1.3 Phân lớp văn 1.3.1 Khái niệm 1.3.2 Định nghĩa phân lớp văn 11 1.3.3 Mơ hình phân lớp văn 11 1.3.4 Các bước xây dựng phân lớp văn 12 1.3.5 Các bước tiền xử lý liệu 13 1.3.6 Phương pháp tách từ tiếng Việt 14 1.3.7 Loại bỏ từ dừng 14 1.3.8 Phương pháp biểu diễn văn 16 1.4 Các cơng trình liên quan đến vấn đề xử lý ngôn ngữ tự nhiên phân lớp văn 18 CHƯƠNG KHÁI QUÁT MÔ HÌNH HỌC MÁY SUPPORT VECTOR MACHINES (SVM) 21 2.1 Ngôn ngữ tiếng Việt 21 2.2 Khái niệm văn quản lý nhà nước 22 2.2.1 Văn quản lý nhà nước 22 2.2.2 Văn quản lý hành nhà nước 22 v 2.2.3 Phân loại văn quản lý nhà nước 22 2.2.4 Ngôn ngữ văn hành 23 2.3 Bộ phân loại Support Vector Machines (SVM) 23 2.3.1 Siêu phẳng tối ưu 25 2.3.2 Phân lớp mềm 28 2.3.3 Trường hợp phân tách phi tuyến 33 2.3.4 Một số hàm nhân (Kernel) thông dụng 34 2.3.5 Phương pháp tách từ 35 2.3.6 Phương pháp Kiểm tra chéo (cross validation) 35 2.3.7 Các yếu tố tác động đến kết phân loại văn bản: 36 2.4 Kết luận chương 36 CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM TRONG BÀI TỐN HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH 37 3.1 Bài toán phân lớp Văn phòng tỉnh Quảng Ngãi 37 3.1.1 Phát biểu toán 37 3.1.2 Phương pháp phân lớp SVM 38 3.1.3 Mơ hình SVM cho toán phân lớp văn 38 3.2 Xây dựng chương trình thử nghiệm 42 3.2.1 Môi trường thực nghiệm 42 3.3.2 Thư viện nguồn hỗ trợ 42 3.2.3 Dữ liệu chương trình 42 3.2.4 Xây dựng từ điển danh từ 44 3.2.5 Giao diện chương trình 45 3.2.6 Các bước sử dụng chương trình thử nghiệm 45 3.2.7 Kết phân loại văn 48 3.3 Đánh giá kết thực nghiệm 49 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO DỀ TAI (BẢN SAO) vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu Thuật ngữ CNTT Công nghệ thông tin CPU Central Processing Unit CSDL Cở sở liệu CV Corters Vapnik IDF Inverse Document Frequency KKT Karush-Kuhn-Tucker KNN K-nearest neighbors (K láng giềng gần nhất) ML Machine Learning NB Naïve Bayes RBF Radial Basic Function RFC Relative Frequency Count TB Terabyte (thuật ngữ đo lường để dung lượng lưu trữ máy tính) TF Term Frequency TF – IDF Term frequency – inverse document frequency SVM Support Vector Machines (Máy vector hỗ trợ) vii DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 3.1 Cho tập liệu văn 40 3.2 Biểu diễn văn dạng từ điển 42 3.3 Thiết bị thực nghiệm 42 3.4 Thư viện nguồn hỗ trợ 42 3.5 Dữ liệu học kiểm tra 43 3.6 Tập số lượng liệu huấn luyện 43 3.7 Tập số lượng liệu kiểm thử 44 3.8 Gán nhãn từ loại 44 viii DANH MỤC CÁC HÌNH VẼ Số hiệu hình Tên hình Trang 1.1 Mơ hình thuật tốn học máy có giám sát 1.2 Hoạt động phân loại tập tài liệu 10 1.3 Sơ đồ khung hệ thống phân lớp văn 12 1.4 Mô tả bước xây dựng phân lớp 13 1.5 Mơ hình khơng gian vector 18 2.1 Mơ hình SVM 24 2.2 Biểu diễn siêu phẳng lề cực đại cho phân lớp SVM hai lớp 26 2.3 Siêu phẳng tách tuyến tính 27 2.4 Phân lớp mềm 29 2.5 Ánh xạ liệu vào không gian khác với số chiều cao 33 3.1 Mơ hình tốn phân lớp văn liệu văn hành 39 3.2 Mơ hình q trình tiền xử lý 39 3.3 Giao diện chương trình 45 3.4 Dữ liệu từ điển 46 ... tài ? ?Nghiên cứu phương pháp học máy để phân loại văn Văn phòng tỉnh Quảng Ngãi? ?? làm chủ đề nghiên cứu luận văn Mục đích nghiên cứu Nghiên cứu kỹ thuật học máy số giải thuật thường sử dụng học máy, ... TĨM TẮT NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH QUẢNG NGÃI Nghành: Hệ Thống Thông Tin Họ tên học viên: Tô Trần Vân Thảo Người hướng dẫn khoa học: TS... ĐẠI HỌC SƯ PHẠM ĐÀ NẴNG TÔ TRẦN VÂN THẢO NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG TỈNH QUẢNG NGÃI Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN

Ngày đăng: 24/04/2022, 15:32

Hình ảnh liên quan

bảng Tên bảng Trang - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

b.

ảng Tên bảng Trang Xem tại trang 9 của tài liệu.
hình Tên hình Trang - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

h.

ình Tên hình Trang Xem tại trang 10 của tài liệu.
Hình 1.1. Mơ hình thuật tốn học máy cĩ giám sát - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 1.1..

Mơ hình thuật tốn học máy cĩ giám sát Xem tại trang 16 của tài liệu.
Hình 1.2. Hoạt động của một bộ phân loại trên một tập các tài liệu - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 1.2..

Hoạt động của một bộ phân loại trên một tập các tài liệu Xem tại trang 20 của tài liệu.
Hình 1.3. Sơ đồ khung một hệ thống phân lớp văn bản 1.3.4. Các bước xây dựng bộ phân lớp văn bản  - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 1.3..

Sơ đồ khung một hệ thống phân lớp văn bản 1.3.4. Các bước xây dựng bộ phân lớp văn bản Xem tại trang 22 của tài liệu.
Hình 1.4. Mơ tả bước xây dựng bộ phân lớp - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 1.4..

Mơ tả bước xây dựng bộ phân lớp Xem tại trang 23 của tài liệu.
Hình 1.5. Mơ hình khơng gian vector[22] - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 1.5..

Mơ hình khơng gian vector[22] Xem tại trang 28 của tài liệu.
Hình 2.1. Mơ hình SVM - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 2.1..

Mơ hình SVM Xem tại trang 34 của tài liệu.
Hình 2.2. Biểu diễn siêu phẳng lề cực đại cho bộ phân lớp SVM trên hai lớp - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 2.2..

Biểu diễn siêu phẳng lề cực đại cho bộ phân lớp SVM trên hai lớp Xem tại trang 36 của tài liệu.
Hình 2.3. Siêu phẳng tách tuyến tính - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 2.3..

Siêu phẳng tách tuyến tính Xem tại trang 37 của tài liệu.
Hình 2.4. Phân lớp mềm - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 2.4..

Phân lớp mềm Xem tại trang 39 của tài liệu.
Hình 2.5. Ánh xạ dữ liệu vào khơng gian khác với số chiều cao hơn - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 2.5..

Ánh xạ dữ liệu vào khơng gian khác với số chiều cao hơn Xem tại trang 43 của tài liệu.
Hình 3.1. Mơ hình bài tốn phân lớp văn bản dữ liệu văn bản hành chính - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 3.1..

Mơ hình bài tốn phân lớp văn bản dữ liệu văn bản hành chính Xem tại trang 49 của tài liệu.
Hình 3.2. Mơ hình quá trình tiền xử lý - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 3.2..

Mơ hình quá trình tiền xử lý Xem tại trang 49 của tài liệu.
Bảng 3.1. Cho một tập dữ liệu văn bản - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Bảng 3.1..

Cho một tập dữ liệu văn bản Xem tại trang 50 của tài liệu.
1. Ngồi việc đào tạo nhân lự cy tế theo các hình thức đào tạo chuyên tu, cử tuyển, đào tạo theo địa chỉ sử dụng để đáp ứng cho  nhu cầu cán bộ  y  tế tuyến cơ sở;  Sở  Y tế cần  tập trung đào tạo  nâng cao, thu hút nhân tài ngành y, dược và quan tâm đúng  - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

1..

Ngồi việc đào tạo nhân lự cy tế theo các hình thức đào tạo chuyên tu, cử tuyển, đào tạo theo địa chỉ sử dụng để đáp ứng cho nhu cầu cán bộ y tế tuyến cơ sở; Sở Y tế cần tập trung đào tạo nâng cao, thu hút nhân tài ngành y, dược và quan tâm đúng Xem tại trang 51 của tài liệu.
Bảng 3.3. Thiết bị thực nghiệm - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Bảng 3.3..

Thiết bị thực nghiệm Xem tại trang 52 của tài liệu.
Bảng 3.2. Biểu diễn văn bản dưới dạng từ điển. - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Bảng 3.2..

Biểu diễn văn bản dưới dạng từ điển Xem tại trang 52 của tài liệu.
Bảng 3.5. Dữ liệu học và kiểm tra - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Bảng 3.5..

Dữ liệu học và kiểm tra Xem tại trang 53 của tài liệu.
Bảng 3.6. Tập số lượng dữ liệu huấn luyện - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Bảng 3.6..

Tập số lượng dữ liệu huấn luyện Xem tại trang 53 của tài liệu.
Bảng 3.7. Tập số lượng dữ liệu kiểm thử - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Bảng 3.7..

Tập số lượng dữ liệu kiểm thử Xem tại trang 54 của tài liệu.
Bảng 3.8. Gán nhãn từ loại - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Bảng 3.8..

Gán nhãn từ loại Xem tại trang 54 của tài liệu.
Hình 3.3. Giao diện chương trình   3.2.6. Các bước sử dụng chương trình thử nghiệm  - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 3.3..

Giao diện chương trình 3.2.6. Các bước sử dụng chương trình thử nghiệm Xem tại trang 55 của tài liệu.
Hình 3.4 dữ liệu từ điển - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 3.4.

dữ liệu từ điển Xem tại trang 56 của tài liệu.
Hình 3.5. Dữ liệu được gán nhãn - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 3.5..

Dữ liệu được gán nhãn Xem tại trang 57 của tài liệu.
Hình 3.6. Dữ liệu đã được huấn luyện - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 3.6..

Dữ liệu đã được huấn luyện Xem tại trang 57 của tài liệu.
Hình 3.7. Sau khi đã chọn xong các mục   3.2.7. Kết quả phân loại văn bản  - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Hình 3.7..

Sau khi đã chọn xong các mục 3.2.7. Kết quả phân loại văn bản Xem tại trang 58 của tài liệu.
Sau khi thực hiện phân loại ta được kết quả như hình 3.8 - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

au.

khi thực hiện phân loại ta được kết quả như hình 3.8 Xem tại trang 58 của tài liệu.
Qua bảng 3.9 cho thấy sau khi phân loại và so sánh với kết quả giữa văn bản kiểm  thử  và  văn  bản  được  máy  phân  loại  thu  được  kết  quả  phần  tăm  trung  bình  là  96.93% - Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

ua.

bảng 3.9 cho thấy sau khi phân loại và so sánh với kết quả giữa văn bản kiểm thử và văn bản được máy phân loại thu được kết quả phần tăm trung bình là 96.93% Xem tại trang 59 của tài liệu.