Nghiên cứu phương pháp học máy để phân loại văn bản tại Văn phòng UBND tỉnh Quảng Ngãi

26 110 0
Nghiên cứu phương pháp học máy để phân loại văn bản tại Văn phòng UBND tỉnh Quảng Ngãi

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM LÊ THANH TRANG NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG UBND TỈNH QUẢNG NGÃI Chun ngành: Hệ thống thơng tin Mãsố: 61.49.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN ĐàNẵng – Năm 2017 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC SƯ PHẠM- ĐHĐN Người hướng dẫn khoa học: PGS.TS HUỲNH CƠNG PHÁP Phản biện 1: TS Hồng Thị Thanh Phản biện 2: PGS.TS Lê Mạnh Thạnh Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Hệ thống thông tin họp Trường Đại học Sư phạm– ĐHĐN vào ngày 30 tháng năm 2017 Có thể tìm hiểu luận văn tại: -Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng - Trung tâm thông tin học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Hiện lượng lớn liệu văn có sẵn lĩnh vực khác thu thập, lưu trữ Việc phân loại văn tiến trình xếp tài liệu văn vào nhiều tài liệu vào nhóm chủ đề, để sử dụng vấn đề ngày trở nên cần thiết Vì thế, vấn đề phân lớp dự đoán khâu quan trọng học máy khai phá liệu Một công cụ đánh giá mạnh tinh vi cho tốn phân lớp phi tuyến kỹ thuật Support Vector Machines (SVM) Corters Vapnik giới thiệu vào năm 1995[14] Nhiều ứng dụng xây dựng dựa kỹ thuật SVM hiệu SVM mơ hình xây dựng siêu phẳng tập hợp siêu phẳng khơng gian nhiều chiều vơ hạn chiều, sử dụng cho phân loại, hồi quy, nhiệm vụ khác Trong nhiều trường hợp, phân chia lớp liệu cách tuyến tính không gian ban đầu dùng để mô tả vấn đề Vì vậy, nhiều cần phải ánh xạ điểm liệu không gian ban đầu vào không gian nhiều chiều hơn, để việc phân tính chúng trở nên dễ dàng khơng gian Gần đây, nhà nghiên cứu thực sử dụng kỹ thuật học máy để kết hợp tự động phân loại tài liệu cách sử dụng tập huấn luyện để thông qua phân loại tới tập đặc trưng tập tài liệu Quy trình học máy khởi tạo một kiểm tra tài liệu mẫu để định tập đặc trưng tối thiểu mà sinh kết phân loại mong muốn Trong giai đoạn huấn luyện giám sát khơng giám sát Trong hai trường hợp tập phân loại định nghĩa quyền ưu tiên, không giống phân nhóm mà định nghĩa phân loại dựa đặc trưng tài liệu thực Các kỹ thuật học không giám sát sử dụng đặc trưng tài liệu huấn luyện giải thuật định phân loại tài liệu thuộc vào Các kỹ thuật học có giám sát sử dụng tập tài liệu huấn luyện mà kết hợp phân loại để định tập đặc trưng tài liệu tạo kết mong muốn Tại Văn phòng UBND tỉnh Quảng Ngãi theo thống kê số lượng văn hành ban hành năm khoảng 15 nghìn văn loại chưa tính loại văn đến đơn vị Hạ tầng cơng nghệ thơng tin Văn phòng UBND tỉnh Quảng Ngãi đầu tư từ năm 2001 theo Đề án Tin học hóa quản lý hành nhà nước Chính phủ Đến nay, CSDL văn lưu giữ TB liệu Theo Nghị định Chính phủ u cầu cung cấp thơng tin trực tuyến Cổng thông tin điện tử tỉnh, Văn phòng UBND tỉnh Quảng Ngãi cung cấp CSDL văn từ năm 2010, việc phân loại văn vào nhóm dừng mức độ theo loại văn chưa phân loại theo lĩnh vực, để thuận lợi cho việc tra cứu, xếp, lưu trữ…Do vậy, cần phải có hệ thống xử lý văn hiệu phương pháp học máy có giám sát để tận dụng nguồn liệu văn chưa phân loại Văn phòng UBND tỉnh Quảng Ngãi Nhận thấy lĩnh vực mang tính khoa học cao, ứng dụng nhiều toán thực tế Với vấn đề nêu chọn đề tài “Nghiên cứu phương pháp học máy có giám sát để phân loại văn Văn phòng UBND tỉnh Quảng Ngãi” làm chủ đề nghiên cứu luận văn Mục đích nghiên cứu Nghiên cứu kỹ thuật học máy số giải thuật thường sử dụng học máy, ứng dụng kỹ thuật học có giám sát Mục tiêu nghiên cứu - Nghiên cứu kỹ thuật xử lý ngôn ngữ tiếng Việt - Xây dựng kho liệu huấn luyện để ứng dụng vào toán phân loại văn - Ứng dụng kỹ thuật học máy có giám sát vào tốn phân loại văn Văn phòng UBND tỉnh Quảng Ngãi Đối tượng phạm vi nghiên cứu Trong khuôn khổ luận văn thuộc loại nghiên cứu ứng dụng, đề tài giới hạn nghiên cứu vấn đề sau: - Các vấn đề liên quan đến học máy có giám sát - Các tài liệu, văn dạng text chuẩn tiếng Việt khơng có hình ảnh âm - Nghiên cứu phương pháp học có giám sát để giải tốn phân loại văn theo chủ đề như: Xây dựng, Giao thơng, Văn hóa xã hội, Cơng nghệ thơng tin, Hành chính, Nơng nghiệp, Nội chính… Phương pháp nghiên cứu 5.1 Phương pháp lý thuyết - Thu thập nghiên cứu tài liệu có liên quan - Nghiên cứu kỹ thuật học có giám sát - Nghiên cứu lý thuyết xử lý ngôn ngữ tự nhiên - Biểu đạt kết 5.2 Phương pháp thực nghiệm - Xây dựng kho liệu huấn luyện - Xây dựng quy trình phân loại văn - Ứng dụng quy trình phân loại văn vào mơ hình thực tế phân loại văn Văn phòng UBND tỉnh Quảng Ngãi Ý nghĩa khoa học thực tiễn luận văn 6.1 Ý nghĩa khoa học - Nắm vững vấn đề lĩnh vực thống kê, xác suất học máy áp dụng vào toán phân loại văn - Nắm vững vận dụng lý thuyết kỹ thuật học có giám sát, lý thuyết phân lớp, số thuật toán phân loại văn để vận dụng vào thực tiễn - Hiểu lý thuyết xử lý ngơn ngữ tự nhiên - Nhìn nhận mức độ đóng góp tác giả so với phương pháp trước đây; ý nghĩa đóng góp mặt học thuật có tính phát minh 6.2 Ý nghĩa thực tiễn - Trong thực tiễn đời sống ngày, thông tin quanh ta nhiều Biến thông tin thành tri thức để phục vụ người khát vọng không riêng nhà khoa học - So với phương pháp trước đây, phương pháp phân loại văn với Support Vector Machines (SVM) nghiên cứu từ năm 60 với công trình Vapnik Lerner (1963)[16], Vapnik Chervonenkis (1964)[16] có khả cho kết nhận dạng xác so với phương pháp học máy khác – điều mở khả rộng lớn cho toán ứng dụng nhiều ngành - Đưa phương pháp học máy có giám sát vào tốn phân loại văn Văn phòng UBND tỉnh Quảng Ngãi Nội dung luận văn Luận văn gồm chương chính: Chương 1: Nghiên cứu tổng quan Chương 2: Áp dụng mơ hình học máy Support Vector Machines (SVM) cho phân loại văn văn phòng UBND tỉnh quảng ngãi Chương 3: Xây dựng chương trình thử nghiệm tốn học máy có giám sát để phân loại văn văn phòng UBND tỉnh Cuối kết luận, định hướng nghiên cứu phát triển luận văn CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ HỌC MÁY Học máy (Machine Learning - ML) [22]là ngành khoa học nghiên cứu thuật tốn cho phép máy tính học khái niệm (concept) Có hai loại phương pháp học máy chính: - Phương pháp quy nạp: phương pháp máy học dựa liệu thu thập trước Phương pháp cho phép tận dụng nguồn liệu nhiều sẵn có - Phương pháp suy diễn: phương pháp dựa vào luật Phương pháp cho phép tận dụng kiến thức chuyên ngành để hỗ trợ máy tính Hiện nay, thuật toán cố gắng tận dụng ưu điểm hai phương pháp Hình 1.1 Mơ hình thuật tốn học máy có giám sát Để giải tốn học có giám sát, người ta phải xem xét nhiều bước khác nhau: - Xác định loại ví dụ huấn luyện Trước làm điều gì, người làm nhiệm vụ phân lớp nên định loại liệu sử dụng làm ví dụ Chẳng hạn ký tự viết tay đơn lẻ, toàn tập từ viết tay, hay toàn tập dòng chữ viết tay - Thu thập tập huấn luyện Tập huấn luyện cần đặc trưng cho thực tế sử dụng hàm chức Vì thế, tập đối tượng đầu vào thu thập đầu tương ứng thu thập, từ chun gia từ việc đo đạc tính tốn - Xác định việc biểu diễn đặc trưng đầu vào cho hàm chức cần tìm Sự xác hàm chức phụ thuộc lớn vào cách đối tượng đầu vào biểu diễn Thông thường, đối tượng đầu vào chuyển đổi thành vector đặc trưng, chứa số đặc trưng nhằm mô tả cho đối tượng Số lượng đặc trưng khơng nên lớn, bùng nổ tổ hợp (curse of dimensionality), phải đủ lớn để dự đốn xác đầu - Xác đinh cấu trúc hàm chức cần tìm giải thuật học tương ứng Ví dụ người thực q trình phân lớp lựa chọn việc sử dụng mạng nơ- ron nhân tạo hay định… - Hoàn thiện thiết kế Người thiết kế chạy giải thuật học từ tập huấn luyện thu thập Các tham số giải thuật học điều chỉnh cách tối ưu hoá hiệu tập (gọi tập kiểm chứng – validation set) tập huấn luyện, hay thông qua kiểm chứng chéo (crossvalidation) Sau học điều chỉnh tham số, hiệu giải thuật đo dạc tập kiểm tra độc lập với tập huấn luyện Một số thuật toán điển hình: Thuật tốn K láng giềng Mơ hình xác suất Naive Bayes Phương pháp Support Vector Machines 1.1.1.2 Học khơng có giám sát (unsupervised learning) Học khơng giám sát [18]là kỹ thuật máy học nhằm tìm mơ hình hay cấu trúc bị ẩn tập liệu không gán nhãn cho trước Học khơng có giám sát khác với học có giám sát xác định trước đầu từ tập liệu huấn luyện Tùy thuộc vào tập huấn luyện kết đầu khác Trái ngược với học có giám sát, tập liệu huấn luyện học khơng có giám sát khơng người gán nhãn, máy tính phải tự học hồn tồn Có thể nói, học khơng có giám sát giá trị đầu phụ thuộc vào thuật toán học khơng có giám sát 1.1.1.3 Học bán giám sát (semi-supervised learning) Trong khoa học máy tính, học bán giám sát [19]là lớp kỹ thuật học máy, sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Học bán giám sát đứng học khơng giám sát (khơng có liệu có nhãn nào) có giám sát (tồn liệu gán nhãn) Nhiều nhà nghiên cứu nhận thấy liệu không gán nhãn, sử dụng kết hợp với chút liệu có gán nhãn, cải thiện đáng kể độ xác Để gán nhãn liệu cho toán học máy thường đòi hỏi chun viên có kỹ để phân loại tay ví dụ huấn luyện Chi phí cho quy trình khiến tập liệu gán nhãn hồn tồn trở nên khơng khả thi, liệu không gán nhãn thường tương đối rẻ tiền 1.1.1.4 Học tăng cường (reinforcement learning) Trong ngành khoa học máy tính, học tăng cường lĩnh vực học máy, nghiên cứu cách thức agent môi trường nên chọn thực hành động để cực đại hóa khoản thưởng (reward) lâu dài Các thuật tốn học tăng cường cố gắng tìm chiến lược ánh xạ trạng thái giới tới hành động mà agent nên chọn trạng thái Khác với học có giám sát, học tăng cường khơng có cặp liệu vào/kết đúng, hành động gần tối ưu không đánh giá sai cách tường minh Hơn nữa, hoạt động trực tuyến (on-line performance) quan tâm, có việc tìm kiếm cân khám phá (lãnh thổ chưa lập đồ) khai thác (tri thức có) Trong học tăng cường, khám phá khai thác nghiên cứu chủ yếu qua toán multi-armed bandit 1.1.2 Các ứng dụng học máy Học máy có ứng dụng rộng khắp ngành khoa học/sản xuất, đặc biệt ngành cần phân tích khối lượng liệu khổng lồ Một số ứng dụng thường thấy: - Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản, giao tiếp người – máy, … - Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy (Computer Vision) … - Tìm kiếm (Search Engine) - Chẩn đoán y tế: phân tích ảnh X-quang, hệ chun gia chẩn đốn tự động - Tin sinh học: phân loại chuỗi gene, trình hình thành gene/protein - Vật lý: phân tích ảnh thiên văn, tác động hạt … - Phát gian lận tài (financial fraud): gian lận thẻ tín dụng 10 tốn phân lớp nhị phân Tóm lại chất, toán phân lớp nhị phân trường hợp riêng toán phân lớp đa lớp 1.2.2.3 Phân lớp liệu đơn trị Phân lớp liệu đơn trị trình phân lớp mà đối tượng liệu tập liệu huấn luyện gán vào xác lớp 1.2.2.4 Phân lớp liệu đa trị Phân lớp liệu đa trị đối tượng liệu tập huấn luyện đối tượng sau phân lớp thuộc vào từ hai lớp trở lên.Ví dụ có văn hành việc triển khai thực Cuộc vận động "Toàn dân đồn kết xây dựng nơng thơn mới, thị văn minh" vừa thuộc lĩnh vực nông nghiệp thuộc lĩnh vực văn hóa xã hội Trong trường hợp này, việc xếp tài liệu vào nhiều lớp phù hợp với thực tế CHƯƠNG ÁP DỤNG MƠ HÌNH HỌC MÁY SUPPORT VECTOR MACHINES (SVM) VÀO PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG UBND TỈNH QUẢNG NGÃI 2.1 KHÁI NIỆM VỀ HỌC MÁY Học máy (ML) lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kỹ thuật cho phép hệ thống “học” tự động từ liệu để giải vấn đề cụ thể Học máy tạo phương pháp chương trình máy tính giải vấn đề giống người Ví dụ làm hệ thống máy tính “học” cách phân loại văn vào lĩnh vực tương ứng cho trước 11 2.2 BỘ PHÂN LOẠI SUPPORT VECTOR MACHINES (SVM) Thuật toán vector hỗ trợ (Support Vector Machines - SVM) Corters Vapnik giới thiệu vào năm 1995 SVM hiệu để giải toán với liệu có số chiều lớn vector biểu diễn văn Thuật toán SVM ban đầu thiết kế để giải toán phân lớp nhị phân tức số lớp hạn chế hai lớp Hiện nay, SVM đánh giá phân lớp xác cho tốn phân lớp văn bản, phân lớp tốc độ nhanh hiệu toán phân lớp văn Phương pháp SVM coi phương pháp hiệu để giải toán phân lớp với liệu có số chiều lớn vector biểu diễn văn Về mặt lý thuyết, thuật toán phân lớp nhị phân sử dụng cho tốn phân lớp đa lớp cách chuyển toán đa lớp thành toán nhị phân Tuy nhiên, toán phân lớp văn sử dụng phương pháp SVM việc lựa chọn thuộc tính cho phân lớp lại vấn đề quan trọng, định đến hiệu phân lớp Trong năm gần đây, SVM biết đến hướng tiếp cận phân lớp hiệu áp dụng rộng rãi nhiều ứng dụng thực tế Ưu điểm SVM khả phân lớp với độ xác cao, điều đảm bảo tính chất siêu phẳng tối ưu cách sử dụng hàm nhân (kernel) để tối thiểu hóa rủi ro ước lượng Nhiều thử nghiệm thực tế cho thấy, phương pháp SVM có khả phân loại tốt toán phân loại văn nhiều ứng dụng khác (như nhận dạng chữ viết tay, phát mặt người ảnh, ước lượng hồi quy,…) Mục đích thuật tốn SVM tìm hàm phân lớp hiệu để phân biệt thành phần lớp việc huấn luyện liệu 12 2.2.1 SVM đa lớp SVM ban đầu xử lý toán phân lớp nhị phân, nhiên nhiều ứng dụng nay, chẳng hạn phân loại văn buộc phải giải tốn nhiều lớp Vì mơ hình SVM đa lớp nghiên cứu phát triển để đáp ứng với dạng toán nhiều lớp Dưới số chiến lược thường để áp dụng cho toán SVM đa lớp: - Chiến lược đối (OVO: One – versus – One) - Chiến lược chống phần lại (OVR: One – versus – Rest) - Chiến lược phân cấp 2.2.2 Các thuật toán huấn luyện Việc xây dựng chương trình cho việc huấn luyện SVM khó khăn nhiều cơng sức, đa số thuật chương trình SVM xây dựng sẵn số cơng cụ lập trình cho nguyên hàm cần điền tham số, ta có kết đầu vào đầu Có ba thuật tốn kinh điển cung cấp hầu hết ứng dụng SVM: thuật toán chặt khúc, thuật toán phân rã thuật toán SMO 2.4 KẾT CHƯƠNG Support Vector Machines (SVM) nghiên cứu vô thiết thực phân loại văn Các kỹ thuật SVM tương tự với kNN chúng xem tài liệu huấn luyện vector không gian đặc trưng, chúng yêu cầu hàm nhân (được gọi kernel function) đóng vai trò tương tự hàm m giải thuật k láng giềng gần Tuy nhiên thay xem xét tài liệu tương tự với tài liệu phân loại, giải thuật SVM học hướng định q trình huấn luyện chia khơng gian vector vào vùng thành viên phân loại Sau 13 phân loại đơn giản định cho tài liệu thuộc vào Ưu điểm SVM chúng giải tốt với không gian đặc trưng lớn, tính xác thuật ngữ kết phân loại hiệu huấn luyện giải thuật phân loại Điều có nghĩa số khơng có lựa chọn đặc trưng cần thực liệu huấn luyện, xoá bỏ tiêu tốn thời gian quy trình phân loại Tuy nhiên, SVM có số nhược điểm tập mẫu lớn tốc độ huấn luyện phân loại chậm, không đủ không gian nhớ để huấn luyện Vì chương xây dựng mơ hình thử nghiệm giải số nhược điểm CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM TRONG BÀI TỐN HỌC MÁY CĨ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHỊNG UBND TỈNH 3.1 NGƠN NGỮ TIẾNG VIỆT Tiế ng Viê ̣t thuô ̣c ngôn ngữ đơn lâ ̣p, tức là mô ̣t tiế ng (âm tiế t) đươ ̣c phát âm tách rời và đươ ̣c thể hiê ̣n mô ̣t chữ viế t Đă ̣c điể m này thể hiê ̣n rõ rê ̣t ở tấ t cả các mă ̣t ngữ âm, từ vựng, ngữ pháp 3.2 KHÁI NIỆM VỀ VĂN BẢN QUẢN LÝ NHÀ NƯỚC 3.2.1 Văn quản lý nhà nước Văn quản lý nhà nước định thông tin quản lý thành văn ( văn hóa) quan quản lý nhà nước ban hành theo thẩm quyền, trình tự, thủ tục, hình thức định nhà nước đảm bảo thi hành hình thức khác nhằm điều chỉnh mối quan hệ quản lý nội nhà nước 14 quan nhà nước với tổ chức công dân 3.2.2 Văn quản lý hành nhà nước Văn quản lý hành nhà nước phận văn quản lý nhà nước, bao gồm văn quan nhà nước (mà chủ yếu quan hành nhà nước) dùng để đưa định chuyển tải thông tin quản lý hoạt động chấp hành điều hành 3.2.3 Phân loại văn quản lý nhà nước Văn quản lý nhà nước phân làm ba nhóm: - Văn quy phạm pháp luật - Văn hành - Văn chun mơn – kỹ thuật 3.2.4 Ngôn ngữ văn hành Văn hành phải mang tính xác, rõ ràng Đây đặc điểm quan trọng văn hành Chính xác cách dùng từ đặc câu phải đơi với tính minh bạch kết cấu văn để đảm bảo tính xác định, tính đơn nghĩa nội dung, cho phép cách hiểu, không gây hiểu lầm, câu cú phải ngắn gọn khơng rườm rà Văn hành phải mang tính khn mẫu, lịch quy định chung cách trình bày văn áp dụng cho tất loại văn hành Sự tuân thủ theo khuân mẫu định có tác động đến tính chuẩn mực văn hình thức lẫn nội dung Văn hành phải mang tính nghiêm túc, khách quan Từ ngữ văn hành phải mang tính khách quan, khơng chứa đựng cảm xúc đánh giá chủ quan cá nhân Tính khách quan, nghiêm túc coi dấu hiệu đặc biệt văn 15 3.3 BÀI TỐN PHÂN LỚP TẠI VĂN PHỊNG UBND TỈNH QUẢNG NGÃI Hiện số lượng lớn CSDL văn hành Văn phòng UBND tỉnh Quảng Ngãi phân vào lớp Quyết định, Cơng văn, Tờ trình, Thơng báo vv , nhiên thực tế văn cần phân loại vào nhóm nhỏ tiện cho việc tìm kiếm, lưu trữ thơng tin nhóm xây dựng, tài chính, y tế, dân số, mơi trường vv 3.3.1 Mơ hình SVM đa lớp cho toán phân lớp văn Để xây dựng tốn phân lớp văn hành Văn phòng UBND tỉnh Quảng Ngãi, bước ta phải thu thập liệu văn bước thứ hai thực việc tách từ biểu diễn văn dạng đặc trưng đầu vào cho mô hình SVM Hình 3.1.Mơ hình tốn phân lớp văn liệu văn hành Q trình tiền xử lý bao gồm việc phân tích từ vựng tách từ nội dung tập văn bản, sau chọn tập hợp từ có ý nghĩa dùng để phân loại, biểu diễn liệu văn dạng đặc 16 trưng để từ giải thuật máy học học để phân loại Hình 3.2 Mơ hình q trình tiền xử lý Ở bước phân tích từ vựng, cơng việc loại bỏ từ khơng có ý nghĩa cho việc phân lớp mạo từ, từ nối, Tiếp đến tách từ, dựa vào từ điển 3.3.2 Dữ liệu chương trình Dữ liệu dùng để thực nghiệm toán phân lớp văn lấy từ CSDL văn Văn phòng UBND tỉnh Quảng Ngãi Tập liệu huấn luyện bao gồm 200 văn trích rút đặc trưng phục vụ cho việc phân tích chủ đề 10 chủ đề ( chủ đề chứa 20 văn bản) phục vụ cho việc kiểm thử chương trình Dữ liệu từ điển chứa 309 từ cụm từ phục vụ cho việc tách từ STT Bảng 3.5 Dữ liệu học kiểm tra Tên loại Số lượng Tổng số liệu Tập liệu huấn luyện Tập liệu kiểm thử Tập liệu từ điển 640 200 440 309 Phân lớp liệu xây dựng dựa 10 lớp bao gồm: 17 CNTT, dân số, giao thông, nông nghiệp, thủy sản, trẻ em, xây dựng, y tế, xúc tiến, môi trường Số lượng văn dùng cho việc huấn luyện số lượng văn cho lớp mô tả bảng 3.6 Bảng 3.6 Tập số lượng liệu huấn luyện Số lượng văn STT Phân lớp Thư mục Công nghệ thông tin CNTT 20 Dân số Dan so 15 Giao thông Giao thong 20 Nông nghiệp Nong nghiep 25 Thủy sản Thuy san 10 Tài Tài 20 Xây dựng Xay dung 30 Y tế Y te 25 Xúc tiến đầu tư Xuc tien 20 10 Môi trường moi truong 15 Tổng số 200 Tập liệu dùng để kiểm thử miêu tả bảng 3.7, số lượng văn lớp tỷ lệ với số lượng văn tập liệu huấn luyện Bảng 3.7 Tập số lượng liệu kiểm thử Phân lớp Thư mục Số lượng văn Công nghệ thông tin CNTT 60 Dân số Dan so 36 Giao thông Giao thong 56 Nông nghiệp Nong nghiep 65 Thủy sản Thuy san 16 Tài Tai chinh 33 Xây dựng Xay dung 43 Y tế Y te 49 Xúc tiến Xuc tien 48 10 Môi trương moi truong 34 Tổng số 440 STT 18 3.3.3 Xây dựng từ điển danh từ Từ tập liệu học ban đầu sau chuẩn hóa văn ta xây dựng từ điển bao gồm từ cụm từ Để xây dựng từ điển ta phải xây dựng thủ công dựa việc gán nhãn lưu vào liệu Bảng 3.8 thể việc gán nhãn từ loại mà luận văn sử dụng Danh từ Tin học CNTT Giới tính Gia đình Ơ nhiễm Khói bụi Bảng 3.8 Gán nhãn từ loại Gán nhãn Chủ đề CNTT CNTT dân số dân số 10 môi trường 10 môi trường 3.3.4 Giao diện chương trình Chương trình thử nghiệm viết ngơn ngữ C# Microsoft Visual Studio Community 2017 đồng thời sử dụng thư viên hỗ trợ Libsvm Hình 3.3 Giao diện chương trình 3.3.5 Các bước sử dụng chương trình thử nghiệm Bước ta sử dụng 200 văn tập huấn luyện trích rút đặc trưng đưa vào từ điển phục vụ cho việc tách từ chi 19 tiết từ điển mô tả hình 3.4 Hình 3.4 liệu từ điển Bước thứ hai ta chọn thư mục chứa liệu văn cần phân loại Văn cần phân loại có dạng text.doc text.docx Bước thứ ba chọn liệu huấn luyện (training) Vì theo ý tưởng ban đầu nghiên cứu luận văn học máy có giám sát nên việc gán nhãn cho liệu huấn luyện phải gán nhãn tay, việc gán nhãn sử dụng file.csv để đưa thêm liệu cần huấn luyện, chi tiết liệu gán nhãn mơ tả hình 3.5 Hình 3.5 Dữ liệu gán nhãn 20 Sau gán nhãn cho tập liệu ta tiến hành huấn luyện cho tâp gán nhãn Hình 3.6 Dữ liệu huấn luyện Bước thứ ba bước xác định k-fold K-fold phương pháp kiểm tra độ xác máy học (Crossvalidation), với phương pháp tập liệu chia thành k tâp (folds) có kính thước xấp xỉ Dây kỹ thuật chủ yếu sử dụng xây dựng phân tích dự báo (predictive Model) Trong liệu gốc chia thành n phần (n-fold), trình Train/Test Model thực lặp lại n lần Tại lần Train/Test Model, phần liệu dùng để Test (n-1) phần lại dùng để Train (Người ta chứng minh 10-fold Cross-Validation tối ưu) Sau bước chọn ta tiến hành thực việc phân loại văn bản, chi tiết việc chọn bước miêu tả hình 3.7 21 Hình 3.7 Sau chọn xong mục 3.3.6 Kết phân loại văn Sau thực phân loại ta kết hình 3.8 Hình 3.8 Kết phân loại văn Qua bảng 3.9 cho thấy sau phân loại so sánh với kết văn kiểm thử văn máy phân loại thu kết phần tăm trung bình 96.93% 22 Bảng 3.9 Tỷ lệ % phân loại văn STT 10 Bảng đánh giá kết phân loại văn Tập kiểm Tập phân loại Tập phân loại Phân lớp thử máy sai phân lớp CNTT 60 59 Dân số 36 35 Giao thông 56 51 Môi trường 34 34 Nông nghiệp 65 65 Thủy sản 16 15 Tài 33 33 Xây dựng 43 40 Xúc tiến 48 48 Y tế 49 47 Phần trăm trung bình Tỉ lệ % 98.33% 97.22% 91.07% 100% 100% 93.75% 100% 93.02% 100% 95.91% 96.93% 3.4 ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM Việc tiến hành thực nghiệm tập liệu cần phân lớp với số lượng văn 440 cho 10 phân lớp cho kết tương đối xác Do số lượng liệu kiểm thử cho lớp có số chênh lệch chưa cao nên khả dự đoán phân lớp tốt Muốn khả dự đốn có độ xác cao tập liệu huấn luyện cần phải học thêm nhiều số lượng, đảm bảo cung cấp đầy đủ ràng buộc … Ngoài việc xác định từ, cụm từ văn hành sử dụng cho việc huấn luyện điều đáng quan tâm, có nhiều văn người đọc chưa xác định xếp vào thể loại Hiện có nhiều phương pháp học máy để ứng dụng việc phân loại tài liệu tiếng Việt, nhiên có đề tài viết ứng dung phương pháp học máy để phân loại văn hành nên làm cho việc so sánh, đánh giá kết hạn chế Khi tiến hành thực nghiệm chương trình thực nghiệm chiếm 23 khơng gian nhớ tốc độ xử lý CPU máy tính khơng q cao theo hình 3.8 Hình 3.8 Thơng số hệ thống chương trình thử nghiệm sử dụng KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Từ việc nghiên cứu lý thuyết kết thực nghiệm khẳng định toán phân lớp văn hành thực có ý nghĩa quan trọng việc quản lý, tìm kiếm, lưu trữ thơng tin nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên lĩnh vực hành Luận văn tìm hiểu, nghiên cứu thuật tốn phổ biến nay, từ đưa phương pháp thuật toán ứng dụng vào tốn phân lớp liệu văn hành Dưới hướng dẫn tận tình PGS.TS Huỳnh Cơng Pháp thời gian nghiên cứu thực viết luận văn tốt nghiệp với đề tài “Nghiên cứu phương pháp học máy có giám sát để phân loại văn Văn phòng UBND tỉnh Quảng Ngãi” em rút số nhận xét sau Kết đạt - Nghiên cứu lý thuyết tổng quan học máy học máy có giám sát - Nghiên cứu lý thuyết tổng quan phân lớp phân loại văn 24 tiếng việt với toán phân loại tin tức điện tử, phân loại văn tài chính, ngân hàng, phân lại thư rác… - Nghiên cứu lý thuyết số thuật toán phân loại KNN, Nạve Bayes SVM từ đưa toán áp dụng vào phân loại văn lĩnh vực hành - Nghiên cứu, xây dựng từ điển áp dụng vào việc tách từ - Xây dựng tập liệu nhãn/lớp áp dụng vào việc huấn luyện - Xây dựng chương trình thực nghiệm cho việc phân loại văn Chương trình viết ngơn ngữ c# Microsoft Visual Studio Community 2017, tích hợp module tiền xử lý văn module phân lớp (SVM) Kết thực nghiệm tập liệu lĩnh vực hành cho thấy kết phân loại tốt 96.93% tổng số 440 văn đầu vào Hạn chế - Do hạn chế mặt thời gian kiến thức nên luận văn dừng lại việc sử dụng hàm nhân Linear chưa sử dụng hàm nhân khác Polynomial, Radial Basic Function nên việc so sánh để chọn phương án tốt hạn chế Ngồi hạn chế việc nghiên cứu văn phong sử dụng văn hành - Tác giả tiến hành thử nghiệm toán phân lớp với liệu chưa đủ lớn, thử nghiệm đơn giản Hướng phát triền - Luận văn tiếp tục hoàn thiện mặt hạn chế đưa sử dụng số hàm nhân khác để tìm tốn hiệu toán phân loại văn lĩnh vực hành - Nghiên cứu xây dựng liệu lớn đáp ứng công việc phân lớp cho văn hành ... chọn đề tài Nghiên cứu phương pháp học máy có giám sát để phân loại văn Văn phòng UBND tỉnh Quảng Ngãi làm chủ đề nghiên cứu luận văn 3 Mục đích nghiên cứu Nghiên cứu kỹ thuật học máy số giải... cứu phương pháp học máy có giám sát để phân loại văn Văn phòng UBND tỉnh Quảng Ngãi em rút số nhận xét sau Kết đạt - Nghiên cứu lý thuyết tổng quan học máy học máy có giám sát - Nghiên cứu lý thuyết... nghiệm tốn học máy có giám sát để phân loại văn văn phòng UBND tỉnh Cuối kết luận, định hướng nghiên cứu phát triển luận văn CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ HỌC MÁY Học máy (Machine

Ngày đăng: 25/05/2019, 13:57

Tài liệu cùng người dùng

Tài liệu liên quan