Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)Phân loại bán tự động văn bản quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin (Luận văn thạc sĩ)
1 MỞ ĐẦU Quản lý hành nhà nước vấn đề cấp thiết quốc gia Trong việc quản lý hành nhà nước hệ thống văn quy phạm pháp luật đóng vai trò then chốt, nước ta việc quản lý hệ thống văn chưa thống tập trung Bên cạnh thủ tục hành chính, văn hành cho lĩnh vực, ngành nghề, lĩnh vực nhiều đa dạng Việc phân loại văn quy phạm pháp luật, văn hành cách tự động để tra cứu văn dễ dàng yêu cầu thiết thực công tác quản lý hành Bài tốn phân loại văn khơng phải tốn mới, trước có nhiều người nghiên cứu đạt thành định như: Nguyễn Linh Giang - Nguyễn Mạnh Hiển (tỉ lệ xác từ 51% 94%) [2], Trần Cao Đệ Phạm Nguyên Khang (tỉ lệ xác 88% 92%) [1] Để giải toán phân loại văn ta tiếp cận nhiều cách như: hướng tiếp cận toán phân loại lý thuyết đồ thị [3], cách tiếp cận sử dụng lý thuyết tập thô [4], cách tiếp cận thống kê [5], cách tiếp cận sử dụng phương pháp học không giám sát đánh mục [6],[7] Các cách tiếp cận mạng lại số kết khả quan định Trong năm gần đây, phương pháp phân loại sử dụng Bộ phân loại vector hỗ trợ (SVM) quan tâm sử dụng nhiều lĩnh vực nhận dạng phân loại, thuật toán cải tiến SVM thuật toán Fuzzy SVM cho phép loại bỏ liệu nhiễu trình huấn luyện cải thiện độ xác q trình Phân loại Về kỹ thuật truy tìm văn bản, luận văn tìm hiểu sử dụng mơ hình truy tìm văn theo mơ hình khơng gian vector VSM (Vector Space Model) Ngun lý hoạt động cốt lõi hệ truy tìm văn VSM tự động hóa quy trình tìm kiếm văn có liên quan cách tính độ đo tương tự câu truy vấn văn Việc phân loại văn quy phạm pháp luật bán tự động dựa chủ đề văn thực cách xây dựng ontology để thu thập thông tin Phân loại - Mục đích nghiên cứu: Phân loại văn bán tự động dựa chủ đề theo nội dung văn - Đối tượng nghiên cứu: o Các loại văn hành chính, văn quy phạm pháp luật liên quan đến qui định nhân Ngành Giáo dục từ năm 2011 đến o Học máy (machine learning), học có giám sát học có giám sát - Phân loại văn bản: o Các kỹ thuật phân loại văn o Các thuật toán thường áp dụng phân loại văn - Mô tả toán: Cho trước tập Chủ đề S = {s1, s2, …, sn} tập văn D = {d1, d2, …dm} Trong di văn phân chủ đề sj (theo hệ chuyên gia) Văn d (văn mới) đưa vào tập D, nhiệm vụ cho biết d thuộc chủ đề tập S đưa yêu cầu người dùng tự phân loại tay (nếu văn d khơng có đặc trưng chủ đề độ tương tự với văn phân loại thấp) Hướng giải quyết: Khi có văn D thêm vào, ta thực hiện: tìm loại văn (Cơng văn, Quyết định, nghị định, thơng tư, nghị quyết,…), tìm số hiệu văn bản, tách từ, sau tách từ ta vectơ hoá từ, tính độ tương tự D với văn gán chủ đề, tìm văn x có độ tương tự cao mà văn D có từ đặc trưng chủ để x, tồn văn x thoả điều thi ta gán D chủ đề với x, người lại yêu cầu người dùng gán chủ đề tay Cấu trúc luận văn bao gồm chương: - Chương 1: Tổng quan toán phân loại văn - Chương 2: Các phương pháp phân loại văn - Chương 3: Phân loại bán tự động văn quy phạm pháp luật dựa chủ đề cho hệ thống truy hồi thông tin - Chương 4: Cài đặt, đánh giá, hướng phát triển - Chương 5: Kết luận CHƯƠNG TỔNG QUAN BÀN TOÁN PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu toán phân loại văn Phân loại văn tiến trình đưa văn chưa biết chủ đề vào lớp văn biết chủ đề Các chủ đề xác định tập tài liệu mẫu Trước thập kỷ 90 thể kỷ XX công việc thường làm tay bỏi chuyên gia tri thức (Knowledge Engineering), Đầu thập kỷ 90 kỷ XX, cách tiếp cận để giải tốn Phân loại có thay đổi, cách tiếp cận máy học (Machine Learning) Nhiều kỹ thuật máy học khai phá liệu áp dụng vào tốn phân loại văn như: Nạve Bayes, định, kNN, mạng nơron, SVM, thuật toán cực đại hóa kỳ vọng, … Bài tốn phân loại văn phát biểu sau: Cho trước tập văn D={d1,d2,…,dn} tập chủ đề định nghĩa C={c1,c2,…,cn} Mỗi văn di gán chủ đề cj Nhiệm vụ tốn có văn d, ta cần gán chủ đề cho d Hay nói cách khác, mục tiêu tốn tìm hàm f: f: DxC boolean f(d,c) = True/False True: d thuộc lớp c, false d không thuộc lớp c Với tiếng Việt tốn gặp nhiều khó khăn cấu trúc tiếng Việt khơng có từ đơn mà có từ ghép Để thực toán cho văn tiếng Việt ta phải thêm công đoạn tiền xử lý (tách từ) 1.1.1 Phân loại văn dựa cách tiếp cận chuyên gia [24] Việc Phân loại văn tự động điều khiển tay chuyên gia tri thức hệ chuyên gia có khả đưa định Phân loại Hệ chuyên gia bao gồm tập luật logic định nghĩa tay, cho loại, có dạng: If (DNF formula) then (category) Công thức DNF (Disjunctive Normal Form) hợp mệnh đề liên kết, tài liệu Phân loại vào category thỏa mãn cơng thức, nghĩa là, thỏa mãn mệnh đề cơng thức Ví dụ: If (“bổ nhiệm” & “giáo viên”) or (“bổ nhiệm” & “nhân viên”) then “bổ nhiệm” Else “bổ nhiệm” Điều hạn chế cách tiếp cận chun gia đòi hỏi việc định nghĩa DNF formula tay Nếu tập hợp (category) thay đổi phải thiết lập lại DNF formula từ đầu Ngoài để định nghĩa tập DNF formula ta cần đến can thiệp chuyên gia tri thức lĩnh vực mà văn đề cập đến Việc làm tốn nhiều chi phí nhân lực, thời gian 1.1.2 Phân loại văn dựa cách tiếp cận máy học [15] Trong kỹ thuật máy học, toán Phân loại hoạt động học có giám sát, q trình học “giám sát” tri thức Phân loại mẫu huấn luyện thuộc chúng Trong tiếp cận máy học, tài liệu Phân loại trở thành nguồn Trường hợp thuận lợi nhất, chúng có sẵn, q trình Phân loại bắt đầu việc học từ tập liệu này, sau thực Phân loại tự động với tài liệu khác Trường hợp thuận lợi, khơng có sẵn tài liệu Phân loại tay; trình Phân loại bắt đầu hành động Phân loại chọn phương pháp tự động Do đó, cách tiếp cận máy học thuận lợi cách tiếp cận kỹ sư tri thức Các bước cách tiếp cận máy học: - Bước 1: chuẩn bị tập liệu huấn luyện (training set) tập liệu kiểm tra (test set) - Bước 2: Tách từ văn - Bước 3: Biểu diễn văn - Bước 4: Thực phân loại Bước 1: Chuẩn bị tập liệu huấn luyện (training set) tập liệu kiểm tra (test set) Cho trước tập văn D = {d1, d2, …, dn} tập chủ đề định nghĩa C = {c1, c2, …, cn} Tập H = {h1 ,h2 , …, hk} tập huấn luyện tập T = {t1, t2, …,tk} tập kiểm tra (tập test) với H T = D H T = Với phần ti T ta đưa vào hệ thống Phân loại so với việc Phân loại theo hệ chuyên gia để kiểm tra hiệu việc Phân loại Hiệu đánh giá dựa phù hợp hệ Phân loại theo máy học so với Phân loại theo chuyên gia Thông thường ta chọn tỉ lệ tập H tập T theo tỉ lệ 70% – 30% tập D Bước 2: Tách từ văn Hầu hết phương pháp Phân loại văn dựa kỹ thuật máy học dựa vào tần xuất xuất từ cụm từ văn bản, hay dựa vào tần xuất xuất từ văn tần xuất văn Độ xác kết tách từ có ảnh hưởng lớn đến kết Phân loại, khơng thể có kết Phân loại tốt không tách từ văn Bởi vậy, vấn đề quan trọng Phân loại văn phải tách xác từ văn Bước 3: Biểu diễn văn Các văn dạng thô cần chuyển sang dạng biểu diễn để xử lý Q trình gọi trình biểu diễn văn bản, dạng biểu diễn văn phải có cấu trúc dễ dàng xử lý Việc biểu diễn lại văn coi khâu quan trọng trình xử lý văn Mỗi tài liệu mô tả chuỗi ký tự, cần phải biến đổi thành mơ tả phù hợp với nhiệm vụ thuật tốn xử lý văn Có nhiều phương pháp biểu diễn văn bản, phương pháp thích hợp với toán cụ thể Trong luận văn tìm hiểu sâu phương pháp biểu diễn văn theo mơ hình khơng gian vector Bước 4: Phương pháp học để Phân loại văn Hiện nay, có nhiều đề xuất xây dựng tốn Phân loại văn tự động Naïve Bayes, K-Means, Knn (K-láng giềng gần nhất), định (Decision tree), mạng nơron ANN (Artificial Neural Network), SVM (Support Vector Machines), … Các phương pháp đạt thành công đáng kể văn mẫu tự la-tinh như: tiếng Anh, tiếng Pháp, tiếng Việt,… mà văn mẫu tự tượng tiếng Hoa, tiếng Nhật, tiếng Hàn,… Nó ứng dụng thực tế hệ tìm tin Google, Yahoo,… Trong đó, Support Vector Machines thuật tốn cải tiến đánh giá cho độ xác Phân loại văn cao nhiều phương pháp Phân loại khác 1.2 Phương pháp tách từ Để máy tính tự động Phân loại văn bản, văn trình bày dạng chuỗi ký tự cần phải biến đổi thành biểu diễn thuận lợi cho thuật toán huấn luyện toán phân loại, nghĩa văn chuyển từ dạng khơng có cấu trúc bán cấu trúc sang dạng có cấu trúc Có nhiều cách biểu diễn văn bản, dù theo cách hay cách khác việc biểu diễn văn dựa vào xuất từ văn Độ xác việc tách từ có ảnh hưởng lớn đến việc phân loại văn Đối với văn hành câu tương đối rõ nghĩa nghĩa câu thường Vì việc tách từ văn hành thường đơn giản văn thông thường 1.2.1 Đặc điểm tiếng Việt [16],[17], [25] Tiếng Việt ngôn ngữ đơn âm tiết thuộc nhóm ngơn ngữ Đơng Nam Á Mẫu tự văn tiếng Việt mẫu tự thuộc hệ la-tinh Tiếng Việt cấu thành đơn vị tiếng (một âm tiết), tiếng viết thành chữ, chữ viết đọc thành tiếng Tiếng dùng để tạo thành từ Từ tiếng Việt bao gồm từ đơn (81,55%) từ ghép (18,45%) Khi xử lý văn tiếng Việt ta thường gặp khó khăn bỏi từ ghép Do tính đặt thù tiếng Việt nên xử lý từ ghép công đoạn khó khăn Ví dụ: gặp xâu chứa “đất nước” ta thấy thân từ ghép “đất nước” có nghĩa, ta tách thành “đất” “nước” có nghĩa; gặp xâu “kheo khéo” ta thấy từ “kheo khéo” có nghĩa, tách “kheo” lại khơng rõ nghĩa Ngồi từ ghép tiếng Việt có nhiều âm tiết ví dụ: “sát sàn sạt”, “vội vội vàng vàng”, “lếch tha lếch thếch” … Bên cạnh ta thấy tiếng Việt chưa chuẩn hố, đơi khơng rõ nghĩa, nghĩa câu phụ thuộc vào ngữ cảnh Ví dụ: “ơng già nhanh quá” ta hiểu khác ba ngữ cảnh khác nhau, mang nghĩa người lớn tuổi di chuyển nhanh (ngữ cảnh hai người nói chuyện người thứ ba), hiểu nhận xét diện mạo người (ngữ cảnh hai người bạn lâu ngày gặp nhau), nghĩa bóng ta hiểu người lớn tuổi chết đột ngột Riêng văn thể máy tính phụ thuộc vào cách bỏ dấu phần mềm hỗ trợ gõ tiếng Việt ví dụ “Uỷ ban” “Ủy ban” Khi tách từ so sánh ta máy nhận dạng hai chữ khác dẫn đến việc giảm độ xác phân loại 1.2.2 Tách từ cách xây dựng Ontology [18] Như phân tích đặc điểm tiếng Việt công việc tách từ ảnh hưởng đến việc phân lóp Hiện việc tách từ việc xây dựng ontology nhiều người, nhiều tổ chức thực Nhưng đa phần dùng từ điển thống kê Để xây dựng ontology tách từ ta thực theo trình tự: - Xây dựng ontology âm tiết đoán nhận tất âm tiết tiếng Việt - Xây dựng ontology từ vựng đoán nhận tất từ vựng tiếng Việt 10 - Dựa vào ontology xây dựng đồ thị với câu cần phân tích, sử dụng thuật tốn tìm kiếm đồ thị để liệt kê cách phân tích - Do kết việc tìm kiếm có nhiều phương án nên sử dụng từ điển hệ chuyên gia cung cấp thống kê từ khối lượng lớn văn để chọn cách phân tích xác suất sai 1.2.3 Tách từ so khớp dài tự điển - Trong phương pháp đòi hỏi ta phải có từ điển tương đối đầy đủ, tiếng Việt từ điển có khoảng 44000 từ - Phương pháp có tốc độ xử lý nhanh, nhiên gặp từ (không nằm từ điển) chẳng hạn tên riêng việc phân tích khơng xác cụng từ - Phương pháp hiệu gặp câu hiểu nhiều nghĩa khác cách ngắt từ khác ví dụ: “ông già nhanh quá” tách từ: [ông già] [đi nhanh] [q] ta nghĩa “một người lớn tuổi di chuyển nhanh”, tách [ông] [già đi] [nhanh q] ta hiểu nghĩa “diện mạo người thay đổi nhanh” - Ngược lại câu văn hành thường đơn nghĩa, có cách hiểu khác việc tách từ phương pháp tỏ hiệu tốc độ xử lý 1.3 Phương pháp biểu diễn văn máy [19] Một số khái niệm biểu diễn văn bản: - Từ (Thuật ngữ): chuỗi kí tự xuất văn bản, mà dấu câu, số, từ dừng (Stop Word) - Từ đặc trưng: Sau dùng phương pháp trích chọn thuật ngữ để biểu diễn văn bản, ta thu tập thuật ngữ T’ từ tập thuật ngữ ban đầu T 27 ngành khoa học máy tính, ANN ứng dụng nhiều “tính người” Khi tốn chưa có cách giải tổng qt cách giải tốn q nhiều chi phí (thời gian, khơng gian,…) ANN thường nghĩ tới Trong việc truy hồi thơng tin văn ANN xem khâu quan Khi xây dựng hệ thống truy hồi thông tin, ANN học từ hệ thống cách truy hồi tốt để hỗ trợ hệ thống đưa định việc Phân loại văn Hình 2.2.7a: Quá trình xử lý ANN Hình 2.2.7b: số kiến trúc ANN 28 2.2.8 Cây định (Decision Tree) Một định (decision tree) đồ thị định hậu (bao gồm rủi ro hao phí tài nguyên) Cây định sử dụng để xây dựng kế hoạch nhằm đạt mục tiêu mong muốn Các định dùng để hỗ trợ trình định Cây định dạng đặc biệt cấu trúc cây, thuật toán thường dùng định: ID3, C4.5, C5 Trong lĩnh vực máy học, định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật, tượng tới kết luận giá trị mục tiêu vật, tượng Mỗi nút (internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định Học định phương pháp thông dụng khai phá liệu Khi đó, định mơ tả cấu trúc cây, đó, đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại Một định học cách chia tập hợp nguồn thành tập dựa theo kiểm tra giá trị thuộc tính Quá trình lặp lại cách đệ quy cho tập dẫn xuất Q trình đệ quy hồn thành tiếp tục thực việc chia tách nữa, hay phân loại đơn áp dụng cho phần tử tập dẫn xuất Một phân loại rừng ngẫu nhiên (random forest) sử dụng số định để cải thiện tỉ lệ phân loại Cây định có hai tên gọi khác: Cây hồi quy, Cây phân loại Cây hồi quy (Regression tree) ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại 29 Cây phân loại (Classification tree), y biến phân loại như: giới tính (nam hay nữ), khối ngành học (tự nhiên, xã hội) 2.3 Kết chương Qua tìm hiểu phân tích thuật tốn thường dùng phân loại văn bản, thấy việc phân loại văn sử dụng thuật tốn thuộc nhóm học có giám sát Trong tốn phân loại bán tự động văn quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông tin mà luận văn nghiên cứu, tơi sử dụng mơ hình SVM kết hợp thêm điều kiện từ khoá đặc trưng cho chủ đề để giải toán Về văn quy phạm pháp luật nhóm văn có cấu trúc quy định rõ ràng, quy định nhà nước điều chỉnh hành vi thông qua văn số 01/2011/TT-BNV Bộ Nội vụ ban hành ngày 19 tháng 01 năm 2011 30 CHƯƠNG THỰC NGHIỆM HỆ THỐNG PHÂN LOẠI BÁN TỰ ĐỘNG VĂN BẢN QUY PHẠM PHÁP LUẬT DỰA TRÊN CHỦ ĐỀ CHO HỆ THỐNG TRUY HỒI THÔNG TIN 3.1 Đặt vấn đề: Hiện việc quản lý hệ thống văn quản lý hành nước ta phức tạp, chưa thống chưa tập trung Ở ngành nghề, lĩnh vực có hệ thống văn riêng Việc phân loại văn quy phạm pháp luật, văn hành cách tự động để tra cứu văn dễ dàng yêu cầu thiết thực cơng tác quản lý hành Trong thực tế có phần mềm quản lý văn đến, văn đi, chưa có phần mềm phân loại văn Nghĩa văn đến văn thuộc lĩnh vực nào, nội dung trọng tâm gì, đối tượng điều chỉnh hành vi văn ai,…thì chưa rõ, chủ yếu dựa vào phần trích yếu văn [9] Là người làm cơng việc quản lý hành nhà nước, tơi giao nhiệm vụ công tác tổ chức, soạn văn cần tra cứu văn cấp để lấy làm cho việc thực Cơng việc đòi hỏi tơi phải nhớ nội dung văn bản, nhớ ngày ban hành, thời hạn có hiệu lực, … Việc tra cứu văn lấy khơng thời gian tơi, hy vọng với hệ thống phân loại bán tự động văn quy phạm pháp luật giảm hao phí mặt thời gian việc tra cứu văn 31 3.2 Tổng quan toán: Bài toán cho trước tập văn D = {d1,d2, ,dn} tập chủ đề S = {s1,s2, ,sn} Với văn d đưa vào, nhiệm vụ hệ thống gợi ý chủ đề s cho văn d thêm chủ đề bổ sung d vào chủ đề Để giải toán ta cần tập D tập văn mẫu để hệ thống huấn luyện tập chủ đề S chứa chủ đề nội dung văn D Việc phân loại chia làm pha bản: Pha 1: Tiền xử lý: chuyển đổi văn dạng text, tách từ, loại bỏ từ không mang ý nghĩa (Stop word) văn bản, trích chọn đặc trưng Tập huấn luyện: xây dựng tập huấn luyện chủ đề cho hệ thống văn Phân loại văn dựa term cấu trúc văn quy phạm pháp luật Pha 2: Xây dựng chủ đề văn bản, chọn từ đặc trưng văn Pha 3: Phân loại văn trích chọn pha dựa ontoly 32 Văn Bộ tách từ Bộ trích chọn đặc trưng Tính độ tương tự với văn Kiểm tra từ đặc trưng lớp Không thoả Thoả Gán lớp Yêu cầu người dùng gán lớp Kết thúc Hình 3.2: Sơ đồ tổng quan giải pháp 33 3.3 Mô tả toán: - Cho trước tập Chủ đề S = {s1, s2, …, sn} tập văn D = {d1, d2, …dm} Trong di văn phân chủ đề sj (theo hệ chuyên gia) Văn d (văn mới) đưa vào tập D, nhiệm vụ cho biết d thuộc chủ đề tập S đưa yêu cầu người dùng tự phân loại tay (nếu văn d khơng có đặc trưng chủ đề độ tương tự với văn phân loại q thấp) Bài tốn giải thuật tốn sau: Bước 1: tính độ tương tự văn d với văn D Bước 2: tìm văn x D có độ tương tự với d cao d có chứa từ đặc trưng chủ đề văn x Bước 3: tìm thấy x gán d có chủ đề với x, ngược lại không tồn tịa văn x việc gán chủ đề cho d thực tay 3.4 Các bước thực hiện: - Hiện việc phân nhóm, phân loại liệu thường thực thông qua Vectơ hoá văn Việc vectơ hoá văn tập D văn d, việc biểu diễn văn vectơ trình bày mục 1.3.2 luận văn Sau vectơ hoá văn ta tính độ tương tự d với văn phân nhóm văn d dựa vào độ tương tự đặc trung chủ đề Cụ thể bước: - Bước chuẩn bị: o Xây dựng tập chủ đề hệ thống thông qua việc sử dụng lấy ý kiến chuyên gia o Xây dựng tập từ khoá đặc trưng cho chủ đề, việc thực thực theo hệ chuyên gia - Bước phân loại văn mới: 34 Bước 1: Chuẩn hoá văn - Thực chia loại văn dựa vào cấu trúc văn quy định Chính phủ [9] - Thực tìm số hiệu văn dựa vào cấu trúc văn quy định Chính phủ [9] - Loại bỏ từ dừng (stop word) - Chuẩn hoá dấu câu - Thực tác từ, việc tách từ thực cách so khớp từ dài từ điển (đã trình bày mục 1.2.3) - Tính TF, TF_val (đã trình bày mục 1.3.2) Bước 2: Trích chọn đặc trưng - Tính số IDF, IDF_val TF.IDF (đã trình bày mục 1.3.2) - Trích chọn từ đặc trưng dựa vào số IDF, IDF_val TF.IDF Bước 3: Phân loại - Tính độ tương tự văn d với văn phân loại - Sắp xếp độ tương tự giảm dần - Tìm văn x có độ tương tự cao d chứa từ đặc trưng chủ đề X o Nếu tồn văn x thoả điều kiện gán d vào chủ đề o Ngược lại khơng tồn văn x thoả điều kiện yêu cầu người dùng tự phân chủ đề 35 CHƯƠNG CÀI ĐẶT, ĐÁNH GIÁ 4.1 Cài đặt 4.1.2 Ngơn ngữ cơng cụ lập trình: - Luận văn sử dụng cơng cụ lập trình Visual Studio 2015 hãng MicroSoft Ngơn ngữ lập trình sử dụng để viết hệ thống thử nghiệm C# dựa Frameword 4.7 - Do ứng dụng thiết kế để minh hoạ nên thiết kế giao diện Windows Form liệu dạng text - Việc chuyển đổi văn từ dạng *.doc, *.docx, *.pdf sang dạng *.txt sử dụng công cụ Doxillion Document Converter NCH Software 4.1.3 Thiết kế liệu: Bảng 4.1.3a: Mô tả cấu trúc SubJect (chủ đề) TT Tên trường ID Kiểu Long Diễn giải Mã số chủ đề, dùng để phân biệt chủ đề với Name String Tên chủ đề Extrac String Chứa từ đặc trưng chủ đề, từ phân biệt dấu chấm phẩy “;” 36 Bảng 4.1.3b: Mô tả cấu trúc Document (văn bản) TT Tên trường ID Kiểu Long Diễn giải Mã số văn bản, dùng để phân biệt văn với SubID Long Mã chủ đề văn DocNum String Số hiệu văn Loai String Tên loại văn bản: Nghị định, Thông tư, Quyết định, Nghị định, Thông tư liên tịch, Tờ trình, Thống báo, Cơng văn,… Name String Tên tệp (dạng text) 37 Bảng 4.1.3c: Mô tả cấu trúc Word (Từ) TT Tên trường Kiểu Diễn giải ID Long Mã số từ văn DocID Long Từ thuộc văn Word String Từ IS_Extrac Bool True từ đặc trung, ngược false TF Double Số lần xuất từ văn TF_VAL Double Giá trị TF tính theo cơng thức log IDF Double Số văn có chứa từ IDF_VAL Double Giá trị IDF tính theo công thức idf_val = từ không xuất văn ID, ngược lại tính theo _ log với m số lượng văn TFIDF Double Giá trị TF.IDF TF_VAL*IDF_VAL tính 38 4.1.4 Mối quan hệ bảng Subject Document ID ID ∞ Word ID SubId ∞ DocID Hình 4.1.4 : Mối quan hệ bảng 4.1.5 Giao diện: 4.2 Đánh giá: Bảng trình bày kết thử nghiệm hệ thống STT Số Số văn Số văn văn hệ thống phân người yêu cầu người loại dùng phân loại 12 10 nâng Chủ đề Tuyển Dụng Nâng ngạch, lương, phụ cấp Bổ nhiệm Nghỉ hưu, việc 10 39 STT Chủ đề Số Số văn Số văn văn hệ thống phân người yêu cầu người loại dùng phân loại Thuyên chuyển 10 Đào tạo, bồi dưỡng 10 40 Tỉ lệ dương TP (True Positive) số văn phân loại việc gán Tỷ lệ dương sai FP (False Positive): số văn phâm loại việc gán nhãn sai Tỷ lệ âm TN (True Negative): số văn không phân loại việc gán nhãn Tỷ lệ âm sai FN (False Negative): số văn không phân loại việc gán nhãn sai Quyết định hệ chuyên gia Phân loại Quyết định True False True 50 False hệ thống máy học Hiệu (hay độ xác) hệ thống Phân loại, đánh giá công thức sau: ∗ ∗ Khi F_Score = 0.8739 (hay 87.39%) coi hiệu hệ thống Phân loại 41 CHƯƠNG KẾT LUẬN, HƯỚNG PHÁT TRIỂN 5.1 Kết luận - Từ kết nghiên cứu luận văn, cài đặt hệ thống thử nghiệm dựa mơn hình khơng gian vecto, giải phần tương đối ổn toán phân loại văn quy phạm pháp luật dựa vào việc truy hồi thơng tin - Tuy nhiên nhiều hạn chế: việc tiền xử lý vằn – chuyển đổi từ *.doc, *.docx, *.dbf sang *.txt - phụ thuộc vao phần mêm bên ngồi - Hệ thống sử dụng máy đơn, dẫn đến việc ứng dụng không rộng liệu không lớn - Việc sử dụng C# lập trình xử lý văn nhiều hạn chế, khơng khai thác thư viện sẵn có Python hay R - Giao diện người dùng chưa thân thiện 5.2 Hướng phát triển - Xây dựng thêm hệ thống tự chuyển đổi dạng văn (từ *.doc, *.docx, *.dbf sang *.txt) - Thay đổi giao diện Windows Form thành Web Form để sử dụng cơng cụ Python R, đồng thời thiết kế lại ứng dụng thành ứng dụng nhiều người dùng nhằm thu thập nhiều văn hơn, giúp việc phân loại tốt - Cập nhật thêm tính tìm thời hạn văn (nếu có) cho biết văn điều chỉnh văn nào,… ... dùng phân loại văn bản, tơi thấy việc phân loại văn sử dụng thuật tốn thuộc nhóm học có giám sát Trong toán phân loại bán tự động văn quy phạm pháp luật dựa theo chủ đề cho hệ thống truy hồi thông. .. luận văn bao gồm chương: - Chương 1: Tổng quan toán phân loại văn - Chương 2: Các phương pháp phân loại văn - Chương 3: Phân loại bán tự động văn quy phạm pháp luật dựa chủ đề cho hệ thống truy hồi. .. luyện chủ đề cho hệ thống văn Phân loại văn dựa term cấu trúc văn quy phạm pháp luật Pha 2: Xây dựng chủ đề văn bản, chọn từ đặc trưng văn Pha 3: Phân loại văn trích chọn pha dựa ontoly