1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú

40 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 1,73 MB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH THỊ HIỀN THẮM XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CÔNG VĂN TẠI ỦY BAN NHÂN DÂN XÃ HÒA PHÚ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng-Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH THỊ HIỀN THẮM XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CÔNG VĂN TẠI ỦY BAN NHÂN DÂN XÃ HÒA PHÚ Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS.VÕ TRUNG HÙNG Đà Nẵng-Năm 2017 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng tôi.Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Huỳnh Thị Hiền Thắm ii PHÂN LOẠI VĂN BẢN VỚI PHƯƠNG PHÁP MẠNG NERUAL KẾT HỢP PHƯƠNG PHÁP CÂY QUYẾT ĐỊNH Học viên: Huỳnh Thị Hiền Thắm Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Trường Đại học Bách khoa-ĐHĐN Khóa: 31 Tóm tắt - Bài tốn phân loại văn bản, thực chất, xem toán phân lớp Phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện Nhiều kỹ thuật máy học khai phá liệu áp dụng vào toán phân loại văn bản, chẳng hạn: phương pháp định dựa vào Bayes ngây thơ (Naive Bayes), định (decision tree), k–láng giềng gần (KNN), mạng nơron (neural network),… Phương pháp mạng nerual kết hợp phương pháp định chuyển đổi định thành mạng neural Nhiệm vụ phân loại văn phương pháp xây dựng mạng lưới cách trực tiếp lập đồ nút định quy định cho đơn vị neural nén lại mạng cách loại bỏ đơn vị kết nối không quan trọng không cần thiết Từ khóa – Cây định, phân loại văn bản, mạng Nơ-ron CLASSIFICATION CATEGORY WITH NEURAL NETWORK METHODS COMPLETED BY DECISION METHODOLOGY Abstract - Text document classification, basically, can be considered as a classification problem Automatic text document classification is to assign a label to a new document based onthe similarity of the document with labeled documents in the training set Many machinelearning and data mining methods have been applied in text document classification suchas: Naive Bayes, decision tree, k – Nearest neighbor, neural network,… The nerual networking method combines the decision tree method of converting decision trees into neural networks The textual task of this method is to build networks by directly mapping decision nodes or rules to neural units and compressing networks by removing units and connections Not important and unnecessary Key words - Decision tree, text document calssification, Nerual Network iii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC iii DANH MỤC CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu nhiệm vụ Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Bố cục đề tài Tổng quan tài liệu tham khảo Chương - CƠ SỞ LÝ THUYẾT 1.1 Phân loại văn 1.1.1 Khái niệm văn 1.1.2 Phân loại văn 1.1.3 Mơ hình tổng qt 1.2 So sánh đặc điểm tiếng Anh tiếng Việt 1.2.1 Đặc điểm tiếng Anh tiếng Việt 1.2.2 Nhận xét 1.3 Các phương pháp phân loại văn 1.3.1 Phương pháp Naïve Bayes 1.3.2 Phương pháp k Nearest Neighbor 1.3.3 Phương pháp Support Vector Machine 1.3.4 Phương pháp Linear Least Square Fit 1.3.5 Phương pháp Centroid – based vector 10 1.3.6 Nhận xét 10 1.4 Các phương pháp tách từ tiếng Việt 11 1.4.1 Phương pháp Conditional Random Field 11 1.4.2 Phương pháp Transformation – based Learning 15 1.4.3 Phương pháp Weighted Finite-State Transducer 15 1.4.4 Nhận xét 16 Chương - ĐỀ XUẤT GIẢI PHÁP 17 2.1 Giới thiệu toán 17 2.2 Mô hình đề xuất 19 2.3.1 Phương pháp tách từ tiếng Việt 20 2.3.2 Loại bỏ từ dừng 22 iv 2.3.3 Mơ hình biểu diễn văn 23 2.4 Phương pháp định 28 2.4.1 Cây định 28 2.4.2 Thuật toán phân lớp định C4.5 32 2.4.3 Chuyển đổi từ định sang luật 35 2.5 Phương pháp mạng Neural 35 2.5.1 Giới thiệu mạng nơron 35 2.5.2 Luật học mạng nơron 38 2.5.3 Thuật toán lan truyền ngược (back-propagation) 39 2.6 Phương pháp mạng Nerual khởi tạo với định 41 2.6.1 Thuật toán xây dựng định 41 2.6.2 Đào tạo mạng Nerual đa lớp 42 2.6.3 Mạng Nerual khởi tạo với định 43 Chương - XÂY DỰNG ỨNG DỤNG VÀ THỰC NGHIỆM 45 3.1 Mơ hình đề xuất 45 3.1.1 Quá trình tiền xử lý 45 3.1.2 Biểu diễn văn 47 3.2 Ứng dụng phương pháp mạng nerual kết hợp định phân lớp văn tiếng Việt 51 3.2.1 Huấn luyện 51 3.2.2 Phân loại 52 3.3 Xây dựng chương trình thử nghiệm 53 3.3.1 Yêu cầu toán 53 3.3.2 Danh sách chức 53 3.3.3 Giao diện chương trình 53 3.3.4 Kết thử nghiệm 55 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao) v DANH MỤC CÁC CHỮ VIẾT TẮT Tiếng Việt VB VB1 VB2 Văn Văn Văn Tiếng Anh ANN IDF kNN LLSF MLP NB Nnet SVM TBL TF WFTS Artificial Neural Network Inverse Document Frequency k Nearest Neighbor Linear Least Square Fit Multilayer Perceptron Naïve Bayes Nerual Network Support Vector Machine Transformation – Based Learning Term Frequency Weighted Finite-State Transducer vi DANH MỤC CÁC BẢNG Số hiệu bảng 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 3.1 3.2 3.3 3.4 3.5 3.6 Tên bảng Một số từ dừng văn tiếng Việt Biểu diễn văn theo mơ hình Logic Biểu diễn văn theo mơ hình khơng gian vector Biểu diễn văn theo không gian vector Boolean Bảng Trainning Data Bảng Testing Data Kết phân lớp định Huấn luyện với thuộc tính phân lớp buys computer Danh sách chức chương trình thử nghiệm chủ đề số lượng mẫu dùng tập thử nghiệm Kết thử nghiệm cơng văn Đồn niên Kết thử nghiệm công văn Tư pháp Kết thử nghiệm công văn Đảng Kết thử nghiệm cơng văn Cơng đồn Trang 22 23 25 26 29 30 31 34 53 55 55 56 56 56 vii DANH MỤC CÁC HÌNH VẼ Số hiệu hình 1.1 1.2 1.3 2.1 2.2 2.3 2.4 2.5 3.1 3.2 3.3 3.4 Tên hình Giai đoạn huấn luyện Giai đoạn phân lớp Đồ thị vơ hướng mơ tả CRF Mơ hình đề xuất Cây định Mơ hình nơron nhân tạo Mơ hình nơron nhân tạo với giá trị bias Sơ đồ khối mô tả luật học giám sát Mơ hình đề xuất Giao diện chương trình Giao diện form huấn luyện Giao diện form phân loại Trang 4 12 19 29 36 37 39 45 54 54 55 MỞ ĐẦU Tính cấp thiết đề tài Trong thời đại bùng nổ Công nghệ thông tin nay, phương thức sử dụng giấy tờ cơng việc dần số hố chuyển sang dạng cơng văn lưu trữ máy tính Bởi nhiều tính ưu việt tài liệu số như: cách lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trao đổi đặc biệt qua Internet, dễ dàng sửa đổi… nên ngày nay, số lượng công văn số tăng lên cách chóng mặt Cùng với gia tăng số lượng công văn, nhu cầu tìm kiếm cơng văn tăng theo Với số lượng cơng văn đồ sộ việc có cơng cụ phân loại công văn nhu cầu thực cần thiết Hằng năm, Ủy ban nhân dân xã Hòa Phú tiếp nhận chuyển số lượng lớn loại công văn, tra cứu, sử dụng lại nhiều thời gian, cơng sức Chính vậy, để hỗ trợ văn thư có cơng cụ quản lý cơng văn cách thuận tiện, xác, tiết kiệm thời gian ứng dụng công nghệ thông tin vào công tác quản lý Văn thư – Lưu trữ, thực đề tài: "Xây dựng ứng dụng phân loại công văn Ủy ban nhân dân xã Hòa Phú” Mục tiêu nhiệm vụ 2.1 Mục tiêu Mục tiêu đề tài xây dựng ứng dụng tự động phân loại công văn theo phận Ủy ban nhân dân xã Hịa Phú Ứng dụng giúp Văn thư chuyển số lượng lớn công văn đến phận để kịp thời giải công việc chưa đọc văn giúp lập hồ sơ công việc theo phận vào cuối năm, giúp tiết kiệm thời gian, nhằm tin học hóa phận Văn thư 2.2 Nhiệm vụ Để hoàn thành mục tiêu trên, nhiệm vụ nghiên cứu đề tài gồm: - Nghiên cứu phương pháp phân loại văn tiếng Anh - Nghiên cứu phương pháp phân loại văn tiếng Việt - Xây dựng ứng dụng phân loại công văn dựa phương pháp mạng neural kết hợp phương pháp định Thử nghiệm chương trình đánh giá kết Đối tượng phạm vi nghiên cứu 3.1 Đối tượng Đối tượng nghiên cứu luận văn gồm: - Hệ thống công văn Ủy ban nhân dân xã Hòa Phú - Các phương pháp phân loại văn tiếng Anh - Các phương pháp phân loại văn tiếng Việt - Phân loại văn tiếng Anh sử dụng phương pháp mạng neural kết hợp phương pháp định 17 Chương ĐỀ XUẤT GIẢI PHÁP Từ trước đến nay, phân loại văn có nhiều cơng trình nghiên cứu đạt kết đáng khích lệ, có nhiều phương pháp phân loại văn bản, chương này, tập trung nghiên cứu phương pháp mạng nerual kết hợp phương pháp định để phân loại văn tiếng Việt 2.1 Giới thiệu tốn Cơng văn hình thức văn hành dùng phổ biến quan, tổ chức, doanh nghiệp Công văn phương tiện giao tiếp thức quan Nhà nước với cấp trên, cấp với cơng dân Thậm chí tổ chức xã hội doanh nghiệp hoạt động hàng ngày phải soạn thảo sử dụng công văn để thực hoạt động thông tin giao dịch nhằm thực chức nhiệm vụ Mỗi cơng văn chứa đựng chủ đề, nêu rõ ràng vụ, viết cách ngắn gọn, súc tích, rõ ràng, ý tưởng phải sát với chủ đề Công văn dùng ngơn ngữ lịch sự, nghiêm túc, có sức thuyết phục cao, thức quy định pháp luật Nhànước Trong đề tài ta sử dụng cụm từ văn phân loại văn nói chung để công văn việc phân loại công văn Các khái niệm phân loại văn bản: Tập văn huấn luyện:Tập văn huấn luyện tập hợp liệu sử dụng trình tìm kiếm quan hệ, luật để dùng cho dự đoán dự báo sau Tiền xử lý (Preprocessing) Tiền xử lý bước quan trọng trước nhận diện văn thực việc gán nhãn cho tập văn huấn luyện Đầu tiên cần biểu diễn văn dạng từ (word) rõ ràng Các văn chuẩn bị thực phân loại thường có số chiều đặc trưng lớn Thông thường, bước tiền xử lý bao gồm: Tokenization: Văn coi chuỗi, cần phân chia thành danh sách tokens (token ký tự, từ, ) Loại bỏ từ dừng: Loại bỏ từ dừng coi bước giúp lọc bỏ nhiễu, giúp hạn chế sai số q trình tính tốn giảm bớt số chiều đặc trưng Các từ dừng “và”, “thôi”, “này” Đánh số (Indexing) Biểu diễn văn kỹ thuật tiền xử lý, sử dụng để giảm độ phức tạp văn dễ dàng lưu trữ xử lý, văn biến đổi từ dạng chữ đầy đủ thành véc tơ văn Thông thường sử dụng mơ hình 18 véc tơ khơng gian Các văn biểu diễn véc tơ từ Ví dụ ma trận trọng số sau: Trong phần tử biểu diễn tần suất xuất tử văn wtn trọng số từ i văn n Có nhiều cách để xác định trọng số w ma trận trên, sử dụng phương pháp trọng số Boolean, trọng số tần xuất từ, mơ hình tf-idf, entropy, Trích chọn đặc trưng Sau tiền xử lý đánh số, bước quan trọng phân loại văn trích chọn đặc trưng để xây dựng véc tơ không gian, để làm tăng chất lượng, độ xác phân loại văn Ý tưởng trích chọn đặc trưng lựa chọn tập đặc trưng từ văn gốc Trích chọn đặc trưng thực cách giữ lại từ có số cao theo độ đo xác định trước Bởi toán phân loại văn thường tốn có số chiều đặc trưng cao Một số độ đo đánh giá đặc trưng theo độ lợi ích thơng tin (information gain), tần suất từ (term frequency), độ tương hỗ thông tin (mutual information) Kỹ thuật phân loại Phân loại văn tự động sử dụng số kỹ thuật để phân loại: kỹ thuật học giám sát, kỹ thuật học không giám sát kỹ thuật học bán giám sát Một số phương pháp phân loại như: định (Decision tree), mạng Nerual, Naïve Bayes, k – NN, … Bài toán phân loại văn mô tả sau:[4] Bước 1: Chuẩn bị tập liệu huấn luyện liệu kiểm tra Bước 2: Tách từ văn Hầu hết phương pháp phân loại văn dựa kỹ thuật máy học dựa vào tần xuất xuất (số lần xuất hiện) từ cụm từ văn bản, dựa vào tần xuất xuất từ văn tần xuất văn (số văn tập liệu huấn luyện có chứa từ đó) Độ xác kết tách từ có ảnh hưởng lớn đến kết phân loại, khơng thể có kết phân loại tốt không tách từ văn Bởi vậy, vấn đề quan trọng phân loại văn phải tách xác từ văn đặc biệt văn tiếng Việt Bước 3: Biểu diễn văn 19 Các văn dạng thô cần chuyển sang dạng biểu diễn để xử lý Quá trình gọi trình biểu diễn văn bản, dạng biểu diễn văn phải có cấu trúc dễ dàng xử lý Việc biểu diễn lại văn coi khâu quan trọng trình xử lý văn Mỗi tài liệu mô tả chuỗi ký tự, cần phải biến đổi thành mô tả phù hợp với nhiệm vụ thuật toán xử lý văn Có nhiều phương pháp biểu diễn văn bản, phương pháp thích hợp với tốn cụ thể Trong luận văn tìm hiểu sâu phương pháp biểu diễn văn theo mô hình khơng gian vector Bước 4: Phương pháp học để phân loại văn Hiện nay, có nhiều đề xuất xây dựng toán phân loại văn tự động Neive Bayes, K-láng giềng gần nhất, định, mạng Neural, Support Vector Machines, … Các phương pháp phân loại này, đạt thành công đáng kể văn tiếng Anh, Pháp, Nhật, Trung Quốc, ứng dụng thực tế hệ tìm tin Yahoo, Google, … Bước 5: Phân loại văn Dựa mơ hình liệu xây dựng sau bước huấn luyện, ta thực phân loại văn Trong luận văn tập trung tìm hiểu phương pháp mạng neural kết hợp phương pháp định để phân loại văn tiếng Việt 2.2 Mơ hình đề xuất Hình 2.1 Mơ hình đề xuất 20 2.3 Biểu diễn văn Đối với phân loại văn bản, đặc biệt văn tiếng Việt, trước biểu diễn văn bản, tiến hành thực bước tiền xử lý văn bản, kết công việc cho tập từ riêng biệt, loại bỏ dấu câu (như dấu ngoặc, nháy đơn, nháy kép, dấu câu), số, từ, trường hợp chữ hoa, chữ thường loại bỏ từ dừng, không liên quan đến nội dung văn Hiện nay, để giải hầu hết vấn đề liên quan đến văn dùng mơ hình biểu diễn Vì vậy, mơ hình biểu diễn khơng ngừng phát triển, hàm chứa nhiều suy nghĩ mà người muốn diễn đạt, đồng thời nâng cao hiệu sử dụng Mơ hình biểu diễn văn truyền thống sử dụng phổ biến như: Mơ hình khơng gian vector Mơ hình khơng gian vector biểu diễn văn Trọng số vector đặc trưng thuật ngữ (từ) xuất toàn tập văn Trọng số vector đặc trưng thường tính qua độ đo TFxIDF Mơ hình nắm bắt thơng tin cấu trúc quan trọng vị trí xuất từ, vùng lân cận từ, trật tự xuất từ văn Mô hình biểu diễn văn đề xuất đánh giá cao tận dụng thơng tin quan trọng cấu trúc mà không gian vector sử dụng Khi ứng dụng vào loại toán khác nhau, thành phần thích hợp văn trở thành mối quan hệ hiệu như: trật tự xuất hiện, tần số đồng hiện, vị trí xuất hiện, độ tương đồng biểu diễn câu, từ hay câu kết hợp từ Kết thúc trình tiền xử lý văn bản, chương trình thực biểu diễn văn theo mơ hình khơng gian vector Nhiệm vụ việc xử lý phân loại văn chọn mơ hình biểu diễn văn thích hợp Một văn dạng thơ (dạng chuỗi) cần chuyển sang mơ hình khác để tạo thuận lợi cho việc biểu diễn tính tốn Tùy thuộc vào thuật tốn phân loại khác mà có mơ hình biểu diễn riêng Một mơ hình đơn giản thường sử dụng nhiệm vụ mơ hình không gian vector Biểu diễn văn bước quan trọng có nhiệm vụ xác định từ làm giảm số từ có văn bản, qua làm giảm kích thước liệu văn nhằm giảm số chiều vector biểu diễn văn 2.3.1 Phương pháp tách từ tiếng Việt Sau tìm hiểu ngơn ngữ tiếng Việt số phương pháp phân đoạn từ tiếng Việt máy tính nay, ta nhận thấy mơ hình phân đoạn từ tiếng Việt tốt phải giải hai vấn đề giải nhập nhằng tiếng Việt có khả phát từ Xuất phát từ đó, luận văn chọn hướng tiếp cận sử dụng phương pháp Maximum Matching Phương pháp so khớp tối đa (MM-Maximum Matching) hay gọi LRMM Left Right Maximum Matching Tư tưởng phương pháp duyệt câu từ trái qua phải chọn từ có nhiều tiếng mà có mặt từ điển tiếng Việt Nội 21 dung thuật toán dựa thuật toán ChihHao Tsai giới thiệu năm 1996 Thuật tốn có dạng sau: Dạng đơn giản dùng để giải nhập nhằng từ đơn: Giả sử có chuỗi tiếng câu t1, t2, tN Thuật toán kiểm tra xem t1 có mặt từ điển hay khơng, sau kiểm tra tiếp t1-t2 có từ điển hay khơng Tiếp tục tìm từ có nhiều tiếng có mặt từ điển, đánh dấu từ Sau tiếp tục q trình với tất các tiếng lại câu toàn văn Dạng đơn giản gặp phải nhiều nhập nhằng tiếng Việt, ví dụ gặp phải lỗi phân đoạn từ câu sau: “học sinh | học sinh | học”, câu phải “học sinh| học| sinh học” Dạng phức tạp: dạng tránh số nhập nhằng gặp phải dạng đơn giản Đầu tiên thuật tốn kiểm tra xem t1 có mặt từ điển khơng, sau kiểm tra tiếp t1-t2 có mặt từ điển khơng Nếu t1-t2 có mặt từ điển thuật tốn thực chiến thuật chọn 3-từ tốt Tiêu chuẩn 3-từ tốt Chen & Liu (1992) đưa sau: - Độ dài trung bình từ lớn Ví dụ với chuỗi “cơ quan tài chính” phân đoạn thành “cơ quan | tài chính”, tránh việc phân đoạn sai thành “cơ | quan tài | chính” cách phân phải có độ dài trung bình lớn - Sự chênh lệch độ dài từ Ví dụ với chuỗi “cơng nghiệp hóa chất phát triển” phân đoạn thành “cơng nghiệp | hóa chất | phát triển” thay phân đoạn sai thành “cơng nghiệp hóa | chất | phát triển” Cả cách phần đoạn có độ dài trung bình nhau, cách phân đoạn có chênh lệch độ dài từ Nhận xét: Tuy hai tiêu chuẩn hạn chế số nhập nhằng, tất Ví dụ với câu “ơng già nhanh” cách phân đoạn sau có độ dài trung bình độ chênh lệch từ: “ông | già đi| nhanh” “ông già | | nhanh”, thuật tốn khơng thể cách phân Ưu điểm phương pháp thấy rõ đơn giản, dễ hiểu chạy nhanh Hơn cần tập từ điển đầy đủ tiến hành phân đoạn văn bản, hồn tồn khơng phải trải qua huấn luyện phương pháp trình bày Nhược điểm phương pháp khơng giải vấn đề quan trọng toán phân đoạn từ tiếng Việt: thuật tốn gặp phải nhiều nhập nhằng, hồn tồn khơng có chiến lược với từ chưa biết Hiện có nhiều cơng trình nghiên cứu xây dựng mơ hình tách từ tiếng Việt, đa số mơ hình áp dụng thành cơng cho ngôn ngữ khác (Anh, Trung, Nhật…) cải tiến để phù hợp với đặc điểm tiếng Việt Có thể kể đến cơng trình điển hình như: 22 - Mơ hình tách từ WFST (Weighted Finit State Transduce) mạng Neural sử dụng cơng trình tác giả Đình Điền (2001) Tác giả xây dựng hệ thống tách từ gồm tầng WFST để tách từ xử lý vấn đề liên quan đến số đặc thù tiếng Việt từ láy, tên riêng… tầng mạng Neural dùng để khử nhập nhằng ngữ nghĩa sau tách từ có Mơ hình đạt độ xác 97% theo công bố tác giả - JvnTextPro: cơng cụ tách từ nhóm tác giả Nguyễn Cẩm Tú, Khoa Công nghệ - Trường Đại học Quốc gia Hà Nội xây dựng nhận biết danh từ riêng, từ đơn từ ghép với có độ xác trung bình cao, khoảng 94,5% - Bộ công cụ tách từ vnTokenizer thuộc nhánh đề tài “Xử lý văn tiếng Việt” nằm Đề tài thuộc Chương trình Khoa học Cơng nghệ cấp Nhà nước “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” (2006) cho độ xác cao, 97% 2.3.2 Loại bỏ từ dừng Từ dừng (stop-words) dừng để từ mà xuất nhiều câu văn toàn tập kết quả, thường khơng giúp ích việc phân biệt nội dung tài liệu văn Ví dụ, từ “và”, “hoặc”, “cũng”, “là”, “mỗi”, “bởi”, … Ta thấy ngơn ngữ tự nhiên có nhiều từ dùng để biểu diễn cấu trúc câu không biểu đạt nội dung nó, giới từ, từ nối, Những từ xuất nhiều văn mà khơng liên quan tới chủ đề nội dung văn bản, từ gọi từ dừng Việc loại bỏ từ này, đồng nghĩa với việc giảm số chiều văn bản, tăng độ xác tốc độ xử lý văn Trong trình nghiên cứu, nhận thấy, sau loại bỏ từ dừng,giữ lại từ có từ loại danh từ giữ lại ý nghĩa đầy đủ văn Do đó, đề xuất giữ lại từ danh từ, vừa giữnguyên ý nghĩa văn bản, vừa giảm chi phí cho việc lưu trữ vừa giảm chiphí cho việc tính tốn, thay phải khoản chi phí tính tốn thêm từkhơng có ý nghĩa Ví dụ: Một số từ dừng tiếng Việt Bảng 2.1 Một số từ dừng văn tiếng Việt mà Là rõ ràng sau Bởi Không thể với trước thay Quả thật trước hết Nhưng tóm lại Nếu tất tất khơng hầu hết 23 phần lớn loại trừ Vì ngồi số Chúng ta loại bỏ từ dừngtrong văn cách đặt ngưỡng để phát từ dừng, ví dụ thấy từ xuất nửa số văn coi từ dừng Tùy thuộc vào toán cụ thể mà ta đưa ngưỡng phát từ dừng thích hợp Sử dụng so sánh với từ điển từ dừng Từ điển từ dừng từ điển nghiên cứu xây dựng sẵn từ trước 2.3.3 Mơ hình biểu diễn văn Có nhiều cách biểu diễn văn theo mơ hình khác mơ hình logic, mơ hình phân tích cú pháp, mơ hình khơng gian vector Mỗi mơ hình có ưu điểm nhược điểm khác tùy tốn để lựa chọn mơ hình biểu diễn văn thích hợp Trong luận văn trình bày chủ yếu mơ hình khơng gian vector áp dụng mơ hình vào việc biểu diễn văn a Mơ hình logic Trong mơ hình này, văn biểu diễn dựa theo số từ có nghĩa Từ có nghĩa từ mang thơng tin văn bản, nhìn vào từ người ta biết chủ đề văn cần biểu diễn Mỗi văn đánh số theo qui tắc liệt kê từ có nghĩa văn với từ khóa, lưu vị trí xuất với mã văn chứa Tiến hành Index văn đưa vào theo danh sách từ Với từ người ta đánh số thứ tự vị trí xuất lưu lại số với mã văn chứa Cách biểu diễn máy tìm kiếm ưa dùng Ví dụ, có hai văn VB1,VB2: “Mơ hình đồ thị biểu diễn văn bản” (VB1) “Biểu diễn văn sử dụng mơ hình đồ thị” (VB2) Khi ta có cách biểu diễn sau : Bảng 2.2 Biểu diễn văn theo mơ hình Logic Từ mục Mã VB_Vị trí XH Mơ VB1(1), VB2(7) Hình VB1(2), VB2(8) Đồ VB1(3), VB2(9) Thị VB1(4), VB2(10) Biểu VB1(5), VB2(1) Diễn VB1(6), VB2(2) Văn VB1(7), VB2(3) Bản VB1(8), VB2(4) 24 Cách biểu diễn máy tìm kiếm ưa dùng Khi biểu diễn văn theo mơ hình này, người ta đưa tìm kiếm sau: câu hỏi tìm kiếm đưa dạng Logic gồm tập phép toán (AND, OR,…) thực từ cụm từ, việc tìm kiếm dựa vào bảng Index tạo kết trả lại văn thoả mãn toàn điều kiện - Ưu điểm: việc tìm kiếm thực nhanh đơn giản trước ta xếp bảng Index theo từ khóa Hệ thống duyệt bảng Index để trỏ để trỏ đến Index tương ứng với từ khóa từ khóa tồn hệ thống, cho ta biết tài liệu chứa từ khóa cần tìm - Nhược điểm: địi hỏi người tìm kiếm phải có kinh nghiệm tìm kiếm Do câu hỏi tìm kiếm đưa vào dạng Logic nên kết trả lại có giá trị Logic, số tài liệu trả lại thỏa mãn điều kiện Như muốn tìm tài liệu theo nội dung phải biết đích xác tài liệu Hơn nữa, việc Index tài liệu phức tạp tốn nhiều thời gian, khơng gian để lưu trữ; thêm, xóa từ khóa vào bảng Index số Index văn thay đổi theo b Mơ hình phân tích cú pháp Trong mơ hình này, văn phải phân tích cú pháp trả lại thông tin chi tiết chủ đề văn Sau đó, người ta tiến hành Index chủ đề văn Cách Index chủ đề giống Index văn Index từ xuất chủ đề Các văn quản lý thông qua chủ đề để tìm kiếm có u cầu, câu hỏi tìm kiếm dựa chủ đề Tiến hành tìm kiếm cách dựa vào chủ đề Index Câu hỏi đưa vào phân tích cú pháp để trả lại chủ đề tìm kiếm chủ đề Như phận xử lý hệ sở liệu xây dựng theo mơ hình hệ thống phân tích cú pháp đoán nhận nội dung văn - Ưu điểm: Tìm kiếm theo phương pháp hiệu đơn giản, tìm kiếm nhanh xác Đối với ngôn ngữ đơn giản mặt ngữ pháp việc phân tích đạt mức độ xác cao chấp nhận - Nhược điểm: Chất lượng hệ thống theo phương pháp hoàn toàn phụ thuộc vào chất lượng hệ thống phân tích cú pháp đóan nhận nội dung tài liệu Trên thực tế, việc xây dựng hệ thống phức tạp, phụ thuộc vào đặc điểm ngôn ngữ đa số chưa đạt đến độ xác cao c Mơ hình khơng gian vector Hiện nay, để giải hầu hết vấn đề liên quan đến văn dùng mơ hình biểu diễn Vì vậy, mơ hình biểu diễn khơng ngừng phát triển, hàm chứa nhiều suy nghĩ mà người muốn diễn đạt, đồng thời nâng cao hiệu sử dụng Mơ hình biểu diễn văn truyền thống sử dụng phổ biến như: Mơ hình khơng gian vector Mơ hình khơng gian vector biểu diễn văn 25 Trọng số vector đặc trưng thuật ngữ (từ) xuất toàn tập văn Trọng số vector đặc trưng thường tính qua độ đo TFxIDF Mơ hình nắm bắt thông tin cấu trúc quan trọng vị trí xuất từ, vùng lân cận từ, trật tự xuất từ văn Mơ hình biểu diễn văn đề xuất đánh giá cao tận dụng thông tin quan trọng cấu trúc mà không gian vector sử dụng Khi ứng dụng vào loại tốn khác nhau, thành phần thích hợp văn trở thành mối quan hệ hiệu như: trật tự xuất hiện, tần số đồng hiện, vị trí xuất hiện, độ tương đồng biểu diễn câu, từ hay câu kết hợp từ Kết thúc trình tiền xử lý văn bản, chương trình thực biểu diễn văn theo mơ hình khơng gian vector Nhiệm vụ việc xử lý phân loại văn chọn mơ hình biểu diễn văn thích hợp Một văn dạng thô (dạng chuỗi) cần chuyển sang mơ hình khác để tạo thuận lợi cho việc biểu diễn tính tốn Tùy thuộc vào thuật tốn phân loại khác mà có mơ hình biểu diễn riêng Một mơ hình đơn giản thường sử dụng nhiệm vụ mơ hình khơng gian vector Cách biểu diễn văn thông dụng thông qua vector biểu diễn theo mơ hình khơng gian vector (Vector Space Model) Đây cách biểu diễn tương đối đơn giản hiệu Theo mơ hình này, văn biểu diễn thành vector Mỗi thành phần vector từ khóa riêng biệt tập văn gốc gán giá trị hàm f mật độ xuất từ khóa văn Phát biểu mơ hình: Mỗi văn D biểu diễn dạng vector 𝑉⃗ (vector đặc trưng cho văn D) Trong đó, 𝑉⃗ = (𝑣1 , 𝑣2 , … , 𝑣n) n số lượng đặc trưng hay số chiều vector văn (thường số từ khóa), 𝑣𝑖 trọng số đặc trưng thứ i (với ≤ 𝑖 ≤ 𝑛) Giả sử ta có văn biểu diễn vector V (v1, v2, …, vn) Trong đó, vi số lần xuất từ khóa thứ i văn Ta xét thấy văn sau: VB1: Life is not only life VB2: To life is to fight Sau bước tiền xử lý văn bản, ta biểu diễn chúng sau: Bảng 2.3 Biểu diễn văn theo mơ hình khơng gian vector Từ Vector VB1 Vector VB2 Life Fight Only Trong sở liệu văn bản, mơ hình vector mơ hình biểu diễn văn sử dụng phổ biến Mối quan hệ trang văn thực thơng qua việc tính tốn vector biểu diễn thi hành hiệu 26 Đặc biệt, nhiều cơng trình nghiên cứu mối quan hệ "tương tự nhau" trang web (một quan hệ điển hình trang web) dựa mơ hình biểu diễn vector Trọng số đặc trưng tính dựa tần số xuất từ khóa văn Ma trận biểu diễn trọng số (ma trận tần suất) W ={wij} xác định dựa tần số xuất từ khóa ti văn dj Một số phương pháp xác định wij : - Phương pháp Boolean weighting: giá trị số lần xuất từ khóa lớn ngưỡng đó, ngược lại 0) - Phương pháp dựa tần số từ khóa (Term Frequency Weighting) -Phương pháp dựa nghịch đảo tần số văn (Inverse Document Frequency) - Tf*idf weighting *Mơ hình Boolean weighting Mơ hình vector với trọng số từ khóa ti nhận giá trị ti xuất văn Giả sử có sở liệu gồm m văn bản, D = {d1, d2,… dm} Mỗi văn biểu diễn dạng vector gồm n từ khóa T = {t1, t2,…tn} Gọi W = {wij} ma trận trọng số, wij giá trị trọng số từ khóa ti văn dj Với ví dụ trên, ta áp dụng mơ hình Boolean văn biểu diễn sau: Bảng 2.4 Biểu diễn văn theo không gian vector Boolean Từ Vector VB1 Vector VB2 Life 1 Fight Only *Mơ hình tần suất: Trong mơ hình tần suất, ma trận W = {wij} xác định dựa tần số xuất từ khóa ti văn dj tần số xuất từ khóa ti tồn sở liệu Sau số phương pháp phổ biến: Phương pháp dựa tần số từ khóa (TF – Term Frequency) Các giá trị wij tính dựa tần số (hay số lần) xuất từ khóa văn Gọi fij số lần xuất từ khóa ti văn dj , wij tính ba cơng thức: 27 Trong phương pháp này, trọng số wij tỷ lệ thuận với số lần xuất từ khóa ti văn dj Khi số lần xuất từ khóa ti văn dj lớn điều có nghĩa văn dj phụ thuộc vào từ khóa ti, hay nói cách khác từ khóa ti mang nhiều thơng tin văn dj Ví dụ, văn xuất nhiều từ khóa máy tính, điều có nghĩa văn xét chủ yếu liên quan đến lĩnh vực tin học Nhưng suy luận khơng phải lúc Một ví dụ điển hình từ “và” xuất nhiều hầu hết văn bản, thực tế từ lại không mang nhiều ý nghĩa tần suất xuất Hoặc có từ khơng xuất văn lại xuất văn khác, ta khơng tính giá trị log(fij) Một phương pháp khác đời khắc phục nhược điểm phương pháp TF, phương pháp IDF Phương pháp dựa nghịch đảo tần số văn (IDF – InverseDocument Frequency) Trong phương pháp này, giá trị wij tính theo cơng thức sau: Trong N số lượng văn dfi số lượng văn mà từ khóa ti xuất Trong cơng thức này, trọng số wij tính dựa độ quan trọng từ khóa ti văn dj Nếu ti xuất văn bản, xuất dj , trọng số dj lớn (do tính nghịch đảo hàm log), tức hàm lượng thơng tin lớn Nói cách khác ti điểm quan trọng để phân biệt dj với văn khác Phương pháp TF × IDF Đây phương pháp kết hợp hai phương pháp TF IDF Trọng số wij tính tần số xuất từ khóa ti văn dj độ từ khóa ti tập văn Cơng thức tính wij: 28 Trong đó: weight(i,j): trọng số từ thứ i văn thứ j fij (term frequency): số lần xuất từ thứ i văn thứ j, fij cao từ miêu tả tốt nội dung văn dfi (document frequency): số văn có chứa từ thứ i Nhận xét: Ưu điểm: mơ hình vector mơ hình biểu diễn văn sử dụng phổ biến hệ xử lý văn Mối quan hệ văn tính tốn dựa vector biểu diễn nên dễ dàng thực Nhược điểm: văn biểu diễn thành vector n chiều, với số chiều thường số từ khác tập văn bản, khơng gian biểu diễn có số chiều tương đối lớn, việc lưu trữ tính tốn vector tốn phức tạp Đây phương pháp kết hợp ưu điểm hai phương pháp Trọng số wij tính tần số xuất từ khóa ti văn dj độ từ khóa ti toàn sở liệu Sử dụng phương pháp tài liệu xếp theo mức độ liên quan đến nội dung yêu cầu Tiến hành lưu trữ tìm kiếm đơn giản phương pháp Logic 2.4 Phương pháp định 2.4.1 Cây định Cây định (Decision Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật (series of rules) Các thuộc tính đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) thuộc kiểu liệu khác (Binary, Nominal, ordinal, quantitative values) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Cây định cấu trúc biểu diễn dạng Trong đó, nút biểu diễn thuộc tính, nhánh biểu diễn giá trị thuộc tính, biểu diễn lớp định đỉnh gọi gốc Cây định dùng để phân lớp cách xuất phát từ gốc di chuyển theo nhánh gặp nút Trên sở phân lớp chuyển đổi luật định Cây định cấu trúc sử dụng để chia liên tiếp tập ghi lớn thành tập nhỏ cách áp dụng chuỗi luật đơn giản Với phép chia liên tiếp, tập thu tập kết ngày giống Tải FULL (file word 78 trang): bit.ly/2Ywib4t Cây có cấu trúc sau: - Gốc: node cây.Dự phòng: fb.com/KhoTaiLieuAZ - Node trong: biểu diễn kiểm tra thuộc tính đơn - Nhánh: biểu diễn kết kiểm tra thuộc tính đơn - Node lá: biểu diễn lớp hay phân phối lớp 29 Cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, định sinh luật để dự đoán lớp đối tượng chưa biết (unseen data) Ví dụ minh họa: Ta có liệu (training data) 10 đối tượng (người) Mỗi đối tượng mô tả thuộc tính Gender, Car Ownership, Travel Cost/Km, Income Level thuộc tính phân loại (category attribute) Transportation mode Trong thuộc tính Gender có kiểu binary, thuộc tính Car Ownership có kiểu Quantitative integer (0,1), Travel Cost/Km Income Level có kiểu liệu Ordinal Tranining data cho biết lựa chọn loại phương tiện vận chuyển (car, bus, train) khách dựa vào thuộc tính cho (xem bảng) Bảng 2.5 Bảng Trainning Data Attributes Classes Travel Cost Income Gender Car ownership Transportation mode ($)/km Level Male Cheap Low Bus Male Cheap Medium Bus Female Cheap Medium Train Female Cheap Low Bus Male Cheap Medium Bus Male Standard Medium Train Female Standard Medium Train Female Expensive High Car Male Expensive Medium Car Female Expensive High Car Dựa vào Training Data trên, tạo định sau Tải FULL (file word 78 trang): bit.ly/2Ywib4t Dự phòng: fb.com/KhoTaiLieuAZ Hình 2.2 Cây định 30 Chú ý định trên, thuộc tính “Income Level” khơng xuất dựa vào training data cho, thuộc tính “Travel Cost/Km” sinh định tốt dùng để phân loại tốt “Income Level” Làm để sử dụng định dự đoán lớp liệu chưa biết Mục đích định dùng để dự đoán lớp (xác định lớp) đối tượng chưa biết (unseen data) Giả sử ta có liệu người với giá trị liệu biết thuộc tính Gender, Car Ownership, Travel Cost/Km, Income Level Tuy nhiên ta chưa biết họ chọn phương tiện vận chuyển (Car, Bus, Train) Nhiệm vụ sử dụng định tạo để dự đoán (predict) Alex, Buddy Cherry chọn phương tiện vận chuyển dựa vào thuộc tính họ Dữ liệu cịn gọi Testing Data Bảng 2.6 Bảng Testing Data Person Car Travel Cost Income Transportation Gender name ownership ($)/km Level Mode Alex Male Standard High ? Buddy Male Cheap Medium ? Cherry Female Cheap High ? Chúng ta node gốc (root node) từ thuộc tính Travel Cost/Km, ta thấy Travel Cost/Km Expensive người chọn phương tiện Car Nếu Travel Cost/Km standard họ chọn phương tiện vận chuyển Train Nếu Travel Cost/Km Cheap định cần tới giá trị trường Gender người đó, Gender Male chọn Bus, giới tính Female định cần kiểm tra xem người có sử hữu xe (Car Ownership) Nếu số xe sở hữu người chọn xe Bus, số xe sở hữu người chọn Train Theo định trên, luật (Series of Rules) sinh từ định dùng để dự đoán sau: Rule 1: If Travel cost/km is expensive then mode = car Rule 2: If Travel cost/km is standard then mode = train Rule 3: If Travel cost/km is cheap and gender is male then mode = bus Rule 4: If Travel cost/km is cheap and gender is female and she owns no car then mode = bus Rule 5: If Travel cost/km is cheap and gender is female and she owns car then mode = train Dựa vào luật này, việc dự đoán lớp cho liệu chưa biết (unseen data hay Testing data) đơn giản 31 Trong ví dụ này, Alex có giá trị thuộc tính Travel Cost/Km Standard nên chọn phương tiện Train (Rule 2) mà không cần quan tâm đến thuộc tính khác Alex Buddy có giá trị thuộc tính Travel Cost/Km Cheap Gender Male nên chọn Bus (Rule 3) Cheery có giá trị thuộc tínhTravelCost/Km Cheap Gender Female sở hữu xe theo định (Rule 5) cô ta chọn phương tiện Train Kết phân lớp định bảng đây: Bảng 2.7 Kết phân lớp định Travel Cost Car Transportation Person name Gender ($)/km ownership Mode Alex Standard Male Train Buddy Cheap Male Bus Cherry Cheap Female Train Cây định phương pháp phân lớp hiệu dễ hiểu Tuy nhiên có số ý sử dụng định xây dựng mơ hình phân lớp sau: Hiệu phân lớp định (Series of Rules) phụ thuộc lớn vào training data Chẳng hạn định tạo giới hạn 10 samples training data ví dụ hiệu ứng dụng định để dự đốn trường hợp khác khơng cao (thường training data phải đủ lớn tin cậy) ta khơng thể nói tập luật (Series of Rules) sinh định tập luật tốt Quá trình xây dựng định gồm hai giai đoạn: - Giai đoạn thứ phát triển định: Giai đoạn điểm bắt đầu tất liệu huấn luyện gốc, sau phân chia liệu huấn luyện theo cách đệ quy dựa thuộc tính đượcchọn Các bước xây dựng định: + Cây thiết lập từ xuống theo cách chia để trị + Ở thời điểm bắt đầu, liệu huấn luyện nằm gốc + Chọn thuộc tính để phân chia thành nhánh Thuộc tính chọn dựa độ đo thống kê độ đo heuristic + Tiếp tục lặp lại việc xây dựng định cho nhánh Điều kiện để dừng việc phân chia: tất mẫu thuộc lớp (nút là) khơng cịn thuộc tính dùng để phân chia mẫu khơng mẫu nút - Giai đoạn thứ hai cắt, tỉa bớt cành nhánh định: xác định xóa nhánh mà có phần tử hỗn loạn phần tử phân vào lớp 7faef5b5 ... loại công văn Ủy ban nhân dân xã Hòa Phú? ?? Mục tiêu nhiệm vụ 2.1 Mục tiêu Mục tiêu đề tài xây dựng ứng dụng tự động phân loại công văn theo phận Ủy ban nhân dân xã Hòa Phú Ứng dụng giúp Văn thư... nghiên cứu luận văn gồm: - Hệ thống công văn Ủy ban nhân dân xã Hòa Phú - Các phương pháp phân loại văn tiếng Anh - Các phương pháp phân loại văn tiếng Việt - Phân loại văn tiếng Anh sử dụng phương... phương pháp định CHƯƠNG 3: Xây dựng ứng dụng thực nghiệm trình bày việc thực demo triển khai thực tế chương trình Xây dựng ứng dụng phân loại công văn Ủy ban nhân dân xã Hòa Phú phương pháp mạng nerual

Ngày đăng: 06/09/2021, 16:40

HÌNH ẢNH LIÊN QUAN

DANH MỤC CÁC BẢNG - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
DANH MỤC CÁC BẢNG (Trang 8)
DANH MỤC CÁC HÌNH VẼ Số hiệu  - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
hi ệu (Trang 9)
hình Tên hình Trang - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
h ình Tên hình Trang (Trang 9)
1.1.3. Mơ hình tổng quát - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
1.1.3. Mơ hình tổng quát (Trang 13)
Hình 1.3. Đồ thị vơ hướng mơ tả CRF - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
Hình 1.3. Đồ thị vơ hướng mơ tả CRF (Trang 21)
Dựa trên các mơ hình dữ liệu đã được xây dựng sau bước huấn luyện, ta thực hiện phân loại văn bản - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
a trên các mơ hình dữ liệu đã được xây dựng sau bước huấn luyện, ta thực hiện phân loại văn bản (Trang 28)
- Mơ hình tách từ bằng WFST (Weighted Finit State Transduce) và mạng Neural đã được sử dụng trong cơng trình của tác giả Đình Điền (2001) - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
h ình tách từ bằng WFST (Weighted Finit State Transduce) và mạng Neural đã được sử dụng trong cơng trình của tác giả Đình Điền (2001) (Trang 31)
Phát biểu của mơ hình: - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
h át biểu của mơ hình: (Trang 34)
*Mơ hình Boolean weighting - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
h ình Boolean weighting (Trang 35)
Bảng 2.5. Bảng Trainning Data - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
Bảng 2.5. Bảng Trainning Data (Trang 38)
Bảng 2.6. Bảng Testing Data Person  - Xây dựng ứng dụng phân loại công văn tại ủy ban nhân dân xã hòa Phú
Bảng 2.6. Bảng Testing Data Person (Trang 39)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w