7. Nội dung luận văn
3.2. Khái niệm về văn bản quản lý nhà nước
3.2.1. Văn bản quản lý nhà nước
Văn bản quản lý nhà nước là những quyết định và thơng tin quản lý thành văn ( được văn bản hĩa) do các cơ quan quản lý nhà nước ban hành theo thẩm quyền, trình tự, thủ tục, hình thức nhất định và được nhà nước đảm bảo thi hành bằng những hình thức khác nhau nhằm điều chỉnh các mối quan hệ quản lý nội bộ nhà nước hoặc giữa các cơ quan nhà nước với các tổ chức và cơng dân.
3.2.2. Văn bản quản lý hành chính nhà nước
Văn bản quản lý hành chính nhà nước là một bộ phận của văn bản quản lý nhà nước, bao gồm những văn bản của các cơ quan nhà nước (mà chủ yếu là các cơ quan
hành chính nhà nước) dùng để đưa ra các quyết định và chuyển tải các thơng tin quản lý trong hoạt động chấp hành và điều hành.
3.2.3. Phân loại văn bản quản lý nhà nước
Căn cứ Luật Ban hành văn bản quy phạm pháp luật số 80/2015/QH13, Nghị định số 34/2016/NĐ-CP của Chính phủ quy định chi tiết một số điều và biện pháp thi hành Luật ban hành văn bản quy phạm pháp luật. Văn bản quản lý nhà nước được phân ra làm ba nhĩm:
- Văn bản quy phạm pháp luật. Hệ thống văn bản quy phạm pháp luật bao gồm các loại văn bản sau:
+ Hiến pháp, luật, nghị quyết của Quốc hội;
+ Pháp lệnh, nghị quyết của Ủy ban Thường vụ Quốc hội; + Lệnh, quyết định của Chủ tịch nước;
+ Nghị định của Chính phủ;
+ Quyết định của Thủ tướng Chính phủ ….
- Văn bản hành chính. Văn bản hành chính được chia làm hai loại: văn bản hành chính thơng thường và văn bản hành chính cá biệt bao gồm các loại văn bản sau:
+ Chỉ thị; + Quyết định; + Cơng văn; + Báo cáo; + Tờ trình…
- Văn bản chuyên mơn – kỹ thuật. Đây là văn bản mang tính đặc thù thuộc thẩm quyền ban hành của một số cơ quan nhà nước nhất định theo quy định của pháp luật.
3.2.4. Ngơn ngữ trong văn bản hành chính
Văn bản hành chính phải mang tính chính xác, rõ ràng. Đây là một đặc điểm quan trọng trong văn bản hành chính. Chính xác trong cách dùng từ đặc câu phải đi đơi với tính minh bạch trong kết cấu văn bản để đảm bảo tính xác định, tính đơn nghĩa của nội dung, chỉ cho phép một cách hiểu, khơng gây hiểu lầm, câu cú phải ngắn gọn khơng rườm rà.
Văn bản hành chính phải mang tính khuơn mẫu, lịch sự đây là quy định chung về cách trình bày văn bản áp dụng cho tất cả các loại văn bản hành chính. Sự tuân thủ theo những khuân mẫu nhất định cĩ tác động đến tính chuẩn mực của văn bản ở cả hình thức lẫn nội dung.
Văn bản hành chính phải mang tính nghiêm túc, khách quan. Từ ngữ trong văn bản hành chính bao giờ cũng phải mang tính khách quan, khơng chứa đựng cảm xúc hoặc đánh giá chủ quan cá nhân. Tính khách quan, nghiêm túc được coi như dấu hiệu đặc biệt của văn bản.
3.2.5. Khung phân loại thống nhất thơng tin
Là khung phân loại tài liệu lưu trữ sau Cách mạng tháng Tám do Cục Lưu trữ nhà nước xây dựng là hệ thống phân loại thơng tin về tất cả các ngành, các lĩnh vực của đời sống chính trị, kinh tế, văn hố xã hội được phản ánh trong tài liệu lưu trữ thuộc Phơng Lun trữ Nhà nước Việt Nam từ sau năm 1945, khơng phân biệt chế độ xã hội, nơi bảo quản và kỹ thuật làm ra tài liệu. Khung phân loại thống nhất thơng tin tài liệu lưu trữ sau sau Cách mạng tháng Tám được xây dụng dựa trên kết qủa thực tiễn khảo sát, thu thập, phân tích, xử lý thơng tin phản ánh trong tài liệu lưu trữ, lấy nguyên tắc phân loại thơng tin theo ngành, lĩnh vực hoạt động xã hội làm nguyên tắc cơ bản. Ngồi Khung chính gồm 45 đề mục, được phân chia theo 3 cấp độ cơ bản, một số mặt hoạt động thơng tin cịn cĩ thể chi tiết hố đến cấp độ 4, Khung phân loại thống nhất thơng tin tài liệu lưu trữ sau năm 1945 cịn cĩ các Bảng trợ ký hiệu như Bảng trợ ký hiệu ngành, lĩnh vực (ký hiệu N), Bảng trợ ký hiệu tên nước (ký hiệu Q), Bảng trợ ký hiệu địa dư trong nước từ sau 1945 đến nay (ký hiệu Đ), Bảng trợ ký hiệu các sự kiện lịch sử tiêu biểu từ sau năm 1945 (ký hiệu LS). Chính vì vậy, tác giả sử dụng Khung phân loại thống nhất thơng tin tài liệu lưu trữ sau Cách mạng tháng Tám của Cục Lưu trữ nhà nước xây dựng trong cơng việc trích rút, phân loại theo chủ đề của luận văn này.
3.3. BÀI TỐN PHÂN LỚP TẠI VĂN PHỊNG UBND TỈNH QUẢNG NGÃI
Hiện nay một số lượng lớn CSDL văn bản hành chính tại Văn phịng UBND tỉnh Quảng Ngãi đã được phân vào các lớp chính như Quyết định, Cơng văn, Tờ trình, Thơng báo vv..., tuy nhiên trên thực tế văn bản cần được phân loại vào các nhĩm nhỏ hơn tiện cho việc tìm kiếm, lưu trữ thơng tin như nhĩm xây dựng, tài chính, y tế, dân số, mơi trường vv..., vì thế bài tốn được phát biểu như sau:
3.3.1. Phát biểu bài tốn
Bài tốn phân loại văn bản, cĩ thể xem là bài tốn phân lớp (Text Classification). Phân loại văn bản là mục đích gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đĩ so với các văn bản đã được gán nhãn trong tập huấn luyện. Nhiều kỹ thuật máy học cĩ giám sát và khai phá dữ liệu đã được áp dụng vào bài tốn phân loại văn bản, chẳng hạn: phương pháp quyết định dựa vào Bayes ngây thơ (Naive Bayes), k– láng giềng gần nhất (K-Nearest Neighbors), Support vector machines (SVM),… Phân loại văn bản là một bài tốn xử lí văn bản, với mục đích ánh xạ một văn bản vào một chủ đề đã biết trong một tập hữu hạn các chủ đề dựa trên ngữ nghĩa của văn bản. Ví dụ một văn bản cĩ thể thuộc một (hoặc một vài) chủ đề nào đĩ (như xây dựng, tài chính, CNTT,…). Việc phân loại văn bản vào một chủ đề nào đĩ
giúp cho việc sắp xếp, lưu trữ và tìm kiếm tài liệu dễ dàng hơn về sau.
Đã cĩ nhiều cơng trình nghiên cứu đạt những kết quả khả quan, nhất là đối với phân loại văn bản tiếng Anh. Tuy vậy, các nghiên cứu và ứng dụng đối với văn bản tiếng Việt cịn nhiều hạn chế do khĩ khăn về tách từ và câu, nhất là đối với thể loại văn bản hành chính.
Bài tốn phân lớp dữ liệu là bài tốn cĩ mục tiêu nhằm giải quyết vấn đề là làm sao cĩ thể phân loại các đối tượng dữ liệu vào một hay nhiều lớp cho trước.
Quá trình phân lớp được thực hiện thơng qua một mơ hình phân lớp, mơ hình này được xây dựng dựa trên một tập các đối tượng dữ liệu đã được gán nhãn, tập dữ liệu này cịn được gọi là tập dữ liệu học hay tập dữ liệu huấn luyện. Quá trình phân lớp cịn được gọi là quá trình gán nhãn cho các đối tượng dữ liệu.
Qua đĩ ta thấy nhiệm vụ của bài tốn phân lớp dữ liệu là ta đi xây dựng một mơ hình phân lớp, sao cho khi cĩ một dữ liệu mới được đưa vào, thì mơ hình sẽ cho ta biết dữ liệu đĩ thuộc lớp nào.
Từ những nghiên cứu nêu trên ta rút ra bài tốn như sau:
Input: Một tập các văn bản hành chính (text.doc hoặc text.docx). - Tiền xử lý
- Biểu diễn theo vector
- Xây dựng mơ hình phân lớp
Output: Phân loại từng văn bản vào các lớp tương ứng.
3.3.2. Phương pháp phân lớp SVM đa lớp
Phương pháp phân lớp đã được trình bày ở chương 2. Như vậy ở chương này tác giả muốn áp dụng phương pháp SVM đa lớp với hàm nhân Linear và sử dụng chiến lược một đối một (OVO: One – versus – One) vào bài tốn phân lớp văn bản hành chính vì phương pháp này cho kết quả rất khả quan, nĩ thể hiện được nhiều ưu điểm trong số đĩ cĩ việc tính tốn hiệu quả trên các tập dữ liệu lớn. Cĩ thể kể thêm một số ưu điểm của phương pháp này như:
- Xử lý trên khơng gian số chiều cao: SVM là một cơng cụ tính tốn hiệu quả trong khơng gian chiều cao, trong đĩ đặc biệt áp dụng cho các bài tốn phân loại văn bản và phân tích quan điểm nơi chiều cĩ thể cực kỳ lớn.
- Tiết kiệm bộ nhớ: Do chỉ cĩ một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệu mới nên chỉ cĩ những điểm cần thiết mới được lưu trữ trong bộ nhớ khi ra quyết định.
- Tính linh hoạt: Phân lớp thường là phi tuyến tính. Khả năng áp dụng Kernel mới cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đĩ khiến cho hiệu suất phân loại lớn hơn.
3.3.3. Mơ hình SVM đa lớp cho bài tốn phân lớp văn bản
Để xây dựng một bài tốn phân lớp văn bản hành chính tại Văn phịng UBND tỉnh Quảng Ngãi, bước đầu tiên ta phải thu thập dữ liệu văn bản bước thứ hai thực hiện việc tách từ và biểu diễn các văn bản dưới dạng đặc trưng đầu vào cho mơ hình SVM.
Hình 3.1. Mơ hình bài tốn phân lớp văn bản dữ liệu văn bản hành chính
Quá trình tiền xử lý dữ liệu thơng tin về văn bản hành chính gồm các bước sau: - Tách từ: Với đầu vào là một tập văn bản, thơng qua module tách từ, các từ hoặc cụm từ được nhận biết thơng qua bộ từ điển dùng cho việc tách từ, mỗi từ hoặc cum từ sau khi tách được biểu diễn trong dấu ( _ ) và cách nhau bởi ký tự trắng.
Ví dụ, nội dung của một đoạn văn bản hành chính trước khi qua bộ tách từ:
Module tách từ giúp chúng ta loại bỏ những từ khơng cĩ trong từ điển dùng để tách từ, việc tách các từ trong nội dung của tập văn bản mục đích chọn tập hợp các từ, cụm từ cĩ ý nghĩa làm cho hiệu suất của quá trình phân lớp cao hơn.
Ví dụ, nội dung của một đoạn văn bản hành chính sau khi qua bộ tách từ:
Bảng 3.2. Văn bản sau khi qua bộ tách từ
- Biểu diễn dữ liệu văn bản về dạng đặc trưng: Tất cả các văn bản sau khi tách từ sẽ được biểu diễn dưới dạng một văn bản đặc trưng đầu vào cho bộ phân lớp.
3.4. XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 3.4.1. Mơi trường thực nghiệm 3.4.1. Mơi trường thực nghiệm
Bảng 3.3. Thiết bị thực nghiệm
STT Cấu hình Thơng số
1 CPU Intel® Core™ i3-4030 @ 1.90GHZ
2 RAM 4.00 GB
3 OS Windows 10 – 64-bit
3.3.2 Thư viện nguồn hỗ trợ
Bảng3.4. Thư viện nguồn hỗ trợ
STT Tên thư viện Nguồn
1 LIBSVM https://www.csie.ntu.edu.tw/~cjlin/libsvm/
2 Từ điển tách từ http://viet.jnlp.org/dongdu
3.4.3. Dữ liệu và chương trình
Dữ liệu dùng để thực nghiệm bài tốn phân lớp văn bản được lấy từ CSDL văn bản của Văn phịng UBND tỉnh Quảng Ngãi.
Tập dữ liệu huấn luyện bao gồm 200 văn bản được trích rút đặc trưng phục vụ cho việc phân tích các chủ đề.
10 chủ đề ( mỗi chủ đề chứa hơn 20 văn bản) phục vụ cho việc kiểm thử chương trình.
Dữ liệu từ điển chứa 309 từ và cụm từ phục vụ cho việc tách từ.
Bảng 3.5. Dữ liệu học và kiểm tra
STT Tên loại Số lượng
1 Tổng số dữ liệu 640
2 Tập dữ liệu huấn luyện 200
3 Tập dữ liệu kiểm thử 440
Phân lớp dữ liệu được xây dựng dựa trên 10 lớp bao gồm: CNTT, dân số, giao thơng, nơng nghiệp, thủy sản, tài chính, xây dựng, y tế, xúc tiến, mơi trường. Số lượng văn bản dùng cho việc huấn luyện cũng như số lượng văn bản cho mỗi lớp được mơ tả trong bảng 3.6.
Bảng 3.6. Tập số lượng dữ liệu huấn luyện
STT Phân lớp Thư mục Số lượng văn bản
1 Cơng nghệ thơng tin CNTT 20
2 Dân số Dan so 15
3 Giao thơng Giao thong 20
4 Nơng nghiệp Nong nghiep 25
5 Thủy sản Thuy san 10
6 Tài chính Tài chính 20
7 Xây dựng Xay dung 30
8 Y tế Y te 25
9 Xúc tiến đầu tư Xuc tien 20
10 Mơi trường moi truong 15
Tổng số 200
Tập dữ liệu dùng để kiểm thử được miêu tả trong bảng 3.7, số lượng văn bản trong mỗi lớp tỷ lệ với số lượng văn bản trong tập dữ liệu huấn luyện.
Bảng 3.7. Tập số lượng dữ liệu kiểm thử
STT Phân lớp Thư mục Số lượng văn bản
1 Cơng nghệ thơng tin CNTT 60
2 Dân số Dan so 36
3 Giao thơng Giao thong 56
4 Nơng nghiệp Nong nghiep 65
5 Thủy sản Thuy san 16
6 Tài chính Tai chinh 33
7 Xây dựng Xay dung 43
8 Y tế Y te 49
9 Xúc tiến Xuc tien 48
10 Mơi trường moi truong 34
Tổng số 440
3.4.4. Xây dựng bộ từ điển danh từ
Từ tập dữ liệu học ban đầu sau khi chuẩn hĩa văn bản ta xây dựng bộ từ điển bao gồm các từ và các cụm từ dùng để gán nhãn. Để xây dựng bộ từ điển ta phải xây dựng thủ cơng dựa trên việc gán nhãn và lưu vào dữ liệu. Bảng 3.8 thể hiện việc gán nhãn từ loại mà luận văn sử dụng.
Bảng 3.8. Gán nhãn từ loại Danh từ Gán nhãn Chủ đề Tin học 1 CNTT CNTT 1 CNTT Giới tính 2 dân số Gia đình 2 dân số .... ... ...
Ơ nhiễm 10 mơi trường
3.4.5. Giao diện chương trình
Chương trình thử nghiệm được viết trên ngơn ngữ C# trong bộ Microsoft Visual Studio Community 2017 đồng thời sử dụng thư viên hỗ trợ như Libsvm.
Hình 3.2. Giao diện chương trình
3.4.6. Các bước sử dụng chương trình thử nghiệm
Bước đầu tiên ta sử dụng bộ từ điển khoảng 6000 từ do Lưu Tuấn Anh và Yamamoto Kazuhide biên soạn, phục vụ cho việc tách từ. Chi tiết của từ điển được mơ tả ở hình 3.4.
Hình 3.3. Dữ liệu từ điển
Bước thứ hai ta chọn thư mục chứa dữ liệu văn bản cần phân loại. Văn bản cần phân loại cĩ dạng .doc hoặc .docx.
Bước thứ ba chọn dữ liệu đã được huấn luyện (training). Vì theo ý tưởng ban đầu nghiên cứu về luận văn là học máy cĩ giám sát nên việc gán nhãn cho dữ liệu huấn luyện phải gán nhãn bằng tay, việc gán nhãn này sử dụng file.csv để đưa thêm dữ liệu mới cần được huấn luyện, chi tiết của dữ liệu gán nhãn được mơ tả ở hình 3.5.
Sau khi gán nhãn cho tập dữ liệu ta tiến hành huấn luyện cho tâp gán nhãn.
Hình 3.5. Dữ liệu đã được huấn luyện
Bước thứ ba là bước xác định k-fold. K-fold là một trong những phương pháp kiểm tra độ chính xác của máy học (Cross-validation), với phương pháp này tập dữ liệu được chia đều thành k tâp (folds) cĩ kính thước xấp xỉ nhau. Dây là kỹ thuật chủ yếu được sử dụng trong xây dựng phân tích dự báo (predictive Model). Trong đĩ dữ liệu gốc được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, một phần dữ liệu dùng để Test và (n-1) phần cịn lại dùng để Train. (Người ta đã chứng minh 10-fold Cross- Validation là tối ưu).
Bước thứ tư là xác định hằng số C là một tham số tùy chọn C > 0 (C càng lớn thì lượng phạt lỗi càng cao). Hằng số C được dùng để điều chỉnh tầm quan trọng giữa margin và sự phạt lỗi.
Sau khi các bước đã được chọn ta tiến hành thực hiện việc phân loại văn bản, chi tiết của việc chọn ở các bước được miêu tả ở hình 3.7.
Hình 3.6. Sau khi đã chọn xong các mục
3.4.7. Kết quả phân loại văn bản
Sau khi thực hiện phân loại ta được kết quả như hình 3.8
Qua bảng 3.9 cho thấy sau khi phân loại và so sánh với kết quả giữa văn bản kiểm thử và văn bản được máy phân loại thu được kết quả phần tăm trung bình là