Bài viết trình bày đề xuất xây dựng hệ thống hỗ trợ hỏi đáp thủ tục hành chính cho người dùng là các tổ chức, cá nhân và doanh nghiệp (gọi tắt là đối tượng người dùng). Hệ thống tự động trả lời các câu hỏi liên quan đến thủ tục hành chính mà đối tượng người dùng thường đặt ra mỗi khi đến cơ quan cung cấp thủ tục hành chính.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00164 HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH Nguyễn Thanh Điền1, Phạm Thế Phi2, Phạm Công Xuyên3, Đỗ Thanh Nghị2 Sở Khoa học Công nghệ thành phố Cần Thơ Số 02, Đường Lý Thường kiệt, Tân An, Ninh Kiều, TP Cần Thơ Khoa CNTT-TT, Trường Đại học Cần Thơ Khu 2, Đường 3/2, Xuân Khánh, Ninh Kiều, TP Cần Thơ Trường Đại học Lạc Hồng Số 10, Huỳnh Văn Nghệ, P Bửu Long, Tp Biên Hịa - Tỉnh Đồng Nai pcxuyen@lhu.edu.vn, ntdienct@gmail.com, {ptphi,dtnghi}@cit.ctu.edu.vn TĨM TẮT: Trong viết này, đề xuất xây dựng hệ thống hỗ trợ hỏi đáp thủ tục hành cho người dùng tổ chức, cá nhân doanh nghiệp (gọi tắt đối tượng người dùng) Hệ thống tự động trả lời câu hỏi liên quan đến thủ tục hành mà đối tượng người dùng thường đặt đến quan cung cấp thủ tục hành Người dùng đặt câu hỏi hay yêu cầu trực tiếp cho hệ thống dạng văn bản, hệ thống tiếp nhận thực phân lớp văn câu hỏi, để xác định câu trả lời thủ tục tương ứng với yêu cầu người dùng Chúng thu thập biên soạn tập liệu văn gồm 420 câu hỏi câu trả lời trả lời từ 36 thủ tục hành thuộc lĩnh vực Báo chí, Xuất - In - Phát hành đơn vị cung cấp Sở Thông tin Truyền thông thành phố Cần Thơ Tập liệu văn câu hỏi sau thu thập tiền xử lý, tách từ biểu diễn dạng mô hình túi từ Chúng tơi huấn luyện phân lớp máy học véctơ hỗ trợ, rừng ngẫu nhiên, mạng nơron cho độ xác 89,768 %, 97,101 % 99,526 % Từ kết thực nghiệm, đề xuất sử dụng phân lớp văn mạng nơron hệ thống trả lời tự động thủ tục hành Từ khóa: Hệ thống hỏi đáp tự động thủ tục hành chính, phân lớp văn bản, máy học véctơ hỗ trợ SVM, rừng ngẫu nhiên, mạng nơron I GIỚI THIỆU Ngày nay, hệ thống hỏi đáp tự động trở nên phổ biến sử dụng nhiều lĩnh vực sống trợ lý sức khoẻ, trợ lý giáo dục, trợ lý bảo tàng, trợ lý cá nhân, trợ lý du lịch, hỏi đáp dịch vụ công cộng Hệ thống hỏi đáp tự động [D Jurafsky and J-H Martin, 2017] nghiên cứu tập trung vào mơ hình tương tác người máy tính, sử dụng ngơn ngữ tự nhiên với đoạn văn bản, đoạn hội thoại ngắn giao diện tương tác đơn giản Phần lớn mô hình hệ thống hỏi đáp tự động tạo dựa ba hướng tiếp cận Tiếp cận dựa tập câu hỏi, câu trả lời tạo sẵn: Đây phương pháp sử dụng phổ biến nay, hệ thống hỏi đáp tự động có tập câu hỏi đầu vào xây dựng sẵn với câu trả lời tương ứng Các câu hỏi giao tiếp đặt từ người dùng so khớp với tập câu hỏi để tìm câu trả lời phù hợp Tiếp cận dễ sử dụng, đơn giản, nhiên cần nhiều thời gian việc xây dựng tập liệu việc phụ thuộc vào tập liệu tạo sẵn Tiếp cận dựa corpus: Nhiều nghiên cứu gần tiến hành thu thập corpus liệu để tìm kiếm câu trả lời phù hợp từ yêu cầu từ người dùng Phương pháp truy hồi thông tin sử dụng để tìm kiếm câu trả lời từ danh sách tài liệu Google corpus Đây phương pháp sử dụng kết hợp corpus trích lọc ngữ nghĩa liệu FrameNet Verbnet để tìm kiếm câu trả lời phù hợp Các phương pháp có ưu điểm cho độ xác cao nhược điểm khơng thể xử lý trường hợp mẫu chưa quan sát, khơng có luật tốn nhiều thời gian xử lý Tiếp cận tự sinh câu trả lời: Phương pháp huấn luyện mơ hình mạng nơron để sinh câu trả lời cách tự động Đây phương pháp đạt nhiều thành công thời gian gần nhà nghiên cứu đề xuất mơ hình mạng nơron hồi tiếp (Recurrent Neural Network) để tạo câu trả lời từ Blogs Phương pháp tạo cảm giác cho người dùng trò chuyện với người Tuy nhiên, mơ hình phức tạp việc huấn luyện, dễ bị mắc lỗi ngữ pháp đồng thời mơ hình cần lượng lớn liệu huấn luyện Trong viết này, đề xuất xây dựng hệ thống hỏi đáp thủ tục hành trả lời tự động cho người dùng câu hỏi liên quan đến thủ tục hành mà đối tượng người dùng thường đặt đến quan cung cấp thủ tục hành Hệ thống tiếp nhận từ người dùng câu hỏi hay yêu cầu dạng văn bản, tiến hành tiền xử lý biểu diễn câu hỏi theo mơ hình túi từ, thực phân lớp câu hỏi, xác định câu trả lời thủ tục hành tương ứng với câu hỏi Để xây dựng hệ thống, thu thập biên soạn tập liệu văn gồm 420 câu hỏi câu trả lời trả lời từ 36 thủ tục hành thuộc lĩnh vực Báo chí, Xuất - In - Phát hành đơn vị cung cấp Sở Thông tin Truyền thông thành phố Cần Thơ Tập liệu văn câu hỏi sau thu thập tiền xử lý, tách từ biểu diễn dạng mơ hình túi từ Chúng huấn luyện phân lớp máy học véctơ hỗ trợ (support vector machines - SVM [Vapnik, 1995]), rừng ngẫu nhiên (random forests - RF [Breiman, 2001]), mạng nơron (neural networks - NN [LeCun, 1985]) cho độ xác 89,768 %, 97,101 % 99,526 % Kết thực nghiệm cho phép chọn phân lớp văn mạng nơron cho hệ thống hỏi đáp thủ tục hành Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị 159 Nội dung viết tổ chức sau Phần trình bày hệ thống đề xuất để trả lời tự động thủ tục hành Kết thực nghiệm trình bày Phần trước kết luận hướng phát triển trình bày Phần II HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH Hình mơ tả hệ thống hỗ trợ hỏi đáp thủ tục hành Người dùng đặt câu hỏi (Q) liên quan đến thủ tục hành chính, thành phần hồ sơ thủ tục, thời gian xử lý thủ tục, biểu mẫu thủ tục Câu hỏi dạng văn Q tiền xử lý (tách từ, loại bỏ từ dừng) viết lại thành Q‟ (biểu diễn theo mơ hình túi từ) Mơ hình máy học phân loại tự động câu hỏi Q‟ lớp C Hệ thống liệt kê danh sách câu hỏi lớp C tính độ tương đồng Q‟ đến tất câu hỏi lớp C, chọn câu hỏi có độ tương đồng cao truy hồi câu trả lời câu hỏi cho người dùng Tách từ, loại stopword Viết lại câu hỏi Q SVM RF/NN Các lớp SVM/RF/NN Danh sách câu hỏi Q Cosine Ranking Trả lời câu hỏi Q Truy hồi câu trả lời 01 câu hỏi k câu hỏi liên quan Danh sách câu hỏi Ranking Hình Sơ đồ hệ thống hỗ trợ hỏi đáp thủ tục hành A Thu thập tập liệu biểu diễn liệu Hình Dữ liệu mẫu corpus gán nhãn Để xây dựng hệ thống, tiến hành thu thập liệu dạng liên quan đến thủ tục hành Tại phận cửa, trực tiếp khảo sát tham khảo ý kiến từ cán phụ trách cung cấp, xử lý thủ tục hành yêu cầu thủ tục hành từ người dùng cần phải làm rõ lĩnh vực ngành nghề mà người dùng yêu cầu thủ tục hành Nhiều thủ tục khác vài từ nên yêu cầu thủ tục hành cần phải xác định rõ môi trường ngữ cảnh yêu cầu thủ tục hành Ngồi ra, để làm giàu thêm ngữ liệu, biên soạn cặp từ nội dung thủ tục Cuối cùng, thu tập liệu bao gồm 420 câu hỏi, câu trả lời từ 36 thủ tục thuộc lĩnh vực Báo chí, Xuất - In - Phát hành (lớp: XIP_TT_0003 , nhãn: _0002) Hình trình bày vài mẫu liệu câu hỏi (Q), lớp (C) câu trả lời tương ứng (A) Như nghiên cứu [Phạm et al., 2016], [Đỗ & Hồng, 2019], chúng tơi tiến hành bước tiền xử lý tập liệu văn tách từ đơn biểu diễn liệu mơ hình túi từ (Bag of words - BoW [Salton et al., 1975]) Một HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH 160 câu hỏi văn biểu diễn dạng véctơ (có n thành phần, chiều) mà giá trị thành phần thứ j tần số xuất từ thứ j câu hỏi văn Tập liệu gồm 420 câu hỏi từ điển có 512 từ vựng, tập liệu biểu diễn thành bảng D kích thước 420 x 512, dịng thứ i bảng véctơ biểu diễn câu hỏi thứ i tương ứng Bước quan trọng cần huấn luyện mơ hình máy học phân lớp tự động câu hỏi Q vào 36 lớp, nghiên cứu [S Fabrizio, 2002], [Dumais et al., 1998], [Lewis and Gale, 1994] Trong giải thuật phân lớp [Wu & Kumar, 2009], [Hastie et al., 2009] máy học véctơ hỗ trợ, rừng ngẫu nhiên mạng nơron giải thuật phổ biến hiệu cho phân lớp tự động văn B Máy học véctơ hỗ trợ Giải thuật máy học véctơ hỗ trợ (support vector machines - SVM [Vapnik, 1995]) huấn luyện mơ hình phân lớp siêu phẳng tối ưu (w, b) để tách liệu lớp xa Giải thuật huấn luyện lúc phải cực đại hóa lề phân hoạch cực tiểu hóa lỗi C Rừng ngẫu nhiên Giải thuật rừng ngẫu nhiên (random forests - RF [Breiman, 2001]) huấn luyện tập hợp T mơ hình định không cắt nhánh (để giữ thành phần lỗi bias thấp), sử dụng tập mẫu bootstrap chọn ngẫu nhiên tập n’ thuộc tính (giảm thành phần lỗi variance) Phân lớp phần tử x dựa vào bình chọn số đơng T mơ hình định sở D Mạng nơron Mạng nơron (Neural Networks - NN [LeCun, 1985]) mơ hình xử lý thơng tin mô dựa hoạt động hệ thống thần kinh sinh học Mạng nơron bao gồm nơron nhân tạo nối kết với xử lý thông tin cách truyền theo kết nối tính giá trị nút (cách tiếp cận connectionism tính tốn) Giải thuật lan truyền ngược (back propagation) giải thuật sử dụng nhiều để huấn luyện mạng nơron, thực cập nhật trọng số cung mạng cách lan truyền gradient hàm lỗi từ tầng đầu ngược trở lại tầng ẩn, đến tầng đầu vào III KẾT QUẢ THỰC NGHIỆM A Chương trình Để đánh giá hiệu hệ thống hỗ trợ hỏi đáp thủ tục hành chính, chúng tơi cài đặt chương trình ngơn ngữ lập trình Python Chương trình có sử dụng gói thư viện Scikit-learn [Pedregosa et al., 2011] có giải thuật máy học véctơ hỗ trợ (SVM), rừng ngẫu nhiên (RF), mạng nơron (NN) Tất thí nghiệm chạy máy tính với Intel(R) Xeon(R) CPU X5570 @2.93GHz (16 CPUs), RAM 10Gb cài đặt hệ điều hành Windows Server® 2008 Enterprise B Điều chỉnh tham số Tập liệu biểu diễn dạng bảng gồm 420 dòng (câu hỏi) 512 cột (từ vựng) 36 lớp (36 thủ tục hành chính) Tập liệu xáo trộn lấy ngẫu nhiên 2/3 làm tập huấn luyện (287 câu hỏi) 1/3 tập liệu lại (133 câu hỏi) làm tập kiểm tra kết trả lời Chúng sử dụng tập liệu huấn luyện để điều chỉnh tham số cho mơ hình phân lớp sử dụng độ xác mơ hình để đánh giá kết Kết thực nghiệm trung bình lần thực nghiệm Các giá trị tham số mơ hình lựa chọn kết trả có độ xác cao (có so sánh thơng tin kết với thủ tục tương ứng) Sau huấn luyện lại mơ hình tập liệu huấn luyện sử dụng tham số tối ưu tìm Sử dụng mơ hình huấn luyện để phân lớp tập liệu kiểm tra C Kết thực nghiệm Mơ hình máy học SVM, đề xuất sử dụng hàm nhân phi tuyến RBF tính tổng qt nó, tham số sử dụng mơ hình SVM: kernel='rbf', c, , probability=True Mơ hình máy học SVM cần điều chỉnh tham số: tham số hàm nhân RBF số c sử dụng để chỉnh độ rộng lề lỗi Để tìm mơ hình tối ưu nghiên cứu này, với tập liệu thu thập tổ chức lưu trữ trên, chúng tơi đề xuất tìm kiếm tham số giá trị Bảng Bảng Bảng giá trị tham số cần điều chỉnh cho mơ hình dự báo máy học véctơ hỗ trợ TT Tham số Giá trị 0.25, 0.5, 0.75, 1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, 2.75, 3, 3.25, 3.5, 3.75, c 1, 10, 100, 1000, 10000 Tổng số tham số ( , c) khác Số giá trị 16 80 Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị c 1 0.25 3.75 10 0.5 0.75 3.5 100 1000 3.75 10000 161 Bảng Minh họa kết thực nghiệm phân lớp với mơ hình SVM A bc_tt_0022: 40.988 bc_tt_0022: 79.002 bc_tt_0022: 49.068 bc_tt_0022: 49.447 bc_tt_0022: 93.863 bc_tt_0022: 54.917 bc_tt_0022: 91.89 bc_tt_0022: 58.107 bc_tt_0022: 94.735 bc_tt_0022: 80.469 bc_tt_0022: 49.644 bc_tt_0022: 89.585 bc_tt_0022: 45.837 bc_tt_0022: 93.524 bc_tt_0022: 47.588 bc_tt_0022: 55.022 bc_tt_0022: 94.559 bc_tt_0022: 55.078 bc_tt_0022: 90.719 bc_tt_0022: 55.655 bc_tt_0022: 90.198 bc_tt_0022: 93.45 bc_tt_0022: 58.884 bc_tt_0022: 88.706 bc_tt_0022: 59.798 bc_tt_0022: 82.753 bc_tt_0022: 48.631 bc_tt_0022: 48.561 bc_tt_0022: 91.196 bc_tt_0022: 61.356 bc_tt_0022: 93.20 bc_tt_0022: 60.702 bc_tt_0022: 93.244 bc_tt_0022: 95.443 bc_tt_0022: 48.122 bc_tt_0022: 95.881 bc_tt_0022: 41.862 bc_tt_0022: 73.406 bc_tt_0022: 51.983 bc_tt_0022: 58.444 bc_tt_0022: 89.007 bc_tt_0022: 46.497 bc_tt_0022: 90.626 bc_tt_0022: 53.361 bc_tt_0022: 93.033 bc_tt_0022: 95.454 bc_tt_0022: 60.653 bc_tt_0022: 94.885 B 50 bc_tt_0022: 51.859 bc_tt_0022: 77.008 bc_tt_0022: 56.644 bc_tt_0022: 50.293 bc_tt_0022: 81.792 bc_tt_0022: 54.725 bc_tt_0022: 84.092 bc_tt_0022: 54.783 bc_tt_0022: 88.081 bc_tt_0022: 89.103 bc_tt_0022: 57.187 bc_tt_0022: 88.339 100 bc_tt_0022: 51.621 bc_tt_0022: 72.62 bc_tt_0022: 50.437 bc_tt_0022: 50.21 bc_tt_0022: 85.837 bc_tt_0022: 53.796 bc_tt_0022: 84.822 bc_tt_0022: 53.521 bc_tt_0022: 87.51 bc_tt_0022: 89.768 bc_tt_0022: 55.429 bc_tt_0022: 89.888 Ghi chú: Cột A: Bao gồm lớp thuộc tính độ xác tương ứng, lớp thuộc tính kết sau lần chạy mơ hình thực nghiệm; Cột B: (50) Độ xác trung bình sau 50 lần chạy mơ hình thực nghiệm, (100) Độ xác trung bình sau 100 lần chạy mơ hình thực nghiệm Từ tham số Bảng 1, giải thuật máy học SVM cần thử nghiệm tất 80 gồm tham số ( , c) khác để chọn mơ hình tối ưu cho lớp thuộc tính có độ xác cao Chúng tơi cho tham số qua mơ hình máy học SVM thu kết thực nghiệm Bảng Từ kết thực nghiệm Bảng cho thấy giải thuật máy học SVM thử tất 80 tham số khác để chọn tham số (c, ) cho độ xác cao Qua 80 tham số thực nghiệm, mơ hình có lớp thuộc tính giống (bc_tt_0022) tham số có độ xác cao đề xuất là: c = 1000; = Tương tự, giải thuật rừng ngẫu nhiên xây dựng mơ hình dự báo cần điều chỉnh tham số: độ sâu tối đa định (max_depth không giới hạn), tổng số cần xây dựng rừng (n_estimators), số thuộc tính ngẫu nhiên (max_features bậc số lượng thuộc tính n_features) sử dụng để tính phân hoạch nút định Chúng tơi đề xuất tìm kiếm tổng số cần xây dựng 5, 10, 50, 100, 150 Kết thử nghiệm thu Bảng Bảng Minh họa kết thực nghiệm phân lớp với mơ hình rừng ngẫu nhiên A n 10 50 100 150 bc_tt_0022: 71.875 xip_tt_0011: 12.658 bc_tt_0022: 100.0 xip_tt_0001: 100.0 bc_tt_0022: 95.440 50 bc_tt_0022: 97.024 bc_tt_0022: 100.0 bc_tt_0022: 50.0 bc_tt_0022: 50.0 bc_tt_0022: 91.704 Y bc_tt_0022: 64.515 bc_tt_0022: 92.701 bc_tt_0022: 94.444 bc_tt_0022: 87.0 bc_tt_0022: 96.875 100 N bc_tt_0002: 54.061 xip_tt_0001: 100.0 bc_tt_0002: 52.778 bc_tt_0002: 50.0 bc_tt_0002: 55.556 Y bc_tt_0022: 65.407 bc_tt_0022: 93.527 bc_tt_0022: 94.928 bc_tt_0022: 79.57 bc_tt_0022: 97.101 N bc_tt_0002: 50.345 bc_tt_0002: 95.926 bc_tt_0002: 51.667 bc_tt_0002: 56.061 bc_tt_0002: 55.172 Ghi chú: Cột A: Bao gồm lớp thuộc tính với độ xác tương ứng, lớp thuộc tính kết sau lần chạy mơ hình thực nghiệm Cột B: (50) Độ xác trung bình sau 50 lần chạy mơ hình thực nghiệm, (100) Độ xác trung bình sau 100 lần chạy mơ hình thực nghiệm, Y độ xác lớp thuộc tính đúng, N độ xác lớp thuộc tính khơng Qua kết thực nghiệm cho thấy mơ hình rừng ngẫu nhiên cho độ xác cao với số rừng n_estimators =150 Giải thuật mạng nơron xây dựng mơ hình phân lớp với tham số: solver= „lbfgs‟, anpha, lớp ẩn với số lượng nơron lớp k (hidden_layer_sizes(k, )), random_state, learning_rate= „constant‟ Chúng đề xuất tìm kiếm tham số tối ưu với giá trị Bảng HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH 162 Bảng Bảng giá trị tham số cần điều chỉnh cho mơ hình mạng nơron TT Tham số Giá trị Số giá trị hidden_layer_sizes(k, ) 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 12 alpha 1e-1 random_state 1 Tổng số tham số (hidden_layer_sizes(k, ), alpha, random_state) 24 Để tìm tham số tối ưu cho mơ hình dự báo mạng nơron, chúng tơi tiến hành thử nghiệm tham số từ 24 tham số đề xuất Bảng kết thực nghiệm trình bày Bảng Bảng Kết thực nghiệm phân lớp với mơ hình mạng nơron alpha hidden_layer _sizes(k, ) 1e-1 1e-1 1e-1 1e-1 1e-1 1e-1 1e-1 1e-1 1e-1 1e-1 10 1e-1 11 1e-1 12 1e-1 13 1e-1 14 1e-1 15 1e-1 16 A bc_tt_0022: 41.863 bc_tt_0022: 58.515 bc_tt_0022: 98.916 bc_tt_0022: 96.589 bc_tt_0022: 87.21 bc_tt_0022: 99.754 bc_tt_0022: 98.745 bc_tt_0022: 99.688 bc_tt_0022: 99.447 bc_tt_0022: 99.729 bc_tt_0022: 99.508 bc_tt_0022: 99.711 bc_tt_0022: 99.579 bc_tt_0022: 99.817 bc_tt_0022: 99.75 bc_tt_0022: 99.763 lh_tt_9999: 32.756 lh_tt_9999: 64.742 bc_tt_0022: 99.291 bc_tt_0022: 97.791 bc_tt_0022: 99.526 bc_tt_0022: 98.408 bc_tt_0022: 99.311 bc_tt_0022: 99.456 bc_tt_0022: 99.56 bc_tt_0022: 99.266 bc_tt_0022: 99.655 bc_tt_0022: 99.599 bc_tt_0022: 99.63 bc_tt_0022: 99.728 bc_tt_0022: 99.72 bc_tt_0022: 99.699 B bc_tt_0022: 14.363 bc_tt_0001: 22.148 bc_tt_0022: 86.517 bc_tt_0022: 99.537 bc_tt_0022: 82.345 bc_tt_0022: 99.059 bc_tt_0022: 99.096 bc_tt_0022: 99.277 bc_tt_0022: 99.513 bc_tt_0022: 99.24 bc_tt_0022: 99.596 bc_tt_0022: 99.628 bc_tt_0022: 99.806 bc_tt_0022: 99.652 bc_tt_0022: 99.672 bc_tt_0022: 99.763 bc_tt_0003: 32.275 bc_tt_0022: 49.445 bc_tt_0022: 99.392 bc_tt_0022: 97.549 bc_tt_0022: 99.825 bc_tt_0022: 99.596 bc_tt_0022: 99.058 bc_tt_0022: 99.766 bc_tt_0022: 99.452 bc_tt_0022: 99.508 bc_tt_0022: 99.747 bc_tt_0022: 99.636 bc_tt_0022: 99.575 bc_tt_0022: 99.824 bc_tt_0022: 99.509 bc_tt_0022: 99.687 50 bc_tt_0022: 43.552 bc_tt_0022: 66.662 bc_tt_0022: 88.854 bc_tt_0022: 96.124 bc_tt_0022: 98.126 bc_tt_0022: 99.062 bc_tt_0022: 99.27 bc_tt_0022: 99.344 bc_tt_0022: 99.425 bc_tt_0022: 99.541 bc_tt_0022: 99.591 bc_tt_0022: 99.623 bc_tt_0022: 99.653 bc_tt_0022: 99.628 bc_tt_0022: 99.668 bc_tt_0022: 99.684 100 bc_tt_0022: 34.117 bc_tt_0022: 68.293 bc_tt_0022: 86.286 bc_tt_0022: 95.729 bc_tt_0022: 97.04 bc_tt_0022: 98.854 bc_tt_0022: 99.283 bc_tt_0022: 99.443 bc_tt_0022: 99.491 bc_tt_0022: 99.526 bc_tt_0022: 99.589 bc_tt_0022: 99.615 bc_tt_0022: 99.63 bc_tt_0022: 99.623 bc_tt_0022: 99.643 bc_tt_0022: 99.635 Ghi chú: Cột A: Bao gồm lớp thuộc tính với độ xác tương ứng, lớp thuộc tính kết sau lần chạy mơ hình thực nghiệm; Cột B: (50) Độ xác trung bình sau 50 lần chạy mơ hình thực nghiệm, (100) Độ xác trung bình sau 100 lần chạy mơ hình thực nghiệm Kết thực nghiệm Bảng cho thấy, giải thuật mạng nơron duyệt qua tất tham số Bảng 4, độ xác tham số khơng có nhiều chênh lệch có lớp thuộc tính (bc_tt_0022) Với giá trị anpha = 1e1, tiếp tục tăng số lượng k nơron hidden_layer_sizes(k, ) độ xác mơ hình dự báo thay đổi khơng đáng kể phân lớp thuộc tính mơ hình dự báo giống (Bảng 6) Nên đưa đề xuất tham số sử dụng (có thể xem tối ưu) cho mơ hình dự báo là: alpha=1e-1, random_state=1 hidden_layer_sizes(10,) Qua kết thu từ thực nghiệm tập liệu kiểm tra, đề xuất tham số tối ưu phương pháp thử sai cho mơ hình máy học SVM, rừng ngẫu nhiên mạng nơron thu kết là: 89,768 %, 97,101 % 99,526 % Từ kết thực nghiệm này, đề xuất sử dụng mơ hình máy học mạng nơron để phân lớp câu hỏi cho hệ thống hỗ trợ hỏi đáp thủ tục hành chúng tơi Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị 163 Bảng Kết thực nghiệm phân lớp mơ hình dự báo mạng nơron với số lượng k nơron lớp ẩn tăng dần Stt 10 11 12 13 14 15 16 Hidden_layer_sizes 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 200 Lớp thuộc tính độ xác bc_tt_0022: 99.511 bc_tt_0022: 99.703 bc_tt_0022: 99.428 bc_tt_0022: 99.661 bc_tt_0022: 99.76 bc_tt_0022: 99.75 bc_tt_0022: 99.424 bc_tt_0022: 99.810 bc_tt_0022: 99.616 bc_tt_0022: 99.641 bc_tt_0022: 99.614 bc_tt_0022: 99.372 bc_tt_0022: 99.734 bc_tt_0022: 99.582 bc_tt_0022: 99.791 bc_tt_0022: 99.671 Thời gian (giây) 1.4140000820159912 1.6459999084472656 1.6349999904632568 1.8220000267028809 1.5099999904632568 1.7590000629425049 1.8199999332427979 1.8519999980926514 2.193000078201294 2.294999837875366 2.077000141143799 2.740999937057495 2.507000207901001 2.013000011444092 2.133000135421753 2.4559998512268066 IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tơi vừa trình bày phương pháp xây dựng hệ thống trả lời tự động cho người dùng câu hỏi liên quan đến thủ tục hành chính, thành phần hồ sơ thủ tục, thời gian xử lý thủ tục, biểu mẫu thủ tục Hệ thống dựa tiếp cận sử dụng corpus máy học tự động Chúng thu thập biên soạn tập liệu gồm 420 câu hỏi, trả lời 36 thủ tục hành thuộc lĩnh vực Báo chí, Xuất - In - Phát hành đơn vị cung cấp Sở Thông tin Truyền thông thành phố Cần Thơ Tiếp theo sau bước tách từ biểu diễn câu hỏi theo mơ hình túi từ Bước cuối huấn luyện phân lớp máy học để phân lớp tự động câu hỏi Kết thực nghiệm thu tập kiểm thử mô hình máy học SVM, rừng ngẫu nhiên, mạng nơron, có độ xác 89,768 %, 97,101 % 99,526 % Chúng đề xuất sử dụng mô hình mạng nơron để trả lời tự động thủ tục hành cho câu hỏi đặt từ người dùng Trong tương lai gần, bổ sung thêm câu hỏi vào tập liệu để cải thiện khả đáp ứng hệ thống Có thể mở rộng hệ thống cho vấn đề tương tự thực tiễn TÀI LIỆU THAM KHẢO S Fabrizio “Machine learning in automated text categorization”, ACM Computing Surveys 34: 1-47, 2002 C.D Manning, P Raghavan and H Schütze, “Introduction to Information Retrieval Introduction”, 2008 D Jurafsky and J-H Martin.: “Speech and Language Processing”, Computer Science, Stanford University, 2017 U Fayyad, G Piatetsky-Shapiro, P Smyth, “Knowledge Discovery and Data Mining: Towards a Unifying Framework”, 1996 [5] S Dumais, J Platt, D Heckerman and M Sahami “Inductive learning algorithms and representations for text categorization”, In: Proceedings of the Seventh International Conference on Information and Knowledge Management, ACM, 1998, 148-155 [6] Y LeCun.: Une Procédure d‟Apprentissage pour Réseau Seuil Asymétrique in:Cognitiva 85: A la Frontiere de l‟Intelligence Artificielle des Sciences de la Conaissance des Neurosciences, 1985, pp 599-604 [7] D-D Lewis and W-A Gale “A sequential algorithm for training text classifiers”, In: Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SpringerVerlag New York, 1994, 3-12 [8] X Wu and V Kumar, Top 10 Algorithms in Data Mining Chapman & Hall/CRC 2009 [9] T Hastie, R Tibshirani and J Friedman, The elements of statistical learning: data mining, inference and prediction 2005 [10] L Breiman, J Friedman, C J.Stone, R A Olshen, Classification and Regression Trees Chapman & Hall, New York 1984 [11] J Ross, Q Morgan, K Publishers, C4.5: Programs for Machine Learning 1993 [12] L Breiman, “Bagging predictors”, Machine Learning 24(2):123-140 1996 [13] L Breiman, “Random forests”, Machine Learning 45(1):5-32 2001 [14] V N Vapnik, The Nature of Statistical Learning Theory Springer-Verlag 1995 [15] T-N Do, N-K Pham, T-P Pham, M-T Tran-Nguyen, H-H Nguyen, “Parallel multiclass stochastic gradient descent algorithms for classifying million images with very-high-dimensional signatures into thousands classes” 2014 [1] [2] [3] [4] 164 HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH [16] C Bousquet, Ways Chatbots Could Transform Government Services GovTech 2017 [17] H Mehr, H Ash, D Fellow, “Artificial Intelligence for Citizen Services and Government”, Ash Center for Democratic Governance and Innovation Harvard Kennedy School, số p.h August, 2017 [18] Đỗ Thanh Nghị Văn Thị Xuân Hồng, “Tìm kiếm chuyên gia với phản hồi từ người dùng kNN-C4.4”, kNNRF-C4.4 2003 [19] F-J Provost and P Domingos, “Tree Induction for Probability-Based Ranking”, Machine Learning 52(3): 199215 2003 [20] Nguyễn Bình Trọng, “Hệ thống trả lời tự động tiếng Việt cho công tác tuyển sinh đại học”, Đề tài nghiên cứu khoa học, ĐHLH 2012 [21] Nguyễn Thanh Tuấn, Xây dựng hệ thống hỏi đáp tự động cho câu hỏi định nghĩa Y khoa 2011 [22] Nguyễn Văn Minh Đức, Phạm Quốc Huy Dương Văn Phước Thiện, Sumi Chatbot - Tiếng Việt 2017 [23] N-K Phạm M-T Trần-Nguyễn, T-P Phạm, T-N Đỗ.: “So sánh phương pháp tách từ phân lớp văn tiếng Việt”, Kỷ yếu hội thảo FAIR 2016, pp 668-677 [24] T-N Đỗ, T Hoàng.: “Chatbot cho sinh viên CNTT”, Kỷ yếu hội thảo FAIR 2019, pp 85-92 AUTOMATED ANSWERING SYSTEM FOR ADMINISTRATIVE PROCEDURES Nguyen Thanh Dien, Pham The Phi, Pham Cong Xuyen, Do Thanh Nghi ABSTRACT: In this paper, we propose an automated answering system for administrative procedures The system automatically answers questions related to procedures that users ask the agency of administrative procedures The user asks the textual question, the system receives and classifies the question, to determine the procedural answer corresponding to the user’s question We have collected and pre-processed a textual dataset of 420 questions and answers from 36 administrative procedures in the field of Press, Publishing - Print - Publishing of the provider, Department of Information and Communications in Can Tho city We train classifiers such as support vector machines, random forest, and neural network to classify the dataset with accuracy of 89.768 %, 97.101 % and 99.526 % respectively From the experimental results, we propose to use the neural network in our automated answering system ... mơ tả hệ thống hỗ trợ hỏi đáp thủ tục hành Người dùng đặt câu hỏi (Q) liên quan đến thủ tục hành chính, thành phần hồ sơ thủ tục, thời gian xử lý thủ tục, biểu mẫu thủ tục Câu hỏi dạng văn Q... bày hệ thống đề xuất để trả lời tự động thủ tục hành Kết thực nghiệm trình bày Phần trước kết luận hướng phát triển trình bày Phần II HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH Hình mơ tả hệ thống. .. phương pháp xây dựng hệ thống trả lời tự động cho người dùng câu hỏi liên quan đến thủ tục hành chính, thành phần hồ sơ thủ tục, thời gian xử lý thủ tục, biểu mẫu thủ tục Hệ thống dựa tiếp cận