Xây dựng hệ thống hỏi đáp tự động về chính sách thuế

26 318 0
Xây dựng hệ thống hỏi đáp tự động về chính sách thuế

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN HOÀNG ANH THƯ XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG VỀ CHÍNH SÁCH THUẾ Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Footer Page of 126 Header Page of 126 Công trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: PGS.TS VÕ TRUNG HÙNG Phản biện 2: TS HOÀNG THỊ LAN GIAO Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 19 tháng năm 2013 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng Footer Page of 126 Header Page of 126 MỞ ĐẦU Lý chọn đề tài Đối với quốc gia giới, thuế đóng vai trò công cụ quan trọng Nhà nước để quản lý, điều tiết sản xuất kinh doanh phân phối tiêu dùng, thúc đẩy kinh tế phát triển Thuế nguồn thu chủ yếu ngân sách nhà nước, bảo đảm tồn cho máy trị quốc gia, nguồn tài thiếu cho sách đầu tư công, phát triển sở vật chất hạ tầng phục vụ cho hoạt động kinh tế, đảm bảo cho đời sống an sinh xã hội Có hệ thống sách thuế phù hợp, đồng bộ, hoàn thiện theo kịp vận động phát triển thực tiễn điều kiện cần thiết cấp bách Chính sách thuế phải phù hợp với tình hình định hướng phát triển quốc gia, mà phải phù hợp với thông lệ, chuẩn mực quốc tế, đặc biệt điều kiện hội nhập kinh tế quốc tế ngày mở rộng Trong vài năm trở lại đây, nhờ ứng dụng tốt công nghệ thông tin truyền thông, thông tin sách, luật thuế ngày dễ tiếp cận phổ biến đến người dân Tuy nhiên ý thức chấp hành luật thuế người dân chưa cao, chai ỳ việc thực kê khai, nộp thuế, tình trạng trốn thuế cao Để Người nộp thuế vận dụng đúng, kê khai đúng, chấp hành luật thuế cần có biện pháp tuyên truyền, hỗ trợ sâu rộng đến Người nộp thuế cần trọng công tác hỗ trợ, giải đáp vướng mắc sách thuế Tại Cục thuế Quảng Nam, Phòng tuyên truyền & hỗ trợ Người nộp thuế có chức tuyên truyền, hỗ trợ hướng dẫn, giải Footer Page of 126 Header Page of 126 đáp vướng mắc liên quan đến việc kê khai, thu nộp thuế, với chế tự khai- tự nộp, công tác coi nhiệm vụ quan trọng hàng đầu toàn ngành thuế Xây dựng hệ thống hỏi đáp sách thuế phần giúp công tác tuyên truyền, hỗ trợ vướng mắc thuế đưa sách thuế đến gần người dân hơn, giảm tải công việc phòng Tuyên truyền hỗ trợ NNT, góp phần giúp người dân hiểu tiếp cận gần với sách thuế, hiểu rõ trách nhiệm, quyền nghĩa vụ thực nghĩa vụ thuế Đó lý mà chọn nghiên cứu thực đề tài: “Xây dựng hệ thống hỏi đáp tự động sách thuế” hướng dẫn PGS.TS Phan Huy Khánh Mục tiêu nhiệm vụ nghiên cứu 2.1 Mục tiêu đề tài Mục tiêu đề tài nghiên cứu xây dựng hệ thống hỏi đáp tự động sách thuế 2.2 Nhiệm vụ - Nghiên cứu tổng quan mô hình hỏi đáp tự động, phân tích bước xây dựng hệ thống hỏi đáp - Tìm hiểu quy trình thực giải đáp vướng mắc NNT - Phân tích số liệu nhằm đề giải pháp hợp lý việc xây dựng triển khai hệ thống - Xây dựng CSDL, hệ thống QA - Đánh giá kết thực theo tiêu chí cho Footer Page of 126 Header Page of 126 3 Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu: - Tìm hiểu quy trình tuyên truyền hỗ trợ Người nộp thuế, công tác hỗ trợ, giải đáp vướng mắc từ sổ nhật ký công việc từ năm 2009 đến - Phân tích số liệu, lựa chọn sắc thuế yêu cầu giải đáp, hỗ trợ nhiều để triển khai hệ thống hỏi đáp - Nghiên cứư sở lý thuyết tổng quan hệ thống hỏi đáp - Đánh giá ứng dụng hệ thống 3.2 Phạm vi nghiên cứu: - Các vấn đề hỏi đáp liên quan đến sắc thuế - Ứng dụng cho cán làm công tác nghiệp vụ Người nộp thuế Phương pháp nghiên cứu - Thu thập phân tích tài liệu thông tin liên quan đến đề tài - Thảo luận, lựa chọn phương hướng giải vấn đề - Phân tích thiết kế hệ thống chương trình ứng dụng - Triển khai xây dựng chương trình ứng dụng - Kiểm tra, thử nghiệm đánh giá kết Dự kiến kết Đề xuất giải pháp, xây dựng đánh giá thành công hệ thống hỏi đáp tự động sách thuế Viết báo công bố kết nghiên cứu liên quan đến đề tài Footer Page of 126 Header Page of 126 Ý nghĩa khoa học thực tiễn Về mặt lý thuyết: - Tìm hiểu sở lý thuyết liên quan đến đề tài - Tìm hiểu vận dụng công cụ, ngôn ngữ công nghệ liên quan Về mặt thực tiễn: - Ứng dụng công cụ, ngôn ngữ xây dựng ứng dụng phần mềm - Sản phẩm hệ thống hỏi đáp tự động sách thuế phục vụ cho cán làm công tác nghiệp vụ nâng cao kiến thức chuyên môn hỗ trợ giải đáp vướng mắc gặp phải người nộp thuế đăng ký, kê khai nộp thuế Tên đề tài “Xây dựng hệ thống hỏi đáp tự động sách thuế ” Dự kiến bố cục luận văn Luận văn chia thành ba chương với nội dung chương sau: Phần mở đầu giới thiệu lý cần thiết để thực đề tài, xác định mục đích, nhiệm vụ, đối tượng nghiên cứu, phương pháp nghiên cứu, sở nghiên cứu kết mong muốn đạt Chương - sở lý thuyết, chương nghiên cứu nội dung tổng quan hệ thống hỏi đáp phương pháp tiền xử lý, phân loại câu hỏi Footer Page of 126 Header Page of 126 Chương - phân tích công tác tuyên truyền hỗ trợ Người nộp thuế Cục thuế tỉnh Quảng Nam, trạng công tác hỗ trợ giải đáp vướng mắc NNT năm từ 2009 đến 2012 Chương - tiến hành phân tích, thiết kế chức năng, trình bày cách thức xây dựng hệ thống hỏi đáp sách thuế Footer Page of 126 Header Page of 126 CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 TỔNG QUAN HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 1.1.1 Giới thiệu chung Khái niệm hệ thống hỏi đáp: Hệ thống hỏi-đáp tự động (Question Answering System- QA) hệ thống xây dựng để thực việc tìm kiếm câu trả lời cho câu hỏi người dùng Hệ thống hỏi-đáp tự động liên quan đến lĩnh vực lớn xử lý ngôn ngữ tự nhiên (Natural Language Processing-NLP), tìm kiếm thông tin (Information Retrieval-IR) rút trích thông tin (Information Extraction-IE) Trong tìm kiếm thông tin, hỏi đáp làm nhiệm vụ tự động trả lời câu hỏi dạng ngôn ngữ tự nhiên Để tìm câu trả lời cho câu hỏi, chương trình máy tính sử dụng sở liệu tiền cấu trúc sử dụng tập văn ngôn ngữ tự nhiên Nghiên cứu QA nhằm mục đích xử lý loại câu hỏi: kiện, danh sách, định nghĩa, câu hỏi nào, sao, câu hỏi mang tính giả thuyết, câu hỏi hạn chế ngữ nghĩa câu hỏi sử dụng đa ngôn ngữ 1.1.2 Phân loại hệ thống hỏi đáp tự động Có nhiều cách phân loại hệ thống hỏi đáp dựa tiêu chí khác như: Phân loại theo miền ứng dụng Phân loại theo khả trả lời câu hỏi Phân loại theo hướng tiếp cận Footer Page of 126 Header Page of 126 1.1.3 Kiến trúc chung hệ thống hỏi đáp tự động Hình 1.2 Kiến trúc chung hệ thống hỏi đáp a Giao diện người dùng (User Interface) b Phân tích câu hỏi (Question Analyzer) c.Tìm kiếm liệu (Data Retrieval) d Rút trích câu trả lời (Answer Extraction) e Chiến lược xếp hạng (Ranking) f Xác minh câu trả lời (Answer Verification) 1.1.4 Các yêu cầu hệ thống hỏi đáp - Tính xác - Tính khả dụng - Tính hợp lý thời gian - Tính hoàn chỉnh - Tính thích hợp câu trả lời Footer Page of 126 Header Page 10 of 126 1.2 XỬ LÝ DỮ LIỆU TRONG HỆ THỐNG HỎI ĐÁP 1.2.1 Tiền xử lý liệu a Phân tích câu hỏi - Tạo câu truy vấn thông tin làm sở đáp ứng cho trình tìm kiếm tài liệu liên quan - Xác định, phân loại câu hỏi giúp cho trình lựa chọn câu trả lời xác định loại câu trả lời phù hợp b Phân tích câu hỏi ngôn ngữ tiếng Việt Việc phân tích câu hỏi ngôn ngữ tự nhiên phụ thuộc nhiều vào đặc trưng ngôn ngữ ngôn ngữ khác Khi phân tích câu hỏi tiếng Việt, khác với câu hỏi tiếng Anh, phải giải quyết: - Xác định ranh giới từ câu - Nhiều từ mật độ xuất cao không mang ý nghĩa cụ thể mà từ nối, từ đệm mang sắc thái biểu cảm từ láy - Sự phong phú nghĩa từ (từ đa nghĩa) - Các văn có nội dung vấn đề cụ thể, đề tài nghiên cứu khoa học trọng số từ chuyên môn thấp so với toàn tập tài liệu - Tồn nhiều bảng mã tiếng Việt đòi hỏi khả xử lý tài liệu bảng mã khác 1.2.2 Tách từ a Hướng tiếp cận dựa từ b Hướng tiếp cận dựa kí tự 1.2.3 Tìm kiếm thông tin a Các phương pháp b Mô hình không gian vector (VSM) Footer Page 10 of 126 10 Header Page 12 of 126 - Bước 1: Chọn ngẫu nhiên K mẫu vào K cụm Coi tâm cụm mẫu có cụm - Bước 2: Tìm tâm cụm - Bước 3: Gán (gán lại) mẫu vào cụm cho khoảng cách từ mẫu đến tâm cụm nhỏ - Bước 4: Nếu cụm thay đổi sau thực bước chuyển sang bước 5, ngược lại sang bước - Bước 5: Dừng thuật toán Mục đích thuật toán K-means sinh k cụm liệu {C1, C2,…, Ck} từ tập liệu chứa n đối tượng không gian d chiều Xi = { xki1 , xi ,… xid }, i = 1÷n, cho hàm tiêu chuẩn:   D ( x  mi ) đạt giá trị tối thiểu i1 Trong : M i trọng tâm cụm Ci , D khoảng cách hai đối tượng 1.3 TỔNG KẾT CHƯƠNG E= Footer Page 12 of 126 xci Header Page 13 of 126 11 CHƯƠNG THỰC TRẠNG CÔNG TÁC TUYÊN TRUYỀN HỖ TRỢ NNT TẠI CỤC THUẾ QUẢNG NAM 2.1 KHÁI NIỆM VỀ THUẾ VÀ CHÍH SÁCH 2.1.1 Khái niệm, nguồn gốc đặc điểm thuế a Khái niệm Thuế khoản nộp tiền mà cá thể nhân pháp nhân có nghĩa vụ bắt buộc phải thực theo luật Nhà nước, không mang tính chất đối khoản, không hoàn trả trực tiếp cho người nộp thuế dùng để trang trải cho nhu cầu chi tiêu công cộng b Nguồn gốc c Đặc điểm 2.1.2 Quan niệm sách thuế 2.1.3 Thực trạng cải cách hệ thống thuế Việt Nam a Giai đoạn 2006 – 2010 b Kế hoạch cải cách giai đoạn 2011- 2020 2.2 DỊCH VỤ TUYÊN TRUYỀN HỖ 2.2.1 Khái niệm dịch vụ tuyên truyền “Tuyên truyền thuế hoạt động phổ biến quy định thuế ban hành văn pháp luật thuế nhà nước chương trình ứng dụng tin học ngành Thuế đến công chúng, đặc biệt NNT Hỗ trợ thuế hoạt động tư vấn, hướng dẫn, trợ giúp trình thực thi sách, pháp luật thuế.” 2.2.2 Đơn vị cung cấp dịch vụ tuyên truyền Việc cung cấp dịch vụ tuyên truyền hỗ trợ thuế quan thuế đảm nhiệm Footer Page 13 of 126 Header Page 14 of 126 12 2.2.3 Đối tượng cung cấp dịch vụ tuyên truyền 2.3 CÔNG TÁC TUYÊN TRUYỀN CHÍNH SÁCH THUẾ TẠI CỤC THUẾ TỈNH QUẢNG NAM 2.3.1 Phòng Tuyên truyền hỗ trợ Người nộp thuế 2.3.2 Nội dung công tác tuyên truyền sách NNT a Nội dung hoạt động tuyên truyền thuế - Tuyên truyền giải thích chất, vai trò thuế, lợi ích xã hội có từ việc sử dụng tiền thuế - Tuyên truyền phổ biến nội dung sách, pháp luật thuế - Phổ biến vấn đề liên quan đến nghĩa vụ trách nhiệm quan thuế, NNT việc cung cấp thông tin phối hợp việc thực hiên luật thuế - Phổ biến thủ tục thuế, quy định việc xử lý vi phạm pháp luật thuế - Tuyên dương khen thưởng NNT chấp hành tốt pháp luật thuế b Nội dung công tác hỗ trợ NNT - Hướng dẫn, tư vấn nội dung sách, chế độ thuế - Hướng dẫn, tư vấn thủ tục, quy trình chấp hành nghĩa vụ thuế thủ tục đăng ký thuế, kê khai thuế, nộp thuế xin miễn giảm thuế… - Hướng dẫn, tư vấn cách lập mẫu biểu báo cáo thuế - Tư vấn vấn đề liên quan đên thuế kế toán, cách sử dụng, quản lý hóa đơn, chứng từ… - Hướng dẫn, cung cấp thông tin cảnh báo trường hợp trốn thuế, gian lận thuế, hành vi vi phạm pháp luật thuế Footer Page 14 of 126 Header Page 15 of 126 13 - Giải đáp vướng mắc phát sinh trình thực nghĩa vụ thuế NNT c Các hình thức hỗ trợ NNT - Tra cứu thông tin máy kiosk điện tử trụ sở quan thuế - Hình thức hướng dẫn, giải đáp trực tiếp trụ sở quan thuế, qua điện thoại văn - Tra cứu thông tin thông qua trang thông tin điện tử ngành thuế, Cục thuế d Nhân thực Hiện tại,nhân Phòng tuyên truyền hỗ trợ NNT Cục thuế tỉnh Quảng Nam 11 cán bộ, có cán chuyên trách hoạt động hỗ trợ, giải đáp vướng mắc thuế 2.3.3 Công tác hỗ trợ người nộp thuế a Đánh giá chung Trong năm gần đây, số lượng doanh nghiệp địa bàn tỉnh Quảng Nam đăng ký hoạt động tăng liên tục, đến có 7.173 doanh nghiệp hoạt động Cục thuế quản lý Tuy nhiên, ảnh hưởng suy thái kinh tế giới vài năm gần tác động không nhỏ đến kinh tế đất nước, số lượng doanh nghiệp lâm vào tình trạng khó khăn, hoạt động trì trệ tuyên bố phá sản tính riêng năm 2012 có 164 doanh nghiệp ngừng hoạt động Footer Page 15 of 126 14 Header Page 16 of 126 Bảng 2.2: Số lượng doanh nghiệp đăng kí tuyên bố phá sản Tỷ lệ DN Năm DN đăng kí DN ngừng ngừng hoạt hoạt động động/ đăng kí mới(%) 2010 635 82 12.9 2011 517 136 26.3 2012 400 164 41 Trong năm 2012, số lượng Doanh nghiệp nợ thuế lớn, văn phòng Cục thuế Quảng Nam tổng thu ngân sách Nhà nước đạt 74.6 % dự toán năm, không đạt tiêu giao Tỷ lên nợ xấu tổng thu ngân sách nhà nước có chiều hướng tăng cao, đa phần nợ đọng công ty phá sản, khả chi trả Hình 2.1 Biểu đồ tổng thu nợ đọng qua năm Footer Page 16 of 126 15 Header Page 17 of 126 b Kết thực công tác hỗ trợ qua số năm Hình 2.2: Biểu đồ công tác hỗ trợ từ 2009 đến 2012 phòng TTHT NNT 2.3.4 Nhu cầu NNT công tác hỗ trợ giải đáp vướng mắc thuế a Phiếu điều tra b Kết từ phiếu điều tra 2.4 BÀI TOÁN HỖ TRỢ, TƯ VẤN, GIẢI ĐÁP CHÍNH SÁCH THUẾ 2.4.1 Vấn đề trợ giúp Công tác quản lý thuế cần phải đại hóa toàn diện, cải cách thủ tục hành chính, ứng dụng công nghệ thông tin công tác nhằm nâng cao hiệu quả, hiệu lực công tác quản lý thuế, đảm bảo thu đúng, thu đủ, tránh thất thu thuế, đáp ứng hài lòng NNT quan thuế chủ quản Đối với NNT, việc nắm bắt, hiểu biết, theo dõi thay đổi, cải cách sách thuế số phận NNT hạn chế, ảnh hưởng không nhỏ đến công tác tự khai, tự nộp NNT Footer Page 17 of 126 Header Page 18 of 126 16 Do ảnh hưởng suy thái kinh tế giới, thay đổi, cải cách thường xuyên sách thuế cho phù hợp với phát triển kinh tế đất nước, luật thuế chồng chéo, chưa quán, phức tạp Sự tải công tác hỗ trợ, giải đáp vướng mắc thuế thuế làm công tác thời gian cao điểm nộp hồ sơ khai thuế ngày từ 15 đến 20 hàng tháng ảnh hưởng không nhỏ đến chất lượng phục vụ hài lòng NNT Do yêu cầu trợ giúp xây dựng hệ thống hỏi đáp tự động sách thuế để NNT, cán thuế hiểu biết luật, sắc thuế sâu sắc hơn, mang đến hiệu cao công tác kê khai kế toán thuế, thực thi trách nhiệm công dân NNT, ứng dụng luật cách nhanh chóng, xác 2.4.2 Kiến thức trợ giúp Là thông tin trả lời cho câu hỏi mà người sử dụng cần Những thông tin trả lời cho câu hỏi cần hỗ trợ, tư vấn sách thuế giúp NNT giải đáp vướng mắc, hỗ trợ kê khai thuế xác, luật; giúp cán thuế củng cố thêm chuyên môn, nghiệp vụ, xử lý công việc tốt 2.4.3 Xây dựng hệ thống hỏi đáp sách thuế a Mô hình toán b Tổ chức sở liệu 2.5 TỔNG KẾT CHƯƠNG Footer Page 18 of 126 17 Header Page 19 of 126 CHƯƠNG XÂY D ỰNG MÔ HÌNH H Ệ THỐNG HỎI ĐÁP 3.1 ĐẶC TRƯNG HỆ THỐNG HỎI ĐÁP CHÍNH SÁCH THUẾ 3.2 KỊCH BẢN HOẠT ĐỘNG HỆ THỐNG Hệ thống hỏi đáp họat động giúp công tác tuyên truyền hỗ trợ, giải đáp vướng mắc thuế đạt hiệu sở xây dựng kho thông tin tích lũy từ kinh nghiệm chia sẻ từ chuyên gia nghề, tài liệu, sách, internet, Đối tượng trợ giúp: Người nộp thuế, cán hoạt động ngành Nội dung trợ giúp: mục tiêu hoạt động hệ thống nhằm trợ giúp cho NNT gặp khó khăn, vướng mắc thực nghĩa vụ thuế, cho cán ngành thuế hiểu trình xử lý công việc Hệ thống hỏi đáp với tri thức xây dựng từ sở liệu luật, sách thuế, kinh nghiệm chuyên gia,… Phương pháp trợ giúp: Người dùng thông qua hệ thống đặt câu hỏi vấn đề vướng mắc cách thực hiện, tuân thủ luật, sách thuế, hệ thống phân lớp câu hỏi nhằm hạn chế trùng lắp câu hỏi có vấn đề Tiếp tục hệ thống tìm kiếm sở tri thức sở liệu câu trả lời, rút trích đưa câu trả lời cho người hỏi Nếu câu hỏi chưa tồn sở tri thức, chuyển đến cho chuyên gia có khả trả lời câu hỏi đó, đáp án cho câu hỏi hình thành nên sở liệu câu trả lời 3.3 ỨNG DỤNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG CHO BÀI TOÁN HỎI ĐÁP VỀ CHÍNH SÁCH THUẾ Xây dựng hệ thống hỏi đáp sách thuế đáp ứng yêu cầu mặt thực pháp lý câu hỏi cần trả lời Footer Page 19 of 126 Header Page 20 of 126 18 3.4 MÔ HÌNH CHỨC NĂNG HỆ THỐNG 3.4.1 Chức xây dựng kho liệu Dữ liệu hệ thống tập câu hỏi câu trả lời liên quan đến sách thuế cán phòng Tuyên truyền Hỗ trợ ghi lại trình làm việc với Người nộp thuế Đặc điểm liệu: - Dữ liệu tổng hợp tất câu hỏi câu trả lời - Các câu hỏi nhật kí hỗ trợ dạng văn tiếng Việt tự (có dấu, không dấu, sai tả, cú pháp) Ví dụ: “Tôi người bạn góp vốn xây dựng xưởng sản xuất gốm Xin hỏi đất góp vốn có phải nộp thuế sử dụng đất phi nông nghiệp không?” - Các câu hỏi không theo chủ đề định Các câu hỏi hỏi vấn đề vướng mắc trình đăng ký thuế, khai thuế, thực nghĩa vụ nộp thuế… sách thuế khác - Tách văn tổng hợp thành tập tin gồm câu hỏi câu trả lời, bổ sung dấu sửa lỗi tả - Loại bỏ câu hỏi dài có nhiều ý, câu hỏi ngắn hỏi ý hoàn toàn độc lập với nhau, nhằm giới hạn câu hỏi, câu hỏi gồm nhiều câu hỏi ý hỏi 3.4.2 Đối tượng người sử dụng hệ thống 3.4.3 Chuyên gia 3.4.4 Quản trị hệ thống 3.5 HOẠT ĐỘNG HỆ THỐNG HỎI ĐÁP Câu hỏi người dùng gửi đến hệ thống Hỏi- Đáp, hệ thống có nhiệm vụ phân lớp câu hỏi, tìm kiếm sở tri thức sở liệu câu hỏi câu trả lời để đưa phương án trả Footer Page 20 of 126 19 Header Page 21 of 126 lời cho người hỏi Nếu câu hỏi chưa tồn sở tri thức, chuyển đến cho chuyên gia có khả trả lời câu hỏi đó, đáp án tốt cho câu hỏi hình thành nên sở liệu câu trả lời 3.5.1 Thu thập xử lý liệu a Tiền xử lý liệu Mục đích bước xử lý liệu đọc vào, tập câu hỏi, trả lời chuyển thành chuỗi ký tự túy (text) - Đầu vào: Tệp văn cần phải phân tích (File PDF, TXT, DOC, HTML, HTM) - Đầu ra: chuỗi ký tự túy (text only) với font chữ định dạng định sẵn b Xây dựng module lựa chọn từ đặc trưng biểu diễn văn tiếng Việt Thực tách từ phương pháp vnTokenizer để tách văn tiếng Việt thành từ đầu vào toán 3.5.2 Giai đoạn phân lớp câu hỏi Vector đặc trưng câu hỏi Câu hỏi So sánh độ tương tự Tập luật phân lớp Quyết định phân lớp Hình 3.2 Tiến trình phân lớp Footer Page 21 of 126 Header Page 22 of 126 20 Các bước tiến hành phân lớp Bước 1: Huấn luyện - Chuẩn bị huấn luyện: + Các văn huấn luyện nhóm văn đưa vào thư mục thư mục Nhóm Văn Bản thư mục gốc chương trình + Chạy module tạo tập tin tách từ để tách từ nhóm văn + Chạy module tạo tập tin đặc trưng để tạo vector nhóm văn + Chạy module tạo vector trọng số W từ đặc trưng nhóm văn - Huấn luyện: Chạy module phân lớp để huấn luyện phân lớp cho nhóm văn Chương trình tạo tập tin kết huấn luyện nằm thư mục resource Cấu trúc thư mục liệu + Cho bước chuẩn bị huấn luyện tổ chức sau: Thư mục Nhóm văn chứa thư mục con: Thu nhap ca nhan Gia tri gia tang Thu nhap doanh nghiep + Trong thư mục nhóm văn có hai thư mục con: Parse: chứa tập tin tách từ chạy module tách từ DacTrung: chứa tập tin “dac trung.txt” tập tin chứa từ đặc trưng nhóm văn chạy module tạo tập tin đặc trưng, tập tin “Wvector.txt” chứa trọng số từ đặc trưng tính theo Footer Page 22 of 126 Header Page 23 of 126 21 phương pháp nghịch đảo tần số văn (IDF) chạy module tạo vector trọng số + Thư mục resource chứa tập tin liệu cần cho trình huấn luyện Bước 2: Tiến hành phân lớp văn - Chạy module tách từ để tạo tập tin tách từ văn cần phân lớp - Chạy modul phân lớp phân lớp tạo trình huấn luyện, để thực phân lớp theo thuật toán K-means cho văn - Kết phân lớp toàn văn cần phân lớp lưu tập tin chứa kết phân lớp ketquaphanlop.txt Và tập tin chứa kết phân lớp ketquaphanlop.txt sử dụng làm liệu đầu vào cho truy vấn câu hỏi 3.5.3 Giai đoạn so khớp câu hỏi Hình 3.3: Tiến trình so khớp câu hỏi Giai đoạn so khớp câu hỏi bao gồm modul sau: - Modul tạo ma trận từ đặc trưng-câu hỏi - Modul xử lý truy vấn bao gồm chức năng: + Tính độ đo Cosin + Xếp hạng kết truy tìm a Module tạo ma trận từ đặc trưng-văn Footer Page 23 of 126 22 Header Page 24 of 126 Giai đoạn phân lớp câu hỏi sau thực cung cấp liệu đầu vào cho việc truy vấn câu hỏi: tập tin chứa đặc trưng ứng với nhóm câu hỏi phân lớp, tập tin chứa kết phân lớp câu hỏi Từ tập tin chứa đặc trưng ứng với nhóm câu hỏi phân lớp, tập câu hỏi vector hoá thành vector biểu diễn thành ma trận ứng với tập câu hỏi Mỗi cột ma trận biểu diễn vector câu hỏi b Module xử lý truy vấn Chức tính độ đo Cosin Modul thực truy vấn câu hỏi tập câu hỏi phân lớp cách tính độ đo Cosine vector cột (của ma trận từ đặc trưng-câu hỏi) với vecor truy vấn Tập câu hỏi xem liên quan trả độ đo Cosine vector truy vấn với vector câu hỏi lớn ngưỡng (threshold) Chức xếp hạng kết truy vấn Tập câu hỏi trả hiển thị theo thứ tự độ liên quan với câu truy vấn từ cao đến thấp Việc xếp hạng kết trả thực theo thứ tự giảm dần độ đo Cosine tính toán 3.5.2 Giai đoạn so khớp câu trả lời a So khớp câu trả lời Kho câu trả lời Xây dựng vector Chọn câu trả lời So khớp câu trả câu trả lời tương ứng với nQ câu hỏi lời Hình 3.4 so khớp câu trả lời Footer Page 24 of 126 Trả lời 23 Header Page 25 of 126 Trường hợp câu hỏi tồn sở liệu, hệ thống thực trình tìm kiếm so sánh sở liệu để đưa phương án trả lời phù hợp b Chuyển câu hỏi đến chuyên gia tương ứng Lớp mà câu hỏi Câu hỏi phân vào Chuyên gia ứng với lớp câu hỏi So sánh định CG cần chuyển đến Hình 3.5 chuyển câu hỏi đến chuyên gia tương ứng 3.6 XÂY DỰNG GIAO DIỆN CHƯƠNG TRÌNH 3.7 TỔNG KẾT CHƯƠNG Footer Page 25 of 126 Header Page 26 of 126 24 KẾT LUẬN Đề tài xây dựng hệ thống hỏi đáp hỗ trợ, tư vấn giải đáp vướng mắc sách thuế, tạo môi trường thuận lợi giúp người nộp thuế tiếp cận gần với sách thuế, nâng cao tính tương tác với cán thực tư vấn, hỗ trợ Kết đạt được: - Luận văn tập trung nghiên cứu hệ thống hỏi đáp tự động phương pháp tiếp cận lĩnh vự xử lý ngôn ngữ tiếng Việt, tiền xử lý liệu phân loại câu hỏi hệ thống hỏi đáp - Đã tiến hành phân tích thực trạng, nhu cầu cần xây dựng hệ thống hỏi đáp phục vụ cho công tác tuyên truyền, hỗ trợ NNT Cục thuế Quảng Nam - Xây dựng mô hình hỏi đáp tự động sách thuế với giao diện thân thiện, rõ ràng chức thể đầy đủ giúp người sử dụng thao tác thuận tiện Hướng phát triển: - Cần tiếp tục cập nhật liệu làm phong phú thêm sở liệu, để đề tài thực vào ứng dụng thực tế - Nâng cao tính xác xử lý trả lời tự động tối ưu hóa thuật toán Footer Page 26 of 126 ... lời câu hỏi đó, đáp án cho câu hỏi hình thành nên sở liệu câu trả lời 3.3 ỨNG DỤNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG CHO BÀI TOÁN HỎI ĐÁP VỀ CHÍNH SÁCH THUẾ Xây dựng hệ thống hỏi đáp sách thuế đáp ứng... nghiên cứu xây dựng hệ thống hỏi đáp tự động sách thuế 2.2 Nhiệm vụ - Nghiên cứu tổng quan mô hình hỏi đáp tự động, phân tích bước xây dựng hệ thống hỏi đáp - Tìm hiểu quy trình thực giải đáp vướng... LÝ THUYẾT 1.1 TỔNG QUAN HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 1.1.1 Giới thiệu chung Khái niệm hệ thống hỏi đáp: Hệ thống hỏi- đáp tự động (Question Answering System- QA) hệ thống xây dựng để thực việc tìm kiếm

Ngày đăng: 07/05/2017, 14:30

Tài liệu cùng người dùng

Tài liệu liên quan