1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Chẩn đoán lỗi hệ thống CNTT tổng cục thuế, sử dụng thuật toán bayes

89 138 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 89
Dung lượng 3,13 MB

Nội dung

NGÔ MINH TÙNG BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN CHẨN ĐOÁN LỖI HỆ THỐNG CNTT TỔNG CỤC THUẾ, SỬ DỤNG THUẬT TỐN BAYES NGƠ MINH TÙNG HÀ NỘI - 2018 2015-2017 i BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ CHẨN ĐOÁN LỖI HỆ THỐNG CNTT TỔNG CỤC THUẾ, SỬ DỤNG THUẬT TỐN BAYES NGƠ MINH TÙNG CHUN NGÀNH: CƠNG NGHỆ THƠNG TIN MÃ SỐ: 8.48.02.018 NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN QUANG HOAN HÀ NỘI - 2018 ii LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình TÁC GIẢ LUẬN VĂN Ngô Minh Tùng iii LỜI CẢM ƠN Trƣớc tiên, xin bày tỏ lời cảm ơn sâu sắc chân thành đến thầy cô giáo Trƣờng Đại học Mở Hà Nội Đặc biệt, xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Quang Hoan ngƣời tận tình bảo, hƣớng dẫn tơi suốt q trình tìm hiểu, nghiên cứu để hồn thành luận văn tốt nghiệp Nếu khơng có hỗ trợ kiến thức chuyên môn thầy chắn tơi khơng thể hồn thành thời hạn Đồng thời, tơi xin cảm ơn tới gia đình, ngƣời thân yêu bên cạnh, động viên, giúp đỡ tơi suốt q trình học tập Bên cạnh tơi xin gửi lời cảm ơn đến bạn đồng nghiệp, chia sẻ kinh nghiệm, kiến thức q báu cho tơi q trình nghiên cứu thực luận văn Trong trình nghiên cứu mình,mặc dù đƣợc hƣớng dẫn nhiệt tình, đầy trách nhiệm PGS.TS Nguyễn Quang Hoan thầy cô giáo Trƣờng Đại học Mở Hà Nội với nỗ lực cá nhân nhƣng khơng thể tránh đƣợc thiếu sót Tác giả chân thành mong nhận đƣợc ý kiến đóng góp từ quý Thầy, Cô bạn bè đồng nghiệp Trân trọng cảm ơn Ngô Minh Tùng iv MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC THUẬN NGỮ, CHỮ VIẾT TẮT .vii DANH MỤC CÁC BẢNG BIỂU ix DANH MỤC CÁC HÌNH VẼ x MỞ ĐẦU xi CHƢƠNG PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU 1.1 Khái quát v ề phân lớp liệu 1.1.1 Tổng quan phân lớp liệu 1.1.2 Các tiêu chuẩn đánh giá mơ hình phân lớp 1.2 Các phƣơng pháp phân lớp liệu 1.2.1 Phân lớp văn dựa cách tiếp cận hệ chuyên gia 1.2.2 Phân lớp dựa cách tiếp cận máy học 1.3 Tình hình nghiên cứu ứng dụng thuật tốn phân lớp ngồi nƣớc 1.4 Đặt toán 1.4.1 Tình hình Tổng cục Thuế 1.4.2 Mô tả tập liệu thực nghiệm cho toán 1.4.3 Phân loại lỗi 11 1.4.4 Đặt toán 12 1.5 Kết cần đạt đƣợc 14 1.6.Kết luận chƣơng 15 CHƢƠNG CÁC PHƢƠNG PHÁP HỌC MÁY ÁP DỤNG CHO BÀI TOÁN CHUẨN ĐOÁN LỖI CNTT NGÀNH THUẾ 16 2.1 Các phƣơng pháp học máy 16 2.1.1 Phƣơng pháp Bayes 16 2.1.2 Mơ hình Maximum Entropy Model 19 2.1.3.Thuật toán K láng giềng gần 22 v 2.2 Các tiêu đánh giá phân lớp 26 2.3.Kết luận chƣơng 28 CHƢƠNG PHÂN LỚP DỮ LIỆU CÁC LỖI HỆ THỐNG, THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 29 3.1 Tiền xử lý liệu 29 3.1.1 Khái niệm 29 3.1.2 Lọc nhiễu 29 3.1.3 Loại bỏ từ phổ biến 29 3.2 Phân tích, lựa chọn đặc trƣng 31 3.2.1 Đặc trƣng N-Grams 31 3.2.2 Đặc trƣng Word vector 36 3.2.3 Đặc trƣng TF-IDF 39 3.3 Công cụ cách thức thực nghiệm 42 3.3.1 Công cụ Weka 42 3.3.2 WEKA – Môi trƣờng làm việc Explorer 43 3.3.3 Chuẩn bị thực nghiệm 46 3.4 Thực nghiệm đánh giá kết thực nghiệm 47 3.4.1 Thực nghiệm thuật toán với đặc trƣng lớp lỗi 47 3.4.2 Thực nghiệm thuật toán với đặc trƣng lớp lỗi 53 3.5 Đề xuất phƣơng pháp kết hợp nâng cao độ xác cho toán 60 3.6 Kết luận chƣơng 61 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO PHỤ LỤC I PHẦN MỀM HỖ TRỢ PHỤ LỤC II DỮ LIỆU THỰC NGHIỆM vi DANH MỤC CÁC THUẬN NGỮ, CHỮ VIẾT TẮT Từ viết tắt ARFF Tiếng Việt Tiếng Anh Atrribute Relation File Định dạng tập tin thuộc tính liên quan Format Mức độ dự đốn (phân lớp) xác ACC Accuracy CLT Classification Phân lớp liệu CM Confusion Matrix Ma trận nhầm lẫn hệ thống CNTT Công nghệ Thông tin MEM Maximum Entropy Model Thuật toán Entropy cực đại NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NN Neural Network Mạng nơ –ron N-G N-grams KNN K-Nearest Neighbor Thuật toán K – láng giềng PA Predictive Accuracy Độ xác dự đốn PRE Precision TF-IDE SVM Là tần suất xuất n kí tự (hoặc từ) liên tiếp có liệu Độ xác tập liệu tìm đƣợc (phân loại) term frequency – inverse Trọng số từ document frequency Support Vector Machine (SVM) Thuật toán máy vector hỗ trợ vii SVM - NN Support Vector Machines Thuật toán máy vector hỗ trợ kết thuật Nearest Neighbor toán K - láng giềng Độ hồi tƣởng số tồn tại, tìm RC Recall WK Weka Bộ phần mềm học máy WV Word vector (Glove vector) vector đƣợc (phân loại) viii DANH MỤC CÁC BẢNG BIỂU Trang Bảng 1.1: Số lƣợng thông báo lỗi nhóm .10 Bảng 1.2: Cấu trúc file liệu data.txt .11 Bảng 1.3: Các nhãn lỗi thu thập từ thông báo ngƣời sử dụng 12 Bảng 2.1: Biểu diễn văn theo vector 24 Bảng 2.2: Ma trận nhầm lẫn 26 Bảng 3.1: Xác suất đồng xảy với từ ice steam với từ đƣợc chọn 37 Bảng 3.2: Kết thực nghiệm thuật toán với đặc trƣng N-grams 47 Bảng 3.3: Kết thực nghiệm thuật toán với đặc trƣng Glove vector 49 Bảng 3.4: Kết thực nghiệm thuật toán với đặc trƣng TF-IDF .50 Bảng 3.5: Kết thực nghiệm thuật toán Bayes với đặc trƣng 52 Bảng 3.6: Kết thực nghiệm thuật toán với đặc trƣng N-grams (7 lớp lỗi) 54 Bảng 3.7: Kết thực nghiệm thuật toán với đặc trƣng Glove vector (7 lớp lỗi) 57 Bảng 3.8: Kết thực nghiệm thuật toán với đặc trưng Glove vector (7 lớp lỗi) 59 Bảng 3.9: Kết thực nghiệm thuật toán với đặc trƣng Glove vector + Ngrams (2 lớp lỗi) 60 Bảng 3.10: So sánh phƣơng pháp kết hợp Glove Vector + đặc trƣng N-gram (2 nhãn) 60 ix DANH MỤC CÁC HÌNH VẼ Trang Hình 1.1: Quá trình phân lớp liệu - Bƣớc xây dựng mơ hình phân lớp Hình 1.2: Q trình phân lớp liệu - Ƣớc lƣợng độ xác mơ hình Hình 1.3: Q trình phân lớp liệu - Phân lớp liệu .4 Hình 1.4: Ƣớc lƣợng độ xác mơ hình phân lớp với phƣơng pháp Holdout6 Hình 3.1: Danh mục từ file stopwords.txt 30 Hình 3.2: Nội dung file data2_stop.txt 30 Hình 3.3: Khn dạng file định dạng liệu cho Weka 36 Hình 3.4: Biểu diễn từ điển với từ King, Queen, Man, Woman, Child [11] 37 Hình 3.5: Một phần tập tin Glove-300d.txt .38 Hình 3.6: Biểu diễn TF – IDF 40 Hình 3.7: Giao diện Weka ver 3.6.10 [16][17] 42 Hình 3.8: Mơi trƣờng làm việc Weka Explorer [16],[17] 43 Hình 3.9: Giao diện Weka tiến hành thực nghiệm [16],[17] 44 Hình 3.10: Khn dạng tập liệu dạng chuẩn Arff [18] 45 Hình 3.11: Kết thực nghiệm thuật toán kết hợp với đặc trƣng N-grams (2 lớp) 48 Hinh 3.12: Kết thực nghiệm thuật toán kết hợp với đặc trƣng Glove vector (2 lớp) .49 Hình 3.13: Kết thực nghiệm với đặc trƣng TF-IDF (2 lớp) .51 Hình 3.14: So sánh kết thực nghiệm thuật toán Bayes kết hợp với đặc trƣng (2 lớp) 52 Hình 3.15: So sánh kết thực nghiệm kết hợp với đặc trƣng N-grams (7 lớp) 55 Hình 3.16: Độ đo F1 lớp thuật toán Bayes với đặc trƣng Unigram (7 lớp) 56 Hình 3.17: So sánh độ đo F1 với đặc trƣng Glove vector(7 lớp) 58 Hình 3.18: So sánh kết tốt thuật toán Bayes kết hợp với đặc trƣng (7 lớp) 59 x TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Quang Hoan (2015), Các hệ dựa trí thức, giáo trình, Học viện Bƣu Viễn thơng [2] Hồng Kiếm, Đỗ Phúc, Đỗ Văn Nhơn (2002), Các hệ sở tri thức, giáo trình, Nhà Xuất Đại học Quốc gia Thành phố Hồ Chí Minh [3] Đỗ Thanh Nghị, Phạm Nguyên Khang (2012), Nguyên lý máy học, giáo trình, Nhà xuất Đại học Cần Thơ [4] Phùng Thị Anh (2014), Một số phương pháp phân lớp liệu ứng dụng phân lớp dịch vụ Web, luận văn thạc sỹ,Học viện Cơng Nghệ Bƣu Chính Viễn Thơng [5] Trần Thị Oanh (2008), Mơ hình tách từ, gán nhãn từ loại, Luận văn Thạc sỹ, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội [6] Nguyễn Thu Hà (2006), Nghiên cứu áp dụng số kỹ thuật phân lớp liệu với sở liệu ngành Thuế Việt Nam, luận văn thạc sỹ khoa học trƣờng Đại học Bách Khoa Hà Nội [7] Trần Cao Đệ Phạm Nguyên Khang (2012), Phân loại văn với máy học vector hỗ trợ Đăng Tạp chí Khoa học [8] Trần Thị Hà (2014), Phân lớp Bayes ứng dụng, luận văn thạc sỹ trƣờng Đại học Bách khoa Hà Nội [9] Nguyễn Minh Thành (2011), Phân loại văn bản, luận văn thạc sỹ, Đại học Quốc gia Thành phố Hồ Chí Minh Tài liệu tiếng Anh [10] Robert C P (2001), The Bayesian Choice, Springer-Verlag Website tham khảo [11] Glove : Global Vectors for Word Representation: http://nlp.stanford.edu/projects/glove [12] Mô hình ngơn ngữ n-grams ứng dụng https://www.slideshare.net/kimdinhsonict/ngram-29611724 [13] Google : https://www.google.com [14] Wikipedia: http://www.wikipedia.org [15] Danh sách stop word tiêu chuẩn http://www.ranks.nl/stopwords [16] Công cụ Weka : http://www.cs.waikato.ac.nz/ml/Weka/ [17] Tìm hiểu Weka phần mềm khai phá liệu http://gizteam.com/tim-hieu-ve-Weka-mot-phan-mem-tuyet-voi-danh-cho-khai-phadu-lieu/ [18] Tìm hiểu Arff , sparse ARFF file http://geekswithblogs.net/razan/archive/2011/11/08/creating-a-simple-sparse-arfffile.aspx [19] TF-IDF : Term frequency – inverse document frequency https://guendouz.wordpress.com/2015/02/17/implementation-of-tf-idf-in-java/ PHỤ LỤC I PHẦN MỀM HỖ TRỢ TT Công cụ Java SE JDK 7u21 Trang web http://www.java.sun.com Netbean 8.0.1 https://netbeans.org/ Eclipse 3.6.2 https://www.eclipse.org Notepad++ http://notepad-plus-plus.org/ Weka http://www.cs.waikato.ac.nz/ml/Weka/ Global Vectors https://www.nlp.stanford.edu/projects/glove/ PHỤ LỤC II DỮ LIỆU THỰC NGHIỆM TT Thông báo lỗi The application's digital signature cannot be verified Do you want to run the application Nguyên nhân lỗi software_system invalid number pin database There is a problem with this website's security certificate security Java has discovered application components that could indicate a security concern security Serial TOKEN False database CutePDF Writer has disconnect objective Only secure content is displayed security what is the risk ?? Show all content other reason java.lang.NullPointerException: null software_system 10 Waring: XML Version old, the system version 2.0.7 software_system 11 usb token searching software_system 12 Time error: the digital signature Invalid database 13 HTKK version 3.2.5 Invalid database 14 Internet connectivity has been lost network devices 15 The website is temporarily unavailable network devices 16 The Domain Name Server (DNS) is not reachable network devices 17 The Domain Name Server (DNS) does not have a listing for the website's domain 18 If this is an HTTPS (secure) address, click Tools, click Internet 19 Options, click Advanced, and check to be sure the SSL and TLS 20 protocols are enabled under the security section 21 A set of concepts and techniques that are used to measure and report financial information about an network devices network devices network devices network devices Other reason economic unit Can I help you ? 22 Warring : The examination of transactions and systems that underlie an organization‟s financial statements 23 Waring : There is no current Tax Declaration Term 24 Anything to declare? 25 credit card statements EROR 2701 26 It's an honest account i'HAPPPY Thank you :) 27 Counterfeit shipping manifests Can I help you :( 28 Does that mean I have to claim it on my taxes now? systems _software software_system Other reason database What //??? 29 Bank statements, tax returns, all jive cALL ME ? 30 Open Network and Sharing Center , Troubleshoot problems network not connect Other reason database Other reason Other reason network devices 31 Modem, Router not connect network devices 32 Use a proxy server for your LAN, i'm not network devices 33 kekhaithue.com.vn: the webpage is not available server 34 Unable to resolve the server's DNS address server 35 Turn off Windows Firewall , not connect network 36 Render to all their dues: to the one who calls for the tax Other reason 37 You paid my weeklies on time Other reason 38 Internet Explorer vesion 7,8,9 Java(TM) old systems _software 39 open the Internet, click F12 Developer tools systems _software 40 error on page systems _software 41 Find disable Java-Plugin, Sun Java Console systems _software 42 Open Internet Explorer, Manage Adds-On and enable Java-Plugin, Sun Java Console 43 To pattern ([0,9])[(, 0,34])0,12])0,21])0,12])0,)for type -pattern- valid 44 cvc_To pattern ([0,9])[(, 0,34])0,12])0,21])0,12])0,) for type TINType network devices systems _software database database 45 "tax code error 1900100100-11 database 46 Tax Registration Number 1900100100-001 security 47 Tax Identification 3484374 security 48 Continue to this website Other reason 49 SSL of VDC not update server 50 kekhaithue.gdt.gov.vn, error the page can not be display server 51 kekhaithue.gdt.gov.vn / yes/Tool /Internet option => tab security 52 kekhaithue.gdt.gov.vn /Java.Jang 53 Error the listener retured the following Message: 500 Internal Server Error 54 The application's digital signature cannot be verified Do you want to run the application server server server systems _software 55 wARRING: Alway trust content from this publisher 56 There is a problem with this website's security certificate security 57 http://nhantokhai.gdt.gov.vn/ Continue to this website systems (not recommended)' 58 Only secure content is display 59 : java.lang.NullPointerException: null 60 Block potentially unsafe components from being run ?? 61 the application contains both signed anh unsigned code ?? 62 Contact the application vendor to ensure that it has not been tampered with Other reason _software security system_software security database security 63 Thanks you for support

Ngày đăng: 17/09/2019, 23:23

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Quang Hoan (2015), Các hệ dựa trên trí thức, giáo trình, Học viện Bưu chính Viễn thông Sách, tạp chí
Tiêu đề: Các hệ dựa trên trí thức
Tác giả: Nguyễn Quang Hoan
Năm: 2015
[2] Hoàng Kiếm, Đỗ Phúc, Đỗ Văn Nhơn (2002), Các hệ cơ sở tri thức, giáo trình, Nhà Xuất bản Đại học Quốc gia Thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Các hệ cơ sở tri thức
Tác giả: Hoàng Kiếm, Đỗ Phúc, Đỗ Văn Nhơn
Nhà XB: Nhà Xuất bản Đại học Quốc gia Thành phố Hồ Chí Minh
Năm: 2002
[3] Đỗ Thanh Nghị, Phạm Nguyên Khang (2012), Nguyên lý máy học, giáo trình, Nhà xuất bản Đại học Cần Thơ Sách, tạp chí
Tiêu đề: Nguyên lý máy học
Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang
Nhà XB: Nhà xuất bản Đại học Cần Thơ
Năm: 2012
[4] Phùng Thị Anh (2014), Một số phương pháp phân lớp dữ liệu và ứng dụng phân lớp dịch vụ Web, luận văn thạc sỹ,Học viện Công Nghệ Bưu Chính Viễn Thông Sách, tạp chí
Tiêu đề: Một số phương pháp phân lớp dữ liệu và ứng dụng phân lớp dịch vụ Web
Tác giả: Phùng Thị Anh
Năm: 2014
[5] Trần Thị Oanh (2008), Mô hình tách từ, gán nhãn từ loại, Luận văn Thạc sỹ, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Mô hình tách t"ừ", gán nhãn t"ừ "lo"ạ"i
Tác giả: Trần Thị Oanh
Năm: 2008
[6] Nguyễn Thu Hà (2006), Nghiên cứu và áp dụng một số kỹ thuật phân lớp dữ liệu với cơ sở dữ liệu ngành Thuế Việt Nam, luận văn thạc sỹ khoa học trường Đại học Bách Khoa Hà Nội Sách, tạp chí
Tiêu đề: Nghiên cứu và áp dụng một số kỹ thuật phân lớp dữ liệu với cơ sở dữ liệu ngành Thuế Việt Nam
Tác giả: Nguyễn Thu Hà
Năm: 2006
[7] Trần Cao Đệ và Phạm Nguyên Khang (2012), Phân loại văn bản với máy học vector hỗ trợ Đăng trên Tạp chí Khoa học Sách, tạp chí
Tiêu đề: Phân loại văn bản với máy học vector hỗ trợ
Tác giả: Trần Cao Đệ và Phạm Nguyên Khang
Năm: 2012
[8] Trần Thị Hà (2014), Phân lớp Bayes và ứng dụng, luận văn thạc sỹ trường Đại học Bách khoa Hà Nội Sách, tạp chí
Tiêu đề: Phân lớp Bayes và ứng dụng
Tác giả: Trần Thị Hà
Năm: 2014
[9] Nguyễn Minh Thành (2011), Phân loại văn bản, luận văn thạc sỹ, Đại học Quốc gia Thành phố Hồ Chí Minh.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Phân loại văn bản", luận văn thạc sỹ, Đại học Quốc gia Thành phố Hồ Chí Minh
Tác giả: Nguyễn Minh Thành
Năm: 2011
[10] Robert C. P (2001), The Bayesian Choice, Springer-Verlag Website tham khảo Sách, tạp chí
Tiêu đề: The Bayesian Choice", Springer-Verlag
Tác giả: Robert C. P
Năm: 2001
[11] Glove : Global Vectors for Word Representation: http://nlp.stanford.edu/projects/glove [12] Mô hình ngôn ngữ n-grams và ứng dụnghttps://www.slideshare.net/kimdinhsonict/ngram-29611724 [13] Google : https://www.google.com Link
[15] Danh sách stop word tiêu chuẩn http://www.ranks.nl/stopwords Link
[17] Tìm hiểu Weka phần mềm khai phá dữ liệu http://gizteam.com/tim-hieu-ve-Weka-mot-phan-mem-tuyet-voi-danh-cho-khai-pha-du-lieu/ Link
[18] Tìm hiểu về Arff , sparse ARFF file http://geekswithblogs.net/razan/archive/2011/11/08/creating-a-simple-sparse-arff-file.aspx Link
[19] TF-IDF : Term frequency – inverse document frequency https://guendouz.wordpress.com/2015/02/17/implementation-of-tf-idf-in-java/ Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w