1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm 04

63 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 0,97 MB

Nội dung

ĐẠIĐẠI HỌC QUỐC GIAGIA HÀHÀ NỘI HỌC QUỐC NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊLÊ ANH TRUNG ANH TRUNG XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬSỬ XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN DỤNG THUẬT TOÁN MAXIMUM ENTROPY DỤNG THUẬT TOÁN MAXIMUM ENTROPY TRÊN MIỀN DỮ LIỆU TỘI PHẠM TRÊN MIỀN DỮ LIỆU TỘI PHẠM Ngành: Chuyên ngành: LUẬN VĂN THẠC SĨ Mã số: LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ Nguyễn Trí Thành HÀ NỘI – 2015 Hà Nội – 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ ANH TRUNG XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬ DỤNG THUẬT TOÁN MAXIMUM ENTROPY TRÊN MIỀN DỮ LIỆU TỘI PHẠM Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống Thông tin Mã số : 60480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN TRÍ THÀNH HÀ NỘI – 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Xây dựng phân lớp văn sử dụng thuật toán Maximum Entropy miền liệu tội phạm” công trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực chưa công bố cơng trình khác Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Ngoại trừ tài liệu tham khảo này, luận văn công việc riêng Hà Nội, tháng năm 2015 Tác giả luận văn Lê Anh Trung LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trước tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Thầy giáo, PGS TS Nguyễn Trí Thành, người tận tình bảo, hướng dẫn, động viên giúp đỡ suốt trình thực luận văn tốt nghiệp Tơi xin gửi lời cảm ơn tới ThS Nguyễn Minh Tiến, anh nhiệt tình giúp đỡ, hỗ trợ bảo tơi trình thực nghiệm luận văn Cuối cùng, muốn gửi lời cảm ơn tới bố mẹ hai bên gia đình, vợ đặc biệt gái - người thân yêu bên cạnh quan tâm, động viên tơi suốt q trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng năm 2015 Học viên Lê Anh Trung LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Chương 97 1.1 Bài toán phân lớp văn 97 Formatted: Font: Not Bold, Not Italic, No underline, Font color: Auto, Check spelling and grammar 1.2 Xây dựng phân lớp văn 1311 1.3 Quá trình tiền xử lý liệu 1412 1.4 Đánh giá toán phân lớp 1614 1.5 Tổng kết 1715 Chương 1816 2.1 Phương pháp sử dụng hệ luật 1816 2.1.1 Luật cú pháp 1816 2.1.2 Luật ngữ nghĩa (lexico-sematic) 1917 2.2 Phương pháp sử dụng học máy 2018 2.2.1 Thuật toán K-người láng giềng gần 2018 2.2.2 Mơ hình định 2220 2.2.3 Thuật toán máy hỗ trợ vector (SVM - Support Vector Machine) .2321 2.2.4 Mô hình Entropy cực đại (Maximum Entropy) Formatted: TOC 3, Line spacing: 2624 single, No bullets or numbering 2.2.4.1 Nguyên lý Entropy cực đại………………………………………………… 25 2.2.4.2 Các ràng buộc đặc trưng………………………………………………… 25 2.2.4.3 Mơ hình Entropy cực đại ………………………………………………… … 26 2.2.4.4 Entropy cực đại cho phân lớp văn bản….……………………………… … 27 2.2.4.5 Xây dựng đặc trưng ………………………………………………… ……27 2.2.4.6 Ưu điểm mơ hình Maximum Entropy…………………………… …… 29 2.3 Tổng kết 3128 Chương 3229 3.1 Một số đặc trưng liệu văn tiếng Việt 3229 3.2 Xây dựng lớp miền liệu tội phạm 3431 3.2.1 Khái niệm tội phạm theo luật hình 3431 3.2.2 Các lớp tội danh xây dựng thực tế toán 3532 3.3 Phát biểu toánphân lớp văn miền liệu tội phạm văn tiếng Việt 3734 3.4 Tổng kết 4036 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4137 4.1 Dữ liệu chương trình 4137 4.2 Kết thực nghiệm 4440 4.3 Tổng kết 4642 TỔNG KẾT 4743 Chương 1.1 Bài toán phân lớp văn 1.2 Xây dựng phân lớp văn 11 1.3 Quá trình tiền xử lý liệu 12 1.4 Đánh giá toán phân lớp 14 1.5 Tổng kết 15 Chương 16 2.1 Phương pháp sử dụng hệ luật 16 2.1.1 Luật cú pháp 16 2.1.2 Luật ngữ nghĩa (lexico-sematic) 17 2.2 Phương pháp sử dụng học máy 18 2.2.1 Thuật toán K-người láng giềng gần 18 2.2.2 Mô hình định 20 2.2.3 Thuật toán máy hỗ trợ vector (SVM - Support Vector Machine) 21 2.2.4 Mơ hình Entropy cực đại (Maximum Entropy) .23 2.3 Tổng kết 26 Chương 27 3.1 Một số đặc trưng liệu văn tiếng Việt 27 3.2 Xây dựng lớp miền liệu tội phạm 28 3.2.1 Khái niệm tội phạm theo luật hình 28 3.2.2 Các lớp tội danh xây dựng thực tế toán 29 3.3 Phát biểu toán phân lớp văn miền liệu tội phạm văn tiếng Việt 32 3.4 Tổng kết 34 Chương 35 4.1 Dữ liệu chương trình 35 4.2 Kết thực nghiệm 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3 Tổng kết 39 TỔNG KẾT 41 DANH SÁCH CÁC BẢNG LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng 1: Các công cụ phần mềm……… 4137 Bảng 2: Kết pha phát hiện……… 4138 Bảng 3: Kết pha phân lớp……… 4238 Bảng 4: Kết pha phân lớp trực tiếp……… 4339 DANH SÁCH HÌNH VẼ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 1: Biểu đồ tăng trưởng liệu Internet tới năm 2020 98 Hình 2: Dữ liệu sinh phút Internet… 109 Hình 3: Mơ hình tốn phân lớp văn bản… 110 Hình 4: Sơ đồ hoạt động phân lớp văn bản… 121 Hình 5: Mơ tả thuật tốn SVM… 232 Hình 6: Quá trình phân lớp phát văn 37 33 Hình 7: Quá trình phân lớp trực tiếp văn bản… .3833 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI NÓI ĐẦU Thời đại - thời đại Internet, với ảnh hưởng vào ngóc ngách đời sống tác động đến hầu hết cá nhân xã hội Internet thay đổi hoàn toàn cách sống người thực công cụ hữu ích phục vụ cho hầu hết lĩnh vực đời sống Gần đây, với suất ngày nhiều thiết bị thông minh xu hướng điều khiển, cập nhật thiết bị thông qua Internet, cụm từ “Internet of Things” sử dụng ngày phổ biến, cho thấy xu hướng tương lai giới – thứ kết nối vào Internet.Do vậy, nói gần tri thức nhân loại tìm thấy nguồn liệu khổng lồ sinh từ Internet, gồm dạng liệu văn bản, hình ảnh, video Dữ liệuvăn bản, lưu websites với vô số chủ đề, thể loại liệu website tăng lên cách chóng mặt bùng nổ thơng tin từ Internet Mọi thơng tin từ lớn đến nhỏ, từ trị, kinh tế, xã hội đến giải trí, giáo dục… cập nhật hàng ngày, website Việc tìm kiếm thực thao tác đơn giản với từ khóa, nhiên thông tin nhận lại từ Internet khối lượng đồ sộ Do thông tin lớn việc khai thác thông tin cách có hiệu việc làm khơng đơn giản Khai phá liệu văn phát tri thức từ khối liệu khổng lồ toán nhận nhiều quan tâm thời gian gần Khai phá liệu văn phân tích trích lọc thơng tin từ tập liệu văn lớn cách tự động bán tự động để tìm thấy tri thức có lợi q trình tìm kiếm thơng tin Phân lớp văn toán quan trọng khai phá liệu văn bản, công việc gán văn vào hay số nhóm chủ đề biết trước Được mơ tả q trình tập liệu văn đầu vào, sau qua phân lớp, gán nhãn tương ứng với nội dung Luận văn tập trung nghiên cứu toán phân lớp văn bản, với miền liệu quan tâm miền liệu tội phạm Bao gồm bước trình bày, giới thiệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Độ đo (%) Lớp văn Giết người Cướp Lừa đảo Ma túy Mại dâm Trộm Tổng số Nhãn Số lượng Trainning Test báo (70%) (30%) 231 66 67 72 30 50 516 166 46 47 52 20 35 366 65 20 20 20 10 15 150 Dữ liệu cótóm tắt báo A 66 95 95 81.58 90 90 93 Dữ liệu bao gồm nội dung báo A 84 85 95 87.42 80 90 93 Mơ hình - Phân lớp trực tiếp: Bảng 4: Kết quảphân lớp trực tiếp Độ đo (%) Lớp văn Giết người Cướp Lừa đảo Ma túy Mại dâm Trộm Khác Tổng số Nhãn Số lượng Trainning Test báo (70%) (30%) Dữ liệu cótóm tắt báo A 70 90 95 82.67 90 90 93 82 231 166 65 66 46 20 67 47 20 72 52 20 30 20 10 50 35 15 200 150 50 716 516 200 Bảng 4: Kết quảphân lớp trực tiếp 45 Dữ liệu bao gồm nội dung báo A 83 90 95 90 88.06 90 93 90 Formatted Table [28] Formatted [29] Formatted [31] Formatted [32] Formatted [34] Formatted [30] Formatted [33] Formatted [35] Formatted [36] Formatted [37] Formatted [38] Formatted [39] Formatted [40] Formatted [41] Formatted [43] Formatted [42] Formatted [44] Formatted [45] Formatted [46] Formatted [48] Formatted [47] Formatted [50] Formatted [49] Formatted [51] Formatted [52] Formatted [53] Formatted [54] Formatted [55] Formatted [56] Formatted [57] Formatted [58] Formatted [59] Formatted [60] Formatted [61] Formatted [62] Formatted [63] Formatted [64] Formatted [65] Formatted [66] Formatted [67] Formatted [68] Formatted [69] Formatted [70] Formatted [71] Formatted [72] Formatted [73] Formatted [74] Formatted [75] Formatted [76] Formatted [77] Formatted [78] Formatted [79] Formatted [80] Formatted [81] Formatted [82] Formatted [83] LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Formatted [84] Formatted [85] Như với kết sau mơ hình sau lần chạy thử nghiệm thực tế ta có số khả quan Ở mơ hình 1, kết độ đo A trình phát đạt 91,00%đối với liệu đầu vào gồm tóm tắt báo, và93,97% liệu đầu vào gồm đầy đủ nội dung báo Tương tự, kết trình phân lớp đạt 81,58% 87,42% liệu đầu vào gồm tóm tắt báo đầy đủ nội dung báo, cho thấy phương pháp mà luận văn lựa chọn phù hợp với thực tế toán phân lớp Hai lần thực nghiệm mơ hình 2, độ đo A trình phân loại cho kết cao, 82,67%và88,06%lần lượt với thực nghiệm đầu vào có tóm tắt đầu vào đầy đủ nội dung báo.Ta có kết phân loại loại tội danh đạt số khả quan, thể cụ thể bảng trên.Sở dĩ có kết trên, ngồi phương pháp phù hợp, phần số lượng liệu đưa vào chưa thật nhiều số lớp trình phân loại chưa phải lớn Tương lai tác giả gán thêm số lớp tội danh tổng hợp liệu từ nhiều nguồn nhiều báo để trình phân lớp có kết thực tế 4.3 Tổng kết Trong chương 4, tác giả trình bày trình thực nghiệm luận văn Bao gồm giai đoạn thu thập liệu báo, tiền xử lý liệu, cách tổ chức phân chia liệu bước trình thực nghiệm Tác giả trình bày rõ ràng kết đạt lần thực nghiệm, kết hai mơ hình mà tác giả đề xuất Kết cho thấy phương pháp lựa chọn phù hợp với toán phân lớp luận văn Phần tổng kết tác giả hướng phát triển tương lai 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TỔNG KẾT Kết đạt Luận văn trình bày kiến thức phân lớp văn Tiếng Việt miền liệu phạm tội Bên cạnh đó, luận văn trình bày chi tiết phương pháp tiếp cận toán đề xuất lựa chọn phương pháp sử dụng thuật toán Maximum Entropy Tiếp theo luận văn đưa mơ hình cụ thể tốn cần giải trình bày cụ thể bước thực trình thực nghiệm Việc thực nghiệm tiến hành 500 báo liên quan đến miền quan tâm 200 báo liên quan đến miền khác Việc gán nhãn chia tỉ lệ số báo 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thực khác giai đoạn, kết cho thấy phân lớp mơ hình hoạt động với kết khả quan.Kết thực nghiệm cho ta thấy, mơ hình (phân loại trực tiếp) cho kết tốt so với mơ hình (phát phân loại) Các mặt hạn chế Việc tổng hợp liệu chưa nhiều nguồn liệu chưa phong phú, lớp chọn lớp tội danh phổ biến, nhiên thực tế nhiều lớp tội danh khác chưa đưa vào Các liệu toán chưa đề cập đến vấn đề thời gian, nghĩa việc sử dụng kết để đưa dự báo hay thống kê cịn phụ thuộc vào q trình lấy liệu Quá trình lấy liệu cần thực khoảng thời gian định, kết q trình phân lớp có giá trị cao việc đưa dự báo hay thống kê sau Hướng phát triển tương lai Tương lai tác giả gán thêm số lớp tội danh tổng hợp liệu từ nhiều nguồn nhiều báo để trình phân lớp có kết thực tế Ngồi ra, luận văn giải toán nhỏ Khai phá liệu văn bản.Vẫn cịn tốn khác trích chọn thơng tin quan tâm từ báo, bao gồm thông tin thời gian, địa điểm, thực thể, kiện … nội dung báo, tác giả tiếp tục đầu tư nghiên cứu tương lai TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Hưng (2013), Tìm hiểu mơ hình khơng gian Vector, http://butchiso.com/ [2] Minh-Tien Nguyen and Tri-Thanh Nguyen (2013) Extraction of disease events for a real-time monitoring system In SoICT, Danang, Vietnam [3] Nguyễn Minh Tiến (2014),Trích chọn kiện dịch bệnh cho hệ thống giám sát trực tuyến,Luận văn thạc sĩ Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr.12-14 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [4] Nguyễn Văn Chức (2010), Thuật toán K láng giềng gần nhất, http://bis.net.vn [5] Lưu Tuấn Anh (2012),Thuật toán Cây định, (Nature Language Processing) http://viet.jnlp.org/ [6] Trần Cao Đệ Phạm Nguyên Khang (2012), Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học, trường Đại học Cần Thơ, tr 52 – 63 [7] Lưu Tuấn Anh (2012),Thuật toán Entropy cực đại, (Nature Language Processing) http://viet.jnlp.org/ [8] Maxreading (2010), Đại cương tiếng Việt, www.maxreading.com [9] Quốc hội (2009), Bộ luật hình sự, sửa đổi bổ sung 2009/QH12, Hệ thống văn quy phạm pháp luật, http://www.moj.gov.vn/ Tiếng Anh [10] Austin Wentzlaff (2014),“Big Data and Mobile Banking Applications”, Business Development Analyst [11] Cisco (2014), “Forecast and Methodology 2014–2019”, Cisco Visual Networking Index [12] Josh James (2014), “Data Never Sleeps 2.0”, https://www.domo.com/ [13] Python Course (2014), “Text Categorization and Classification”, http://www.pythoncourse.eu [14] Hamish Cunningham (2002).“Gate, a general architecture for text engineering In Computers and the Humanities” p 223-254 [15] M.A Hearst Wordnet (1998).“An electronic lexical database and some of its applications” In Automated Discovery of WordNet Relations, p 131-151 [16] Keita Sato Nishihara, Yoko and Wataru Sunayama (2009) “Event extraction and visualization for obtaining personal experiences from blogs”,Symposium on Human Interface 2009 on Human Interface and the Management of In-formation Information and Interaction,Part II Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, p.315-324 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [17] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii (2001).“Event extraction from biomedical papers using a full parser”.6th Pacific Symposium on Biocomputing (PSB 2001), p 408 - 419 [18] Chinatsu Aone and Mila Ramos-Santacruz Rees (2000),“A large-scale relation and event extraction system” 6th Applied Natural Language Processing Conference (ANLP 2000), p 76 – 83 [19] Huanye Sheng Li Fang and Dongmo Zhang (2002) “Event pattern discovery from the stock market bulletin” 5th International Conference on Discovery Science (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, p 35 – 49 [20] Helen L Johnson Chris Roeder Philip V.Ogren-William A Baumgartner Jr Elizabeth White Hannah Tipney K Bretonnel Cohen,Karin Verspoor and Lawrence Hunter (2009).High-precision biological event extraction with a concept recognizer Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting p 50 – 58 [21] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and Stavroula Voyatzi A risk assessment system with automatic extraction of event types (2008) Intelligent Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220 – 229 [22] Vargas-Vera Maria and David Celjuska (2004) Event recognition on news stories and semi-automatic population of an ontology 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004) pp 615- 618 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Page 30: [1] Formatted trungla 7/1/2015 9:38:00 PM trungla 7/1/2015 9:38:00 PM trungla 7/1/2015 9:38:00 PM trungla 7/1/2015 9:38:00 PM trungla 7/1/2015 9:38:00 PM trungla 7/1/2015 9:38:00 PM trungla 7/1/2015 9:38:00 PM trungla 7/1/2015 9:37:00 PM trungla 7/1/2015 9:55:00 PM trungla 7/1/2015 9:55:00 PM trungla 7/1/2015 9:55:00 PM trungla 7/1/2015 9:55:00 PM Font: 18 pt, No underline, Font color: Auto Page 30: [2] Formatted Font: 18 pt, No underline, Font color: Auto Page 30: [3] Formatted Font: 18 pt, No underline, Font color: Auto Page 30: [4] Formatted Font: 18 pt, No underline, Font color: Auto Page 30: [5] Formatted Font: 18 pt, No underline, Font color: Auto Page 30: [6] Formatted Font: 15 pt, No underline, Font color: Auto Page 30: [7] Formatted Font: 15 pt, No underline, Font color: Auto Page 30: [8] Formatted Font: Italic, No underline, Font color: Auto Page 30: [9] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [10] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [11] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [12] Formatted Font: (Default) Cambria Math, 13 pt, No underline, Font color: Auto Page 30: [13] Formatted trungla 7/1/2015 9:55:00 PM trungla 7/1/2015 9:55:00 PM Font: 13 pt, No underline, Font color: Auto Page 30: [14] Formatted Font: 13 pt, No underline, Font color: Auto Page 30:CHAT [15] Formatted trungla : add luanvanchat@agmail.com 7/1/2015 9:55:00 PM LUAN VAN LUONG download Font: 13 pt, No underline, Font color: Auto Page 30: [16] Formatted trungla 7/1/2015 9:55:00 PM trungla 7/1/2015 9:55:00 PM trungla 7/1/2015 9:55:00 PM Font: 13 pt, No underline, Font color: Auto Page 30: [17] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [18] Formatted Font: (Default) Cambria Math, 13 pt, No underline, Font color: Auto Page 30: [19] Formatted trungla 7/1/2015 9:55:00 PM trungla 7/1/2015 9:51:00 PM trungla 7/1/2015 9:51:00 PM trungla 7/1/2015 9:51:00 PM trungla 7/1/2015 9:51:00 PM trungla 7/1/2015 9:51:00 PM trungla 7/1/2015 9:51:00 PM trungla 7/1/2015 9:51:00 PM trungla 7/1/2015 9:52:00 PM trungla 7/1/2015 11:44:00 PM trungla 7/1/2015 11:14:00 PM Font: 13 pt, No underline, Font color: Auto Page 30: [20] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [21] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [22] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [23] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [24] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [25] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [26] Formatted Font: 13 pt, No underline, Font color: Auto Page 30: [27] Formatted Font: (Default) Times New Roman, 13 pt Page 45: [28] Change Formatted Table Page 45: [29] Formatted Centered, Space After: pt, Line spacing: single Page 45:CHAT [30] Formatted trungla : add luanvanchat@agmail.com 7/1/2015 11:14:00 PM LUAN VAN LUONG download Centered, Space After: pt, Line spacing: single Page 45: [31] Formatted trungla 7/1/2015 11:14:00 PM trungla 7/1/2015 11:14:00 PM trungla 7/1/2015 11:14:00 PM trungla 7/1/2015 11:14:00 PM trungla 7/1/2015 11:14:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:52:00 PM Centered, Space After: pt, Line spacing: single Page 45: [32] Formatted Centered, Space After: pt, Line spacing: single Page 45: [33] Formatted Centered, Space After: pt, Line spacing: single Page 45: [34] Formatted Centered, Space After: pt, Line spacing: single Page 45: [35] Formatted Centered, Space After: pt, Line spacing: single Page 45: [36] Formatted Centered, Space After: pt, Line spacing: single Page 45: [37] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [37] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [38] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [38] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [39] Formatted Centered, Space After: pt, Line spacing: single Page 45: [40] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [40] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [41] Formatted Font: Not Bold, No underline, Font color: Auto Page 45:CHAT [42] Formatted trungla : add luanvanchat@agmail.com 7/1/2015 11:52:00 PM LUAN VAN LUONG download Centered, Space After: pt, Line spacing: single Page 45: [43] Formatted trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:47:00 PM Font: Not Bold Page 45: [44] Formatted Centered, Space After: pt, Line spacing: single Page 45: [45] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [45] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [46] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [47] Formatted Centered, Space After: pt, Line spacing: single Page 45: [48] Formatted Font: Not Bold Page 45: [49] Formatted Centered, Space After: pt, Line spacing: single Page 45: [50] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [50] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [51] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [52] Formatted Centered, Space After: pt, Line spacing: single Page 45: [53] Formatted Font: Not Bold Page 45: [54] Formatted Centered, Space After: pt, Line spacing: single Page 45:CHAT [55] Formatted trungla : add luanvanchat@agmail.com 7/1/2015 11:47:00 PM LUAN VAN LUONG download Font: Not Bold, No underline, Font color: Auto Page 45: [55] Formatted trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:52:00 PM trungla 7/1/2015 11:47:00 PM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM Font: Not Bold, No underline, Font color: Auto Page 45: [56] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [57] Formatted Centered, Space After: pt, Line spacing: single Page 45: [58] Formatted Font: Not Bold Page 45: [59] Formatted Centered, Space After: pt, Line spacing: single Page 45: [60] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [60] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [61] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [62] Formatted Centered, Space After: pt, Line spacing: single Page 45: [63] Formatted Font: Not Bold Page 45: [64] Formatted Centered, Space After: pt, Line spacing: single Page 45: [65] Formatted Centered, Space After: pt, Line spacing: single Page 45: [66] Formatted Font: Not Bold Page 45: [67] Formatted Font: Not Bold Page 45:CHAT [68] Formatted trungla : add luanvanchat@agmail.com 7/2/2015 12:00:00 AM LUAN VAN LUONG download Font: Not Bold Page 45: [69] Formatted trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:03:00 AM Font: Not Bold Page 45: [70] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [70] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [71] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [72] Formatted Centered, Space After: pt, Line spacing: single Page 45: [73] Formatted Font: Not Bold Page 45: [74] Formatted Centered, Space After: pt, Line spacing: single Page 45: [75] Formatted Font: Not Bold Page 45: [76] Formatted Font: Not Bold Page 45: [77] Formatted Font: Not Bold Page 45: [78] Formatted Font: Not Bold Page 45: [79] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [79] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [80] Formatted Centered, Space After: pt, Line spacing: single Page 45:CHAT [81] Formatted trungla : add luanvanchat@agmail.com 7/2/2015 12:03:00 AM LUAN VAN LUONG download Font: Not Bold Page 45: [82] Formatted trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM Centered, Space After: pt, Line spacing: single Page 45: [83] Formatted Font: Not Bold Page 45: [84] Formatted Font: Not Bold Page 45: [85] Formatted Font: Not Bold Page 45: [86] Formatted Font: Not Bold Page 45: [87] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [87] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [88] Formatted Centered, Space After: pt, Line spacing: single Page 45: [89] Formatted Font: Not Bold Page 45: [90] Formatted Centered, Space After: pt, Line spacing: single Page 45: [91] Formatted Font: Not Bold Page 45: [92] Formatted Font: Not Bold Page 45: [93] Formatted Font: Not Bold Page 45: [94] Formatted Font: Not Bold Page 45:CHAT [95] Formatted trungla : add luanvanchat@agmail.com 7/2/2015 12:00:00 AM LUAN VAN LUONG download Font: Not Bold, No underline, Font color: Auto Page 45: [95] Formatted trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM Font: Not Bold, No underline, Font color: Auto Page 45: [96] Formatted Centered, Space After: pt, Line spacing: single Page 45: [97] Formatted Font: Not Bold Page 45: [98] Formatted Centered, Space After: pt, Line spacing: single Page 45: [99] Formatted Font: Not Bold Page 45: [100] Formatted Font: Not Bold Page 45: [101] Formatted Font: Not Bold Page 45: [102] Formatted Font: Not Bold Page 45: [103] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [103] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [104] Formatted Centered, Space After: pt, Line spacing: single Page 45: [105] Formatted Font: Not Bold Page 45: [106] Formatted Centered, Space After: pt, Line spacing: single Page 45: [107] Formatted Font: Not Bold Page 45:CHAT [108] Formatted trungla : add luanvanchat@agmail.com 7/2/2015 12:00:00 AM LUAN VAN LUONG download Font: Not Bold Page 45: [109] Formatted trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:03:00 AM trungla 7/2/2015 12:00:00 AM trungla 7/2/2015 12:00:00 AM Font: Not Bold Page 45: [110] Formatted Font: Not Bold Page 45: [111] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [111] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [112] Formatted Centered, Space After: pt, Line spacing: single Page 45: [113] Formatted Font: Not Bold Page 45: [114] Formatted Centered, Space After: pt, Line spacing: single Page 45: [115] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [115] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [116] Formatted Font: Not Bold, No underline, Font color: Auto Page 45: [117] Formatted Centered, Space After: pt, Line spacing: single Page 45: [118] Formatted Font: Not Bold Page 45: [119] Formatted Centered, Space After: pt, Line spacing: single Page 45: [120] Formatted Font: Not Bold LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... TRUNG XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬ DỤNG THUẬT TOÁN MAXIMUM ENTROPY TRÊN MIỀN DỮ LIỆU TỘI PHẠM Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống Thông tin Mã số : 6048 0 104 LUẬN VĂN THẠC SĨ... biểu toánphân lớp văn miền liệu tội phạm văn tiếng Việt Bài toán phân lớp văn miền liệu tội phạm văn tiếng Việt trả lời câu hỏi:”làm để phát báo tiếng Việt liên quan đến miền liệu phạm tội phân lớp. .. luanvanchat@agmail.com Chương BÀI TOÁN PHÂN LỚP VĂN BẢN MIỀN DỮ LIỆU TỘI PHẠM TRÊN VĂN BẢN TIẾNG VIỆT Trong chương tác giả trình bày giới thiệu toán phân lớp văn miền liệu tội phạm văn tiếng Việt Trình bày

Ngày đăng: 05/12/2022, 18:00

HÌNH ẢNH LIÊN QUAN

Hình 1: Biểu đồ tăng trưởng dữ liệu Internet tới năm 2020 - Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm   04
Hình 1 Biểu đồ tăng trưởng dữ liệu Internet tới năm 2020 (Trang 14)
Hình 2: Dữ liệu được sinh ra mỗi phút trên Internet - Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm   04
Hình 2 Dữ liệu được sinh ra mỗi phút trên Internet (Trang 15)
Hình 3 - Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm   04
Hình 3 (Trang 16)
Hình 5: Mơ tả thuật tốn SVM. - Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm   04
Hình 5 Mơ tả thuật tốn SVM (Trang 28)
Ở mơ hình 1, tổng số các bài báo thuộc miền dữ  đoạn thứ nhất của mơ hình này, b báo cĩ thuộc hay khơng mi - Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm   04
m ơ hình 1, tổng số các bài báo thuộc miền dữ đoạn thứ nhất của mơ hình này, b báo cĩ thuộc hay khơng mi (Trang 42)
Ở mơ hình 2, tác giả dữ liệu đầu vào được đưa vào b tội và các bài báo thuộc mi này  vào  6  lớp  tội  danh  cho  trư được  phân  loại trực  tiếp là 7  l - Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm   04
m ơ hình 2, tác giả dữ liệu đầu vào được đưa vào b tội và các bài báo thuộc mi này vào 6 lớp tội danh cho trư được phân loại trực tiếp là 7 l (Trang 43)
Mơ hình 2- Phân lớp trực tiếp: - Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm   04
h ình 2- Phân lớp trực tiếp: (Trang 49)
Bảng 4: Kết quảphân lớp trực tiếp - Luận văn thạc sĩ VNU UET xây dựng bộ phân lớp các văn bản sử dụng thuật toán maximum entropy trên miền dữ liệu tội phạm   04
Bảng 4 Kết quảphân lớp trực tiếp (Trang 49)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN