DSpace at VNU: Xây dựng bộ phân lớp các văn bản sử dụng thuật toán Maximum Entropy trên miền dữ liệu tội phạm tài liệu,...
ĐẠIĐẠI HỌC QUỐC GIAGIA HÀHÀ NỘINỘI HỌC QUỐC TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊLÊ ANH TRUNG ANH TRUNG XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬSỬ XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN DỤNG THUẬT TOÁN MAXIMUM ENTROPY DỤNG THUẬT TOÁN MAXIMUM ENTROPY TRÊN MIỀN DỮ LIỆU TỘI PHẠM TRÊN MIỀN DỮ LIỆU TỘI PHẠM Ngành: Chuyên ngành: LUẬN VĂN THẠC SĨ Mã số: LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ Nguyễn Trí Thành HÀ NỘI – 2015 Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ ANH TRUNG XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬ DỤNG THUẬT TOÁN MAXIMUM ENTROPY TRÊN MIỀN DỮ LIỆU TỘI PHẠM Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống Thông tin Mã số : 60480104 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS NGUYỄN TRÍ THÀNH HÀ NỘI – 2015 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Xây dựng phân lớp văn sử dụng thuật toán Maximum Entropy miền liệu tội phạm” cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực chưa cơng bố cơng trình khác Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Ngoại trừ tài liệu tham khảo này, luận văn công việc riêng Hà Nội, tháng năm 2015 Tác giả luận văn Lê Anh Trung LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, PGS TS Nguyễn Trí Thành, người tận tình bảo, hướng dẫn, động viên giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới ThS Nguyễn Minh Tiến, anh nhiệt tình giúp đỡ, hỗ trợ bảo tơi q trình thực nghiệm luận văn Cuối cùng, muốn gửi lời cảm ơn tới bố mẹ hai bên gia đình, vợ đặc biệt gái - người thân yêu bên cạnh quan tâm, động viên suốt trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng năm 2015 Học viên Lê Anh Trung MỤC LỤC Chƣơng 1.1 Bài toán phân lớp văn 1.2 Xây dựng phân lớp văn .Error! Bookmark not defined 1.3 Quá trình tiền xử lý liệu Error! Bookmark not defined 1.4 Đánh giá toán phân lớp .Error! Bookmark not defined 1.5 Tổng kết Error! Bookmark not defined Chƣơng .Error! Bookmark not defined 2.1 Phƣơng pháp sử dụng hệ luật Error! Bookmark not defined 2.1.1 Luật cú pháp Error! Bookmark not defined 2.1.2 Luật ngữ nghĩa (lexico-sematic) Error! Bookmark not defined 2.2 Phƣơng pháp sử dụng học máy Error! Bookmark not defined 2.2.1 Thuật toán K-người láng giềng gần Error! Bookmark not defined 2.2.2 Mơ hình định Error! Bookmark not defined 2.2.3 Thuật toán máy hỗ trợ vector (SVM - Support Vector Machine)Error! Bookmark not defined 2.2.4 Mơ hình Entropy cực đại (Maximum Entropy) Error! Bookmark not defined 2.2.4.1 Nguyên lý Entropy cực đại………………………………………………… 25 2.2.4.2 Các ràng buộc đặc trưng………………………………………………… 25 2.2.4.3 Mơ hình Entropy cực đại ………………………………………………… … 26 2.2.4.4 Entropy cực đại cho phân lớp văn bản….……………………………… … 27 2.2.4.5 Xây dựng đặc trưng ………………………………………………… ……27 2.2.4.6 Ưu điểm mơ hình Maximum Entropy…………………………… …… 29 2.3 Tổng kết Error! Bookmark not defined Chƣơng .Error! Bookmark not defined 3.1 Một số đặc trƣng liệu văn tiếng Việt Error! Bookmark not defined 3.2 Xây dựng lớp miền liệu tội phạm Error! Bookmark not defined 3.2.1 Khái niệm tội phạm theo luật hình Error! Bookmark not defined 3.2.2 Các lớp tội danh xây dựng thực tế toán.Error! Bookmark not defined 3.3 Phát biểu toán phân lớp văn miền liệu tội phạm văn tiếng Việt Error! Bookmark not defined 3.4 Tổng kết Error! Bookmark not defined Chƣơng .Error! Bookmark not defined 4.1 Dữ liệu chƣơng trình .Error! Bookmark not defined 4.2 Kết thực nghiệm Error! Bookmark not defined 4.3 Tổng kết Error! Bookmark not defined TỔNG KẾT Error! Bookmark not defined DANH SÁCH CÁC BẢNG Bảng 1: Các công cụ phần mềm……… 41 Bảng 2: Kết pha phát hiện……… 41 Bảng 3: Kết pha phân lớp……… .42 Bảng 4: Kết pha phân lớp trực tiếp……… 43 DANH SÁCH HÌNH VẼ Hình 1: Biểu đồ tăng trưởng liệu Internet tới năm 2020 Hình 2: Dữ liệu sinh phút Internet… 10 Hình 3: Mơ hình tốn phân lớp văn bản… 11 Hình 4: Sơ đồ hoạt động phân lớp văn bản… 12 Hình 5: Mơ tả thuật toán SVM… 23 Hình 6: Quá trình phân lớp phát văn .37 Hình 7: Quá trình phân lớp trực tiếp văn bản… .38 LỜI NÓI ĐẦU Thời đại - thời đại Internet, với ảnh hưởng vào ngóc ngách đời sống tác động đến hầu hết cá nhân xã hội Internet thay đổi hoàn toàn cách sống người thực cơng cụ hữu ích phục vụ cho hầu hết lĩnh vực đời sống Gần đây, với suất ngày nhiều thiết bị thông minh xu hướng điều khiển, cập nhật thiết bị thông qua Internet, cụm từ “Internet of Things” sử dụng ngày phổ biến, cho thấy xu hướng tương lai giới – thứ kết nối vào Internet Do vậy, nói gần tri thức nhân loại tìm thấy nguồn liệu khổng lồ sinh từ Internet, gồm dạng liệu văn bản, hình ảnh, video Dữ liệu văn bản, lưu websites với vô số chủ đề, thể loại liệu website tăng lên cách chóng mặt bùng nổ thông tin từ Internet Mọi thơng tin từ lớn đến nhỏ, từ trị, kinh tế, xã hội đến giải trí, giáo dục… cập nhật hàng ngày, website Việc tìm kiếm thực thao tác đơn giản với từ khóa, nhiên thơng tin nhận lại từ Internet khối lượng đồ sộ Do thông tin lớn việc khai thác thơng tin cách có hiệu việc làm không đơn giản Khai phá liệu văn phát tri thức từ khối liệu khổng lồ toán nhận nhiều quan tâm thời gian gần Khai phá liệu văn phân tích trích lọc thơng tin từ tập liệu văn lớn cách tự động bán tự động để tìm thấy tri thức có lợi q trình tìm kiếm thơng tin Phân lớp văn toán quan trọng khai phá liệu văn bản, công việc gán văn vào hay số nhóm chủ đề biết trước Được mơ tả trình tập liệu văn đầu vào, sau qua phân lớp, gán nhãn tương ứng với nội dung Luận văn tập trung nghiên cứu toán phân lớp văn bản, với miền liệu quan tâm miền liệu tội phạm Bao gồm bước trình bày, giới thiệu toán, phương pháp tiếp cận để giải toán kết thực nghiệm trình nghiên cứu Lý tác giả chọn miền liệu tội phạm, nhu cầu phân lớp, tổng hợp tài liệu liên quan đến miền liệu việc làm cần thiết, sử dụng kết việc phân tích, báo cáo xu hướng loại tội phạm Qua tra cứu thơng tin hiệu quả, rút ngắn thời gian xử lý vụ án, đảm bảo an ninh, trật tự xã hội Cấu trúc luận văn chia thành chương sau: Chương 1: Giới thiệu toán phân lớp văn miền liệu tội phạm văn tiếng Việt từ báo Internet Chương trình bày khai phá liệu văn nói chung phân lớp văn nói riêng, bối cảnh bùng nổ công nghệ thông tin mạng Internet Về khối lượng thông tin mà người sử dụng tiếp cận so với thơng tin có ích mà người dùng thực cần thiết Tiếp theo giới thiệu ý nghĩa toán phân lớp thông tin tội phạm văn tiếng Việt từ nguồn Internet Chương 2: Trình bày phương pháp tiếp cận để giải toán Chương trình bày phương pháp để giải phân lớp văn Bao gồm phương pháp sử dụng luật sử dụng học máy Trong phương pháp sử dụng học máy, tác giả trình bày thuật toán áp dụng Người láng giềng gần (KNearest Neighbor), mơ hình định, thuật tốn máy hỗ trợ vector (SVM – Support Vector Machine), mơ hình Entropy cực đại (Maximum Entropy) Luận văn đưa đánh giá phương pháp đưa lý định sử dụng phương pháp Maximum Entropy Chương 3: Trình bày đặc trưng liệu văn tiếng Việt, lớp tội danh xây dựng trình phân lớp Cuối phát biểu cụ thể toán phân lớp văn miền liệu tội phạm Chương trình bày cụ thể hai mơ hình tốn mà luận văn nghiên cứu, mơ hình thứ phát báo có liên quan đến miền liệu xét, sau phân lớp Mơ hình thứ hai phân lớp trực tiếp cho báo liệu đầu vào Chương 4: Áp dụng thực tế, trình bày kết đánh giá Chương mơ tả q trình thực nghiệm đánh giá kết phương pháp đề xuất dựa hai mơ hình tốn trình bày chương Tổng kết: Phần tổng kết phần đánh giá kết luận văn, kết thực nghiệm, hạn chế hướng phát triển tương lai Chƣơng GIỚI THIỆU VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN Trong chương tác giả trình bày giới thiệu tốn phân lớp văn bản, trình xây dựng phân lớp văn bản, trình tiền xử lý liệu cách đánh giá với toán phân lớp mà tác giả thực 1.1 Bài toán phân lớp văn Công nghệ thông tin tác động mạnh mẽ đến phát triển tất ngành nghề đời sống xã hội đặc biệt đời Internet Đây thực cách mạng vĩ đại số ứng dụng bật Internet Word Wide Web mang lại cho kho kiến thức mà không bách khoa toàn thư hay hệ thống thư viện so sánh Theo Oracle – công ty hàng đầu hệ quản trị sở liệu, liệu Internet từ năm 2008 đến năm 2020 tăng theo cấp số mũ, đạt đến số 45ZB (Zettabyte 1ZB = 270 B) vào năm 2020 [10] Thời đại Internet thời đại Big Data, Cloud Computing hay Internet of Things Dữ liệu sinh khắp nơi Internet, từ mạng xã hội, từ website, trang chia sẻ nội dung, email… với nhiều dạng liệu khác text, âm thanh, hình ảnh… Độ tăng trưởng liệu tăng lên cấp số mũ công nghệ lưu trữ phát triển với bùng nổ Internet số lượng người dùng khổng lồ khắp giới Theo báo cáo Visual Networking Index Cisco [11], tổng lưu lượng truyền tải liệu mạng Internet toàn cầu năm 2010 20.2 exabyte tháng, tương đương với 242 exabyte năm Lưu lượng truyền tải liệu Internet toàn cầu tăng gấp lần năm (từ 2006 đến 2010), dự báo tăng thêm lần – đạt mức xấp xỉ zettabyte (1 nghìn exabyte) thời điểm năm 2015 Chúng ta ngập tràn liệu việc tìm kiếm xác thơng tin cần thiết lại điều khó khăn Hình 1: Biểu đồ tăng trưởng liệu Internet tới năm 2020 Theo trang https://www.domo.com/ [12] với 2.4 tỉ người dùng Internet giới, lượng liệu tính tốn phút Internet số khổng lồ Ví dụ phút, có 72 video chia sẻ YouTube, 2460000 nội dung cập nhật mạng xã hội FaceBook hay triệu câu truy vấn từ trang tìm kiếm Google… Mỗi ngày, người tạo khoảng 2.5 * 1018 byte liệu Khoảng 90% liệu giới ngày tạo năm vừa qua Gần đây, với phát triển mạnh mẽ thiết bị thông minh, khái niệm Internet of Things lại nhắc đến cho thấy viễn cảnh tương lai công nghệ giới Khi vật cung cấp định danh khả tự động truyền tải liệu thông qua mạng Internet mà không cần tương tác người với người người với máy tính “Thing” – vật – Internet of Things, người với hình cấy ghép tim, động vật trang trại với tiếp sóng chip sinh học, xe tơ tích hợp cảm biến để cảnh báo lái xe lốp non – đồ vật tự nhiên sinh người sản xuất mà gán với địa IP cung cấp khả truyền tải liệu qua mạng lưới Như ta nhìn thấy tương lai, lượng liệu sinh giây, phút Internet vô lớn đa dạng Hình 2: Dữ liệu sinh phút Internet Từ số trên, ta thấy liệu Internet có xu hướng bùng nổ cách mạnh mẽ, nhiên để người dùng có tri thức hay thông tin cần thiết với nguồn liệu Internet khổng lồ khơng phải điều dễ dàng Do vậy, khai phá liệu, mà khai phá liệu văn với đối tượng nội dung trang web, cụ thể nội dung báo website với chủ đề cụ thể quan trọng Phân lớp văn số tốn nằm cơng việc khai phá liệu văn bản, có ý nghĩa quan trọng việc tổ chức tìm kiếm thơng tin nguồn liệu lớn 10 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Hưng (2013), Tìm hiểu mơ hình khơng gian Vector, http://butchiso.com/ [2] Minh-Tien Nguyen and Tri-Thanh Nguyen (2013) Extraction of disease events for a real-time monitoring system In SoICT, Danang, Vietnam [3] Nguyễn Minh Tiến (2014), Trích chọn kiện dịch bệnh cho hệ thống giám sát trực tuyến, Luận văn thạc sĩ Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr.12-14 [4] Nguyễn Văn Chức (2010), Thuật toán K láng giềng gần nhất, http://bis.net.vn [5] Lưu Tuấn Anh (2012),Thuật toán Cây định, (Nature Language Processing) http://viet.jnlp.org/ [6] Trần Cao Đệ Phạm Nguyên Khang (2012), Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học, trường Đại học Cần Thơ, tr 52 – 63 [7] Lưu Tuấn Anh (2012),Thuật toán Entropy cực đại, (Nature Language Processing) http://viet.jnlp.org/ [8] Maxreading (2010), Đại cương tiếng Việt, www.maxreading.com [9] Quốc hội (2009), Bộ luật hình sự, sửa đổi bổ sung 2009/QH12, Hệ thống văn quy phạm pháp luật, http://www.moj.gov.vn/ Tiếng Anh [10] Austin Wentzlaff (2014),“Big Data and Mobile Banking Applications”, Business Development Analyst [11] Cisco (2014), “Forecast and Methodology 2014–2019”, Cisco Visual Networking Index [12] Josh James (2014), “Data Never Sleeps 2.0”, https://www.domo.com/ [13] Python Course (2014), “Text Categorization and Classification”, http://www.pythoncourse.eu [14] Hamish Cunningham (2002) “Gate, a general architecture for text engineering In 11 Computers and the Humanities” p 223-254 [15] M.A Hearst Wordnet (1998) “An electronic lexical database and some of its applications” In Automated Discovery of WordNet Relations, p 131-151 [16] Keita Sato Nishihara, Yoko and Wataru Sunayama (2009) “Event extraction and visualization for obtaining personal experiences from blogs”, Symposium on Human Interface 2009 on Human Interface and the Management of In-formation Information and Interaction, Part II Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, p.315-324 [17] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii (2001) “Event extraction from biomedical papers using a full parser” 6th Pacific Symposium on Biocomputing (PSB 2001), p 408 - 419 [18] Chinatsu Aone and Mila Ramos-Santacruz Rees (2000), “A large-scale relation and event extraction system” 6th Applied Natural Language Processing Conference (ANLP 2000), p 76 – 83 [19] Huanye Sheng Li Fang and Dongmo Zhang (2002) “Event pattern discovery from the stock market bulletin” 5th International Conference on Discovery Science (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, p 35 – 49 [20] Helen L Johnson Chris Roeder Philip V Ogren-William A Baumgartner Jr Elizabeth White Hannah Tipney K Bretonnel Cohen, Karin Verspoor and Lawrence Hunter (2009) High-precision biological event extraction with a concept recognizer Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting p 50 – 58 [21] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and Stavroula Voyatzi A risk assessment system with automatic extraction of event types (2008) Intelligent Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220 – 229 12 [22] Vargas-Vera Maria and David Celjuska (2004) Event recognition on news stories and semi-automatic population of an ontology 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004) pp 615- 618 13 ... TRUNG XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬ DỤNG THUẬT TOÁN MAXIMUM ENTROPY TRÊN MIỀN DỮ LIỆU TỘI PHẠM Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống Thông tin Mã số : 60480104 LUẬN VĂN THẠC... Tôi xin cam đoan luận văn Xây dựng phân lớp văn sử dụng thuật toán Maximum Entropy miền liệu tội phạm công trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực... mô tả trình tập liệu văn đầu vào, sau qua phân lớp, gán nhãn tương ứng với nội dung Luận văn tập trung nghiên cứu toán phân lớp văn bản, với miền liệu quan tâm miền liệu tội phạm Bao gồm bước