Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
6,55 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ QUANG HỊA ỨNG DỤNG THUẬT TỐN K- LÁNG GIỀNG GẦN NHẤT TRONG PHÂN LOẠI VĂN BẢN TIN TỨC THEO CHỦ ĐỀ Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: TS NINH KHÁNH DUY Đà Nẵng - Năm 2018 LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực Mọi giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn luận văn rõ nguồn gốc rõ ràng phép công bố Người thực luận văn Lê Quang Hòa MỤC LỤC LỜI CAM ĐOAN MỤC LỤC TRANG TÓM TẮT LUẬN VĂN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Lý chọn đề tài Mục đích ý nghĩa đề tài .2 Mục tiêu nhiệm vụ .2 Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết luận Bố cục luận văn CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1 Khái niệm phân lớp văn 1.1.1 Khái niệm 1.1.2 Phân loại toán phân lớp văn 1.2 Mơ hình phân lớp văn dùng tiếp cận học máy 1.3 Th thập iệ .9 1.3.1.Trình thu thập thông tin web .9 1.3.2 Thống kê d liệu .10 1.4 Tiền xử ý văn .11 1.4.1 Làm 12 1.4.2 Tách từ .13 1.4.3 Chuẩn hóa từ 14 1.4.4 Loại bỏ StopWords 14 1.5 Biểu diễn văn ưới dạng vector 17 1.5.1.Túi từ (Bag-of-words) .17 1.5.2 Term Frequency – Inverse Document Frequency (TF-IDF) .19 CHƯƠNG 2: THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT 23 2.1 Khai phá d liệu 23 2.2 Thuật toán K láng giềng gần 24 2.2.1.Giới thiệu chung 24 2.2.2 Nội dungthuật toán 24 2.2.3 Đánh trọng số cho điểm lân cận 26 2.2.4 Ư điểm KNN 26 2.2.5 Nhược điểm KNN 26 2.2.6 Các tham số quan trọng thuật toán KNN 27 CHƯƠNG 3: TRIỂN KHAI VÀ ĐÁNH GIÁ HỆ THỐNG 28 3.1 Môi trường triển khai thử nghiệm 28 3.2 Mô tả d liệu .28 3.3 Sơ đồ phân lớp văn dùng KNN .29 3.4 Cấu hình tham số phân loại văn KNN 30 3.5 Kết thực nghiệm 30 3.5.1 Đánh giá th ật toán KNN 30 3.5.2 So sánh với thuật toán phân loại Naive Bayes 31 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 36 TÀI LIỆU THAM KHẢO 37 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN Học viên TRANG TĨM TẮT LUẬN VĂN ỨNG DỤNG THUẬT TỐN K LÁNG GIỀNG GẦN NHẤT TRONG PHÂN LOẠI VĂN BẢN TIN TỨC THEO CHỦ ĐỀ Học viên: Lê Quang Hòa Chuyên ngành: Ngành Khoa Học Máy Tính Mã số: 8480101 Khóa: 34 Trường Đại học Bách khoa – ĐHĐN Tóm tắt:Việc phân loại văn theo chủ đề có nhiều giới Việt Nam Qua việc phân loại văn nắm bắt xu xã hội website cộng đồng mạng Việc phân loại giúp định, sách hay hành động phù hợp để thích ứng với xã hội nay, mà vận động xã hội thay đổi không ngừng, đặc biệt thời kỳ cách mạng cơng nghiệp 4.0 Thuật tốn phân loại văn KNN nh ng thuật toán để bổ trợ cho thực mục đích Với KNN, ta tận dụng điểm thuật tốn nhằm cơng sức, tận dụng sức mạnh máy móc giảm thời gian thực phân loại văn Trong luận văn, nê ý th yết iên q an đến thuật toán, cách áp dụng việc phân loại văn sử dụng ngôn ng Python Q a đó, đưa kết đánh giá áp dụng thuật toán thực tế Từ khóa:Thuật tốnKNN; Phân loại văn bản; Học máy THE RESEARCH OF APPLYING THE K-NEAREST NEIGHBOR ALGORITHM IN TEXT CLASSIFICATION INTO TOPICS Summary: Text Classification or Text Categorizer into topic has been introduced in Viet Nam and all over the world Thanks to Text Classification, we can grasp the social trend in the website and even in the community Moreover, it helps us make the exact decisions, policies or actions in order to catch up with the constant changes of society, especially during the Industrial Revolution 4.0 The KNN text classification algorithm is one of the algorithms that supports us to fulfill our purposes With KNN, we can take advantage of the algorithm to work, take advantage of the power of the machine, and reduce the time when we the classification of text By using KNN, we can take advantage of the algorithm as well as the power of the machine to reduce the amount of time which we spend carrying out the work of text classification In this research paper, the theories related to this algorithm and the methods to classify texts using the Python language are presented All things considered, the evaluation results are shown so as to apply this algorithm in reality Keywords:knn algorithm; text classification;Machine Learning DANH MỤC CÁC TỪ VIẾT TẮT KNN k-nearest neighbor ML Machine Learning NLP Natural Language Processing BOW Bag-of-words TF-IDF Term Frequency–Inverse Document Frequency SVM Support Vetor Machines DANH MỤC CÁC BẢNG Bảng 3.1 Số ượng văn theo chủ đề dùng thực nghiệm 29 Bảng 3.2 Độ xác nhận dạng theo số chiều vectơ đặc trưng K thay đổi (đơn vị tính %) 31 Bảng 3.3 Độ xác Naive Bayes theo số chiều vec tơ đặc trưng 32 DANH MỤC CÁC HÌNH Hình 1.1 Bài tốn phân lớp văn theo chủ đề Hình 1.2 Sơ đồ khung hệ thống phân lớp văn dùng Học máy Hình 1.3 Kiến trúc trình thu thập d liệu web 10 Hình 1.4 Số báo thu thập theo chủ đề 11 Hình 1.5 Các bước tiền xử ý văn 12 Hình 1.6 Ví dụ bước làm văn 12 Hình 1.7 Ví dụ tách từ 13 Hình 1.8 StopWords tiếng Việt 15 Hình 1.9 Ví dụ dùng từ điển loại bỏ StopWords 16 Hình 1.10 Ví dụ dựa theo tần suất xuất từ 16 Hình 1.11 Mơ hình Bag-of-words 17 Hình 1.12 Thuật tốn để xác định tính nhị phân văn 18 Hình 2.1 Các ĩnh vực iên q an đến khai phá d liệu 23 Hình 2.2 KNN cho toánphân lớp[9] 25 Hình 3.1 Sơ đồ phân lớp văn dùng KNN 29 Hình 3.2 So sánh độ xác cao gi a hai thuật toán phân loại 33 Hình 3.3 Kết phân loại ”Giáo ục” 33 Hình 3.4 Kết phân loại ”Thể thao” 33 Hình 3.5 Kết phân loại ”Khoa học – Công nghệ” 34 Hình 3.6 Kết phân loại ”Sức khỏe” 34 Hình 3.7 Kết phân loại ”Tin tức” 35 MỞ ĐẦU Lý chọn đề tài Như ta biết, thời đại thời đại internet, thời đại bùng nổ thông tin, mà tất người giới sống giới phẳng, đặc biệt iễn cách mạng cơng nghiệp 4.0 ượng thơng tin ngày nhiều, việc phân loại chúng trở nên khó khăn Ở tổ chức nào, với mơ hình hay q y mơ có nh ng nhu cầu tr khai thác thơng tin Đã có nhiều hệ thống phân loại tin tức giới Việt Nam đáp ứng phần nh cầu phân loại tin tức để định Việc phân loại tin tức đem ại thành tựu định, cụ thể: - Xác định xu cộng đồng mạng mà cộng đồng chiếm ngày đơng xã hội Q a xác định xu mặt ngắn hạn xã hội, hỗ trợ cho người sử dụng định phù hợp - Việc phân loại tin tức ứng dụng website thương mại nhằm nắm bắt xu tiêu dùng người sử dụng Một nh ng thuật tốn để ứng dụng cơng việc phân loại d liệu website tin tức tiếng Việt th ật tốn k-láng giềng gần nhất; thuật tốn có điểm: Độ phức tạp q trình huấn luyện 0.Việc dự đốn kết d liệu đơn giản, không cần giả sử phân phối lớp Tuy nhiên, thuật tốn có nhược điểm nhạy cảm với nhiễu k nhỏ Vì thuật tốn k- láng giềng gần tính tốn nằm giai đoạn kiểm thử việc tính tốn khoảng cách đến điểm d liệu tốn nhiều thời gian, đặc biệt sở d liệu lớn có nhiề điểm d liệu Để việc áp dụng thuật toán k- láng giềng gần việc ứng dụng phân loại tin tức giảm chi phí mặt thời gian độ phức tạp cần phải tăng tốc khăc phục nhược điểm cho thuật toán Đề tài nghiên cứu nhằm vận dụng thuật toán k- láng giềng gần theo cách dựa sở lý thuyết Mục đích ý nghĩa đề tài Mục đích Mục đích nghiên cứu đề tài: - Nghiên đề xuất phương pháp phân oại văn theo chủ đề dựa thuật tốn k- láng giềng - Tích hợp giải pháp vào hệ thống phân loại văn theo chủ đề đánh giá hiệu Ý nghĩa khoa học thực tiễn đề tài - Đóng góp mặt phương pháp ận thực nghiệm vào ĩnh vực phân oại văn bản, nhánh nghiên xử ý ngôn ng tự nhiên - Cải tiến chất ượng hệ thống phân oại văn có để nâng cao q ản ý x tin tức Mục tiêu nhiệm vụ Mục tiêu - Mục tiêu đề tài Ứng dụng thuật tốn k-láng giềng gần vào hệ thống xử ý thông tin để phân loại thông tin theo chủ đề - Nghiên cải thiện th ật toán k- giềng hệ thống phân oại tin tức Nhiệm vụ Để đạt nh ng mục tiêu nhiệm vụ đặt đề tài là: - Th thập iệ mẫ từ trang Web tiếng Việt - Nghiên phương pháp biể iễn văn ưới ạng vec-tơ để đưa vào áp ụng th ật toán k- giềng gần - Phát biể , phân tích cài đặt giải th ật cho toán hệ thống phân oại tin tức - Đánh giá so sánh kết q ả phân oại với th ật khác Naïve Bayes Support Vector Machine 33 Hình 3.2 So sánh độ xác cao hai thuật toán phân loại Sa số ví dụ kết phân loại KNN phần mềm với độ xác cao K=12 số chiều vec tơ đặc trưng 40 Hình 3.3 Kết phân loại ”Giáo dục” Hình 3.4 Kết phân loại ”Thể thao” 34 - Một số kết phân loại tài liệu khác: Hình 3.5 Kết phân loại ”Khoa học – Cơng nghệ” Hình 3.6 Kết phân loại ”Sức khỏe” 35 Hình 3.7 Kết phân loại ”Tin tức” 36 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Mục đích đề tài nhằm xây dựng hệ thống phân loại văn tin tức tiếng Việt Thiết lập quy trình phân loại văn chặt chẽ, thông suốt, theo chủ đề, thuận tiện cho việc tìm kiếm, tra cứu, theo dõi cần thiết Kết thực nghiệm cho thấy hệ thống nhận dạng độ xác cao 86.45% trường hợp K=12 số chiề vec tơ đặc trưng 4000 Khi so sánh với thuật toán phân loại văn khác Naive Bayes, ta rút điều dù thuật tốn KNN đơn giản hơn, ễ sử dụng độ xác thuật tốn KNN khơng mà thấp (kết thực nghiệm cho thấy thuật toán phân loại Naive Bayes đạt độ xác cao 86.00% d liệu) Kết vừa xem chưa phải kết , hy vọng bước khởi đầu thuận lợi làm tiền đề nghiên để thực nh ng chương trình phân oại văn tin tức tiếng Việt tốt n a tương Hướng phát triển đề tài Việc nghiên đề tài phân loại văn văn tin tức tiếng Việt không dừng mức độ đồ án tốt nghiệp, cần phải tìm hiểu tiếp tục nghiên sâ th ật toán phân loại văn khác nhằm đem ại hiệu suất cao Mở rộng phân oại tin tức văn ĩnh vực khác như: hành chính, ật pháp, … 37 TÀI LIỆU THAM KHẢO [1] Daniel J rafsky an James H Martin, “Speech an Lang age Processing”, Stanford University, University of Colorado at Boulder, Third Edition draft, 2017 [2] Vũ H u Tiệp, “Machine Learning bản”, 2017 [3] Ni s J Ni sson, “Intro ction to machine earning”, Robotics Laboratory, Department of Computer Science, Stanford University, Stanford, CA 94305, November 3, 1998 [4] https://www.udemy.com/machinelearning/ [5] Trần Thị Lan Hương, “Nghiên cứu phân lớp tự động văn báo chí tiếng Việt tài ng yên môi trường”, luận văn thạc sĩ ngành Hệ thống thông tin trường Đại học Công nghệ, 2012 [6] Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Phạm Thế Phi, Đỗ Thanh Nghị, “Sự ảnh hưởng phương pháp tách từ toán phân lớp văn tiếng Việt”, khoa Công nghệ thông tin truyền thông, trường Đại học Cần Thơ, 2016 [7] Triệu Thị Ly Ly, “ eat re Extraction Metho s In News Doc ment C assification Prob em”, luận văn tốt nghiệp ngành Công nghệ thông tin trường Đại học Bách khoa Đà Nẵng, 2017 [8] Shai Shalev-Shwartz and Shai Ben-Davi , “Un erstan ing Machine Learning: rom Theory to A gorithms”, Cambri ge University, 2014 [9] https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm [10] https://medium.com/pymi/kh%C3%A1m-ph%C3%A1-th%C6%B0vi%E1%BB%87n-sklearn-machine-learning-1fa765f25966 [11] https://github.com/magizbox/underthesea/wiki/Vietnamese-NLPTools#word-segmentation