Luan van ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ QUANG HÒA ỨNG DỤNG THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT TRONG PHÂN LOẠI VĂN BẢN TIN TỨC THEO CHỦ ĐỀ Chuyên ngành Khoa học máy tính Mã số 8480101 LUẬN V[.]
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ QUANG HỊA ỨNG DỤNG THUẬT TỐN K- LÁNG GIỀNG GẦN NHẤT TRONG PHÂN LOẠI VĂN BẢN TIN TỨC THEO CHỦ ĐỀ Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: TS NINH KHÁNH DUY Đà Nẵng - Năm 2018 LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn trung thực Mọi giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn luận văn rõ nguồn gốc rõ ràng phép công bố Người thực luận văn Lê Quang Hòa MỤC LỤC LỜI CAM ĐOAN MỤC LỤC TRANG TÓM TẮT LUẬN VĂN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Lý chọn đề tài Mục đích ý nghĩa đề tài .2 Mục tiêu nhiệm vụ .2 Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết luận Bố cục luận văn CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1 Khái niệm phân lớp văn 1.1.1 Khái niệm 1.1.2 Phân loại toán phân lớp văn 1.2 Mơ hình phân lớp văn dùng tiếp cận học máy 1.3 Th thập iệ .9 1.3.1.Trình thu thập thông tin web .9 1.3.2 Thống kê d liệu .10 1.4 Tiền xử ý văn .11 1.4.1 Làm 12 1.4.2 Tách từ .13 1.4.3 Chuẩn hóa từ 14 1.4.4 Loại bỏ StopWords 14 1.5 Biểu diễn văn ưới dạng vector 17 1.5.1.Túi từ (Bag-of-words) .17 1.5.2 Term Frequency – Inverse Document Frequency (TF-IDF) .19 CHƯƠNG 2: THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT 23 2.1 Khai phá d liệu 23 2.2 Thuật toán K láng giềng gần 24 2.2.1.Giới thiệu chung 24 2.2.2 Nội dungthuật toán 24 2.2.3 Đánh trọng số cho điểm lân cận 26 2.2.4 Ư điểm KNN 26 2.2.5 Nhược điểm KNN 26 2.2.6 Các tham số quan trọng thuật toán KNN 27 CHƯƠNG 3: TRIỂN KHAI VÀ ĐÁNH GIÁ HỆ THỐNG 28 3.1 Môi trường triển khai thử nghiệm 28 3.2 Mô tả d liệu .28 3.3 Sơ đồ phân lớp văn dùng KNN .29 3.4 Cấu hình tham số phân loại văn KNN 30 3.5 Kết thực nghiệm 30 3.5.1 Đánh giá th ật toán KNN 30 3.5.2 So sánh với thuật toán phân loại Naive Bayes 31 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 36 TÀI LIỆU THAM KHẢO 37 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN Học viên TRANG TĨM TẮT LUẬN VĂN ỨNG DỤNG THUẬT TỐN K LÁNG GIỀNG GẦN NHẤT TRONG PHÂN LOẠI VĂN BẢN TIN TỨC THEO CHỦ ĐỀ Học viên: Lê Quang Hòa Chuyên ngành: Ngành Khoa Học Máy Tính Mã số: 8480101 Khóa: 34 Trường Đại học Bách khoa – ĐHĐN Tóm tắt:Việc phân loại văn theo chủ đề có nhiều giới Việt Nam Qua việc phân loại văn nắm bắt xu xã hội website cộng đồng mạng Việc phân loại giúp định, sách hay hành động phù hợp để thích ứng với xã hội nay, mà vận động xã hội thay đổi không ngừng, đặc biệt thời kỳ cách mạng cơng nghiệp 4.0 Thuật tốn phân loại văn KNN nh ng thuật toán để bổ trợ cho thực mục đích Với KNN, ta tận dụng điểm thuật tốn nhằm cơng sức, tận dụng sức mạnh máy móc giảm thời gian thực phân loại văn Trong luận văn, nê ý th yết iên q an đến thuật toán, cách áp dụng việc phân loại văn sử dụng ngôn ng Python Q a đó, đưa kết đánh giá áp dụng thuật toán thực tế Từ khóa:Thuật tốnKNN; Phân loại văn bản; Học máy THE RESEARCH OF APPLYING THE K-NEAREST NEIGHBOR ALGORITHM IN TEXT CLASSIFICATION INTO TOPICS Summary: Text Classification or Text Categorizer into topic has been introduced in Viet Nam and all over the world Thanks to Text Classification, we can grasp the social trend in the website and even in the community Moreover, it helps us make the exact decisions, policies or actions in order to catch up with the constant changes of society, especially during the Industrial Revolution 4.0 The KNN text classification algorithm is one of the algorithms that supports us to fulfill our purposes With KNN, we can take advantage of the algorithm to work, take advantage of the power of the machine, and reduce the time when we the classification of text By using KNN, we can take advantage of the algorithm as well as the power of the machine to reduce the amount of time which we spend carrying out the work of text classification In this research paper, the theories related to this algorithm and the methods to classify texts using the Python language are presented All things considered, the evaluation results are shown so as to apply this algorithm in reality Keywords:knn algorithm; text classification;Machine Learning DANH MỤC CÁC TỪ VIẾT TẮT KNN k-nearest neighbor ML Machine Learning NLP Natural Language Processing BOW Bag-of-words TF-IDF Term Frequency–Inverse Document Frequency SVM Support Vetor Machines DANH MỤC CÁC BẢNG Bảng 3.1 Số ượng văn theo chủ đề dùng thực nghiệm 29 Bảng 3.2 Độ xác nhận dạng theo số chiều vectơ đặc trưng K thay đổi (đơn vị tính %) 31 Bảng 3.3 Độ xác Naive Bayes theo số chiều vec tơ đặc trưng 32 DANH MỤC CÁC HÌNH Hình 1.1 Bài tốn phân lớp văn theo chủ đề Hình 1.2 Sơ đồ khung hệ thống phân lớp văn dùng Học máy Hình 1.3 Kiến trúc trình thu thập d liệu web 10 Hình 1.4 Số báo thu thập theo chủ đề 11 Hình 1.5 Các bước tiền xử ý văn 12 Hình 1.6 Ví dụ bước làm văn 12 Hình 1.7 Ví dụ tách từ 13 Hình 1.8 StopWords tiếng Việt 15 Hình 1.9 Ví dụ dùng từ điển loại bỏ StopWords 16 Hình 1.10 Ví dụ dựa theo tần suất xuất từ 16 Hình 1.11 Mơ hình Bag-of-words 17 Hình 1.12 Thuật tốn để xác định tính nhị phân văn 18 Hình 2.1 Các ĩnh vực iên q an đến khai phá d liệu 23 Hình 2.2 KNN cho toánphân lớp[9] 25 Hình 3.1 Sơ đồ phân lớp văn dùng KNN 29 Hình 3.2 So sánh độ xác cao gi a hai thuật toán phân loại 33 Hình 3.3 Kết phân loại ”Giáo ục” 33 Hình 3.4 Kết phân loại ”Thể thao” 33 Hình 3.5 Kết phân loại ”Khoa học – Công nghệ” 34 Hình 3.6 Kết phân loại ”Sức khỏe” 34 Hình 3.7 Kết phân loại ”Tin tức” 35 MỞ ĐẦU Lý chọn đề tài Như ta biết, thời đại thời đại internet, thời đại bùng nổ thông tin, mà tất người giới sống giới phẳng, đặc biệt iễn cách mạng cơng nghiệp 4.0 ượng thơng tin ngày nhiều, việc phân loại chúng trở nên khó khăn Ở tổ chức nào, với mơ hình hay q y mơ có nh ng nhu cầu tr khai thác thơng tin Đã có nhiều hệ thống phân loại tin tức giới Việt Nam đáp ứng phần nh cầu phân loại tin tức để định Việc phân loại tin tức đem ại thành tựu định, cụ thể: - Xác định xu cộng đồng mạng mà cộng đồng chiếm ngày đơng xã hội Q a xác định xu mặt ngắn hạn xã hội, hỗ trợ cho người sử dụng định phù hợp - Việc phân loại tin tức ứng dụng website thương mại nhằm nắm bắt xu tiêu dùng người sử dụng Một nh ng thuật tốn để ứng dụng cơng việc phân loại d liệu website tin tức tiếng Việt th ật tốn k-láng giềng gần nhất; thuật tốn có điểm: Độ phức tạp q trình huấn luyện 0.Việc dự đốn kết d liệu đơn giản, không cần giả sử phân phối lớp Tuy nhiên, thuật tốn có nhược điểm nhạy cảm với nhiễu k nhỏ Vì thuật tốn k- láng giềng gần tính tốn nằm giai đoạn kiểm thử việc tính tốn khoảng cách đến điểm d liệu tốn nhiều thời gian, đặc biệt sở d liệu lớn có nhiề điểm d liệu Để việc áp dụng thuật toán k- láng giềng gần việc ứng dụng phân loại tin tức giảm chi phí mặt thời gian độ phức tạp cần phải tăng tốc khăc phục nhược điểm cho thuật toán Đề tài nghiên cứu nhằm vận dụng thuật toán k- láng giềng gần theo cách dựa sở lý thuyết Mục đích ý nghĩa đề tài Mục đích Mục đích nghiên cứu đề tài: - Nghiên đề xuất phương pháp phân oại văn theo chủ đề dựa thuật tốn k- láng giềng - Tích hợp giải pháp vào hệ thống phân loại văn theo chủ đề đánh giá hiệu Ý nghĩa khoa học thực tiễn đề tài - Đóng góp mặt phương pháp ận thực nghiệm vào ĩnh vực phân oại văn bản, nhánh nghiên xử ý ngôn ng tự nhiên - Cải tiến chất ượng hệ thống phân oại văn có để nâng cao q ản ý x tin tức Mục tiêu nhiệm vụ Mục tiêu - Mục tiêu đề tài Ứng dụng thuật tốn k-láng giềng gần vào hệ thống xử ý thông tin để phân loại thông tin theo chủ đề - Nghiên cải thiện th ật toán k- giềng hệ thống phân oại tin tức Nhiệm vụ Để đạt nh ng mục tiêu nhiệm vụ đặt đề tài là: - Th thập iệ mẫ từ trang Web tiếng Việt - Nghiên phương pháp biể iễn văn ưới ạng vec-tơ để đưa vào áp ụng th ật toán k- giềng gần - Phát biể , phân tích cài đặt giải th ật cho toán hệ thống phân oại tin tức - Đánh giá so sánh kết q ả phân oại với th ật khác Naïve Bayes Support Vector Machine CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1 Khái niệm phân lớp văn 1.1.1 Khái niệm Phân lớp văn bản(Text classification) trình gán nhãn(tên lớp / nhãn lớp) văn ngôn ng tự nhiên cách tự động vào nhiều lớp cho truớc Phân lớp văn toán khai phá d liệ văn Bài toán phân lớp văn việc gán tên chủ đề (tên lớp/nhãn lớp) xác định trước, vào văn dựa nội dung chúng Phân lớp văn công việc sử dụng để hỗ trợ q trình tìm kiếm thơng tin, chiết lọc thông tin, lọc văn tự động dẫn đường cho văn tới nh ng chủ đề xác định trước Phân lớp văn thực thủ công tự động sử dụng kỹ thuật học máy có giám sát Các hệ thống phân lớp ứng dụng việc phân loại tài liệu thư viện điện tử, phân loại văn báo chí trang tin điện tử… nh ng hệ thống tốt, cho kết khả quan, giúp ích nhiề cho người[5] Hình 1.1 Bài tốn phân lớp văn theo chủ đề Thông thường, lớp cho truớc chủ đề đó, nh ng có nhiều ứng dụng mà lớp đ ợc thiết lập theo nh ng tiêu chí khác, nhu phân lớp theo độ ưu tiên, phân lớp theo chủ đề Hầu hết toán tốn nhiều thời gian, công sức khơng xác nế phân loại cách thủ công - tức đọc văn gán vào lớp Đặc biệt với số lượng tài liệu cần phân lớp lớn nhu việc phân lớp thủ cơng điều Phân loại nh ng đối tuợng vào lớp phương pháp thủ công gặp phải nh ng khó khăn sa : - Đối với ĩnh vực đặc biệt, phân loại đối tuợng (như sở d liệu y tế, pháp luật, tài chính, ngân hàng ) vào lớp cho truớc cần có hiểu biết ĩnh vực - Phân loại tay đơi khơng xác q yết định phụ thuộc vào hiểu biết động nguời thực - Quyết định hai chuyên gia khác nảy sinh bất đồng ý kiến Vì nh ng cơng cụ để tự động phân lớp văn vào lớp h u ích với cơng việc thông tin tràn ngập ngày Một số phuong pháp phân lớp thống kê kĩ th ật học máy Bayesian, máy vector hỗ trợ (Support Vector Machines), K láng giềng gần nhất, mạng noron đ ợc áp dụng để giải tốn Chính nh ng nhuợc điểm phương pháp thủ cơng nên việc xây dựng phân lớp văn tự động điều quan trọng cần thiết, đặc biệt hầu hết thông tin đ ợc sinh luu tr điện tử Các báo khoa học giải trí nh ng ví dụ tập tài liệ điện tử Với phát triển ngày mạnh mẽ mạng internet intranet tạo nguồn thông tin vô phong phú Các kỹ thuật phân lớp văn giúp cho nguồn d liệ đ ợc lư tr tự động cách hiệu đ ợc tìm kiếm nhanh chóng Phân lớp văn đ ợc xuất từ nh ng năm 1960, 15 năm sa , trở thành ĩnh vực nghiên cứu hệ thống thơng tin đa dạng ứng dụng Phân lớp văn công việc đ ợc sử dụng để hỗ trợ q trình tìm kiếm thơng tin (Information Retrieval), chiết lọc thông tin (Information Extraction), lọc văn tự động dẫn đường cho văn tới nh ng chủ đề xác định truớc Một ứng dụng khác phân lớp văn ĩnh vực hiể văn Phân lớp văn đ ợc sử dụng để lọc văn phần văn chứa d liệu cần tìm mà khơng làm tính phức tạp ngơn ng tự nhiên 1.1.2 Phân loại toán phân lớp văn Tùy vào nh ng ràng buộc khác nha để phân loại toán phân lớp văn Nhìn chung phân biệt toán phân lớp theo hai cách sau: - Phân lớp văn nhị phân / đa ớp: Bài toán phân lớp văn gọi nhị phân số lớp 2, gọi đa ớp số lớp lớn - Phân lớp văn đơn nhãn / đa nhãn: Bài toán phân lớp văn gọi đơn nhãn tài liệ gán vào xác lớp Bài tốn phân lớp văn gọi đa nhãn tài liệu gán nhiề nhãn Trên thực tế, phân lớp hai lớp (phân lớp nhị phân) trường hợp đặc biệt toán phân lớp song xuất xứ phân lớp nhị phân có vị trí riêng đặt tốn lẫn giải pháp 1.2 Mơ hình phân lớp văn dùng tiếp cận học máy Th ật ng học máy đề cập đến việc phát tự động có ý nghĩacác mẫ iệ Học máy ập trình máy tính để họ "tìm hiể " từ đầ vào có sẵn cho máy tính Đầ vào th ật toán học máy iệ h ấn yện chứa kiến thức, tri thức mà cần cho máy học Đầ thơng số tính tốn q trình học máy mà sử ụng để àm việc khác phục vụ cho mục đích mà m ốn máy thực thông q a việc học máy[8] Phân ớp văn nhà nghiên định nghĩa thống việc gán tên chủ đề (tên ớp / nhãn ớp) xác định cho trước vào văn text ựa nội ng Phân ớp văn công việc sử ụng để hỗ trợ q trình tìm kiếm thơng tin (Information Retrieva ), chiết ọc thông tin (Information Extraction), ọc văn tự động ẫn đường cho văn tới nh ng chủ đề xác định trước Để phân oại văn bản, người ta sử ụng phương pháp học máy có giám sát Tập tập h ấn iệ chia àm hai tập yện tập kiểm tra, trước hết phải xây ựng mơ hình thơng q a mẫ học tập h ấn yện, sa kiểm tra xác tập iệ kiểm tra Hình 1.2 Sơ đồ khung hệ thống phân lớp văn dùng Học máy Hình biể iễn sơ đồ kh ng hệ thống phân ớp văn bản, bao gồm ba thành phần chính: - Biể iễn văn bản, tức ch yển iệ văn thành ạng có cấ trúc đó, tập hợp mẫ cho trước thành tập h ấn yện - Thực việc sử ụng kỹ th ật học máy để học mẫ h ấn luyện vừa biể iễn Như việc biể cho giai đoạn thứ hai iễn giai đoạn thứ đầ vào - Thực bổ s ng kiến thức thêm vào o ng ời ùng c ng cấp để àm tăng độ xác biể iễn văn hay q trình học máy Trong nhiề tr ờng hợp, ph ơng pháp học hệ thống phân ớp bỏ q a thành phần Như thành phần thứ ba đ ợc coi tr ng tâm hệ thống phân ớp văn Trong phần này, có nhiề ph ơng pháp học máy đ ợc áp ụng mô hình mạng Bayes, q yết định, phương pháp K giềng gần nhất, mạng Neuron, SVM, mơ hình Maximum Entropy 1.3 Th thập iệ Để đảm bảo tính đa ạng nguồn d liệu, thu thập viết từ 10 trang web điện tử phổ biến Việt Nam (dựa http://alexa.com) - Daikynguyenvn.com - Zing.vn - Vnexpress.net - 24h.com.vn - Kenh14.vn - Nguoiduatin.vn - Dantri.com.vn - Vietnamnet.vn - Tuoitre.vn - Tinhte.vn Mỗi trang chia thành 20 chủ đề Các chủ đề bao gồm: Tin tức, Thế giới, Văn hóa - Văn học, Cuộc sống, Y tế, Khoa học - Công nghệ, Kinh tế, Thể thao, Du lịch, Âm nhạc, Phim, Luật, Tự động - Moto, Thời trang, Trẻ sống, Giáo dục, Nói chuyện, Quảng cáo, Khám phá, Sao 1.3.1.Trình thu thập thơng tin web Một trình thu thập d liệ web, đơi gọi spider, 10 chương trình tự động chạy internet có hệ thống duyệt world wide web, thường cho mục đích ập mục web Hình 1.3 Kiến trúc trình thu thập liệu web Trong luận án tôi, sử dụng thư viện scrapy, nh ng thư viện tìm kiếm python phổ biến mạnh mẽ nhất, để trích xuất d liệu cách hiệu từ nguồn d liệu trì scrapinghub ltd., công ty phát triển dịch vụ web Kiến trúc dự án sơ sài xây dựng xung quanh ' spider ', trình thu thập thơng tin độc lập cung cấp hướng dẫn theo tinh thần người khác không lặp lại khn khổ mình, giúp việc xây dựng quy mô dự án thu thập d liệu lớn dễ àng cách cho phép sử dụng lại mã họ 1.3.2 Thống kê liệu Kết à, th thập viết khác từ trang web điện tử tiếng Việt 11 Hình 1.4 Số báo thu thập theo chủ đề 1.4 Tiền xử ý văn Bước thiếu việc xử lý ngôn ng tự nhiên tiền xử ý Vì văn vốn ĩ liệt kê mà khơng có cấ trúc, để nguyên để xử lý khó khăn Đặc biệt loại văn web có lẫn HTML tag, co e JS, noise.Vì vậy, ta phải biến đổi tài liệu sang khuôn dạng phù hợp với giải thuậtphân loại Phép xử ý gọi tiền xử ý văn (text preprocessing) Ch “tiền” m ốn nói pha thực trước, chuẩn bị nguyên liệucần thiết cho pha học hàm phân loại phân loại Bước tiền xử lý nhìn chung mơ tả tóm tắt sa : 12 Có bước tiền xử lý: Hình 1.5 Các bước tiền xử lý văn 1.4.1 Làm Mục đích bước loại bỏ nhiễu ata Đa phần nhiễu thẻ HTML, JavaScript, đương nhiên để nhiễu để tiến hành xử lý dẫn đến kết xử lý khơng tốt Ví dụ đơn giản sa : Hình 1.6 Ví dụ bước làm văn Thông thường hay loại bỏ nhiễu thẻ HTML JS nhiên thực tế nhiễu khơng HTML, JS, nh ng cụm từ khơng cần thiết, hay ký tự khơng có ý nghĩa ($%#") dụng trang web https://regex101.com/ để loại bỏ Có thể sử 13 Trong python, có thư viện để sử dụng việc làm từ: BeautifulSoup lxml 1.4.2 Tách từ Trong tiếng Việt, dấ cách (space) không sử dụng kí hiệu phân tách từ, có ý nghĩa phân tách âm tiết với Vì thế, để xử lý tiếng Việt, cơng đoạn tách từ (word segmentation) nh ng toán quan trọng bậc nhất[6] Ví dụ : từ “đất nước” tạo từ 02 âm tiết “đất” “nước”, 02 âm tiết đề có nghĩa riêng đứng độc lập, ghép ại mang nghĩa khác Vì đặc điểm này, toán tách từ trở thành toán tiền đề cho ứng dụng xử lý ngôn ng tự nhiên khác phân oại văn bản, tóm tắt văn bản, máy dịch tự động, … Như ví ụ sau: Hình 1.7 Ví dụ tách từ Tách từ xác hay khơng cơng việc quan trọng, khơng xác dẫn đến việc ý nghĩa câu sai, ảnh hưởng đến tính xác chương trình 14 Có nhiề phương pháp để thực tách từ giới thiệu [11] 1.4.3 Chuẩn hóa từ Mục đích đưa văn từ ạng khơng đồng ạng Dưới góc độ nhớ tr tính xác q an trọng Ví ụ: U.S.A = USA Ví ụ từ điển, iệ h ấn yện khơng có U.S.A, có USA, việc đổi nh ng từ U.S.A USA điề cần thiết để bước xử ý sa phân oại văn bản, phát chủ đề xác Có nhiề cách viết, cách viết tr tốn ượng nhớ khác nha , f size tốn 1/2 ng ượng so với f size nên t ỳ theo nh cầ , tình hình thực tế, đưa văn ạng đồng Ngoài vài trường hợp, nế ký tự số khơng mang ại ợi ích tiến hành oại bỏ ký tự số đó, nế để ng yên ký tự số trở thành nhiễ , ảnh hưởng đến tính xác mơ hình sau 1.4.4 Loại bỏ StopWords StopWords nh ng từ xuất nhiều ngôn ng tự nhiên, nhiên lại không mang nhiề ý nghĩa Ở tiếng việt StopWords nh ng từ như: để, này, Ư điểm phép xử lý từ khơng có ý nghĩa bị loại bỏ khơng can thiệp vào q trình phân loại sa , mà kích thước file tài liệu giảm khoảng 30 đến 50 phần trăm Một số StopWords tiếng Việt: 15 Hình 1.8 StopWords tiếng Việt Có nhiề cách để loại bỏ StopWor s có cách à: • Dùng từ điển • Dựa theo tần s ất x ất từ - Dùng từ điển: Cách đơn giản nhất, tiến hành lọc văn bản, loại bỏ nh ng từ xuất từ điển StopWords: 16 Ví dụ: Hình 1.9 Ví dụ dùng từ điển loại bỏ StopWords - Dựa theo tần suất xuất từ: Với cách này, tiến hành đếm số lần xuất từ d liệu sa loại bỏ nh ng từ xuất nhiều lần (cũng lần) Khoa học chứng minh nh ng từ xuất nhiều thường nh ng từ khơng mang nhiề ý nghĩa Ví dụ: Hình 1.10 Ví dụ dựa theo tần suất xuất từ 17 Trên top 50 từ xuất nhiều sách, dễ dàng nhận thấy chúng khơng mang nhiề ý nghĩa Chính loại bỏ nh ng từ Tải FULL (55 trang): https://bit.ly/3fQM1u2 Dự phòng: fb.com/KhoTaiLieuAZ 1.5 Biểu diễn văn ưới dạng vector Một nh ng phương pháp phổ biến để biểu diễn văn ưới dạng vector, biểu diễn văn phương pháp Bag-of-words (BOW) 1.5.1.Túi từ (Bag-of-words) Khái niệm: cách biểu diễn đơn giản sử dụng xử lý ngôn ng tự nhiên truy xuất thơng tin.Mơ hình BOW biểu diễn đơn giản sử dụng xử lý ngôn ng tự nhiên truy xuất thông tin Trong mơ hình này, tài liệu văn biểu diễn thể túi từ nó, bỏ qua ng pháp thứ tự từ gi tần số từ tài liệu Nội dung: ý tưởng BOW là: chạy từ đầ đến cuối văn bản, gặp từ tăng số lần đếm từ từ anh sách từ trước.Mơ hình bag-of-wor s thường sử dụng phương pháp phân oại tài liệu, nơi xuất từ sử dụng tính để đào tạo trình phân loại Tập từ có tần Văn Mơ hình suất xuất cao Bag-of-words văn Hình1.11 Mơ hình Bag-of-words Khi mơ hình áp dụng để thể văn bản, từ biểu diễn số nhị phân phụ thuộc vào việc từ thuộc tập từ tần số cao hay không Kết à, văn đầ vào biểu diễn vectơ nhị phân Thuật toán để xác định tính nhị phân văn hiển thị hình ưới: 18 Hình 1.12 Thuật tốn để xác định tính nhị phân văn Ví dụ: Tải FULL (55 trang): https://bit.ly/3fQM1u2 Dự phòng: fb.com/KhoTaiLieuAZ Các mơ hình sa tài iệ văn sử dụng từ khóa Dưới hai tài liệ văn đơn giản: (1) John thích xem phim Mary thích phim (2) John thích xem trận bóng đá Dựa hai tài liệ văn này, anh sách xây dựng sa cho tài liệu: "John" , "thích" , "tới" , "xem" , "phim" , "Mary" , "thích" , "phim" , "quá" "John" , "cũng" , "thích" , "tới" , "xem" , "bóng đá" , "trị chơi" Mỗi khóa từ giá trị số lần xuất từ tài iệu văn cho (thứ tự phần tử không quan trọng) Chuỗi văn thứ biểu diễn ưới dạng vector: { "John" : , " ượt thích" : , "tới" : , "xem" : , "phim" : , "Mary" : , "quá" : }; 19 Chuỗi văn thứ hai biểu diễn ưới dạng vector: { "John" : , "cũng" : , "thích" : , "tới" : , "xem" : , "trò chơi" : }; Hai chuỗi biểu diễn chuỗi thứ ba: { "John" : , "thích" : , "tới" : , "xem" : , "phim" : , "Mary" : , "q á" : , "cũng" : , "bóng đá" : , "trị chơi" : }; 1.5.2 Term Frequency – Inverse Document Frequency (TF-IDF) Trong phần giới thiệu BOW, sử dụng biểu diễn từ để tạo vectơ đặc trưng mã hóa có hay khơng từ tập từ vựng - tập hợp từ tần số cao Các vectơ đặc trưng khơng mã hóa ng pháp, thứ tự từ tần số từ Nó trực quan tần số mà từ xuất tài liệu mức độ mà tài liệ iên q an đến từ Một tài liệu dài có chứa lần xuất từ thảo luận chủ đề hồn tồn khác với tài liệu có chứa nhiều lần xuất từ Trong phần này, tơi tạo vector đặc trưng mã hóa tần số từ Thay sử dụng giá trị nhị phân cho phần tử vectơ đặc trưng, sử dụng trọng số TF-IDF Khái niệm:tf-idf TF-IDF, viết tắt Term Frequency – Inverse Doccument Frequencylà số th qua thống kê thể mức độ quan trọng từ văn bản, mà thân văn xét nằm tập hợp văn bản.Giá trị tf-i f tăng tương ứng với số lần từ xuất tài liệ , thường bù đắp tần số từ kho văn bản, giúp điều chỉnh thực tế số từ xuất thường x yên nói chung[1][7] Nội dung: -Term Frequency (TF): tần số xuất từ văn Cách tính: /7761839 ... thống phân oại văn có để nâng cao q ản ý x tin tức Mục tiêu nhiệm vụ Mục tiêu - Mục tiêu đề tài Ứng dụng thuật tốn k -láng giềng gần vào hệ thống xử ý thông tin để phân loại thông tin theo chủ đề. .. GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN Học viên TRANG TĨM TẮT LUẬN VĂN ỨNG DỤNG THUẬT TỐN K LÁNG GIỀNG GẦN NHẤT TRONG PHÂN LOẠI VĂN... toán k- láng giềng gần việc ứng dụng phân loại tin tức giảm chi phí mặt thời gian độ phức tạp cần phải tăng tốc khăc phục nhược điểm cho thuật toán Đề tài nghiên cứu nhằm vận dụng thuật toán k- láng