Phân lớp văn bản dựa vào máy học và facebooks fasttext: luận văn thạc sĩ

81 194 2
Phân lớp văn bản dựa vào máy học và facebooks fasttext: luận văn thạc sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** LÊ THỊ MAI PHÂN LỚP VĂN BẢN DỰA VÀO MÁY HỌC VÀ FACEBOOK'S FASTTEXT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** LÊ THỊ MAI PHÂN LỚP VĂN BẢN DỰA VÀO MÁY HỌC VÀ FACEBOOK'S FASTTEXT Chuyên ngành: Công nghệ thông tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC LUNG Đồng Nai - Năm 2019 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tôi, tài liệu kết nghiên cứu luận văn trung thực Mọi nội dung tham khảo từ tài liệu trích dẫn thích đầy đủ Tơi xin chịu trách nhiệm luận văn Học viên Lê Thị Mai ii LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn Trường Đại học Lạc Hồng tổ chức khóa học này, để em có điều kiện học tập lĩnh hội kiến thức có thời gian để hoàn thành luận văn Em xin chân thành cảm ơn thầy, cô khoa Sau Đại Học thầy, cô khoa Công nghệ Thông tin tận tình truyền đạt kiến thức kĩ cần thiết cho em suốt trình học tập Em xin chân thành cảm ơn thầy PGS.TS Vũ Đức Lung hướng dẫn, góp ý tận tình tỉ mỉ tạo điều kiện để em hoàn thành luận văn Em xin chân thành cảm ơn Trường Đại học Nguyễn Huệ (Trường Sĩ Quan Lục Quân 2), quan đơn vị trường khoa Khoa Học học Cơ bản, đồng chí Bộ môn Tin học tạo điều kiện, chia sẻ thời gian, cơng việc em học khóa học Cuối cùng, em xin bày tỏ lòng biết ơn sâu sắc từ phía Cha, Mẹ, chồng động viên hỗ trợ em để em có kết ngày hôm Học viên Lê Thị Mai iii TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC TÓM TẮT LUẬN VĂN (Dùng cho học viên người hướng dẫn) Đề tài: Phân lớp văn dựa vào máy học facebook's fasttext Ngành: Công nghệ thông tin Mã số: 8480201 Học viên: Lê Thị Mai Người hướng dẫn: PGS.TS Vũ Đức Lung NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn - Thu thập liệu trang vnexpress.vn - Xây dựng công cụ tạo liệu theo chuẩn fastText - Nghiên cứu thuật toán giả mã để xây dựng công cụ tạo liệu chuẩn cho fastText - Tiến hành thử nghiệm phân tích kết đạt - Đánh giá độ xác, tốc độ xử lí cơng cụ facebook's fasttext phân lớp văn tiếng Việt Cách thức giải vấn đề - Nghiên cứu công cụ mã nguồn mở Facebook’s FastText - Dùng công cụ labeling Pycharm để xây dựng liệu chuẩn cho fastText - Huấn luyện liệu theo tỉ lệ 100:30 Đánh giá mặt khoa học kết - Luận văn hệ thống hoá lý thuyết liên quan tới toán phân lớp văn bản, đặc biệt trình bày chi tiết thuật tốn máy học cho toán - Luận văn nghiên cứu công cụ Facebook’s FastText thiết kế ứng dụng hỗ trợ tạo liệu chuẩn fastText giúp người dùng fastText nhanh chóng có liệu mong muốn - Luận văn nghiên cứu cài đặt thử nghiệm phân lớp văn tiếng Việt với lớp lớp có 100 file training 30 file để testing cho kết nhanh với độ xác cao Những vấn đề cịn tồn so với nội dung giao (nếu có) Ngày tháng 11 năm 2019 NGƯỜI HƯỚNG DẪN HỌC VIÊN PGS.TS Vũ Đức Lung Lê Thị Mai iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iv DANH MỤC HÌNH VẼ vi DANH MỤC TỪ VIẾT TẮT ix MỞ ĐẦU .1 Chương 1.TỔNG QUAN BÀI TOÁN PHÂN LỚP VĂN BẢN 1.1 Tổng quan đề tài nước 1.2 Mục tiêu luận văn 1.3 Đối tượng phạm vi nghiên cứu 1.4 Nội dung Bố cục luận văn .3 Chương 2.CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN THÔNG DỤNG 2.1 Các đặc điểm ngôn ngữ tiếng Anh tiếng Việt 2.1.1 Các đặc điểm tiếng Anh .5 2.1.2 Các đặc điểm tiếng Việt .5 2.1.3 So sánh tiếng Anh Việt 2.2 Các phương pháp phân loại văn phổ biến 2.2.1 Naive Bayes (NB) .7 2.2.2 Phương pháp K-Nearest Neighbor (kNN) 2.2.3 Support Vector Machine (SVM) .10 2.2.4 Mạng nơron nhân tạo (Artificial Neural Network - ANN) 13 2.2.5 Mơ hình chủ đề tiếng Việt .17 2.2.6 Mơ hình Markov ẩn (Hidden Markov Model-HMM) .23 2.2.7 Cây định 29 v Chương BỘ CÔNG CỤ FACEBOOK FASTTEXT VÀ ỨNG DỤNG PHÂN LỚP VĂN BẢN 43 3.1 Giới thiệu Facebook FastText 43 3.2 Phương pháp phân lớp văn FastText 43 3.3 Ứng dụng phân lớp văn với FastText 46 3.4 Xây dựng công cụ tạo liệu theo chuẩn FastText 46 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ VỚI PHÂN LỚP VĂN BẢN TIẾNG VIỆT 52 4.1 Chuẩn bị liệu 52 4.2 Cài đặt cấu hình FastText 53 4.2.1 Hướng dẫn cài Ubuntu từ windows store .53 4.2.2 Cài đặt python cho Ubuntu 54 4.2.3 Cài facebook’s fasttext .54 4.3 Kết thử nghiệm 54 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68 TÀI LIỆU THAM KHẢO 69 vi DANH MỤC HÌNH VẼ Hình 2-1 Siêu phẳng phân tách có margin cực đại (Các vòng tròn đánh dấu vector hỗ trợ) 11 Hình 2-2 Perceptron dạng nơron 13 Hình 2-3 Cấu trúc Perceptron đa tầng 16 Hình 2-4 Mơ hình chủ đề dựa xác suất 18 Hình 2-5 Mơ Hình Markow ẩn - HMM 23 Hình 2-6 Hàm forward 25 Hình 2-7 Hàm Backward .26 Hình 2-8 Biến Forward-backward 28 Hình 2-9 Cây định mà giải thuật ID3 quy nạp 35 Hình 2-10 Xây dựng định theo thuật toán ID3 36 Hình 2-11 ID3 áp dụng hàm indece_tree cách đệ quy cho phân vùng 38 Hình 2-12 Lượng thông tin thu đo mức độ giảm entropy mong đợi 40 Hình 2-13 Chọn thuộc tính quang cảnh làm nút gốc 41 Hình 2-14 Cây định hoàn chỉnh 42 Hình 3-1 Kiến trúc mơ hình fastText cho câu với thuộc tính từ n-gram x1, x2,…,xN .44 Hình 3-2 Các word tách từ câu “this is a sentence” với n=3 45 Hình 3-3 Cơng cụ labeling viết python 48 Hình 3-4 Kết file gán nhãn đưa vào Dataset.txt .48 Hình 4-1 Các thư mục tương ứng lưu trữ liệu máy tính 53 Hình 4-2 Kết huấn luyện liệu file Training_dataset.txt 55 Hình 4-3 Kết thử nghiệm liệu Testing với thông số mặc định 56 Hình 4-4 Kết huấn luyện sau loại bỏ từ không cần thiết 57 Hình 4-5 Kết huấn luyện với Epoch =5 58 Hình 4-6 Kết huấn luyện với Epoch =10 58 Hình 4-7 Kết huấn luyện với Epoch =15 58 Hình 4-8 Kết huấn luyện với Epoch =20 58 Hình 4-9 Kết huấn luyện với Epoch =50 58 Hình 4-10 Kết huấn luyện với Epoch =100 59 vii Hình 4-11 Kết huấn luyện với Epoch =200 59 Hình 4-12 Kết huấn luyện với Epoch =500 59 Hình 4-13 Kết huấn luyện với Epoch =1000 .59 Hình 4-14 Kết huấn luyện với Epoch =1500 .59 Hình 4-15 Kết huấn luyện với Epoch =2000 .60 Hình 4-16 Kết huấn luyện với Epoch =5000 .60 Hình 4-17 Kết huấn luyện với Epoch =10000 60 Hình 4-18 Kết huấn luyện với Epoch =20000 60 Hình 4-19 Kết huấn luyện với Epoch =25000 60 Hình 4-20 Kết huấn luyện với Epoch =32000 60 Hình 4-21 Kết huấn luyện với Epoch =35000 61 Hình 4-22 Kết huấn luyện với Epoch =40000 61 Hình 4-23 Kết huấn luyện với Epoch =45000 61 Hình 4-24 Kết huấn luyện với Epoch =50000 61 Hình 4-25 Kết huấn luyện với Epoch =20 63 Hình 4-26 Kết huấn luyện với Epoch =50 63 Hình 4-27 Kết huấn luyện với Epoch =100 63 Hình 4-28 Kết huấn luyện với Epoch =200 63 Hình 4-29 Kết huấn luyện với Epoch =500 64 Hình 4-30 Kết huấn luyện với Epoch =600 64 Hình 4-31 Kết huấn luyện với Epoch =800 64 Hình 4-32 Kết huấn luyện với Epoch =1000 .64 Hình 4-33 Kết huấn luyện với Epoch =1500 .64 Hình 4-34 Kết huấn luyện với Epoch =2000 .64 Hình 4-35 Kết huấn luyện với Epoch =3000 .65 Hình 4-36 Kết huấn luyện với Epoch =10 65 Hình 4-37 Kết huấn luyện với Epoch =50 65 Hình 4-38 Kết huấn luyện với Epoch =2000 .66 Hình 4-39 Kết thử nghiệm với wordNgrams = .66 Hình 4-40 Kết thử nghiệm với wordNgrams = .67 Hình 4-41 Kết thử nghiệm với wordNgrams = .67 viii DANH MỤC BẢNG Bảng 2-1 Thu thập thuộc tính thời tiết 14 ngày 33 Bảng 4-1 Thống kê liệu thu thập luận văn 52 Bảng 4-2 Ảnh hưởng thông số epoch tới độ xác 62 56 Kết thử nghiệm mơ hình 4.3 Hình 4-3 Kết thử nghiệm liệu Testing với thơng số mặc định Theo đó:  N : tổng số mẫu thử nghiệm (N=82 mẫu)  P@1: độ xác (precision at one) Giá trị output 0.439 tương đương với 43,9%  R@1: độ recall Trong fasttext, độ xác định nghĩa số lượng nhãn xác số nhãn dự đoán fastText Để dự đoán mẫu liệu thuộc nhiều nhãn (lớp) sau câu lệnh: /fasttext test model_PhanlopWeb.bin Testing_dataset.txt Ta thêm số nhãn cần dự đốn Ví dụ /fasttext test model_PhanlopWeb.bin Testing_dataset.txt Là liệt kê nhãn mà fasttext dự đốn cao xem có nhãn với liệu thật Trong luận văn để đơn giản tác giả thử nghiệm với liệu thuộc nhãn (lớp) Độ bao phủ (Recall) số lượng nhãn dự đốn thành cơng số tất nhãn thực Tương tự luận văn sử dụng liệu cho nhãn định nên thơng số khơng cịn quan trọng Độ xác thấp với toán phân lớp văn Một lý liệu chưa xử lý 57 Để thử nghiệm loại bỏ số từ không cần thiết file Training Testing dùng lệnh sau: cat Training_dataset.txt\ sed -e "s/\([.\!?,'/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > Training_dataset_prep.txt cat Testing_dataset.txt | sed -e "s/\([.\!?,'/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > Testing_dataset_prep.txt Và kết chạy lệnh huấn luyện thử nghiệm lại liệu ./fasttext supervised -input Training_dataset_prep.txt -output model_PhanlopWeb_prep Hình 4-4 Kết huấn luyện sau loại bỏ từ không cần thiết Kết với tập huấn luyện số lượng từ giảm từ 11.109 từ xuống 6490 từ sau loại bỏ từ không cần thiết ./fasttext test model_PhanlopWeb_prep.bin Testing_dataset_prep.txt N P@1 82 0.122 Thử nghiệm ảnh hưởng thông số hệ epoch: Theo mặc định fastText duyệt mẫu huấn luyện lần trình huấn luyện tương ứng với thông số epoch=5 ./fasttext supervised -input Training_dataset.txt -output model_PhanlopWeb epoch Epoch = ta có kết 58 Hình 4-5 Kết huấn luyện với Epoch =5 Thay đổi giá trị epoch ta có kết tương ứng sau: Epoch = 10: Hình 4-6 Kết huấn luyện với Epoch =10 Epoch = 15: Hình 4-7 Kết huấn luyện với Epoch =15 Epoch = 20: Hình 4-8 Kết huấn luyện với Epoch =20 Epoch=50 Hình 4-9 Kết huấn luyện với Epoch =50 Epoch=100 59 Hình 4-10 Kết huấn luyện với Epoch =100 Epoch=200 Hình 4-11 Kết huấn luyện với Epoch =200 Epoch=500 Hình 4-12 Kết huấn luyện với Epoch =500 Epoch=1000 Hình 4-13 Kết huấn luyện với Epoch =1000 Epoch=1500 Hình 4-14 Kết huấn luyện với Epoch =1500 Epoch=2000 60 Hình 4-15 Kết huấn luyện với Epoch =2000 Epoch=5000 Hình 4-16 Kết huấn luyện với Epoch =5000 Epoch=10000 Hình 4-17 Kết huấn luyện với Epoch =10000 Epoch=20000 Hình 4-18 Kết huấn luyện với Epoch =20000 Epoch=25000 Hình 4-19 Kết huấn luyện với Epoch =25000 Epoch=32000 Hình 4-20 Kết huấn luyện với Epoch =32000 61 Epoch=35000 Hình 4-21 Kết huấn luyện với Epoch =35000 Epoch=40000 Hình 4-22 Kết huấn luyện với Epoch =40000 Epoch=45000 Hình 4-23 Kết huấn luyện với Epoch =45000 Epoch=50000 Hình 4-24 Kết huấn luyện với Epoch =50000 Như tổng hợp lại ta có bảng 4.2 62 Bảng 4-2 Ảnh hưởng thơng số epoch tới độ xác Stt Epoch Độ xác tập Testing 47,6% 10 56,1% 15 52,4% 20 56,1% 50 56,1% 100 40,2% 200 78,0% 500 87,8% 1000 89,0% 10 1500 89,0% 11 2000 89,0% 12 5000 89,0% 13 10000 89,0% 14 20000 89,0% 15 25000 90,2% 16 32000 90,2% 17 35000 90,2% 18 40000 90,2% 19 45000 90,2% 20 50000 90,2% Nhận xét: - Khi giá trị epoch nhỏ thời gian huấn luyện nhỏ độ xác thấp Càng tăng giá trị epoch độ xác tăng dần Khi chọn 63 giá trị epoch phù hợp độ xác hội tụ lên tới 90,2% việc tăng giá trị epoch khơng cịn ý nghĩa Thử nghiệm với liệu thay đổi cách bổ sung thêm 20 file liệu cho thể loại file thể loại bổ sung thêm liệu Sau dùng Labling file dùng để Training dung lượng tăng lên 3,16MB Kết thử nghiệm với thông số epoch Hình 4-25 Kết huấn luyện với Epoch =20 Hình 4-26 Kết huấn luyện với Epoch =50 Hình 4-27 Kết huấn luyện với Epoch =100 Hình 4-28 Kết huấn luyện với Epoch =200 64 Hình 4-29 Kết huấn luyện với Epoch =500 Hình 4-30 Kết huấn luyện với Epoch =600 Hình 4-31 Kết huấn luyện với Epoch =800 Hình 4-32 Kết huấn luyện với Epoch =1000 Hình 4-33 Kết huấn luyện với Epoch =1500 Hình 4-34 Kết huấn luyện với Epoch =2000 65 Hình 4-35 Kết huấn luyện với Epoch =3000 Nhận xét liệu tăng kết thử nghiệm có thay đổi lớn hệ số epoch tăng độ xác tăng hệ số epoch=500 độ xác đạt đến 90,4% thay epoch=25000 đạt độ xác 90% so với thử nghiệm kích thước liệu nhỏ Điều phù hợp với quy luật học máy học, liệu lớn việc học xác Khi tìm hệ số epoch phù hợp tăng giá trị epoch độ xác giảm Thử nghiệm với tiếng Anh Hình 4-36 Kết huấn luyện với Epoch =10 - Với epoch=10 thời gian huấn luyện khoảng 10 giây - Độ xác 22,7% Hình 4-37 Kết huấn luyện với Epoch =50 - epoch=50 thời gian huấn luyện khoảng phút - Độ xác 51,2% 66 Hình 4-38 Kết huấn luyện với Epoch =2000 - Với epoch=2000 thời gian huấn luyện khoảng 40 phút - Độ xác 56,4% Thông số word n-grams: Theo mặc định toán classification fastText làm việc mức độ từ (word) sử dụng unigrams tức từ giá trị đầu vào riêng Giá trị thể thơng số -wordNgrams fastText Ví dụ câu “Bóng đá mơn thể thao vua” dùng unigrams câu phân tích thành tập “Bóng”, “đá”, “là”, “mơn”, “thể” “thao” Nếu dùng bigrams (wordNgrams=2) câu phân tích thành “Bóng đá”, “đá là”, “là mơn”, “môn thể”, “thể thao” Để thử nghiệm mức độ ảnh hưởng thông số ta dùng lệnh: /fasttext supervised -input Training_dataset.txt -output model_PhanlopWeb -epoch 25000 -wordNgrams Và thử giá trị sau: Epoch=500, wordNgrams = 2: Hình 4-39 Kết thử nghiệm với wordNgrams = Epoch=500, wordNgrams = 3: 67 Hình 4-40 Kết thử nghiệm với wordNgrams = Epoch=500, wordNgrams = 4: Hình 4-41 Kết thử nghiệm với wordNgrams = Kết thử nghiệm cho thấy thông số wordNgrams tăng lên độ xác giảm theo tài liệu với tiếng Anh wordNgrams=2 thường tốt wordNgrams=1 (unigrams) với giá trị lớn độ xác khơng giảm Điều lý giải cho khác đặc điểm ngôn ngữ tiếng Anh tiếng Việt mà tác giả trình bày phần 2.1 luận văn 68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt được: - Luận văn hệ thống hoá lý thuyết liên quan tới toán phân lớp văn bản, đặc biệt trình bày chi tiết thuật tốn máy học cho toán - Luận văn nghiên cứu công cụ Facebook’s FastText ứng dụng cho toán phân lớp văn tiếng Việt thiết kế ứng dụng hỗ trợ labeling giúp chuyển liệu dạng thông dụng lưu trữ thư mục thành dạng liệu chuẩn fastText giúp người dùng fastText nhanh chóng có liệu mong muốn - Luận văn nghiên cứu cài đặt thử nghiệm phân lớp văn tiếng Việt với hai liệu Training Testing có lớp lớp có 100 file dùng để Training 30 file dùng để Testing - Bộ công cụ dùng để phân lớp văn tiếng Việt cho kết tốt với độ xác cao 90% theo mục tiêu mà tác giả muốn hướng tới trình nghiên cứu Hạn chế hướng phát triển: - Các kết huấn luyện chạy thử nghiệm chưa ổn định mà tác giả chưa tìm nguyên nhân - Chưa đo cụ thể thời gian xử lí thời gian xử lí báo máy tính thời gian xử lí thực tế chênh lớn mà tác giả chưa hiểu lí - Vì cần tìm hiểu sâu code mở fastText để tìm chỗ sai sửa sai TÀI LIỆU THAM KHẢO [1] Vladimir N Vapnik, “Nature of statistical learning theory”, ISBN 978-1-47573264-1 eBook, Springer-Verlag, 2000, [2] Vijayan, Vikas K et al “A comprehensive study of text classification algorithms.” 2017 International Conference on Advances in Computing, Communications and Informatics (ICACCI) (2017): 1109-1113 [3] Ahmed H Aliwy1 and Esraa H Abdul Ameer Comparative Study of Five Text Classification Algorithms with their Improvements International Journal of Applied Engineering Research ISSN 0973-4562 Volume 12, Number 14 (2017) pp 4309-4319 © Research India Publications [4] Amr Adel Helmy, Yasser M.K Omar, Rania Hodhod, An Innovative Word Encoding Method For Text Classification Using Convolutional Neural Network, 2018 14th International Computer Engineering Conference (ICENCO), 2018 [5] Zhiquan Wang ; Zhiyi Qu, Research on Web text classification algorithm based on improved CNN and SVM, 2017 IEEE 17th International Conference on Communication Technology (ICCT), 2017 [6] Kuttala, Radhika & K R, Bindu & Parameswaran, Latha (2018) A text classification model using convolution neural network and recurrent neural network International Journal of Pure and Applied Mathematics 119 15491554 [7] Vũ Đức Lung, Phan Hữu Tiếp, Lâm Thành Hiển, Cao Nguyễn Thủy Tiên Phương pháp lọc thư rác tiếng Việt dựa từ ghép theo vết người sử dụng Kỷ yếu hội thảo “Một số vấn đề chọn lọc Công nghệ thông tin truyền thông”, Cần Thơ, 7-8 tháng 10 năm 2011, trang 463-473, 2012 [8] [Bùi Khánh Linh, Nguyễn Thị Thu Hà, Nguyễn Thị Ngọc Tú, “Phân loại văn tiếng Việt dựa mơ hình chủ đề”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9) Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00065 [9] Bag Efficient Text Classification of Tricks for [10] https://medium.com/@mariamestre/fasttext-stepping-through-the-code259996d6ebc4 [11] https://hackernoon.com/text-classification-simplified-with-facebooks-fasttextb9d3022ac9cb [12] Nguyễn Việt Hưng, “Xây dựng mơ hình nhận dạng tiếng nói từ điều khiển rời rạc, Đồ án tốt nghiệp ... pháp phân lớp văn tiếp tục nghiên cứu hồn thiện Trong luận văn tơi đề xuất nghiên cứu phương pháp phân lớp văn dựa vào máy học facebook's fasttext 2 Chương TỔNG QUAN BÀI TOÁN PHÂN LỚP VĂN BẢN...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** LÊ THỊ MAI PHÂN LỚP VĂN BẢN DỰA VÀO MÁY HỌC VÀ FACEBOOK'S FASTTEXT Chuyên ngành: Công nghệ thơng tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CƠNG NGHỆ... công thức lưu vào mảng C Phân lớp: Đầu vào: Vector đặc trưng văn cần phân lớp Các giá trị xác suất P(Ci) P(xk|Ci) Đầu ra: Nhãn /lớp văn cần phân loại Cơng thức tính xác suất thuộc phân lớp i biết

Ngày đăng: 16/08/2020, 09:45

Tài liệu cùng người dùng

Tài liệu liên quan