PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

67 1 0
PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đ I H C QU C GIA TP.HCM TR NG Đ I H C BÁCH KHOA KHOA KHOA H C & KỸ THU T MÁY TÍNH LU N VĂN T T NGHI P Đ I H C S PHÂN LO I TIN T C TI NG VI T D NG CÁC PH NG PHÁP H C MÁY H I Đ NG LU N VĂN T T NGHI P B MÔN: KHOA H C MÁY TÍNH GVHD: ThS Võ Thanh Hùng GVPB: TS Nguy n H a Phùng o0o -SVTH 1: Lê Vĩnh Phú 51002420 SVTH 2: Di p Minh Hồng 51001087 TP H CHÍ MINH, THÁNG 12/ 2014 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy L I CAM ĐOAN Luận văn c a chúng tơi có tham kh o tài liệu, báo, trang web nh đ ợc trình bày mục tài liệu tham kh o tham kh o chúng tơi trích dẫn ngu n g c Chúng xin cam đoan ngồi trích dẫn từ tham kh o trên, toàn nội dung nh s liệu cáo cáo tự so n th o từ kết qu nghiên c u c a riêng nhóm d ới h ớng dẫn c a Th c sĩ Võ Thanh Hùng, không chép từ tài liệu khác Mọi chép khơng hợp lệ, vi ph m quy chế hay gian trá chúng tơi xin chịu hồn tồn trách nhiệm Nhóm sinh viên thực đề tài i Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy L IC M N Trong b n năm học tập t i tr ng Đ i học Bách Khoa, đặc biệt giai đo n làm luận văn t t nghiệp, đư nhận đ ợc ng hộ, h ớng dẫn, giúp đỡ tận tình c a gia đình, th y cơ, b n bè Chúng xin gửi l i c m ơn sâu sắc đến họ, ng i đư góp cơng s c khơng nhỏ việc hồn thành luận văn Tr ớc hết, gia đình, đặc biệt cha mẹ, ng i đư sinh thành, nuôi d ỡng ăn học Hỗ trợ, ng hộ mặt vật chất tinh th n Ng i mà biết ơn su t đ i Tiếp đến Th c sĩ Võ Thanh Hùng, gi ng viên trực tiếp h ớng dẫn Luận văn T t nghiệp c a Chúng vô biết ơn tình tận h ớng dẫn c a th y Nh có định h ớng rõ ràng, dõi theo sát sao, thúc đ y m nh mẽ c a th y mà chúng tơi hoàn thành đề tài Cu i cùng, xin gửi l i c m ơn chân thành đến th y cô đư gi ng d y su t b n năm học qua ng i đư trang bị t ng kiến th c, kĩ quý báu cho ng i b n với nhiệt tình giúp đỡ c a họ Xin trân trọng c m ơn Nhóm sinh viên thực đề tài Tp.H Chí Minh, ngày 23 tháng 11 năm 2014 Lê Vĩnh Phú – Diệp Minh Hoàng ii Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy ABTRACT Today, the rapid development of Information Technology has changed the life a lot In Data mining and Machine learning, there are especially changes It has been applying in most of areas of the life such as the diagnosis of illness, the classification of DNA sequences in medical, stock market analysis, automatic translation, data retrieval, identification of speech and handwriting, etc In communication, the publication of newspapers has much changed With its benefits, online news is increasing in both quantity and quality Classification of Topics Posts is meaningful in finding and storing data Most of this work currently done by hand and is subjective to the agent Topic of team is exploring methods of machine learning to classify news Vietnamese and using some support libraries to build program automatically classify information Due to the multiple topics of a Vietnamese news and the limited time, our program can classify only seven threads, which have relatively independent content with each other They are world, sports, life, law, finance – economics, technology and automotive – motorcycle Most of news is stored in natural language and untructed data To classify automatically, we need to convert them into a structured data The most common way is using vector space, each news will be represented as a vector of keywords However, to create vector of information, we need pre-process the information The works we have to are cutting word, removing punctuation and stop word In this topic, we use VnTokenizer to cutting word, and then build the véc-tơ method based on TF-IDF, then use the Weka library to support classify information in machine learning algorithms In general, we have completed the basic objectives of this project are exploring methods of machine learning and implementing construction programs classified information Besides, there are still aspects that need to be improved further as the number of threads still less (7 topics), the amount of news initially used to train a lot less (more than 1500), the threads have independent content with each other; have not found the relationship between title, introduction, content and article topics Proposed expansion are increasing the number of threads and the number of original articles in the training set; resolving the problem that is a news can belong to many topics; exploring the relationship between the article name, introduction, content and the subject of news Lê Vĩnh Phú – Diệp Minh Hoàng iii Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy TÓM T T Ngày nay, phát triển nhanh chóng c a Cơng nghệ thông tin (CNTT) đư làm thay đổi s ng nhiều Đặc biệt lĩnh vực khai phá liệu học máy Nó đ ợc ng dụng vào lĩnh vực s ng, từ việc ch n đoán bệnh, phân lo i chuỗi ADN y khoa, hay phân tích thị tr ng ch ng khốn đến dịch tự động, truy tìm liệu, nhận d ng tiếng nói, chữ viếtầTrong lĩnh vực truyền thơng, việc xuất b n báo chí, tin t c có nhiều thay đổi Với u c a mình, tin t c trực tuyến ngày tăng c s l ợng chất l ợng Việc phân lo i ch đề viết mang nhiều ý nghĩa việc tìm kiếm l u trữ liệu H u hết công việc đ ợc làm tay mang tính ch quan c a ng i thực Đề tài nhóm thực tìm hiểu ph ơng pháp học máy dùng để phân lo i tin t c tiếng Việt dùng s th viện hỗ trợ để xây dựng ch ơng trình phân lo i tin t c tự động Do tính đa ch đề c a tin t c tiếng Việt, tin t c thuộc hay nhiều ch đề, h n chế mặt th i gian với giới h n luận văn, ch ơng trình phân lo i tin t c c a phân lo i ch đề, có nội dung t ơng đ i độc lập nhau: giới, thể thao, đ i s ng, pháp luật, tài – kinh tế, cơng nghệ tơ - xe máy H u hết tin t c đ ợc l u trữ d ới d ng ngôn ngữ tự nhiên, d ng liệu phi cấu trúc Để phân lo i tự động đ ợc, c n ph i chuyển chúng sang d ng liệu có cấu trúc Cách phổ biến sử dụng không gian véc-tơ, tin t c đ ợc biểu diễn thành véc-tơ c a từ khóa Tuy nhiên để véc-tơ hóa thơng tin, c n tiền xử lý tin t c Các công việc cụ thể c n ph i làm cắt từ, xóa dấu câu lo i bỏ stop word Trong đề tài sử dụng công cụ VnTokenizer để cắt từ, r i xây dựng véc-tơ dựa ph ơng pháp TF-IDF, sau dùng th viện Weka hỗ trợ tiến hành phân lo i tin t c gi i thuật học máy Nhìn chung, chúng tơi đư hồn thành mục tiêu b n c a đề tài tìm hiểu ph ơng pháp học máy thực xây dựng ch ơng trình phân lo i tin t c Bên c nh cịn s khía c nh mà c n ph i c i thiện thêm nh : s l ợng ch đề (7 ch đề), s l ợng tin t c ban đ u dùng để huấn luyện ch a nhiều (hơn 1500 bài), ch đề g n nh có độc lập với mặt nội dung nên x y vấn đề tin t c thuộc nhiều ch đề; ch a tìm m i liên hệ tiêu đề viết, giới thiệu đ u bài, nội dung viết với ch đề viết H ớng đề xuất m rộng là: tăng thêm s l ợng ch đề s l ợng viết ban đ u tập huấn luyện; gi i vấn đề tin t c thuộc nhiều ch đề khác nhau; tìm hiểu m i liên hệ tên viết, giới thiệu đ u bài, nội dung ch đề c a viết Lê Vĩnh Phú – Diệp Minh Hoàng iv Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy M CL C L i cam đoan i L i c m ơn ii Abtract .iii Tóm tắt iv Danh mục hình vii Danh mục b ng viii Danh mục từ viết tắt ix Ch ơng Giới thiệu 1.1 Giới thiệu đề tài 1.2 Mục tiêu đề tài 1.3 B cục luận văn Ch ơng 2.1 Tổng quan bái toán phân lo i tin t c ph ơng pháp học máy Tổng quan khai phá liệu 2.1.1 Khai phá liệu (data mining) 2.1.2 Khai phá liệu văn b n (textmining) 2.2 Học máy (machine learning) 2.3 Bài toán phân lo i văn b n tự động học máy Ch ơng Các cơng trình nghiên c u liên quan 3.1 Phân lo i văn b n với máy học véc-tơ hỗ trợ định 3.2 Xây dựng hệ th ng phân lo i tài liệu tiếng việt 3.3 Phân lo i email spam matlab áp dụng gi i thuật 3.3.1 Giới thiệu 3.3.2 Tiền xử lý liệu mơ hình hóa văn b n 3.3.3 Xây dựng tập huấn luyện kiểm thử, kết qu thực nghiệm 10 Ch ơng Quy trình phân lo i tin t c 11 4.1 Tiền xử lý liệu 11 4.1.1 Đặc điểm c a ngôn ngữ tiếng việt 11 4.1.2 Nhập nhằng tách từ tiếng việt 12 4.1.3 Tách từ 12 4.1.4 Lo i bỏ stop word 15 4.2 Chuyển đổi tin t c từ d ng ngôn ngữ tự nhiên sang mô hình khơng gian véc-tơ 15 4.2.1 Binary véc-tơ 15 4.2.2 TF-IDF véc-tơ 15 4.2.3 Độ t ơng đ ng véc-tơ 17 Lê Vĩnh Phú – Diệp Minh Hoàng v Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy 4.3 Các ph ơng pháp phân lo i văn b n học máy 18 4.3.2 Ph ơng pháp SVM (support véc-tơ machine) 18 4.3.3 Ph ơng pháp naïve bayes 19 4.3.4 Ph ơng pháp định (classification and regression trees) 21 4.3.5 K-nearest neighbor (KNN) 23 4.3.6 Linear least square fit (LLSF) 23 4.4 Các thông s đánh giá gi i thuật 24 Ch ơng Hiện thực ch ơng trình phân lo i tin t c tiếng Việt 26 5.1 Phân tích yêu c u đề tài 26 5.2 Quy trình phân lo i tin t c tự động học máy 27 5.3 Thu thập liệu 28 5.4 Tiền xử lý liệu 32 5.4.2 Tách từ 32 5.4.3 Lo i bỏ dấu câu 33 5.4.4 Chuyển đổi tin t c thành chuỗi s 34 5.4.5 Véc-tơ hóa liệu 35 5.4.6 Phân lo i tin t c dựa mơ hình phân lớp 38 5.5 Phân lo i tin t c học máy 39 Ch ơng Giao diện ch ơng trình & cách sử dụng 43 Ch ơng Kết qu thực nghiệm đánh giá 49 7.1 Kết qu thực nghiệm 49 7.1.2 Kết qu thực nghiệm 49 7.1.3 Kết qu thực nghiệm 50 7.1.4 Kết qu thực nghiệm 50 7.1.5 Kết qu thực nghiệm 50 7.1.6 Kết qu thực nghiệm 51 7.2 Đánh giá 51 Ch ơng Kết luận 52 8.1 Kết luận 52 8.2 Kiến nghị 52 Tài liệu tham kh o 53 Phụ lục 54 Phụ lục 56 Phụ lục 57 Lê Vĩnh Phú – Diệp Minh Hoàng vi Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy DANH M C HÌNH Hình 3.1 Quy trình phân loại văn [6] Hình 3.2 Quy trình phân loại văn theo [4] Hình 3.3 Trình tự phân loại văn [4] Hình 4.1 Ví dụ siêu phẳng với lề cực đại không gian hai chiều[6] 18 Hình 4.2 Cây định phân lớp mức lương 21 Hình 5.1 Quy trình phân loại tin tức tự động 27 Hình 5.2 Quy trình tách từ VnTokenizer 32 Hình 5.3 Giao diện Weka 39 Hình 5.4 Giao diện tab Preprocess Weka 40 Hình 5.5 Giao diện tab Classify Weka 41 Hình 5.6 Giao diện Weka sau phân loại 42 Hình 6.1 Giao diện chương trình ban đầu 43 Hình 6.2 Giao diện chương trình sau phân loại viết 44 Hình 6.3 Giao diện tính phân loại thơng qua url 45 Hình 6.4 Giao diện sau phân loại viết từ url 46 Hình 6.5 Giao diện tính phân loại nhiều viết từ thư mục 47 Hình 6.6 Kết sau phân loại nhiều viết từ thư mục 48 Lê Vĩnh Phú – Diệp Minh Hoàng vii Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy DANH M C B NG Bảng 3.1 Kết phân loại [6] Bảng 3.2 Kết phân loại văn [4] Bảng 3.3 Kết phân loại theo [12] 10 Bảng 5.1 Cấu trúc bảng lưu trữ liệu nguồn 31 Bảng 5.2 Tỉ lệ liệu lấy 31 Bảng 5.3 Bảng thống kê tập liệu tin tức 32 Bảng 5.4 Cấu trúc bảng lưu trữ sau cắt từ xóa dấu câu 33 Bảng 5.5 Cấu trúc bảng sau chuyển đổi sang chuỗi số 35 Bảng 5.6 Kết kiểm nghiệm số Max 36 Bảng 5.7 Kết kiểm nghiệm số Min 36 Bảng 5.8 Cấu trúc bảng lưu từ khóa 37 Bảng 7.1 Bảng so sánh kết chạy thử nghiệm với nhiều giải thuật khác 49 Bảng 7.2 Kết thực nghiệm 49 Bảng 7.3 Kết thực nghiệm 50 Bảng 7.4 Kết thực nghiệm 50 Bảng 7.5 Kết thực nghiệm 50 Bảng 7.6 Kết thực nghiệm 51 Lê Vĩnh Phú – Diệp Minh Hoàng viii Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy DANH M C T T vi t t t CNTT SVM SVD KNN TBL WFST Tf-Idf CART LLSF TP FP TN FN SMO Stop word CSDL Lê Vĩnh Phú – Diệp Minh Hồng VI T T T Ý nghĩa Cơng Nghệ Thơng Tin Support Véc-tơ Machine Singular Value Decomposition K Nearest Neighbors Transformation-Based learning Weighted Finite-State Transducer Term frequency – inverse document frequeny Classification and Regression Trees Linear Least Square Fit True Positive False Positive True Negative False Negative Sequential Minimal Optimization Những từ khơng có giá trị việc phân lo i tin t c Là từ phổ biến gặp Cơ S Dữ Liệu ix Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy Ch ng GIAO DI N CH NG TRỊNH & CÁCH S D NG Để thuận tiện cho việc tiến hành phân lo i tin t c, chúng tơi xây dựng ch ơng trình thử nghiệm với cửa sổ ng dụng đơn gi n Ch ơng trình bày giao diện ch ơng trình thử nghiệm, cách sử dụng ch c đ ợc m rộng thêm để hỗ trợ cho việc phân lo i Ch ơng trình ch y yêu c u ph i cài đặt jdk Sau gi i nén ch y trực tiếp ch ơng trình nh ng dụng bình th ng window Java(TM) Platform SE binary Hoặc ch y ch ơng trình cách khác Command prompt window thơng qua câu lệnh "java -jar Final.jar" t i th mục ch a Ch ơng trình có ba tính năng: - Phân loại từ thông tin chép trực tiếp từ viết Hình 6.1 Giao diện chương trình ban đầu Sau chép thông tin viết, nhấn nút phân loại để thực chương trình Kết xuất hình VI Lê Vĩnh Phú – Diệp Minh Hoàng 43 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy Hình 6.2 Giao diện chương trình sau phân loại viết Lê Vĩnh Phú – Diệp Minh Hoàng 44 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy - Phân loại viết cách parser thơng qua url Hình 6.3 Giao diện tính phân loại thơng qua url Đây tính m rộng thêm ch a phát triển hồn chỉnh Hiện t i, ch ơng trình phân lo i xác s url đư đính kèm file link_parser.txt Việc parser từ url phụ thuộc vào cấu trúc DOM c a trang tin t c online Mỗi trang có nhiều cấu trúc để phù hợp với nhiều lo i viết khác Một viết bình th ng có cấu trúc khác với tin hình nh khác với t ng thuật trực tiếp kiện Việc gây khó khăn để phân lo i cách tự động hoàn toàn từ liệu online Lê Vĩnh Phú – Diệp Minh Hoàng 45 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy Hình 6.4 Giao diện sau phân loại viết từ url Lê Vĩnh Phú – Diệp Minh Hoàng 46 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy - Phân loại nhiều viết thư mục Hình 6.5 Giao diện tính phân loại nhiều viết từ thư mục Sau thay đổi chỉnh sửa đ ng dẫn đến th mục ch a viết, chọn phân lo i kết qu xuất nh hình bên d ới Lê Vĩnh Phú – Diệp Minh Hoàng 47 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy Hình 6.6 Kết sau phân loại nhiều viết từ thư mục Th i gian ch y tính phụ thuộc vào s l ợng viết th mục S viết nhiều ph c t p lớn th i gian ch y lâu Các viết đ ợc l u d ới d ng file xml có cấu trúc nh sau: Tên viết Giới thiệu đầu viết Nội dung viết Mỗi file xml l u viết Lê Vĩnh Phú – Diệp Minh Hoàng 48 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy Ch ng K T QU TH C NGHI M VÀ ĐÁNH GIÁ Để đánh giá hiệu suất c a ch ơng trình xây dựng đ ợc, chúng tơi đư ch y nhiều ph ơng pháp học máy dựa th viện Weka tập liệu c a chọn ba ph ơng pháp có kết qu kh quan SMO, Naïve Bayes CART (Phụ lục 3) SMO (Sequential Minimal Optimization) thuật toán huấn luyện SVM t i u hóa tu n tự cực tiểu [3] Sau đó, chúng tơi đư t o nhiều cặp huấn luyện tập kiểm thử để tiến hành kiểm thử theo ba ph ơng pháp Ch ơng trình bày kết qu thực nghiệm đánh giá rút đ ợc từ kết qu Kết qu phân lo i nhiều ph ơng pháp Weka với tập huấn luyện 90% tập liệu 10% l i làm tập kiểm thử thể b ng Bảng 7.1 Bảng so sánh kết chạy thử nghiệm với nhiều giải thuật khác SMO Naïve Bayes CART Clustering Regression ConjunctiveRule Tỉ lệ 91.33 84.67 72.67 16 75.33 25.33 xác (%) Th i gian ch y 11.36 0.71 35.79 5.3 84.09 2.34 (giây) Từ kết qu b ng 7.1, nhận thấy ba gi i thuật SMO, Naïve Bayes, CART phù hợp với liệu đ u gi i thuật l i việc đánh giá độ hiệu qu Chúng sử dụng ba gi i thuật để đánh giá thực nghiệm khác 7.1 K T QU TH C NGHI M Ch ơng trình ch y máy tính có cấu hình nh sau: Intel(R), core (TM) I5, CPU M460, 2.53Ghz 7.1.2 K T QU TH C NGHI M Kết qu ch y ch ơng trình với tập liệu (1503 tin) tách 90% làm tập huấn luyện 10% l i làm tập kiểm thử Bảng 7.2 Kết thực nghiệm Tên l p Thế giới Thể thao Đ i s ng Pháp luật Kinh tế Ô tô – Xe máy Công nghệ Th i gian ch y Tỉ lệ xác SMO Nạve Bayes Precision Recall F1 Precision Recall 0.917 0.688 0.786 0.765 0.813 1.000 0.941 0.970 1.000 0.941 0.815 0.957 0.880 0.769 0.870 1.000 1.000 1.000 0.952 0.952 0.769 0.909 0.833 0.704 0.864 1.000 0.963 0.981 0.917 0.815 0.955 0.875 0.913 0.895 0.708 11.36 s 0.71s 91.33 % 84.67 % Lê Vĩnh Phú – Diệp Minh Hoàng CART F1 Precision Recall 0.788 0.600 0.563 0.970 0.944 1.000 0.816 0.586 0.739 0.952 0.875 0.667 0.776 0.737 0.636 0.863 0.909 0.741 0.791 0.581 0.750 35.79 s 72.67 % F1 0.581 0.971 0.654 0.757 0.683 0.816 0.655 49 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy 7.1.3 K T QU TH C NGHI M Kết qu ch y ch ơng trình với tập huấn luyện tập liệu ban đ u (1503 tin) tập kiểm thử 70 tin khơng thuộc tin đư có Bảng 7.3 Kết thực nghiệm Tên l p Thế giới Thể thao Đ i s ng Pháp luật Kinh tế Ơ tơ – Xe máy Cơng nghệ Th i gian ch y Tỉ lệ xác 7.1.4 SMO Precision Recall 0.889 0.800 1.000 1.000 0.833 1.000 1.000 1.000 0.700 0.700 0.900 0.900 1.000 0.900 12.24 s 90 % F1 0.842 1.000 0.909 1.000 0.700 0.900 0.947 Naïve Bayes Precision Recall 0.800 0.800 1.000 1.000 0.889 0.800 0.769 1.000 0.667 0.600 0.800 0.800 0.889 0.800 0.67 s 82.85 % F1 0.800 1.000 0.842 0.870 0.632 0.800 0.842 CART Precision Recall 0.778 0.700 0.833 1.000 0.857 0.600 1.000 0.900 0.857 0.600 0.833 1.000 0.714 1.000 34.26 s 82.85 % F1 0.737 0.909 0.706 0.947 0.706 0.909 0.833 K T QU TH C NGHI M Kết qu ch ơng trình với tập liệu tập 1503 tin Tập kiểm thử tách với Tập kiểm thử 1: 50 tin Thể Thao Tập kiểm thử 2: 50 tin Thế Giới + 50 tin Pháp Luật Tập kiểm thử 3: 50 tin Thế Giới + 50 tin Pháp Luật + 50 tin Ô tô – xe máy Tập huấn luyện ph n l i Bảng 7.4 Kết thực nghiệm Tỉ lệ xác % 7.1.5 Kiểm thử SMO Kiểm thử Kiểm thử 96 93 84.93 Naïve Bayes Kiểm Kiểm Kiểm thử thử thử 96 96 84.93 Kiểm thử CART Kiểm thử Kiểm thử 88 72 69.86 K T QU TH C NGHI M Kết qu ch ơng trình với tập liệu tập 1503 tin Tập kiểm thử tách với Tập kiểm thử 1: 25 tin Thể Thao Tập kiểm thử 2: 50 tin Thể Thao Tập kiểm thử 3: 75 tin Thể Thao Tập huấn luyện ph n l i Bảng 7.5 Kết thực nghiệm Tỉ lệ xác % Kiểm thử SMO Kiểm thử Kiểm thử 96 92 93.33 Lê Vĩnh Phú – Diệp Minh Hồng Nạve Bayes Kiểm Kiểm Kiểm thử thử thử 100 94 96 Kiểm thử CART Kiểm thử Kiểm thử 100 76 81.33 50 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy 7.1.6 K T QU TH C NGHI M Kết qu ch ơng trình với tập liệu tập 1503 tin Tập kiểm thử tách với: Tập kiểm thử 1: 50 tin Thể Thao ngu n dantri.com.vn Tập kiểm thử 2: 50 tin Thể Thao ngu n vnexpress.net Tập kiểm thử 3: 25 tin Thể Thao ngu n Zing.vn Tập huấn luyện ph n l i Bảng 7.6 Kết thực nghiệm Tỉ lệ xác % Kiểm thử SMO Kiểm thử Kiểm thử 92 96 96 Naïve Bayes Kiểm Kiểm Kiểm thử thử thử 94 96 100 Kiểm thử CART Kiểm thử Kiểm thử 76 88 100 7.2 ĐÁNH GIÁ Các kết qu t ơng đ i cao, nhiên, khằng định độ xác trì có tập kiểm tra lớn hơn, nh ngữ c nh khác B ng 7.2 7.3 so sánh hiệu qu phân lo i tin t c với gi i thuật SMO, Naïve Bayes, CART Từ s liệu trên, dễ dàng nhận thấy gi i thuật SMO t t gi i thuật khác, nhiên, đặc thù liệu thay đổi kết qu khác Th i gian thực thi c a gi i thuật Naïve Bayes ngắn nhất, cho hiệu suất phân lo i t t (trung bình 80%) Trong gi i thuật CART có th i gian ch y lâu (hơn 30 giây), l i cho kết qu không kh quan hai gi i thuật l i Tuy nhiên gi i thuật CART gi i thuật đơn gi n t ơng đ i dễ thực Từ kết qu thực nghiệm b ng 7.4 cho thấy s lớp tập kiểm thử tăng d n tỉ lệ phân lo i gi m d n c ba gi i thuật Tuy nhiên, kết qu m c cao, s lớp tập kiểm thử (b ng 7.2) l i cho kết qu cao s lớp (b ng 7.4) Từ s liệu b ng 7.5 7.6 thấy độ xác gi i thuật khơng phụ thuộc vào ngu n tin phụ thuộc vào s l ợng tin Lê Vĩnh Phú – Diệp Minh Hoàng 51 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy Ch ng K T LU N 8.1 K T LU N Phân lo i tin t c tốn khai phá liệu có ng dụng rộng rãi Không giúp phân lo i tin t c trang báo điện tử, cịn áp dụng vào phân lo i văn b n tài liệu công ty, phân lo i email spam, phân lo i trang web có nội dung khơng phù hợp nhiều ng dụng thực tiễn to lớn khác Trong đề tài luận văn này, đư tìm hiểu ph ơng pháp phân lo i tin t c dựa h ớng th ng kê học máy Có thể kể gi i thuật: SVM, Nạve Bayes, CART, ầNgồi chúng tơi nghiên c u rút quy trình để tiến hành phân lo i tin t c theo h ớng học máy xây dựng ch ơng trình thử nghiệm đơn gi n tiến hành phân lo i 1500 tin thuộc ch đề khác Áp dụng công cụ tách từ vnTokenizer cách xây dựng véc-tơ theo trọng s Tf-Idf, ch ơng trình thử nghiệm phân lo i ch y theo ba gi i thuật SMO, Naïve Bayes, CART cho kết qu t t Tuy b ớc đ u đ t đ ợc s kết qu kh quan, nh ng t n t i nhiều h n chế c n khắc phục:      Tin t c đ u vào thuộc thể lo i Nghĩa ch đề ch ơng trình thử nghiệm g n nh hoàn toàn độc lập Một tin t c thuộc ch đề Điều không phù hợp thực tiễn H n chế s l ợng chất l ợng kho liệu tin t c Ch đề cịn Th i gian ch y ch ơng trình cịn lâu Giao diện ch ơng trình thử nghiệm đơn gi n, ch a thật thân thiện, ch a đ a vào đ ợc lựa chọn để ng i dùng chọn gi i thuật Ch a đ a đ ợc m i liên hệ đánh giá t m quan trọng khác c a Tiêu đề tin t c, Giới thiệu đ u tin t c Nội dung tin t c 8.2 KI N NGH H ớng phát triển đề tài:    Tăng thêm s l ợng ch đề C i thiện chất l ợng s l ợng tin t c Tiến hành phân lo i tin t c theo hai hay nhiều cấp Trong thể thao chia thành bóng đá, bơi lội, c u lơngầ Tiến hành phân lo i tin t c đa ch đề, để áp dụng vào thực tiễn (Một tin t c thuộc nhiều ch đề) Lê Vĩnh Phú – Diệp Minh Hoàng 52 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy TÀI LI U THAM KH O [1] Lê Đ c Anh, Lâm Chí H i “Rút trích thơng tin từ nhận xét đánh giá”, đ án thực tập t t nghiệp, Đ i học Bách Khoa Tp H Chí Minh, 2014 [2] Nguyễn Trung Kiên “ Phân đo n từ tiếng Việt sử dụng mơ hình CRFs”, Luận văn đ i học Công Nghệ, Đ i học qu c gia Hà Nội, 2006 [3] Nguyễn Linh Giang, Nguyễn M nh Hiển “Phân lo i văn b n tiếng Việt với phân lo i vectơ hỗ trợ SVM”, 2005 [4] Tr n Thị Thu Th o, Vũ Thị Chinh “Xây dựng hệ th ng phân lo i tài liệu tiếng Việt”, Khoa CNTT, tr ng Đ i học L c H ng [5] Tr n Ngọc Phúc “Phân lo i nội dung tài liệu web”, Luận văn th c sĩ tr H ng, 2012 ng Đ i học L c [6] Tr n Cao Đệ, Ph m Nguyên Khang.(2012) “Phân lo i văn b n với máy học véc-tơ hỗ trợ định” [7] Chen, K J., & Liu, S H (1992) Word identification for Mandarin Chinese sentences Proceedings of the Fifteenth International Conference on Computational Linguistics, Nantes: COLING-92 [8] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation, Faculty of Information Technology, National University of HCM City [9] Dinh Dien, Hoang Kiem, Nguyen Van Toan Vietnamese Word Segmentation.The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, 11/2001 pp 749 -756 [10] Eric Brill (December 1995) Transformation-based error-driven learning and natural language processing: a case study in part-of-speech tagging Comput Linguist (Cambridge, MA, USA: MIT Press) pp 543–565 [11] J Han and M Kamber, Data mining: concepts and techniques Morgan Kaufmann, 2006 [12] Shahar Yifrah, Guy Lev “Spam Email Filtering”, 2013 [13] Yang and Xin Liu “A re-examination of text categorization methods”, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999 [14] Weka, http://www.cs.waikato.ac.nz/ml/weka/ [15] Công cụ tách từ VnTokenizer http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer Lê Vĩnh Phú – Diệp Minh Hoàng 53 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy PH L C Ví dụ cắt từ VnTokenizer xóa dấu câu Ta có tin t c A thuộc tin Thế giới nh sau: Tiêu đ : “Con gái tổng th ng Indonesia từ ch i đặc quyền” Gi i thi u: “'Con gái lớn c a tân tổng th ng Indonesia biến kỳ thi cơng ch c bình th ng thành ch đề gây xôn xao c n ớc, từ bỏ đặc quyền th ng dành cho ng i thân c a giới tinh hoa.” N i dung: “Kahiyang Ayu, gái tổng th ng Indonesia, hôm 23/10 tham dự kỳ thi công ch c thành ph Soho, Trung Java nh: VOA Theo VOA News, Kahiyang Ayu, gái tổng th ng Indonesia, hơm 23/10 khơng làm khác ngồi việc làm thi công ch c 6.000 ng i khác t i thành ph Solo Hành động gây xôn xao Indonesia, nơi n n tham nhũng tình tr ng "con ơng cháu cha" vấn đề phổ biến, t ng lớp tinh hoa th ng đ ợc đ i xử đặc biệt Sự việc diễn ch a đ y tu n sau cha cô, ông Joko Widodo lên nắm quyền tổng th ng Ơng Widodo tr ớc tranh cử với l i h a xử lý n n tham nhũng Tu n này, Tổng th ng Widodo, có b ớc ch a có cho quan giám sát ch ng tham nhũng Indonesia xem xét thành viên nội tiềm Kahiyang Ayu mặc qu n áo màu trắng đen gi ng thí sinh cịn l i, nh ng đ ợc đội an ninh b o vệ Sau kiểm tra, Ayu cho biết cô mu n thành đ t nh ng i khác "Bằng cách tham dự thi, hy vọng đỗ đ ợc nhận làm nhân viên công ch c, ch xem kết qu ", Ayu nói Lilis Jannatun, thí sinh khác ng i c nh gái đ u c a tổng th ng kỳ thi, cho biết cô thấy bất ng ông Widodo không đ ợc đ i xử đặc biệt "Đúng vậy, cô ng i g n c u thang thi, cách chỗ ng i hai ghế Tôi không thấy bất c nhân viên an ninh đ ng gác c nh cô lúc thi Cô làm thi mà khơng có đ i xử đặc biệt nào", Jannatun cho hay Hari Prihatno, lưnh đ o quan tuyển dụng khu vực, cho biết việc đ i xử s vật chất dành cho tất c thí sinh, có gái tổng th ng, nh "Tất c b n, nhà báo vừa ch ng kiến tận mắt, th theo tiêu chu n quy trình, khơng có đ i đưi đặc biệt, kể c cô gái tổng th ng Cô ấy, gi ng ng i khác, ph i mặc đ ng phục màu trắng đen để thi, mang theo thẻ dự thi ch ng minh th Cơ ng i thi sinh cịn l i, ghế gi ng nhau, khơng có đệm Mọi th minh b ch", Prihatno nói Tổng cộng 6.200 ng i tham dự kỳ thi, có 65 tiêu tuyển cơng ch c t i Soho.” Sau tiến hành cắt từ Vntokenizer, r i tiến hành xóa dấu câu, ta có đ ợc tin t c A đ ợc l u l i s liệu theo mục nh sau: Tiêu đ : “Con_gái tổng_th ng Indonesia từ_ch i đặc_quyền” Gi i thi u: “Con_gái lớn c a tân tổng_th ng Indonesia biến kỳ thi_công ch c bình_th ng thành ch _đề gây xơn_xao c n ớc từ_bỏ đặc_quyền th ng dành cho ng i_thân c a giới tinh_hoa” N i dung: “Kahiyang_Ayu con_gái tổng_th ng Indonesia hôm tham_dự kỳ thi_công ch c thành_ph Soho Trung_Java nh VOA Theo VOA News Kahiyang_Ayu con_gái tổng_th ng Indonesia hơm khơng làm_gì khác ngồi việc_làm thi_cơng ch c ng i khác t i 54 Lê Vĩnh Phú – Diệp Minh Hoàng Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy thành_ph Solo Hành_động gây xôn_xao Indonesia nơi n n tham_nhũng tình_tr ng con_ơng_cháu_cha vấn_đề phổ_biến con_cái t ng_lớp tinh_hoa th ng đ ợc đ i_xử đặc_biệt Sự_việc diễn ch a đ y tu n sau cha cô ông Joko_Widodo lên nắm quyền tổng_th ng Ơng Widodo tr ớc tranh_cử với l i h a xử_lý n n tham_nhũng Tu n Tổng_th ng Widodo có b ớc_đi ch a có_khi cho cơ_quan giám_sát ch ng tham_nhũng Indonesia xem_xét thành_viên nội_các tiềm_năng Kahiyang_Ayu mặc qu n_áo màu trắng_đen gi ng thí_sinh cịn l i nh ng đ ợc đội an_ninh b o_vệ Sau kiểm_tra Ayu cho_biết cô mu n thành_đ t nh ng i khác Bằng cách tham_dự cuộc_thi hy_vọng đỗ đ ợc nhận làm nhân_viên công_ch c chúng_ta ch xem kết_qu Ayu nói Lilis_Jannatun thí_sinh khác ng i c nh con_gái đ u c a tổng_th ng kỳ thi cho_biết cô thấy bất_ng ông Widodo không đ ợc đ i_xử đặc_biệt Đúng cô ng i g n c u_thang thi cách chỗ ng i hai ghế Tôi không thấy bất_c nhân_viên an_ninh đ ng gác c nh cô lúc thi Cô làm thi mà khơng có đ i_xử đặc_biệt Jannatun cho_hay Hari_Prihatno lưnh_đ o cơ_quan tuyển_dụng khu_vực cho_biết việc đ i_xử cơ_s vật_chất dành cho tất_c thí_sinh có con_gái tổng_th ng nh Tất_c b n nhà_báo vừa ch ng_kiến tận_mắt th theo tiêu_chu n quy_trình khơng có đ i_đưi đặc_biệt kể_c cô ấy_là con_gái tổng_th ng Cô gi ng ng i khác ph i mặc đ ng_phục màu trắng đen để thi mang theo thẻ dự thi ch ng_minh_th Cô ng i thi sinh l i ghế gi ng khơng có đệm Mọi th minh_b ch Prihatno nói Tổng_cộng ng i tham_dự kỳ thi có chỉ_tiêu tuyển cơng_ch c t i Soho” Lê Vĩnh Phú – Diệp Minh Hoàng 55 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy PH L C Ví dụ chuyển đổi tin t c thành chuỗi s Với tin t c A phụ lục sau đư tiến hành cắt từ xóa dấu câu, ta tiến hành chuyển đổi chuyển thành chuỗi s , ta có: Tiêu đ : “1 5” Gi i thi u: “1 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29” N i dung: “30 31 32 11 12 13 33 34 35 36 37 38 39 38 40 30 31 41 42 43 44 45 46 12 13 47 48 49 43 50 34 51 52 53 17 18 54 55 56 57 58 59 60 61 62 57 63 64 29 24 65 66 67 68 69 70 71 72 10 73 74 21 75 76 77 78 79 80 81 77 82 83 84 85 86 87 88 89 90 55 56 73 53 82 91 92 71 93 94 26 95 96 97 56 98 23 99 100 101 30 102 103 104 105 106 107 23 108 109 110 111 65 10 112 113 114 74 46 115 116 117 76 118 119 120 121 23 49 43 122 123 32 124 125 126 89 127 57 65 128 129 130 131 132 89 133 134 135 116 136 137 10 108 43 138 139 140 141 11 142 117 76 143 144 21 145 77 82 41 65 66 67 146 147 76 148 138 149 150 141 21 142 118 123 151 125 138 152 153 125 41 143 154 130 113 155 156 157 139 76 148 141 158 142 76 148 129 46 142 159 41 91 160 66 67 155 161 162 163 164 95 165 166 117 167 66 57 168 169 25 26 170 171 108 141 84 91 172 121 173 170 171 174 171 175 176 177 178 179 180 172 39 181 57 182 41 91 160 183 67 184 21 76 185 76 148 107 23 49 43 186 102 187 105 188 57 189 190 191 142 192 39 193 194 142 57 195 76 148 138 47 171 142 196 109 110 197 198 153 107 173 41 91 199 179 180 33 200 172 201 202 136 203 49 32 11 142 141 21 118 91 204 205 131 50 35” Lê Vĩnh Phú – Diệp Minh Hoàng 56 Phân lo i tin t c tiếng Việt sử dụng ph ơng pháp học máy PH L C Danh sách RSS trang web mà nhóm sử dụng: ID ch đ Tên ch đ Thế giới Website vnexpress.net vietnamnet.vn dantri.com.vn Thể thao vnexpress.net dantri.com.vn Đ i s ng 10 Pháp luật 13 Kinh tế vnexpress.net vietnamnet.vn dantri.com.vn vnexpress.net dantri.com.vn vnexpress.net vietnamnet.vn dantri.com.vn 16 Ô tô – xe máy vnexpress.net dantri.com.vn 17 Công nghệ vnexpress.net vietnamnet.vn dantri.com.vn Lê Vĩnh Phú – Diệp Minh Hoàng RSS http://vnexpress.net/rss/the-gioi.rss http://vietnamnet.vn/rss/quoc-te.rss http://www.dantri.com.vn/Thegioi.rss http://www.dantri.com.vn/dong-a.rss http://www.dantri.com.vn/eu nga.rss http://www.dantri.com.vn/chau-my.rss http://www.dantri.com.vn/diem-nong.rss http://vnexpress.net/rss/the-thao.rss http://www.dantri.com.vn/The-Thao.rss http://www.dantri.com.vn/the-thao-trong-nuoc.rss http://www.dantri.com.vn/the-thao-quoc-te.rss http://www.dantri.com.vn/bong-da-trong-nuoc.rss http://www.dantri.com.vn/bong-da-chau-au.rss http://www.dantri.com.vn/bong-da-anh.rss http://www.dantri.com.vn/bong-da-tbn.rss http://www.dantri.com.vn/tennis.rss http://vnexpress.net/rss/doi-song.rss http://vietnamnet.vn/rss/doi-song.rss http://www.dantri.com.vn/doi-song.rss http://vnexpress.net/rss/phap-luat.rss http://www.dantri.com.vn/skphapluat.rss http://vnexpress.net/rss/kinh-doanh.rss http://vietnamnet.vn/rss/kinh-te.rss http://www.dantri.com.vn/kinhdoanh.rss http://www.dantri.com.vn/tai-chinh-dau-tu.rss http://www.dantri.com.vn/thi-truong.rss http://www.dantri.com.vn/doanh-nghiep.rss http://www.dantri.com.vn/bao-ve-ntd.rss http://www.dantri.com.vn/quoc-te.rss http://www.dantri.com.vn/nha-dat.rss http://www.dantri.com.vn/gia-ca.rss http://vnexpress.net/rss/oto-xe-may.rss http://www.dantri.com.vn/otoxemay.rss http://www.dantri.com.vn/thi-truong-xe.rss http://www.dantri.com.vn/van-hoa-xe.rss http://vnexpress.net/rss/so-hoa.rss http://vietnamnet.vn/rss/cong-nghe-thong-tinvien-thong.rss http://www.dantri.com.vn/suc-manh-so.rss 57 ... machine learning to classify news Vietnamese and using some support libraries to build program automatically classify information Due to the multiple topics of a Vietnamese news and the limited time,... the publication of newspapers has much changed With its benefits, online news is increasing in both quantity and quality Classification of Topics Posts is meaningful in finding and storing data... the classification of DNA sequences in medical, stock market analysis, automatic translation, data retrieval, identification of speech and handwriting, etc In communication, the publication of newspapers

Ngày đăng: 05/12/2022, 09:15

Hình ảnh liên quan

Hình 3.1 Quy trình phân loại văn bản của [6] - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 3.1.

Quy trình phân loại văn bản của [6] Xem tại trang 16 của tài liệu.
Hình 3.2 Quy trình phân loại văn bản theo [4]Bảng 3.1 Kết quả phân loại của [6]  - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 3.2.

Quy trình phân loại văn bản theo [4]Bảng 3.1 Kết quả phân loại của [6] Xem tại trang 17 của tài liệu.
3.2 XÂY D NGH TH NG PHÂN L OI TÀI L IU TING V IT - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

3.2.

XÂY D NGH TH NG PHÂN L OI TÀI L IU TING V IT Xem tại trang 17 của tài liệu.
Sau đĩ tác gi tiến hành phân l oi văn bn theo trình tự hình III.3: - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

au.

đĩ tác gi tiến hành phân l oi văn bn theo trình tự hình III.3: Xem tại trang 18 của tài liệu.
Hình 3.3 Trình tự phân loại văn bản của [4] - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 3.3.

Trình tự phân loại văn bản của [4] Xem tại trang 18 của tài liệu.
Bảng 3.3 Kết quả phân loại theo [12] - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 3.3.

Kết quả phân loại theo [12] Xem tại trang 20 của tài liệu.
Hình 4.1 Ví dụ siêu phẳng với lề cực đại trong khơng gian hai chiều[6] - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 4.1.

Ví dụ siêu phẳng với lề cực đại trong khơng gian hai chiều[6] Xem tại trang 28 của tài liệu.
Hình 5.1 Quy trình phân loại tin tức tự động - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 5.1.

Quy trình phân loại tin tức tự động Xem tại trang 37 của tài liệu.
Học máy tạo ra mơ hình phân lớp: dùng các g ii thuật học máy tiến hành cho học tập dữ liệu hu ấn luyện đư đ ợc véc-tơ hĩa, t o ra tập mơ hình phân lớp - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

c.

máy tạo ra mơ hình phân lớp: dùng các g ii thuật học máy tiến hành cho học tập dữ liệu hu ấn luyện đư đ ợc véc-tơ hĩa, t o ra tập mơ hình phân lớp Xem tại trang 38 của tài liệu.
Bảng 5.1 Cấu trúc bảng lưu trữ dữ liệu nguồn - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 5.1.

Cấu trúc bảng lưu trữ dữ liệu nguồn Xem tại trang 41 của tài liệu.
Bảng 5.2 Tỉ lệ dữ liệu lấy về đúng - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 5.2.

Tỉ lệ dữ liệu lấy về đúng Xem tại trang 41 của tài liệu.
Bảng 5.3 Bảng thống kê tập dữ liệu tin tức - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 5.3.

Bảng thống kê tập dữ liệu tin tức Xem tại trang 42 của tài liệu.
Hình 5.2 Quy trình tách từ của VnTokenizer - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 5.2.

Quy trình tách từ của VnTokenizer Xem tại trang 42 của tài liệu.
Bảng 5.4 Cấu trúc bảng lưu trữ sau khi cắt từ và xĩa dấu câu - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 5.4.

Cấu trúc bảng lưu trữ sau khi cắt từ và xĩa dấu câu Xem tại trang 43 của tài liệu.
Bảng 5.5 Cấu trúc bảng sau khi chuyển đổi sang chuỗi số - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 5.5.

Cấu trúc bảng sau khi chuyển đổi sang chuỗi số Xem tại trang 45 của tài liệu.
Bảng 5.6 Kết quả kiểm nghiệm chỉ số Max - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 5.6.

Kết quả kiểm nghiệm chỉ số Max Xem tại trang 46 của tài liệu.
Hình 5.3 Giao diện Weka - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 5.3.

Giao diện Weka Xem tại trang 49 của tài liệu.
Hình 5.4 Giao diện tab Preprocess của Weka - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 5.4.

Giao diện tab Preprocess của Weka Xem tại trang 50 của tài liệu.
Sau khi ti dữ liệu, chọn Tab classify để chọn các mơ hình phân lo i. - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

au.

khi ti dữ liệu, chọn Tab classify để chọn các mơ hình phân lo i Xem tại trang 51 của tài liệu.
Hình 5.6 Giao diện Weka sau khi phân loại - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 5.6.

Giao diện Weka sau khi phân loại Xem tại trang 52 của tài liệu.
Hình 6.1 Giao diện chương trình ban đầu - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 6.1.

Giao diện chương trình ban đầu Xem tại trang 53 của tài liệu.
Hình 6.2 Giao diện chương trình sau khi phân loại một bài viết - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 6.2.

Giao diện chương trình sau khi phân loại một bài viết Xem tại trang 54 của tài liệu.
Hình 6.3 Giao diện tính năng phân loại thơng qua url - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 6.3.

Giao diện tính năng phân loại thơng qua url Xem tại trang 55 của tài liệu.
Hình 6.4 Giao diện sau khi phân loại một bài viết từ url - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 6.4.

Giao diện sau khi phân loại một bài viết từ url Xem tại trang 56 của tài liệu.
Hình 6.5 Giao diện tính năng phân loại nhiều bài viết từ thư mục - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 6.5.

Giao diện tính năng phân loại nhiều bài viết từ thư mục Xem tại trang 57 của tài liệu.
Hình 6.6 Kết quả sau khi phân loại nhiều bài viết từ thư mục - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Hình 6.6.

Kết quả sau khi phân loại nhiều bài viết từ thư mục Xem tại trang 58 của tài liệu.
Ch ơng trình c hy trên máy tính cĩ cấu hình nh sau: Intel(R), core (TM) I5, CPU M460, 2.53Ghz - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

h.

ơng trình c hy trên máy tính cĩ cấu hình nh sau: Intel(R), core (TM) I5, CPU M460, 2.53Ghz Xem tại trang 59 của tài liệu.
Bảng 7.1 Bảng so sánh kết quả chạy thử nghiệm với nhiều giải thuật khác nhau - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 7.1.

Bảng so sánh kết quả chạy thử nghiệm với nhiều giải thuật khác nhau Xem tại trang 59 của tài liệu.
Bảng 7.3 Kết quả thực nghiệm 2 - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 7.3.

Kết quả thực nghiệm 2 Xem tại trang 60 của tài liệu.
Bảng 7.6 Kết quả thực nghiệm 5 - PHÂN LOẠI TIN TỨC TIẾNG VIỆT SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC MÁY

Bảng 7.6.

Kết quả thực nghiệm 5 Xem tại trang 61 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan