Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
2,95 MB
Nội dung
ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KI N H TẾ H U Ế KHOA HỆ THỐNG THÔNG TIN KINH TẾ Ọ C KHÓA LUẬN TỐT NGHIỆP ẠI H XÂY DỰNG MƠ HÌNH PHÂN LỚP BÀI BÁO BẰNG TR Ư Ờ N G Đ PHƯƠNG PHÁP KẾT HỢP BOOSTING Giáo Viên hướng dẫn: TS Nguyễn Đình Hoa Cương Sinh viên thực hiện: Võ Đức Nguyên Lớp: K48A-Tin học kinh tế Huế, 04/2018 GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp LỜI CÁM ƠN Lời khóa luận tốt nghiệp “Xây dựng mơ hình phân lớp báo phương pháp kết hợp Boosting” này, em muốn gửi lời cám ơn chân thành đến người hỗ trợ, giúp đỡ em mặt trình thực đề tài Thứ nhất, em xin chân thành cám ơn TS Nguyễn Đình Hoa Cương, Giảng Viên Khoa Hệ Thống Thông Tin Kinh Tế, Trường Đại học Kinh Tế Huế, Đại Học U Ế Huế, người trực tiếp hướng dẫn, nhận xét, giúp đỡ em tận tình trình H thực đề tài TẾ Thứ hai, em xin chân thành cám ơn anh Đặng Ngọc Thạnh - quản lý công ty KI nghiệm để em hoàn tốt đề tài N H Lotus Outsourcing giúp đỡ em nhiệt tình từ việc tìm tài liệu kinh Ọ C Cuối em xin chân thành cám ơn đến ban giám hiệu nhà trường, quý ẠI khóa luận tốt nghiệp lần H thầy cô Khoa tạo điều kiện tốt tốt cho em làm hoàn thiện Đ Do kiến thức em có hạn nên q trình thực khóa luận tốt nghiệp N G khơng tránh khỏi thiếu sót, em mong nhận đóng góp quý TR Ư Ờ thầy để em hồn thiện tốt chuyên đề Em xin chân thành cám ơn! Sinh viên thực Võ Đức Nguyên SVTH: Võ Đức Ngun i GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp MỤC LỤC PHẦN MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nghiên cứu Phương pháp nghiên cứu Bố cục báo cáo khóa luận PHẦN NỘI DUNG CHƯƠNG I: CƠ SỞ LÝ THUYẾT Ế 1.1 Tổng quan khám phá tri thức khai phá liệu .3 U 1.1.1 Khám phá tri thức quy trình khám phá tri thức H 1.1.2 Khai phá liệu TẾ 1.1.3 Các phương pháp khai phá liệu N H 1.1.4 Ứng dụng khai phá liệu KI 1.2 Tổng quan khai phá văn .7 Ọ C 1.2.1 Khái niệm khai phá văn H 1.2.2 Quy trình khai phá văn .8 Đ ẠI 1.2.3 Một số toán khai phá văn G 1.3 Phát biểu toán phân lớp tin tức N 1.4 Các cơng trình liên quan 10 Ư Ờ 1.5 Một số mơ hình phân lớp sử dụng khóa luận 22 TR 1.5.1 Mơ hình phân lớp kết hợp Boosting (Adaboost) 22 1.5.2 Mơ hình phân lớp Support Vector Machines (SVM) .23 1.5.3 Mơ hình phân lớp định (J48) 26 1.5.4 Mơ hình phân lớp k- Lân cận (kNN) 26 1.5.5 Mơ hình phân lớp Nạve Bayes .27 CHƯƠNG II: QUY TRÌNH XÂY DỰNG MƠ HÌNH PHÂN LỚP VĂN BẢN BẰNG PHƯƠNG PHÁP BOOSTING DỰA TRÊN MƠ HÌNH PHÂN LỚP SVM 29 2.1 Quy trình xây dựng mơ hình phân lớp văn .29 2.2 Mơ hình vector q trình phân lớp văn 30 SVTH: Võ Đức Ngun ii GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp 2.2.1 Mơ hình giỏ từ (Bag-of-Words) 30 2.2.2 Phương pháp tính trọng số TF-IDF 30 2.3 Loại bỏ từ thừa (stopwords) 31 2.4 Đặc trưng toán phân lớp văn .32 2.5 Các phương pháp chuẩn bị liệu .32 2.5.1 Phương pháp Hold-Out 33 2.5.2 Phương pháp K – Fold Cross Validation 33 2.6 Phương pháp đánh giá mơ hình phân lớp 35 2.6.1 Độ xác (Accuracy) 35 U Ế 2.6.2 Phương pháp đánh giá theo Precision Recall .35 H 2.6.3 Phương pháp đánh giá F1-score 36 TẾ 2.6.4 Phương pháp đánh giá ma trận nhầm lẫn (Confusion Matrix) .37 N H 2.6.5 Phương pháp đánh giá đường ROC .38 KI CHƯƠNG III: XÂY DỰNG THÍ NGHIỆM 39 Ọ C 3.1 Xây dựng mơ hình phân lớp tin tức tự động 39 H 3.1.1 Thu thập liệu tiền xử lý liệu .39 Đ ẠI 3.1.2 Xây dựng mơ hình 40 G 3.2 Kết thí nghiệm 42 N 3.2.1 Hiệu mô hình .42 Ư Ờ 3.2.2 Đường ROC mơ hình phân lớp .43 TR 3.2.3 Ma trận nhãn lớp mơ hình phân lớp 45 3.3 Ứng dụng mô hình vào phần mềm tổng hợp tin tức tự động 46 PHẦN KẾT LUẬN 48 DANH MỤC TÀI LIỆU THAM KHẢO vii SVTH: Võ Đức Nguyên iii GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp DANH MỤC HÌNH VẼ Hình 1: Quy trình khám phá tri thức Hình 2: Quy trình khai phá văn Hình 3: Mơ hình phân lớp kết hợp Boosting – Adaboost .23 Hình 4: Cơ chế hoạt động mơ hình sở SVM 24 Hình 5: Cơ chế hoạt động mơ hình phân lớp sở SVM 24 Hình 6: Cơ chế hoạt động mơ hình phân lớp sở SVM 25 Hình 7: Mơ hình định .26 Hình 8: Mơ hình phân lớp sở kNN 27 U Ế Hình 9: Mơ hình phân lớp sở kNN 27 H Hình 10: Mơ hình phân lớp NaiveBayes .28 TẾ Hình 1: Kiến trúc mơ hình phân lớp văn 29 N H Hình 2: Phương pháp Hold-out .33 KI Hình 3: Phương pháp Cross validation 34 Ọ C Hình 4: Phương pháp Cross validation 35 H Hình 5: Cách tính Precision Recall .36 ẠI Hình 6: Phương pháp đánh giá ma trận nhầm lẫn weka 37 G Đ Hình 7: Đường ROC mơ hình 38 N Hình 1: Xác định nhãn lớp 39 Ư Ờ Hình 2: Phương pháp giảm từ thừa weka 40 TR Hình 3: Tính TF-IDF giảm từ weka 40 Hình 4: Tiến hành xây dựng mơ hình phương pháp phân lớp .41 Hình 5: Kiểm thử mơ hình test set weka .41 Hình 6: Lưu mơ hình weka 42 Hình 7: Sơ đồ xây dựng mơ hình phân lớp .42 Hình 8: Sơ đồ ROC mơ hình 44 Hình 9: Sơ đồ ROC cho nhiều nhãn lớp mô hình Boosting(SVM) 45 Hình 10: Ma trận nhãn lớp mơ hình 46 Hình 11: Kết phân lớp theo mơ hình 47 SVTH: Võ Đức Nguyên iv GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp PHẦN MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, với phát triển nhanh chóng khoa học kỹ thuật bùng nỗ tri thức Kho liệu, nguồn tri thức nhân loại trở nên đồ sộ, vô tận làm cho vấn đề khai thác nguồn tri thức ngày trở nên nóng bỏng đặt thách thức lớn cho công nghệ thông tin giới Cùng với tiến vượt bậc công nghệ thông tin phát triển mạnh mẽ mạng thơng tin tồn cầu, nguồn liệu Web trở thành kho liệu khổng lồ Nhu cầu tìm kiếm xử lý thơng tin, với yêu cầu khả kịp U Ế thời khai thác chúng để mạng lại suất chất lượng cho công tác quản H lý, hoạt động kinh doanh…đã trở nên cấp thiết xã hội đại Nhưng vấn đề TẾ tìm kiếm sử dụng nguồn tri thức để phục vụ cho cơng việc N H lại vấn đề khó khăn người sử dụng Để đáp ứng phần yêu KI cầu này, người ta xây dựng cơng cụ tìm kiếm xử lý thông tin nhằm giúp Ọ C cho người dùng tìm kiếm thơng tin cần thiết cho mình, với rộng H lớn, đồ sộ nguồn liệu Internet làm cho người sử dụng cảm thấy khó ẠI khăn trước kết tìm G Đ Với phương pháp khai thác sở liệu truyền thống chưa đáp ứng N yêu cầu Để giải vấn đề này, hướng nghiên cứu Ư Ờ áp dụng kỹ thuật khai phá liệu khám phá tri thức môi trường Web TR Do đó, việc nghiên cứu mơ hình liệu áp dụng phương pháp khai phá liệu khai phá tài nguyên Web xu tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao Vì vậy, em chọn đề tài “Xây dựng mơ hình phân lớp báo phương pháp kết hợp Boosting” để làm luận văn tốt nghiệp cho Mục tiêu nghiên cứu Mục tiêu tổng quát Mục tiêu đề tài nghiên cứu xây dựng mơ hình phân lớp báo tin tức dựa phương pháp phân lớp sở phân lớp kết hợp Sau đó, chúng SVTH: Võ Đức Nguyên Trang GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp ta sử dụng mơ hình để phân lớp báo vào danh mục tương ứng tự động cách nhanh chóng xác Mục tiêu cụ thể - Nghiên cứu phương pháp phân lớp sở phân lớp kết hợp để tiến hành xây dựng mô hình phân lớp tối ưu với liệu báo thu thập từ liệu Internet - Ứng dụng mơ hình vào thực tiễn để phân lớp tin tức tự động vào danh mục tương ứng cách xác Phương pháp nghiên cứu U Ế Các phương pháp nghiên cứu sử dụng bài: H - Phương pháp đối chiếu – so sánh TẾ - Phương pháp cấu trúc – hệ thống N H - Thu thập phân tích tài liệu thông tin liên quan đến đề tài KI - Thảo luận, lựa chọn phương hương giải vấn đề Ọ C - Triển khai xây dựng khai phá liệu H - Kiểm tra, thử nghiệm đánh giá kết trình khai phá ẠI Bố cục báo cáo khóa luận G Đ Nội dung báo cáo khóa luận chia thành chương sau: N Chương I: Cơ sở lý thuyết, trình bày giới thiệu sở lý thuyết khám Ư Ờ phá tri thức khai phá liệu khái phá văn để làm tảng xây TR dựng mơ hình phân lớp tin tức tự động Chương II: Quy trình xây dựng mơ hình khai phá văn phương pháp boosting, trình bày chi tiết bước quy trình xây dựng mơ hình khai phá văn phương pháp boosting bao gồm gồm bước: thu thập liệu, tiền xử lý liệu, chuyển dạng liệu, phân chia liệu, khai phá liệu trình diễn liệu Chương III: Xây dựng thí nghiệm, trình bày chi tiết q trình xây dựng mơ hình phân lớp liệu thu thập cụ thể tập liệu 500, 1000, 1500 báo Sau tiến hành xây dựng mơ hình phân lớp phương pháp kết hợp Boosting, Voting, Bagging, Stacking để thu mơ hình tối ưu Cuối phần đánh giá, kết luận hướng phát triển đề tài SVTH: Võ Đức Nguyên Trang GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp PHẦN NỘI DUNG CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan khám phá tri thức khai phá liệu 1.1.1 Khám phá tri thức quy trình khám phá tri thức 1.1.1.1 Khám phá tri thức Theo R Feldman [1], khám phá tri thức khám phá tự động phân tích mơ hình hóa kho liệu lớn Khám phá tri thức trình tổ chức, xác định mơ hình hợp lệ, lạ, hữu ích dễ hiểu từ mơ hình lớn liệu phức tạp U Ế Theo Devedzic [2], khám phá tri thức trình tự động phát mẫu, TẾ H quy tắc nội dung thơng thường chưa biết trước có khối lượng lớn liệu Theo Oded Maimon Lior Rokach [3], khám phá tri thức phân tích N H tự động, thăm dò mơ hình hóa kho liệu lớn Khám phá tri thức trình KI xác định hợp lý, lạ, hữu ích dễ hiểu từ liệu lớn phức tạp Ọ C Tóm lại, khám phá tri thức sở liệu trình việc xác H định giá trị, lạ, tri thức tiềm ẩn tri thức khối lượng liệu Đ ẠI khổng lồ để đáp ứng nhu cầu thơng tin xã hội G 1.1.1.2 Quy trình khám phá tri thức TR Ư Ờ N Quy trình khám phá tri thức mô tả chi tiết hình 1.1 Hình 1: Quy trình khám phá tri thức (Nguồn: From Data Mining to Knowledge Discovery in Databases) SVTH: Võ Đức Nguyên Trang GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Trong đó, bước quy trình khám phá tri thức thể rõ tính chất riêng, có vai trò nhiệm vụ khác Bao gồm: Bước 1: Chọn lọc liệu (Selection) Ở giai đoạn này, tập hợp liệu khai phá từ sở liệu, từ kho liệu, nguồn liệu web vào sở liệu để tiến hành xử lý Cơng đoạn gặp nhiều khó khăn trắc trở liệu nằm khắp nơi nhiều dạng phức tạp thu thập từ sở liệu khổng lồ nên cần chọn lọc cách thận trọng xác Bước 2: Tiền xử lý liệu (Processing) U Ế Sau chọn lọc liệu phù hợp tiến hành tiền xử lý H liệu Phần lớn liệu thường không đồng mắc số lỗi TẾ liệu không đầy đủ, chặt chẽ không lôgic, bị trùng lặp Cho nên cần phải tiền xử N H lý trước khai phá liệu Ở giai đoạn dùng kỹ thuật làm sạch, tích hợp, KI biến đổi thu giảm liệu để kết nối liệu với cách chặt chẽ Ọ C logic, tạo điều kiện cho việc khai phá liệu cách thuận lợi xác H Bước 3: Chuyển đổi liệu (Transformation) ẠI Đây giai đoạn chuyển đổi liệu, giai đoạn giúp cho liệu G Đ chuyển đổi dạng thích hợp để tiến hành khai phá liệu Thông thường liệu N chuyển dạng vector để khai phá liệu Ư Ờ Bước 4: Khai phá liệu (Data Mining) TR Sau liệu chuyển dạng vector tiến hành khai phá liệu Đây giai đoạn quan trọng quy trình, thuật tốn chun ngành sử dụng để tiến hành khai phá liệu, mục đích để tìm liệu xác theo mục tiêu đề Một số kỹ thuật ứng dụng là: phân lớp, phân cụm, luật kết hợp Bước 5: Đánh giá kết (Evaluation of Result) Bước cuối quy trình đánh giá kết quả, mẫu liệu sau khai phá khơng phải mẫu xác, hữu ích phải cần áp dụng tiêu chuẩn đánh giá liệu vào để lấy mẫu liệu tri thức cần thiết xác SVTH: Võ Đức Nguyên Trang GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Nếu khám phá tri thức tồn q trình chiết xuất tri thức từ sở liệu khai phá liệu giai đoạn quan trọng trình Khâu khai phá liệu sử dụng giải thuật đặc biệt để chiết xuất mẫu từ tập liệu 1.1.2 Khai phá liệu Theo Frawlay [4], phát tri thức sở liệu (đơi gọi khai phá liệu) q trình khơng tâm thường nhận mẫu có giá trị, mới, hữu ích tiềm hiểu liệu Theo tài liệu Weldon năm 1996 [5], khai phá liệu q trình trích U Ế thơng tin dùng được, chưa biết trước từ sở liệu lớn, dùng H thông tin để định TẾ Theo Tom Mitchell [6], khai phá liệu việc sử dụng liệu lịch sử để N H khám phá quy tắc cải thiện định tương lai KI Theo TS Fayyad [7], khai phá liệu thường xem việc khám phá tri Ọ C thức sở liệu, q trình trích xuất thơng tin ẩn, trước H chưa biết có khả hữu ích, dạng quy luật, ràng buộc, quy tắt Đ ẠI sở liệu G Tóm lại, khai phá liệu q trình trích lọc thơng tin, mẫu có giá N trị ẩn lượng lớn liệu có khối lượng khổng lồ để đáp ứng nhu cầu Ư Ờ định tương lai TR 1.1.3 Các phương pháp khai phá liệu 1.1.3.1 Phân lớp (Classification) Phân lớp hình thức phân tích liệu phổ biến dùng để tạo lập mơ hình mô tả phân lớp liệu quan trọng [8] Phân tích giúp hiểu sâu liệu tầm mức lớn hơn, bao qt Những mơ hình phân lớp (classification models/classifiers) sử dụng để dự đoán nhãn phân lớp cho liệu vào tương ứng Hướng tiếp cận thường sử dụng số kỹ thuật học máy (machine learning) định, mạng nơron nhân tạo… Người ta gọi phân lớp có giám sát SVTH: Võ Đức Nguyên Trang GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Phân tích hình trên, ta thấy sau đưa liệu test vào để kiểm thử kết nhãn lớp giới có tỷ lệ dự đoán cao với tỷ lệ 44/45 tập liệu Và nhãn lớp đời sống có tỷ lệ dự đoán thấp với 26/45 tập liệu, tập liệu lại dự đốn sai sang nhãn lớp khác giải trí, giáo dục, kinh doanh pháp luật Từ ta kết luận phương pháp đánh giá ma trận thể rõ chi tiết cách xác kết dự đoán cho nhãn lớp tập liệu 2.6.5 Phương pháp đánh giá đường ROC Ngoài hai phương pháp đánh giá thường sử dụng có phương pháp đánh giá mơ hình đơn giản đánh giá đường ROC Ế (Receiver Operating Characteristic) mơ hình Đường ROC công cụ H U khác so sánh hiệu hai hay nhiều mơ hình khác cách trực quan TẾ Để vẽ đường ROC phân lớp M, cần xếp liệu N H kiểm thử theo thứ tự giảm dần kết dự đoán nhãn phân lớp KI Đường ROC mơ hình nằm có hiệu cao mơ Ọ C hình lại TR Ư Ờ N G Đ ẠI H Ví dụ: Hình 2.7 sau có mơ hình thể qua đường ROC Hình 7: Đường ROC mơ hình Trong hình ta nhận thấy mơ hình phân lớp sở Naïve-Bayes nằm ta kết luận mơ hình phân lớp sở Nạve-Bayes có hiệu vượt trội hai mơ hình phân lớp sở J48 KNN SVTH: Võ Đức Nguyên Trang 38 GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp CHƯƠNG III: XÂY DỰNG THÍ NGHIỆM 3.1 Xây dựng mơ hình phân lớp tin tức tự động 3.1.1 Thu thập liệu tiền xử lý liệu Đây phần quan trọng việc khai phá liệu Việc thu thập liệu cần phải thận trọng chi tiết để giúp khai phá liệu xác Đầu tiên, thu thập 500, 1000, 1500 báo website tin tức thuộc 10 thể loại khác Cụ thể: cơng nghệ, giải trí, kinh doanh, giáo dục, thể thao, pháp luật, giới, thời sự, đời sống sức khỏe Tiếp U Ế đến tiến hành chia liệu báo thành tập liệu có tỷ lệ 70% tập TẾ H huấn luyện (train set) 30% tập kiểm thử (test set) Từ chuyển đổi sang dạng vector cho hai tập liệu N H Sau có liệu dạng vector, giai đoạn tiến hành tiền xử lý KI liệu weka Trong giai đoạn bắt đầu tải liệu huấn luyện Ọ C (train) có dạng vector lên weka tiến hành tiền xử lý liệu gồm bước là: (i) H xác định nhãn lớp (xem hình 3.1), (ii) giảm từ thừa (xem hình 3.2), (iii) tính tf-idf TR Ư Ờ N G Đ ẠI (xem hình 3.3) Hình 1: Xác định nhãn lớp SVTH: Võ Đức Nguyên Trang 39 GVHD: Nguyễn Đình Hoa Cương H U Ế Khóa luận tốt nghiệp TR Ư Ờ N G Đ ẠI H Ọ C KI N H TẾ Hình 2: Phương pháp giảm từ thừa weka Hình 3: Tính TF-IDF giảm từ weka 3.1.2 Xây dựng mơ hình Sau hoàn tất việc tiền xử lý liệu, tiến hành xây dựng mơ hình phân lớp văn phương pháp phân lớp Trong khóa luận này, sử dụng mơ hình phân lớp kết hợp gồm boosting mơ hình phân lớp nạve bayes, kNN, J48, LibSVM để xây dựng mơ hình Và tiến hành so sánh mơ hình xây dựng với để lấy mơ hình tối ưu SVTH: Võ Đức Nguyên Trang 40 GVHD: Nguyễn Đình Hoa Cương TẾ H U Ế Khóa luận tốt nghiệp N H Hình 4: Tiến hành xây dựng mơ hình phương pháp phân lớp KI Tiếp theo sau huấn luyện mơ hình ta đưa liệu kiểm thử vào để TR Ư Ờ N G Đ ẠI H Ọ C kiểm tra Hình 5: Kiểm thử mơ hình test set weka Cuối lưu mơ hình tối ưu phân lớp lại để ứng dụng tổng hợp tin tức tự động SVTH: Võ Đức Nguyên Trang 41 GVHD: Nguyễn Đình Hoa Cương H U Ế Khóa luận tốt nghiệp TẾ Hình 6: Lưu mơ hình weka N H 3.2 Kết thí nghiệm TR Ư Ờ N G Đ ẠI H Ọ C KI 3.2.1 Hiệu mơ hình Hình 7: Sơ đồ xây dựng mơ hình phân lớp SVTH: Võ Đức Nguyên Trang 42 GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp Ta tiến hành xây dựng mơ hình phân lớp thu hiệu mơ sau: Bảng 1.1: Hiệu mơ hình BOOSTING NB (SVM) J48 LibSVM KNN(5) KNN(7) KNN(9) KNN(11) Data-500 82% 54% 64% 61% 32% 26% 23% 22% Data-1000 82% 64% 67% 69% 49% 42% 42% 40% Data-1500 77% 70% 63% 72% 48% 50% 50% 47% Sau thí nghiệm tập liệu 500, 1000, 1500 báo ta thấy tỷ U Ế lệ phần trăm mơ hình phân lớp Boosting dựa mơ hình sở SVM có tỷ lệ H phần trăm vượt trội so với mơ hình sở Naïve Bayes, J48, LibSVM KNN TẾ Cụ thể tỷ lệ phần trăm xác tập liệu 500, 1000 82% tập N H liệu 1500 77% Mặc dù, phần trăm tập liệu 500 1000 có độ xác KI cao vốn từ tập liệu nên ta ứng dụng để phân loại Ọ C tập tin tự động nhiều hạn chế từ tiếng việt đa H dạng phong phú Cho nên, tiến hành lựa chọn mơ hình Boosting dựa ẠI mơ hình sở SVM tập liệu 1500 G Đ Dữ liệu báo lấy từ nguồn : http://vietnamnet.vn/, N https://www.24h.com.vn/, http://dantri.com.vn/ Ư Ờ 3.2.2 Đường ROC mơ hình phân lớp TR Ở sơ đồ này, đường ROC mơ hình phân lớp kết hợp boosting đường cao so với đường mô hình phân lớp Knn, J48, Nạve Bayes, J48 nên mơ hình phân lớp kết hợp boosting đường có độ xác tối ưu so với đường lại SVTH: Võ Đức Nguyên Trang 43 GVHD: Nguyễn Đình Hoa Cương H Ọ C KI N H TẾ H U Ế Khóa luận tốt nghiệp Đ ẠI Hình 8: Sơ đồ ROC mơ hình G Từ hai kết ta rút mơ hình phân lớp kết hợp boosting với mơ Ờ N hình phân lớp sở Support Vector Machines có hiệu cao Vì ta Ư chọn mơ hình phân lớp kết hợp boosting để xây dựng mơ hình ứng dụng tổng hợp TR tin tức tự động Hiệu mơ hình phân lớp Boosting nhãn lớp biễu diễn qua Hình 3.9 Theo Hình 3.9 ta thấy đường ROC nhãn lớp cơng nghệ, giải trí, giới, thể thao cao độ xác nhãn lớp có tỷ lệ cao so với số nhãn lớp đời sống thời SVTH: Võ Đức Nguyên Trang 44 GVHD: Nguyễn Đình Hoa Cương H Ọ C KI N H TẾ H U Ế Khóa luận tốt nghiệp ẠI Hình 9: Sơ đồ ROC cho nhiều nhãn lớp mơ hình Boosting(SVM) Đ 3.2.3 Ma trận nhãn lớp mơ hình phân lớp N G Kết dự đoán nhãn lớp thể qua ma trận Hình 3.10 Ư Ờ Phân tích Hình 3.10 ta nhận xét tỷ lệ dự đốn nhãn TR lớp giải trí, giới, thể thao tập liệu kiểm thử (test set) có độ xác cao lên đến 40-44/45 Một số nhãn lớp đời sống, sức khỏe có độ xác mức trung bình vào khoảng 26-30/45 Và tiến hành phân lớp cho có nhãn lớp đời sống sức khỏe kết dự đốn nhãn lớp khác giải trí, kinh doanh tương đồng từ giống nên chuyện dự đoán nhãn lớp khác chuyện bình thường SVTH: Võ Đức Nguyên Trang 45 GVHD: Nguyễn Đình Hoa Cương Ọ C KI N H TẾ H U Ế Khóa luận tốt nghiệp H Hình 10: Ma trận nhãn lớp mơ hình Đ ẠI 3.3 Ứng dụng mơ hình vào phần mềm tổng hợp tin tức tự động G Mơ hình sau xây dựng thành công ta tiến hành ứng dụng mơ Ờ N hình vào phần mềm để dự đốn tin tức tự động Ư Q trình phân lớp ứng dụng bao gồm bước sau đây: TR Bước 1: Tiến hành tải model lưu trình xây dựng mơ hình lên giao diện Bước 2: Tải báo test Internet dạng file txt Bước 3: Tiến hành phân lớp báo Bước 4: Hiển thị kết nhãn lớp hình Sau hồn thành bước kết cho kết hình sau SVTH: Võ Đức Nguyên Trang 46 GVHD: Nguyễn Đình Hoa Cương N H TẾ H U Ế Khóa luận tốt nghiệp TR Ư Ờ N G Đ ẠI H Ọ C KI Hình 11: Kết phân lớp theo mơ hình SVTH: Võ Đức Ngun Trang 47 GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp PHẦN KẾT LUẬN Đánh giá mơ hình Do số lượng liệu ít, hạn chế q trình xây dựng mơ hình cho ứng dụng phân lớp tin tức tự động nên chưa thể kiểm định hiệu suất xử lý hệ thống, độ xác kết mơ hình kiểm thử dự đoán Tuy nhiên, theo mặt khách quan, mục tiêu mà khóa luận đặt đạt Để mơ hình đạt độ xác cao cần phải phát triển thêm nhiều mặt chọn nhiều liệu tốt, nghiên cứu số phương pháp phân lớp tiến hành chạy mô hình U Ế Những hạn chế đề tài H Mặc dù hoàn thành mục tiêu đề tài xây dựng phần mềm phân lớp N H nhiều hạn chế cần phải khắc phục sau: TẾ đạt thành công định q trình làm nhiên KI - Dữ liệu q Chúng ta cần xây dựng mơ hình nhiều liệu Ọ C tốt H - Độ xác mơ hình chưa cao dẫn đến việc dự đốn kết nhiều ẠI sai sót Cần phải nghiên cứu thêm nhiều để tăng độ xác mơ hình G Đ - Hạn chế máy tính cá nhân khơng đáp ứng việc xây dựng mơ N hình cách xác nhanh chóng Ư Ờ Hướng phát triển đề tài TR Để mơ hình đưa vào hệ thống vận hành thực thực tế cần có thêm thời gian cơng sức nghiên cứu kiểm thử, hoàn thiện giải pháp xây dựng phần mềm hoàn chỉnh Cụ thể phải cần thu thập liệu nhiều hơn, nhiều liệu để mẫu từ mơ hình đa dạng phong phú Từ xây dựng thêm nhiều mơ hình khác thay đổi thơng số mơ hình để có mơ hình tối ưu Và ứng dụng vào thực tế cách tối ưu Kết luận Khóa luận nêu lên nét khái quát khai phá liệu, khám phá tri thức vấn đề liên quan, kỹ thuật khai phá văn sâu vào số phương pháp phân lớp truyền thống Khóa luận tập trung vào SVTH: Võ Đức Ngun Trang 48 GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp hướng nghiên cứu phát triển khai phá liệu khai phá văn bản, hướng thu hút quan tâm nhiều nhà khoa học Lĩnh vực khai phá văn vấn đề mẽ, quan trọng khó, bên cạnh kết nghiên cứu đạt đặt thách thức lớn nhà nghiên cứu Khai phá văn lĩnh vực đầy triển vọng, phức tạp vấn đề mở Hiện chưa có thuật tốn mơ hình biểu diễn liệu tối ưu khai phá văn Và sau hồn thành khóa luận, mức đơn giản em nắm số kiến thức sau: - Nắm vững kiến thức chuyên môn khai phá liệu khai U Ế phá văn H - Tìm hiểu nắm vững việc xây dựng mơ hình phân lớp kết hợp TẾ phân lớp sở từ thu mơ hình phân lớp có độ xác cao N H - Áp dụng mơ hình vào thực tiễn, cụ thể xây dựng phần mềm phân lớp tin KI tức tự động dưa vào lập trình java cơng cụ NetBeans Ọ C Trong q trình hồn thành khóa luận này, đạt kiến H thức định, em nhận thấy khai phá liệu nói chung khai phá văn ẠI nói riêng lĩnh vực nghiên cứu lớn Tuy em xây dựng mô hình phân G Đ lớp tin tức tự động hạn chế tài liệu thời gian việc N liệu nên vốn từ nhiều thiếu sót Ngồi ra, với kiến thức thân Ư Ờ nhiều hạn chế nên khơng tránh khỏi thiếu sót đáng kể nên mong muốn TR nhận nhận xét đóng góp ý kiến q thầy để khóa luận hoàn thiện Cuối lần em xin chân thành cám ơn Thầy Nguyễn Đình Hoa Cương nhiệt tình hướng dẫn giúp đỡ để em hồn thành tốt khóa luận Cùng với em xin chân thành cám ơn anh chị công ty Lotus Outsourcing tất người thân tạo điều kiện tốt để em hoàn thành khóa luận SVTH: Võ Đức Nguyên Trang 49 GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp DANH MỤC TÀI LIỆU THAM KHẢO Feldman R Dagan I (1995) Knowledge Discovery in Textual Databases (KDT) KDD, 112–117 Devedzic V (2001) Knowledge discovery and data mining in databases Handbook of Software Engineering and Knowledge Engineering: Volume I: Fundamentals World Scientific, 615–637 Maimon O Rokach L (2009) Introduction to knowledge discovery and data mining Data Mining and Knowledge Discovery Handbook Springer, 1–15 Ế Fayyad U.M., Piatetsky-Shapiro G., Smyth P cộng (1996), Advances in U knowledge discovery and data mining, AAAI press Menlo Park TẾ H Mena J (2003), Investigative data mining for security and criminal detection, Butterworth-Heinemann N H Han J Fu Y (1996) 16 Exploration of the Power of Attribute-Oriented AAAII1T Press 1g96, 399–42l Ọ C KI Induction in Data Mining Ad… Ces Know Ledge Discov Data M Ining Camb H Mitchell T.M (1999) Machine learning and data mining Commun ACM, 42(11), Đ ẠI 30–36 G Tseng Y.-H., Lin C.-J., Lin Y.-I (2007) Text mining techniques for patent Ờ N analysis Inf Process Manag, 43(5), 1216–1247 Ư Mining W.I.D (2006) Data Mining: Concepts and Techniques Morgan 10 TR Kaufinann Kovalerchuk B Vityaev E (2000), Data mining in finance: advances in relational and hybrid methods, Springer Science & Business Media 11 Ngai E.W., Xiu L., Chau D.C (2009) Application of data mining techniques in customer relationship management: A literature review and classification Expert Syst Appl, 36(2), 2592–2602 12 Zhu F., Patumcharoenpol P., Zhang C cộng (2013) Biomedical text mining and its applications in cancer research J Biomed Inform, 46(2), 200–211 13 Chakraborty G., Pagolu M., Garla S (2014), Text mining and analysis: practical methods, examples, and case studies using SAS, SAS Institute vii GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp 14 Zweigenbaum P., Demner-Fushman D., Yu H cộng (2007) Frontiers of biomedical text mining: current progress Brief Bioinform, 8(5), 358–375 15 Lucini F.R., Fogliatto F.S., da Silveira G.J cộng (2017) Text mining approach to predict hospital admissions using early medical records from the emergency department Int J Med Inf, 100, 1–8 16 Zhu F., Patumcharoenpol P., Zhang C cộng (2013) Biomedical text mining and its applications in cancer research J Biomed Inform, 46(2), 200–211 17 Te Liew W., Adhitya A., Srinivasan R (2014) Sustainability trends in the process industries: A text mining-based analysis Comput Ind, 65(3), 393–400 Ế He W (2013) Examining students’ online interaction in a live video U 18 TẾ H streaming environment using data mining and text mining Comput Hum Behav, 29(1), 90–102 Rajpathak D.G (2013) An ontology based text mining system for N H 19 KI knowledge discovery from the diagnosis data in the automotive domain Comput Oberreuter G VeláSquez J.D (2013) Text mining applied to plagiarism H 20 Ọ C Ind, 64(5), 565–580 Đ ẠI detection: The use of words for detecting deviations in the writing style Expert N Mostafa M.M (2013) More than words: Social networks’ text mining for Ờ 21 G Syst Appl, 40(9), 3756–3763 Harrag F (2014) Text mining approach for knowledge extraction in Sahỵh TR 22 Ư consumer brand sentiments Expert Syst Appl, 40(10), 4241–4251 Al-Bukhari Comput Hum Behav, 30, 558–566 23 Suarez-Tangil G., Tapiador J.E., Peris-Lopez P cộng (2014) Dendroid: A text mining approach to analyzing and classifying code structures in android malware families Expert Syst Appl, 41(4), 1104–1117 24 Öztürk N Ayvaz S (2017) Sentiment analysis on Twitter: A text mining approach to the Syrian refugee crisis Telemat Inform 25 Amrit C., Paauw T., Aly R cộng (2017) Identifying child abuse through text mining and machine learning Expert Syst Appl, 88, 402–418 viii GVHD: Nguyễn Đình Hoa Cương Khóa luận tốt nghiệp 26 Sunikka A Bragge J (2012) Applying text-mining to personalization and customization research literature–Who, what and where? Expert Syst Appl, 39(11), 10049–10058 27 Li N Wu D.D (2010) Using text mining and sentiment analysis for online forums hotspot detection and forecast Decis Support Syst, 48(2), 354–368 28 Hsu J.-L., Chou H.-W., Chang H.-H (2011) EduMiner: Using text mining for automatic formative assessment Expert Syst Appl, 38(4), 3431–3439 29 Poelmans J., Van Hulle M.M., Viaene S cộng (2011) Text mining with emergent self organizing maps and multi-dimensional scaling: A H Yoon J (2012) Detecting weak signals for long-term business opportunities TẾ 30 U Ế comparative study on domestic violence Appl Soft Comput, 11(4), 3870–3876 using text mining of Web news Expert Syst Appl, 39(16), 12543–12550 Lee C.-H Wang S.-H (2012) An information fusion approach to N H 31 KI integrate image annotation and text mining methods for geographic knowledge Nishanth K.J., Ravi V., Ankaiah N cộng (2012) Soft computing H 32 Ọ C discovery Expert Syst Appl, 39(10), 8954–8967 Đ ẠI based imputation and hybrid data and text mining: The case of predicting the N Cao Q., Duan W., Gan Q (2011) Exploring determinants of voting for Ờ 33 G severity of phishing alerts Expert Syst Appl, 39(12), 10583–10589 Ư the “helpfulness” of online user reviews: A text mining approach Decis Support 34 TR Syst, 50(2), 511–521 Zhou X., Peng Y., Liu B (2010) Text mining for traditional Chinese medical knowledge discovery: a survey J Biomed Inform, 43(4), 650–660 35 (2017), stopwords-vi: Vietnamese stopwords collection, Stopwords ISO 36 Freund Y Schapire R.E A Short Introduction to Boosting 14 ix ... Một số mơ hình phân lớp sử dụng khóa luận N H 1.5.1 Mơ hình phân lớp kết hợp Boosting (Adaboost) KI Tư tưởng phương pháp Boosting xây dựng mô hình kết hợp tảng Ọ C nhiều mơ hình phân lớp sở loại... TRÌNH XÂY DỰNG MƠ HÌNH PHÂN LỚP VĂN BẢN BẰNG PHƯƠNG PHÁP BOOSTING DỰA TRÊN MƠ HÌNH PHÂN LỚP SVM 29 2.1 Quy trình xây dựng mơ hình phân lớp văn .29 2.2 Mơ hình vector q trình phân. .. Tiến hành xây dựng mơ hình phương pháp phân lớp .41 Hình 5: Kiểm thử mơ hình test set weka .41 Hình 6: Lưu mơ hình weka 42 Hình 7: Sơ đồ xây dựng mơ hình phân lớp .42 Hình 8: