Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	68
Dung lượng	1,92 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN Ngành: Hệ thống Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trần Thị Oanh Hà Nội – 2016 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn TS Trần Thị Oanh Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, xin chịu hoàn toàn trách nhiệm Hà Nội, ngày tháng năm 2016 HỌC VIÊN Nguyễn Văn Thành ii LỜI CẢM ƠN Trước hết, xin bày tỏ lòng biết ơn sâu sắc chân thành đến giáo viên hướng dẫn TS Trần Thị Oanh, người tận tình bảo định hướng nghiên cứu, đề xuất ý tưởng giúp đỡ mặt phương pháp luận việc kiểm tra cuối luận văn Tôi xin chân thành cảm ơn thày cô khoa Công nghệ Thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội, khoa Công nghệ Thông tin - Viện Đại học Mở Hà Nội giúp đỡ nhiều trình học tập, nghiên cứu tạo điều kiện giúp công tác để có thời gian thực việc học tập hoàn thành luận văn Cuối cùng, xin bày tỏ lòng kính trọng biết ơn sâu sắc tới bố mẹ người động viên mặt tinh thần hỗ trợ nhiều mặt HỌC VIÊN Nguyễn Văn Thành iii MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC HÌNH VẼ, ĐỒ THỊ viii MỞ ĐẦU Chương 1: Tổng quan vấn đề nghiên cứu Khai phá liệu 1.1.1 Khái niệm 1.1.2 Quy trình khai phá liệu Bài toán khai phá quan điểm mạng truyền thông 1.2.1 Khái quát khai phá quan điểm 1.2.2 Khai phá quan điểm với mạng truyền thông Khai phá quan điểm sinh viên phương tiện truyền thông xã hội 1.3.1 Giới thiệu toán 1.3.2 Tình hình nghiên cứu giới 1.3.3 Tình hình nghiên cứu Việt Nam 10 1.3.4 Ý nghĩa mục tiêu toán 11 Kết luận chương 12 Chương 2: Các kiến thức tảng 13 Giới thiệu 13 2.1.1 Tổng quan toán phân loại 13 2.1.2 Các bước giải toán phân loại 13 2.1.3 Bài toán phân lớp văn 14 Bài toán phân lớp đa nhãn 14 Một số phương pháp phân lớp đa nhãn 15 2.3.1 Phương pháp chuyển đổi toán 16 2.3.2 Phương pháp thích nghi thuật toán 18 Một số mô hình học máy sử dụng cho toán 20 iv 2.4.1 Phân lớp Bayes 20 2.4.2 Cây định 22 Kết luận chương 26 Chương 3: Một mô hình giải toán khai phá liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên 27 Mô hình hoá toán 27 3.1.1 Xác định vấn đề không gian liệu 27 3.1.2 Phát biểu toán theo góc độ toán học 27 Một mô hình giải toán 28 3.2.1 Mô hình tổng thể 28 3.2.2 Môi trường thực nghiệm 31 Kết luận chương 32 Chương 4: Kết thực nghiệm 33 Thu thập tiền xử lý liệu 33 4.1.1 Thu thập liệu 33 4.1.2 Tiền xử lý liệu 34 4.1.3 Lựa chọn tập nhãn gán nhãn liệu 36 4.1.4 Một số thống kê liệu 38 Các công cụ phân tích sử dụng luận văn 42 4.2.1 MEKA 42 4.2.2 vnTokenizer 42 Thiết lập thực nghiệm 43 4.3.1 Chuyển đổi liệu 43 4.3.2 Chia tách liệu cho mục đích tập huấn thử nghiệm 44 4.3.3 Các độ đo đánh giá thực nghiệm 45 Huấn luyện mô hình kiểm tra 46 4.4.1 Thực nghiệm với Zero Rule để làm sở cho phân lớp 46 4.4.2 Thực nghiệm với Binary Relevance 46 4.4.3 Thực nghiệm với Label Combination 47 v Kết thực nghiệm 47 4.5.1 Thực nghiệm với Zero Rule để làm sở cho phân lớp 47 4.5.2 Thực nghiệm với Binary Relevance 48 4.5.3 Thực nghiệm với Label Combination 50 Phân tích lỗi 52 Kết luận chương 53 Chương 5: Kết luận hướng phát triển 54 TÀI LIỆU THAM KHẢO 56 vi DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT Chữ viết tắt Ý nghĩa Tiếng Việt Tiếng Anh MLC Multi Label Classification BR Binary Relevance LP Label Power-Set LC Label Combination BP-MLL Backpropagation for Multi-Label Learning vii DANH MỤC CÁC BẢNG Bảng 1.1 So sánh phân lớp đa lớp phân lớp đa nhãn Bảng 2.1 Mẫu liệu đa nhãn 16 Bảng 2.2 Dữ liệu chuyển đổi bẳng phương pháp Select Transformation 16 Bảng 2.3 Dữ liệu chuyển đổi bẳng phương pháp Ignore Transformation 17 Bảng 2.4 So sánh kết đầu AdaBoost.MH AdaBoost.MR 19 Bảng 3.1 Thông số phần cứng môi trường thực nghiệm 32 viii DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Quá trình khám phá tri thức Hình 1.2: Quy trình khai phá liệu Hình 2.1: Phương pháp chuyển đổi với Binary Relevance 17 Hình 2.2: Phân phối xác suất LP 18 Hình 3.1: Mô hình khai phá liệu trao đổi, thảo luận sinh viên diễn đàn 28 Hình 3.2 Mô hình xử lý chương trình Crawler 29 Hình 3.3 Mô tả trình chuyển đổi liệu sang định dạng ARFF 30 Hình 4.1: Dữ liệu sau tách từ 35 Hình 4.2: Cấu trúc tệp tin CSV chứa liệu gán nhãn 37 Hình 4.3: Biểu đồ thống kê nhãn liệu 39 Hình 4.4: Giao diện công cụ MEKA 42 Hình 4.5: Cấu trúc tệp tin ARFF liệu 43 Hình 4.6: Cấu trúc tệp tin ARFF chuyển sang dạng vector 44 Hình 4.7: Minh hoạ cross-validation với k=5 45 Hình 4.8: Giao diện chức phân lớp văn công cụ MEKA với phương pháp kfold Zero Rule 46 Hình 4.9: Giao diện chức phân lớp văn công cụ MEKA với phương pháp kfold 47 Hình 4.10: Giao diện chức phân lớp văn công cụ MEKA với phương pháp k-fold 47 Hình 4.11: Thống kê kết phương pháp k-fold với Label Combination Zero Rule 48 Hình 4.12: Thống kê kết phương pháp k-fold với Binary Relevance Multinomial Naïve Bayes 48 Hình 4.13 Thống kê độ đo nhãn (Threshold=0.9) với Binary Relevance Multinomial Naïve Bayes 49 Hình 4.14: Thống kê kết phương pháp k-fold với Binary Relevance J48 49 Hình 4.15 Thống kê độ đo nhãn (Threshold=0.1) với Binary Relevance J48 50 Hình 4.16: Thống kê kết phương pháp k-fold với Label Combination Multinomial Naïve Bayes 50 Hình 4.17 Thống kê độ đo nhãn với Label Combination Multinomial Naïve Bayes 51 Hình 4.18: Thống kê kết phương pháp k-fold với Label Combination J48 51 Hình 4.19 Thống kê độ đo nhãn với Label Combination J48 52 44 Hình 4.6: Cấu trúc tệp tin ARFF chuyển sang dạng vector 4.3.1.2 Vector hoá liệu với độ đo TF-IDF TF-IDF (Term Frequency – Inverse Document Frequency) từ số thu qua thống kê thể mức độ quan trọng từ văn [25] Với việc áp dụng độ đo TF-IDF, đặc trưng từ quan trọng văn tăng lên giảm điểm từ phổ biến toàn văn Việc thực xác định độ đo TF-IDF thực với StringToWordVector công cụ MEKA 4.3.1.3 Vector hoá liệu với mô hình 2-gram 3-gram Một phương pháp để trích rút đặc trưng văn ngram [10, tr.2-4] Ta loại bỏ 1-gram, 2-gram, 3-gram từ dừng, điều có lợi với số ngôn ngữ mà đơn vị bé từ tiếng Việt Ví dụ, từ “có_lẽ” từ dừng tiếng Việt Bên cạnh đó, phương pháp loại bỏ 2-gram, 3-gram mà gram từ dừng mang lại hiệu tốt không Công cụ MEKA lựa chọn hoàn toàn hỗ trợ tách từ với n-gram 4.3.2 Chia tách liệu cho mục đích tập huấn thử nghiệm Chúng sử dụng phương pháp k-fold để tiến hành kiểm tra chéo liệu với 1817 mẫu liệu [20, tr.22-28] Phương pháp chia theo k-fold sau:  K-fold phương pháp kiểm chứng chéo việc phân nhóm toàn tập liệu thành tập trình phân tích ban đầu thực tập đơn, tập lại giữ riêng biệt dùng để xác nhận kiểm chứng lại lần phân tích Việc kiểm tra phân tích lần thực lặp lặp lại kiểm tra hết số tập có  K hay gọi số lượng tập liệu, thông thường để giá trị 10 45 Hình 4.7: Minh hoạ cross-validation với k=5 4.3.3 Các độ đo đánh giá thực nghiệm Để đánh giá hiệu suất mô hình, sử dụng độ xác trung bình accuracy tiêu chuẩn: Precision, Recall F-score (macro micro) [7], thông số tính toán sau: Accuracy = Precision = Recall = F-score = 𝑛 ∑𝑛𝑖=1 [ |𝑌𝑖 ⋂ 𝑍𝑖| ] |𝑌𝑖 ⋃ 𝑍𝑖| 𝑠ố 𝑙ượ𝑛𝑔 𝑐á𝑐 𝑎𝑟𝑔𝑢𝑚𝑒𝑛𝑡 đượ𝑐 𝑔á𝑛 𝑛ℎã𝑛 đú𝑛𝑔 𝑠ố 𝑙ượ𝑛𝑔 𝑐á𝑐 𝑎𝑟𝑔𝑢𝑚𝑒𝑛𝑡𝑠 đượ𝑐 𝑔á𝑛 𝑛ℎã𝑛 𝑠ố 𝑙ượ𝑛𝑔 𝑐á𝑐 𝑎𝑟𝑔𝑢𝑚𝑒𝑛𝑡 đượ𝑐 𝑔á𝑛 𝑛ℎã𝑛 đú𝑛𝑔 𝑠ố 𝑙ượ𝑛𝑔 𝑐á𝑐 𝑔𝑜𝑙𝑑 𝑎𝑟𝑔𝑢𝑚𝑒𝑛𝑡 ∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 (4.2) (4.3) (4.4) (4.5) Đây số độ đo tiêu biểu sử dụng rộng rãi toán phân lớp, phân loại nói chung Bên cạnh đó, sử dụng số độ đo đặc trưng toán phân lớp đa nhãn như: Các độ đo Micro Precisionmicro = Recallmicro = F-scoremicro = Các độ đo Macro ∑𝑁 𝑖=1 𝑡𝑝𝑖 ∑𝑁 𝑖=1 𝑓𝑝𝑖 ∑𝑁 𝑖=1 𝑡𝑝𝑖 ∑𝑁 𝑖=1(𝑡𝑝𝑖 +𝑓𝑛𝑖 ) 2×𝑃𝑟𝑒𝑐𝑖𝑠𝑜𝑛𝑚𝑖𝑐𝑟𝑜 ×𝑅𝑒𝑐𝑎𝑙𝑙𝑚𝑖𝑐𝑟𝑜 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑚𝑖𝑐𝑟𝑜 + 𝑅𝑒𝑐𝑎𝑙𝑙𝑚𝑖𝑐𝑟𝑜 (4.6) (4.7) (4.8) 46 Precisionmacro = Recallmacro = F-scoremacro = ∑𝑁 𝑖=1 𝑡𝑝𝑖 𝑡𝑝𝑖+𝑓𝑝𝑖 (4.10) 𝑁 𝑡𝑝𝑖 𝑡𝑝𝑖 +𝑓𝑛𝑖 ∑𝑁 𝑖=1 (4.11) 𝑁 2×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑚𝑎𝑐𝑟𝑜 ×𝑅𝑒𝑐𝑎𝑙𝑙𝑚𝑎𝑐𝑟𝑜 𝑁 (4.12) Huấn luyện mô hình kiểm tra Như trình bày chương 2, nghiên cứu áp dụng phương pháp Binary Relevance Label Combination với thuật toán phân lớp Naïve Bayes J48 để đưa đánh giá, so sánh Với lần chạy khai thác liệu, tiến hành thực nghiệm với thiết lập quy trình k-fold 4.4.1 Thực nghiệm với Zero Rule để làm sở cho phân lớp K-fold sử dụng mô hình Zero Rule  Bước 1: Mở tệp tin liệu huấn luyện tạo MEKA Explorer  Bước 2: Lựa chọn mô hình phân lớp (chúng sử dụng Zero Rule phân lớp đa nhãn BR, LC)  Bước 3: Chọn hình thức đánh giá “Cross-validation”  Bước 4: Bấm nút “Start” để bắt đầu trình kiểm tra chéo Hình 4.8: Giao diện chức phân lớp văn công cụ MEKA với phương pháp k-fold Zero Rule 4.4.2 Thực nghiệm với Binary Relevance K-fold sử dụng mô hình Multinomial Naïve Bayes J48 (thực tương tự với thuật toán J48)  Bước 1: Mở tệp tin liệu huấn luyện tạo MEKA Explorer 47  Bước 2: Lựa chọn mô hình phân lớp (chúng sử dụng Naïve Bayes phân lớp đa nhãn BR)  Bước 3: Chọn hình thức đánh giá “Cross-validation”  Bước 4: Bấm nút “Start” để bắt đầu trình kiểm tra chéo Hình 4.9: Giao diện chức phân lớp văn công cụ MEKA với phương pháp k-fold 4.4.3 Thực nghiệm với Label Combination K-fold sử dụng mô hình Multinomial Naïve Bayes (thực tương tự với thuật toán J48)  Bước 1: Mở tệp tin liệu huấn luyện tạo MEKA Explorer  Bước 2: Lựa chọn mô hình phân lớp (chúng sử dụng Naïve Bayes phân lớp đa nhãn LC)  Bước 3: Chọn hình thức đánh giá “Cross-validation”  Bước 4: Bấm nút “Start” để bắt đầu trình kiểm tra chéo Hình 4.10: Giao diện chức phân lớp văn công cụ MEKA với phương pháp k-fold Kết thực nghiệm 4.5.1 Thực nghiệm với Zero Rule để làm sở cho phân lớp Ở bước thực kiểm tra chéo với mô hình Zero Rule kết hợp với hai phương pháp chuyển đổi toán Binary Relevance Label Combination Tuy nhiên kết trường hợp kiểm tra với Binary Relevance thấp (Accuracy=0,01, 48 Precision=Recall=F1=0), trình bày chi tiết kết trường hợp kiểm tra chéo với Label Combination Zero Rule đây: 0.3 0.251 0.24 0.25 0.2 0.143 0.15 0.1 0.058 0.036 0.05 Accuracy Recall Precision F1 micro F1 macro Hình 4.11: Thống kê kết phương pháp k-fold với Label Combination Zero Rule Chúng ta nhận thấy rằng, với phân lớp sở Zero Rule dựa việc đưa tất mẫu liệu vào nhãn có số lượng mẫu lớn (nhãn “Loại khác”) mang lại kết thấp Điều phản ánh phức tạp vấn đề mà xử lý nghiên cứu Đầu tiên phải nói tới vấn đề phân lớp đa nhãn, đa dạng liệu số nhãn có phụ thuộc lẫn đặt yêu cầu sử dụng thuật toán cài đặt cụ thể để xử lý (ví dụ Multinomial Naïve Bayes) Thứ hai, kết minh chứng sở cho tính hiệu phương pháp chuyển đổi toán Label Combination với Binary Relevance [12] 4.5.2 Thực nghiệm với Binary Relevance 1.2 0.8 0.6 0.4 0.2 Accuracy Recall 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.157 0.482 0.495 0.498 0.503 0.504 0.504 0.503 0.506 0.507 0.236 0.861 0.848 0.84 0.834 0.826 0.816 0.808 0.799 0.786 0.34 Precision 0.157 0.442 0.458 0.466 0.474 0.481 0.486 0.492 0.502 0.515 0.748 F1 micro 0.272 0.585 0.594 0.598 0.602 0.604 0.604 0.606 0.61 0.614 0.407 F1 macro 0.266 0.577 0.587 0.592 0.596 0.599 0.6 0.601 0.606 0.61 0.423 Threshold Hình 4.12: Thống kê kết phương pháp k-fold với Binary Relevance Multinomial Naïve Bayes 49 Với phương pháp k-fold (k=10), độ xác mà Binary Relevance kết hợp với Multinomial Naïve Bayes mang lại thấp Chúng tiến hành thử nghiệm với khoảng ngưỡng từ đến thu lại kết cao Accuracy = 0.507, F1 macro = 0.61, Recall = 0.786 Precision = 0.515 ngưỡng Threshold=0.9 Có thể nhận thấy tỉ lệ phân loại tốt nhiên tỉ lệ phân loại xác thấp Điều phản ánh giới hạn phương pháp chuyển đổi toán Binary Relevance với liệu mà tập nhãn có phụ thuộc lẫn [11,14] 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Áp lực thi cử Cảm xúc tiêu học hành cực Định hướng nghề nghiệp Học ngoại ngữ Loại khác Nguồn tài liệu tham khảo Tâm lí tình cảm Accuracy 0.76 0.877 0.89 0.935 0.789 0.795 0.898 Precision 0.505 0.37 0.393 0.687 0.597 0.48 0.569 Recall 0.831 0.83 0.72 0.877 0.496 0.879 0.869 F1 0.628 0.512 0.508 0.770 0.542 0.621 0.688 Hình 4.13 Thống kê độ đo nhãn (Threshold=0.9) với Binary Relevance Multinomial Naïve Bayes Có thể nhận thấy rằng, với số lượng lớn mẫu liệu thuộc nhãn “Loại khác”, độ đo Accuracy cao nhiều độ đo F1 bảng Do đó, độ đo Accuracy không thực đánh giá tốt phù hợp phân loại Binary Relevance kết hợp Multinomial Naïve Bayes với tập liệu nghiên cứu 1.2 0.8 0.6 0.4 0.2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.157 0.489 0.482 0.469 0.462 0.461 0.461 0.46 0.443 0.405 0.193 0.59 0.551 0.534 0.526 0.525 0.525 0.519 0.504 0.456 0.219 Precision 0.157 0.584 0.618 0.621 0.623 0.623 0.623 0.629 0.633 0.635 0.583 F1 micro 0.272 0.577 0.583 0.574 0.57 0.492 0.57 0.569 0.559 0.527 0.305 F1 macro 0.266 0.582 0.582 0.574 0.57 0.569 0.569 0.568 0.56 0.53 0.317 Accuracy Recall Threshold Hình 4.14: Thống kê kết phương pháp k-fold với Binary Relevance J48 50 Kết phương pháp J48 với Binary Relevance mang lại thấp việc kiểm tra chéo (k=10) tương tự phương pháp Multinomial Naïve Bayes Độ đo cao Accuracy=0.489, Precision=0.584, Recall=0.59 ngưỡng Threshold=0.1 Ta nhìn chi tiết vào bảng thống kê độ đo nhãn bên để đánh giá xác tính hiệu 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Áp lực thi cử Cảm xúc tiêu học hành cực Định hướng nghề nghiệp Học ngoại ngữ Loại khác Nguồn tài liệu tham khảo Tâm lí tình cảm 0.745 0.88 0.918 Accuracy 0.787 0.925 0.927 0.933 Precision 0.601 0.525 0.562 0.791 0.49 0.73 0.749 Recall 0.383 0.369 0.35 0.632 0.312 0.592 0.555 F1 0.468 0.433 0.431 0.703 0.381 0.654 0.638 Hình 4.15 Thống kê độ đo nhãn (Threshold=0.1) với Binary Relevance J48 Với nhãn “Học ngoại ngữ”, “Nguồn tài liệu tham khảo”, “Tâm lí tình cảm” độ đo Accuracy, Precison Recall có kết tốt Điều phản ánh nhãn có đặc trưng tốt trình học máy Với nhãn lại, cặp nhãn “Áp lực thi cử học hành” “Loại khác” có liên hệ với định (chúng giải thích phần Phân tích lỗi), “Cảm xúc tiêu cực” “Tâm lí tình cảm” minh chứng rõ cho điểm yếu phương pháp Binary Relevance với liệu có nhãn không phụ thuộc [12] 4.5.3 Thực nghiệm với Label Combination 0.68 0.67 0.66 0.65 0.64 0.63 0.62 0.61 0.6 0.59 0.58 0.669 0.646 0.633 0.626 0.615 Accuracy Recall Precision F1 micro F1 macro Hình 4.16: Thống kê kết phương pháp k-fold với Label Combination Multinomial Naïve Bayes 51 Chúng ta nhận thấy rằng, tỉ lệ xác độ đo liên quan (Recall, Precision, F1 micro, F1 macro) cải thiện cách đáng kể với phương pháp Label Combination thuật toán Multinomial Naïve Bayes Độ hiệu việc phân loại văn nâng lên, điển hình độ đo đánh giá độ nhạy độ phủ phân lớp Precision (0,641) Recall (0.603) tất ngưỡng 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Áp lực thi cử Cảm xúc tiêu Định hướng nghề nghiệp học hành cực Học ngoại ngữ Loại khác Nguồn tài liệu tham khảo Tâm lí tình cảm Accuracy 0.834 0.919 0.913 0.939 0.809 0.881 0.91 Precision 0.645 0.481 0.457 0.736 0.695 0.669 0.622 Recall 0.716 0.645 0.552 0.807 0.432 0.744 0.788 F1 0.679 0.551 0.500 0.770 0.533 0.705 0.695 Hình 4.17 Thống kê độ đo nhãn với Label Combination Multinomial Naïve Bayes Ở hình này, thông số độ đo với nhãn cải thiện đáng kể Chỉ số F1 thấp đạt tới 0.5 nhãn “Định hướng nghề nghiệp” Thuật toán Multinomial Naïve Bayes kết hợp với Label Combination chứng minh phù hợp với toán phân lớp đa nhãn nghiên cứu Chúng tiếp tục thử nghiệm với phương pháp Label Combination J48 để đánh giá cải tiến mô hình có mang lại cải thiện kết hay không 0.59 0.583 0.58 0.57 0.583 0.571 0.565 0.558 0.56 0.548 0.55 0.54 0.53 Accuracy Recall Precision F1 (by example) F1 micro F1 macro Hình 4.18: Thống kê kết phương pháp k-fold với Label Combination J48 52 So sánh với kết phương pháp Binary Relevance kết hợp với J48, lần thử nghiệm (Label Combination J48) cải thiện độ đo kết Tất số Accuracy, Precision, Recall F1 tăng nhẹ nhiên hiệu phương pháp Label Combination Multinomial Naïve Bayes Cụ thể vượt trội phương pháp Label Combination Multinomial Naïve Bayes, ta tham chiếu tới bảng thống kê kết nhãn 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Áp lực thi cử học hành Cảm xúc tiêu cực Định hướng nghề nghiệp Học ngoại ngữ Loại khác Accuracy (per label) 0.797 0.898 0.915 0.938 0.755 0.894 0.9 Precision (per label) 0.601 0.349 0.459 0.744 0.512 0.738 0.627 Recall (per label) 0.509 0.362 0.427 0.776 0.568 0.695 0.576 F1 0.551 0.355 0.442 0.760 0.539 0.716 0.600 Nguồn tài Tâm lí tình liệu tham cảm khảo Hình 4.19 Thống kê độ đo nhãn với Label Combination J48 Độ đo F1 nhãn “Cảm xúc tiêu cực” bị hạ xuống thấp (0.355) suy giảm F1 0.442 nhãn “Định hướng nghề nghiệp” Phương pháp J48 tiếp tục chứng tỏ hiệu so với Multinomial Naïve Bayes toán phân lớp văn Như bạn đọc nhận thấy rõ, việc thay đổi phương pháp chuyển đổi toán từ Binary Relevance sang Label Combination nâng cao đáng kể tính hiệu mô hình phân lớp đa nhãn lựa chọn Phương pháp Label Combination với việc xét tới tập nhãn kết hợp tiến hành phân lớp với tập nhãn đơn chứng tỏ khả loại bỏ nhược điểm phương pháp Binary Relevance với liệu có nhãn không độc lập hoàn toàn với [22, tr.7] Phân tích lỗi Dựa kết độ đo Precision, Recall Acurracy với thể tập liệu, nhận thấy hay có nhập nhằng dự đoán sai nhãn “Tâm lí tình cảm” “Cảm xúc tiêu cực” số điển hình liệu Ví dụ như, liệu nhóm nghiên cứu gán vào nhãn “Tâm lí tình cảm” có chứa đặc trưng “tình yêu”, “rung động”, “nhớ nhung”, “trái tim”, “thầm thương”, “đôi lứa” … đặc trưng “buồn”, “mệt mỏi”, “trống rỗng”, “buông xuôi”, “mông lung”, “day dứt”, “chán nản” … cho nhãn “Cảm xúc tiêu cực” Tuy nhiên có lượng liệu không 53 nhỏ (chiếm khoảng 15%) liệu mà cho thuộc nhãn “Tâm lí tình cảm” lại có chứa số đặc trưng nhãn “Cảm xúc tiêu cực”, thường nói cảm xúc chia ly mệt mỏi tình yêu sinh viên Điều dẫn tới việc dự đoán có tỉ lệ sai lệch tương liệu dạng Một phân tích với trường hợp hay xảy sai lệch mô hình gán nhãn liệu liên quan tới hai nhãn “Áp lực thi cử học hành” “Loại khác” Với nhãn “Áp lực thi cử học hành” đặc trưng thường có “thi”, “học”, “mệt mỏi”, “áp lực”, “vất vả”, “căng thẳng”, … Với nhãn “Loại khác” việc chọn đặc trưng khó khăn hơn, tất liệu không thuộc vào nhãn lại đưa vào nhãn Trong tập liệu có khoảng 80 liệu liên quan tới câu hỏi sinh viên vấn đề học thuật giải đáp thắc mắc, trình bày vấn đề kỹ thuật Thông thường liệu thường chứa đặc trưng “học”, “không biết”, “thắc mắc”, “thi”, … Điều gây nhầm lẫn phân lớp đa nhãn thử nghiệm Để khắc phục vấn đề trên, tương lai cần áp dụng kỹ thuật trích chọn đặc trưng để tìm đặc trưng điển hình nhãn Phân lớp đa nhãn toán phức tạp đòi hỏi trích rút số lượng lớn đặc trưng phức tạp Do thời gian nghiên cứu có hạn, khuôn khổ luận văn này, sử dụng đặc trưng đơn giản, nhiên, chất lượng gán nhãn nhãn hoàn toàn chấp nhận Một khó khăn nghiên cứu thiếu sót nguồn tài nguyên xử lý ngôn ngữ tự nhiên với Tiếng Việt Với đặc trưng liệu đề tài trao đổi thảo luận môi trường web, đa dạng thiếu hoàn toàn ngữ nghĩa chủ đạo đăng Việc gây nhập nhằng nhầm lẫn tiến hành phân tích theo văn thông thường mà không xét tới cú pháp, ngữ nghĩa Công việc nâng cao độ xác tốc độ huấn luyện kiểm tra kỹ thuật trích rút đặc trưng phức tạp hơn, mở rộng liệu huấn luyện mục tiêu hướng nghiên cứu đề tài Kết luận chương Nội dung chương mô tả toán phân lớp đa nhãn theo hướng áp dụng mô hình học máy Naïve Bayes, J48 với phương pháp chuyển đổi toán Binary Relevance, Label Combination công cụ MEKA gán nhãn chuỗi liệu Đồng thời, chương trình bày trình thu thập liệu, trích chọn đặc trưng kết thực nghiệm thu trình phân lớp đa nhãn 54 Chương 5: Kết luận hướng phát triển Trong chương này, tóm lược nội dung đạt luận văn, đồng thời hướng cần khắc phục đưa số định hướng nghiên cứu tương lai Trong luận văn này, nghiên cứu vấn đề nghiên cứu cho lĩnh vực khai phá liệu giáo dục phân tích quan điểm sinh viên mạng truyền thông xã hội với liệu tiếng Việt để hiểu kinh nghiệm học tập sinh viên Điều có ích đơn vị đào tạo, nhà quản lý giáo dục việc nắm bắt kịp thời vấn đề mà sinh viên gặp phải để đưa định mặt sách chiến lược, nhằm mang tới môi trường giáo dục nâng cao chất lượng thoả mãn người dạy người học Để tiến hành phân tích, tiến hành xây dựng liệu dựa liệu thu thập diễn đàn http://svbk.vn trường Đại học Bách Khoa Hà Nội Bộ liệu bao gồm 1817 mẫu liệu, phân tích chia làm nhãn điển hình: “Áp lực thi cử học hành”, “Tâm lí tình cảm”, “Cảm xúc tiêu cực”, “Học ngoại ngữ”, “Định hướng nghề nghiệp”, “Nguồn tài liệu tham khảo”, “Loại khác” Luận văn đề xuất mô hình để giải toán Mô hình sử dụng thuật toán phân lớp văn sử dụng hiệu nhiều toán khai phá liệu nói chung Ngoài ra, tích hợp số kỹ thuật xử lý ngôn ngữ tự nhiên để cải tiến, làm giàu đặc trưng cho mô hình đề xuất (tách từ theo n-gram, loại bỏ từ dừng, độ phổ biến từ văn bản) Kết thực nghiệm bước đầu chứng minh tính khả quan mô hình đề xuất với độ xác nhãn lần thực nghiệm tốt sau: “Áp lực thi cử học hành” (0.834), “Cảm xúc tiêu cực” (0.919), “Định hướng nghề nghiệp” (0.913), “Học ngoại ngữ” (0.939), “Loại khác” (0.809), “Nguồn tài liệu tham khảo” (0.881), “Tâm lí tình cảm” (0.91) Thông qua việc nghiên cứu tìm hiểu, thử nghiệm mô hình Naïve Bayes với toán khai phá kinh nghiệm học tập sinh viên, luận văn thu đóng góp sau: - Luận văn cung cấp cách nhìn tổng quan toán phân lớp đa nhãn tiếp cận theo mô hình học máy Naïve Bayes - Thử nghiệm gán nhãn cho 546 câu tiếng Việt liệu thu thập từ diễn đàn SVBK, với độ xác 62,6 % Tuy nhiên, phần phân tích lỗi trình bày, số khó khăn thiếu sót nguồn tài nguyên xử lý ngôn ngữ tự nhiên với Tiếng Việt Thêm vào đó, đặc trưng liệu trao đổi thảo luận môi trường web đa dạng thiếu hoàn toàn ngữ nghĩa chủ đạo đăng Việc gây khó khăn tiến hành phân tích theo văn thông thường mà không xét tới cú pháp, ngữ nghĩa Do đó, tương 55 lai, dự định nghiên cứu tiếp số định hướng nhằm mục đích cải tiến hiệu mô hình đề xuất: - Tập trung sâu vào giai đoạn trích chọn đặc trưng: với số lượng lớn đặc trưng phức tạp, điều có ý nghĩa quan trọng tới độ xác chi phí tính toán- yếu tố quan trọng ứng dụng tầm cỡ ứng dụng đòi hỏi đáp ứng với thời gian thực - Tìm hiểu kĩ thuật nâng cao để giúp tăng tốc độ huấn luyện cho mô hình Naïve Bayes - Nghiên cứu phương pháp học sâu áp dụng phân lớp đa nhãn, đó, tiến hành tiền xử lý đặc trưng đầu vào, sau huấn luyện cách sử dụng cấu trúc mạng nơ ron nhiều tầng Các đặc trưng tính toán tầng sâu mạng, huấn luyện tự động thuật toán lan truyền ngược thích hợp với toán tương ứng 56 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thuỳ Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh (2006), Nghiên cứu, phân tích đánh giá thuật toán lọc văn theo nội dung Hà Quang Thuỵ, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu Web, Nhà xuất Giáo dục Việt Nam Tiếng Anh Amanda Clare, Ross D King (2003), "Knowledge Discovery in Multi-Label Phenotype Data," Principles of Data Mining and Knowledge Discovery, vol 19, no 2, pp 42-49 Ashraf M Kibriya, Eibe Frank, Bernhard Pfahringer, Geoffrey Holmes (2005), AI 2004: Advances in Artificial Intelligence, Springer Berlin Heidelberg, Berlin, Germany Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, Chicago, United States of America C Shearer, (2000), "The CRISP-DM model: the new blueprint for data mining," Journal of Data Warehousing, vol 5, no 4, pp 13-22 David M W Powers (2011), "Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation," Journal of Machine Learning Technologies, vol 2, no 1, pp 37-63 David Taniar, Frank Dehne, Ada Wai Chee Fu, Feng Ling, Graeme Shanks, Chengqi Zhang (2005), International Journal of Data Warehousing and Mining, vol 1, no 3, pp 1-14 Ed Greengrass (2000), Information Retrieval: A Survey, University of Maryland, United States of America 10 Fürnkranz, Johannes (1998), A Study Using n-gram Features for Text Categorization, Austrian Institute for Artificial Intelligence, Austria 11 Grigorios Tsoumakas, Ioannis Katakis, Ioannis (2005), Data Mining and Knowledge Discovery Handbook, Springer, New York 12 Hiteshri Modi, Mahesh Panchal (2012), "Experimental Comparison of Different Problem Transformation Methods for Multi-Label Classification using MEKA," 57 International Journal of Computer Applications (0975 – 8887), vol 59, no 15, pp 10-15 13 James Petterson, Tiberio Caetano (2010), "Reverse Multi-Label Learning,” Neural Information Processing Systems Conference, vol 23, no 1, pp 1912-1920 14 Jesse ReadEmail, Bernhard Pfahringer, Geoff Holmes, Eibe Frank (2009), "Classifier chains for multi-label classification," Journal Machine Learning, vol 85, no 3, pp 333-359 15 Ji Zhu, Hui Zou, Saharon Rosset, Trevor Hastie (2009), "Multi-class AdaBoost," Statistics and Its Interface, vol 2, no 3, pp 349-360 16 Karina Gibert, Miquel Sànchez-Marrè, Víctor Codina (2010), "Choosing the Right Data Mining Technique: Classification of Methods and Intelligent Recommendation," International Environmental Modelling and Software Society (iEMSs), vol 2, no 3, pp 1933-1940 17 Klaus Krippendorff (2004), "Realiability in content Communication Research, vol 30, no 3, pp 411-433 analysis," Human 18 Krzysztof Dembczyński, Weiwei Cheng, Eyke Hüllermeier (2010), "Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains," Proceedings of the 27th International Conference on Machine Learning (ICML-10), vol 27, pp 279-286 19 Matthew Lombard, Jenifer Snyder-Duch, Cheryl Campanella Bracken (2006), "Content analysis in mass communication: Assesment and reporting of intercoder reliability," Human Communication Research, vol 28, no 4, pp 587-604 20 Marco L Better (2007), Data Mining Techniques for Prediction and Classification in Discrete Data Application, ProQuest, United States of America 21 Mohamed J Zaki, Wagner Meira JR (2014), Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, New York, United States of America 22 Mohammad S Sorower (2010), A literature survey on algorithms for multi-label learning, Oregon State University, Corvallis, United States of America 23 Rodrigo C Barros, Márcio P Basgalupp, Alex A Freitas (2014), "Evolutionary Design of Decision-Tree Algorithms Tailored to Microarray Gene Expression Data Sets," IEEE Transactions on Evolutionary Computation, vol 18, no 6, pp 873892 24 Ronald E Walpole, Raymond H Myers, Sharon L Myers, Keying Ye (2012), Probability & Statistics for Engineering and the Sciences Eighth Edition, Duxbury Press, United States of America 58 25 Vidhya.K.A, G.Aghila (2010), "A Survey of Naïve Bayes Machine Learning approach in Text Document Classification," (IJCSIS) International Journal of Computer Science and Information Security, vol 7, no 2, pp 85-99 26 Xin Chen, Mihaela Vororeanu, Krisna Madhavan (2014), "Mining Social Media Data for Understanding Student's Learning Experiences," IEEE Transactions on Learning Technologies, vol 7, no 3, pp 246-259 ... tài Khai phá liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập sinh viên , với mục đích đề xuất mô hình khai phá liệu hiệu cho phân tích quan điểm, kinh nghiệm vấn đề gặp phải học. .. lớn liệu truyền thông xã hội cung cấp hội để hiểu kinh nghiệm học sinh, có khó khăn phương pháp luận để sử dụng liệu truyền thông xã hội cho mục đích giáo dục Trong nghiên cứu lớp học, để hiểu. ..ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN Ngành: Hệ thống Thông Tin Chuyên

Ngày đăng: 03/03/2017, 06:08

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

2. Hà Quang Thuỵ, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản Giáo dục Việt Nam.Tiếng Anh

Sách, tạp chí

Tiêu đề:	Giáo trình khai phá dữ liệu Web
Tác giả:	Hà Quang Thuỵ, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú
Nhà XB:	Nhà xuất bản Giáo dục Việt Nam. Tiếng Anh
Năm:	2009

3. Amanda Clare, Ross D. King (2003), "Knowledge Discovery in Multi-Label Phenotype Data," Principles of Data Mining and Knowledge Discovery, vol. 19, no. 2, pp. 42-49

Sách, tạp chí

Tiêu đề:	Knowledge Discovery in Multi-Label Phenotype Data
Tác giả:	Amanda Clare, Ross D. King
Năm:	2003

4. Ashraf M. Kibriya, Eibe Frank, Bernhard Pfahringer, Geoffrey Holmes (2005), AI 2004: Advances in Artificial Intelligence, Springer Berlin Heidelberg, Berlin, Germany

Sách, tạp chí

Tiêu đề:	AI 2004: Advances in Artificial Intelligence
Tác giả:	Ashraf M. Kibriya, Eibe Frank, Bernhard Pfahringer, Geoffrey Holmes
Năm:	2005

5. Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, Chicago, United States of America

Sách, tạp chí

Tiêu đề:	Sentiment Analysis and Opinion Mining
Tác giả:	Bing Liu
Năm:	2012

6. C. Shearer, (2000), "The CRISP-DM model: the new blueprint for data mining," Journal of Data Warehousing, vol. 5, no. 4, pp. 13-22

Sách, tạp chí

Tiêu đề:	The CRISP-DM model: the new blueprint for data mining
Tác giả:	C. Shearer
Năm:	2000

7. David M. W. Powers (2011), "Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation," Journal of Machine Learning Technologies, vol. 2, no. 1, pp. 37-63

Sách, tạp chí

Tiêu đề:	Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation
Tác giả:	David M. W. Powers
Năm:	2011

8. David Taniar, Frank Dehne, Ada Wai Chee Fu, Feng Ling, Graeme Shanks, Chengqi Zhang (2005), International Journal of Data Warehousing and Mining, vol. 1, no. 3, pp. 1-14

Sách, tạp chí

Tiêu đề:	International Journal of Data Warehousing and Mining
Tác giả:	David Taniar, Frank Dehne, Ada Wai Chee Fu, Feng Ling, Graeme Shanks, Chengqi Zhang
Năm:	2005

9. Ed Greengrass (2000), Information Retrieval: A Survey, University of Maryland, United States of America

Sách, tạp chí

Tiêu đề:	Information Retrieval: A Survey
Tác giả:	Ed Greengrass
Năm:	2000

10. F¨urnkranz, Johannes (1998), A Study Using n-gram Features for Text Categorization, Austrian Institute for Artificial Intelligence, Austria

Sách, tạp chí

Tiêu đề:	A Study Using n-gram Features for Text Categorization
Tác giả:	F¨urnkranz, Johannes
Năm:	1998

11. Grigorios Tsoumakas, Ioannis Katakis, Ioannis (2005), Data Mining and Knowledge Discovery Handbook, Springer, New York

Sách, tạp chí

Tiêu đề:	Data Mining and Knowledge Discovery Handbook
Tác giả:	Grigorios Tsoumakas, Ioannis Katakis, Ioannis
Năm:	2005

13. James Petterson, Tiberio Caetano (2010), "Reverse Multi-Label Learning,” Neural Information Processing Systems Conference, vol. 23, no. 1, pp. 1912-1920

Sách, tạp chí

Tiêu đề:	Reverse Multi-Label Learning
Tác giả:	James Petterson, Tiberio Caetano
Năm:	2010

14. Jesse ReadEmail, Bernhard Pfahringer, Geoff Holmes, Eibe Frank (2009), "Classifier chains for multi-label classification," Journal Machine Learning, vol.85, no. 3, pp. 333-359

Sách, tạp chí

Tiêu đề:	Classifier chains for multi-label classification
Tác giả:	Jesse ReadEmail, Bernhard Pfahringer, Geoff Holmes, Eibe Frank
Năm:	2009

15. Ji Zhu, Hui Zou, Saharon Rosset, Trevor Hastie (2009), "Multi-class AdaBoost," Statistics and Its Interface, vol. 2, no. 3, pp. 349-360

Sách, tạp chí

Tiêu đề:	Multi-class AdaBoost
Tác giả:	Ji Zhu, Hui Zou, Saharon Rosset, Trevor Hastie
Năm:	2009

16. Karina Gibert, Miquel Sànchez-Marrè, Víctor Codina (2010), "Choosing the Right Data Mining Technique: Classification of Methods and Intelligent Recommendation," International Environmental Modelling and Software Society (iEMSs), vol. 2, no. 3, pp. 1933-1940

Sách, tạp chí

Tiêu đề:	Choosing the Right Data Mining Technique: Classification of Methods and Intelligent Recommendation
Tác giả:	Karina Gibert, Miquel Sànchez-Marrè, Víctor Codina
Năm:	2010

17. Klaus Krippendorff (2004), "Realiability in content analysis," Human Communication Research, vol. 30, no. 3, pp. 411-433

Sách, tạp chí

Tiêu đề:	Realiability in content analysis
Tác giả:	Klaus Krippendorff
Năm:	2004

18. Krzysztof Dembczy´nski, Weiwei Cheng, Eyke H¨ullermeier (2010), "Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains," Proceedings of the 27th International Conference on Machine Learning (ICML-10), vol. 27, pp.279-286

Sách, tạp chí

Tiêu đề:	Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains
Tác giả:	Krzysztof Dembczy´nski, Weiwei Cheng, Eyke H¨ullermeier
Năm:	2010

19. Matthew Lombard, Jenifer Snyder-Duch, Cheryl Campanella Bracken (2006), "Content analysis in mass communication: Assesment and reporting of intercoder reliability," Human Communication Research, vol. 28, no. 4, pp. 587-604

Sách, tạp chí

Tiêu đề:	Content analysis in mass communication: Assesment and reporting of intercoder reliability
Tác giả:	Matthew Lombard, Jenifer Snyder-Duch, Cheryl Campanella Bracken
Năm:	2006

20. Marco L. Better (2007), Data Mining Techniques for Prediction and Classification in Discrete Data Application, ProQuest, United States of America

Sách, tạp chí

Tiêu đề:	Data Mining Techniques for Prediction and Classification in Discrete Data Application
Tác giả:	Marco L. Better
Năm:	2007

21. Mohamed J. Zaki, Wagner Meira JR (2014), Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, New York, United States of America

Sách, tạp chí

Tiêu đề:	Data Mining and Analysis: "Fundamental Concepts and Algorithms
Tác giả:	Mohamed J. Zaki, Wagner Meira JR
Năm:	2014

22. Mohammad S. Sorower (2010), A literature survey on algorithms for multi-label learning, Oregon State University, Corvallis, United States of America

Sách, tạp chí

Tiêu đề:	A literature survey on algorithms for multi-label learning
Tác giả:	Mohammad S. Sorower
Năm:	2010

Xem thêm