Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
1,13 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN Ngành: Hệ thống Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trần Thị Oanh Hà Nội – 2016 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn TS Trần Thị Oanh Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, xin chịu hoàn toàn trách nhiệm Hà Nội, ngày tháng năm 2016 HỌC VIÊN Nguyễn Văn Thành ii LỜI CẢM ƠN Trước hết, xin bày tỏ lòng biết ơn sâu sắc chân thành đến giáo viên hướng dẫn TS Trần Thị Oanh, người tận tình bảo định hướng nghiên cứu, đề xuất ý tưởng giúp đỡ mặt phương pháp luận việc kiểm tra cuối luận văn Tôi xin chân thành cảm ơn thày cô khoa Công nghệ Thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội, khoa Công nghệ Thông tin - Viện Đại học Mở Hà Nội giúp đỡ nhiều trình học tập, nghiên cứu tạo điều kiện giúp công tác để có thời gian thực việc học tập hoàn thành luận văn Cuối cùng, xin bày tỏ lòng kính trọng biết ơn sâu sắc tới bố mẹ người động viên mặt tinh thần hỗ trợ nhiều mặt HỌC VIÊN Nguyễn Văn Thành iii MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC HÌNH VẼ, ĐỒ THỊ ix MỞ ĐẦU Chương 1: Tổng quan vấn đề nghiên cứu Khai phá liệu 1.1.1 Khái niệm 1.1.2 Quy trình khai phá liệu Bài toán khai phá quan điểm mạng truyền thông 1.2.1 Khái quát khai phá quan điểm 1.2.2 Khai phá quan điểm với mạng truyền thông Khai phá quan điểm sinh viên phương tiện truyền thông xã hội 1.3.1 Giới thiệu toán 1.3.2 Tình hình nghiên cứu giới 1.3.3 Tình hình nghiên cứu Việt Nam 1.3.4 Ý nghĩa mục tiêu toán Kết luận chương Chương 2: Các kiến thức tảng Giới thiệu iv 2.1.1 Tổng quan toán phân loại 2.1.2 Các bước giải toán phân loại 2.1.3 Bài toán phân lớp văn Bài toán phân lớp đa nhãn 10 Một số phương pháp phân lớp đa nhãn 10 2.3.1 Phương pháp chuyển đổi toán 10 2.3.2 Phương pháp thích nghi thuật toán 13 Một số mô hình học máy sử dụng cho toán 14 2.4.1 Phân lớp Bayes 14 2.4.2 Cây định 14 Kết luận chương 16 Chương 3: Một mô hình giải toán khai phá liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên 17 Mô hình hoá toán 17 3.1.1 Xác định vấn đề không gian liệu 17 3.1.2 Phát biểu toán theo góc độ toán học 17 Một mô hình giải toán 18 3.2.1 Mô hình tổng thể 18 3.2.2 Môi trường thực nghiệm 20 Kết luận chương 21 Chương 4: Kết thực nghiệm 22 Thu thập tiền xử lý liệu 22 v 4.1.1 Thu thập liệu 22 4.1.2 Tiền xử lý liệu 22 4.1.3 Lựa chọn tập nhãn gán nhãn liệu 23 4.1.4 Một số thống kê liệu 24 Các công cụ phân tích sử dụng luận văn 24 4.2.1 MEKA 24 4.2.2 vnTokenizer 25 Thiết lập thực nghiệm 25 4.3.1 Chuyển đổi liệu 25 4.3.2 Chia tách liệu cho mục đích tập huấn thử nghiệm 26 4.3.3 Các độ đo đánh giá thực nghiệm 26 Huấn luyện mô hình kiểm tra 27 4.4.1 Thực nghiệm với Zero Rule để làm sở cho phân lớp 27 4.4.2 Thực nghiệm với Binary Relevance 27 4.4.3 Thực nghiệm với Label Combination 27 Kết thực nghiệm 28 4.5.1 Thực nghiệm với Zero Rule để làm sở cho phân lớp 28 4.5.2 Thực nghiệm với Binary Relevance 28 4.5.3 Thực nghiệm với Label Combination 29 vi Phân tích lỗi 31 Kết luận chương 31 Chương 5: Kết luận hướng phát triển 32 TÀI LIỆU THAM KHẢO 34 vii DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT Chữ viết tắt Ý nghĩa Tiếng Việt Tiếng Anh MLC Multi Label Classification BR Binary Relevance LP Label Power-Set LC Label Combination BP-MLL Backpropagation for Multi-Label Learning viii DANH MỤC CÁC BẢNG Bảng 1.1 So sánh phân lớp đa lớp phân lớp đa nhãn Bảng 2.1 Mẫu liệu đa nhãn 10 Bảng 2.2 Dữ liệu chuyển đổi bẳng phương pháp Select Transformation 11 Bảng 2.3 Dữ liệu chuyển đổi bẳng phương pháp Ignore Transformation 12 Bảng 2.4 So sánh kết đầu AdaBoost.MH AdaBoost.MR 13 Bảng 3.1 Thông số phần cứng môi trường thực nghiệm 21 22 Chương 4: Kết thực nghiệm Trong chương này, luận văn trình bày nội dung liên quan tới thực nghiệm phân tích ý kiến phản hồi sinh viên dạng ngôn ngữ tự nhiên phương pháp học máy khai phá liệu Để tiến hành thực nghiệm, tiến hành xây dựng liệu cho tiếng Việt từ diễn đàn sinh viên Đại học BK Hà Nội Sau đó, tiến hành bóc tách, gán nhãn liệu, thiết lập tham số cách thức tiến hành thực nghiệm Trong chương này, trình bày số độ đo để đánh giá mô hình phân tích Cuối cùng, trình bày kết thực nghiệm dựa mô hình đề xuất chương số phân tích lỗi hệ thống Thu thập tiền xử lý liệu 4.1.1 Thu thập liệu Tuy người dùng diễn đàn SVBK chủ yếu sinh viên trường Đại học Bách Khoa Hà Nội, không mà trao đổi thảo luận tất có chủ đề học tập Đó thử thách với làm nhiệm vụ thu thập liệu từ nguồn có tính chất mạng xã hội, mang nhiều liệu không liên quan đa dạng ngôn ngữ sử dụng 4.1.2 Tiền xử lý liệu 4.1.2.1 Loại bỏ thay từ ký tự nhiễu Các trao đổi diễn đàn thường không thức chứa nhiều loại diễn đạt khác Do đó, thực bước làm liệu trước đưa vào tập huấn với mô hình phân lớp 4.1.2.2 Tách từ Tách từ trình nhằm xử lý mục đích xác định ranh giới từ câu văn, hiểu đơn giản tách từ trình xác định từ đơn, từ ghép … có câu Một ví dụ kết xử lý sau tách từ cho Hình 4.1 23 Hình 4.1: Dữ liệu sau tách từ 4.1.2.3 Loại bỏ từ dừng Từ dừng (stop-words) từ mà tần suất xuất nhiều câu văn toàn tập kết quả, thường không giúp ích việc phân biệt nội dung tài liệu văn Ví dụ, từ “và”, “hoặc”, “cũng”, “là”, “mỗi”, “bởi”, … [21] 4.1.3 Lựa chọn tập nhãn gán nhãn liệu 4.1.3.1 Lựa chọn tập nhãn Chúng chia liệu chủ đề sau: áp lực thi cử học hành, học ngoại ngữ, nguồn tài liệu tham khảo, tâm lí tình cảm, cảm xúc tiêu cực, định hướng nghề nghiệp loại khác 4.1.3.2 Gán nhãn liệu Với liệu 1834 đăng diễn đàn SVBK thu thập tiền xử lý bước trên, gồm hai người nghiên cứu A B tiến hành gán nhãn 500 mẫu ngẫu nhiên từ liệu vào nhãn Hình 4.2: Cấu trúc tệp tin CSV chứa liệu gán nhãn 24 4.1.3.3 Độ đo Inter-rater agreement Độ đo F1 hai người nghiên cứu A, B F1AB= 0.82 Với 500 liệu ngẫu nhiên, thu lại 420 liệu có giao thoa đồng thuận tập gán, không đạt điều kiện liệu bị loại bỏ khỏi tập liệu nghiên cứu 4.1.4 Một số thống kê liệu Từ liệu gán nhãn, số lượng mẫu liệu nhãn thể Hình 4.3 bên Các thống kê loại gồm: Loại khác (462), Nguồn tài liệu tham khảo (353), Tâm lí tình cảm (293), Học ngoại ngữ (231), Định hướng nghề nghiệp (142), Cảm xúc tiêu cực (136), Áp lực thi cử học hành (449) Thống kê nhãn 500 400 300 200 100 458 444 348 141 143 236 228 ÁP LỰC CẢM XÚC ĐỊNH HỌC THI CỬ TIÊU CỰC HƯỚNG NGOẠI NGHỀ HỌC NGỮ NGHIỆP HÀNH NGUỒN TÀI LIỆU THAM KHẢO TÂM LÍ TÌNH CẢM LOẠI KHÁC Hình 4.3: Biểu đồ thống kê nhãn liệu Các công cụ phân tích sử dụng luận văn 4.2.1 MEKA MEKA công cụ học máy mã nguồn mở, dựa công cụ WEKA trường đại học Waikato, NewZeland MEKA cung cấp tính huấn luyện đánh giá mô hình phân lớp đa nhãn (là tính mà WEKA thiếu) 25 Hình 4.4: Giao diện công cụ MEKA 4.2.2 vnTokenizer vnTokenizer công cụ chuyên dùng để tách từ gán nhãn từ loại cho tiếng Việt, phát triển tác giả Lê Hồng Phương vnTokenizer sử dụng với giao diện dòng lệnh nhúng vào ứng dụng thư viện độc lập Thiết lập thực nghiệm 4.3.1 Chuyển đổi liệu 4.3.1.1 Vector hoá liệu thông thường Công cụ MEKA chấp nhận đầu vào liệu định dạng file ARFF Việc chuyển đổi liệu từ dạng file CSV sang file ARFF thực thi chức lọc với CSVLoader MEKA Sau thực bước ta thu file arff có cấu trúc Hình 4.5 sau: Hình 4.5: Cấu trúc tệp tin ARFF liệu Sau chạy với công cụ MEKA, ta có tập liệu Hình 4.6 đây: ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN Ngành: Hệ thống Thông Tin Chuyên... toán khai phá liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên 17 Mô hình hoá toán 17 3.1.1 Xác định vấn đề không gian liệu 17 3.1.2 Phát biểu toán theo góc độ toán học ... cứu Khai phá liệu 1.1.1 Khái niệm 1.1.2 Quy trình khai phá liệu Bài toán khai phá quan điểm mạng truyền thông 1.2.1 Khái quát khai phá quan điểm 1.2.2 Khai phá quan