(Luận văn) xác định tỷ lệ tin xấu trên báo điện tử tiếng việt bằng phương pháp học sâu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẶNG ĐÌNH QUÂN lu an n va p ie gh tn to XÁC ĐỊNH TỶ LỆ TIN XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU d oa nl w nf va an lu lm ul LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) z at nh oi z m co l gm @ an Lu n va HÀ NỘI – NĂM 2020 ac th si HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẶNG ĐÌNH QUÂN lu an n va p ie gh tn to XÁC ĐỊNH TỶ LỆ TIN XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU MÃ SỐ: 8.48.01.01 d oa nl w CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH an lu nf va LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) z at nh oi lm ul z NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS TRẦN QUANG ANH m co l gm @ an Lu n va HÀ NỘI – NĂM 2020 ac th si i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Nội dung luận văn có tham khảo sử dụng tài liệu, thông tin đăng tải tạp chí trang web theo danh mục tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định lu an cho lời cam đoan va n Hà Nội, ngày năm 2020 tháng to p ie gh tn Người cam đoan d oa nl w oi lm ul nf va an lu Đặng Đình Quân z at nh z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Trong q trình thực luận văn này, học viên ln nhận hướng dẫn, bảo tận tình PGS TS Trần Quang Anh cán trực tiếp hướng dẫn khoa học Thầy giành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thông tin phương pháp nghiên cứu để hoàn thành luận văn cao học lu Học viên xin chân thành cảm ơn thầy, cô giáo Học viện Công nghệ Bưu an va Viễn thơng ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt n trình học tập trường tn to Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học – gh p ie Học viện động viên, giúp đỡ nhiệt tình chia sẻ với em kinh nghiệm w học tập, cơng tác suốt khố học oa nl Học viên xin chân thành cảm ơn vị lãnh đạo bạn đồng nghiệp d quan tạo điều kiện tốt để em hồn thành tốt đẹp khố học Cao va an lu học ul nf Em xin chân thành cảm ơn! oi lm Hà Nội, ngày năm 2020 tháng z at nh z m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ VÀ BẢNG vi MỞ ĐẦU lu Chương – SƠ LƯỢC VỀ HỌC MÁY, HỌC SÂU VÀ BÀI TOÁN XÁC ĐỊNH TỶ LỆ TIN XẤU an n va p ie gh tn to 1.1 GIỚI THIỆU BÀI TOÁN XÁC ĐỊNH TỶ LỆ TIN XẤU 1.1.1 Định nghĩa tin xấu 1.1.2 Phân loại văn 1.1.3 Phân tích cảm xúc 1.2 SƠ LƯỢC VỀ HỌC MÁY 1.2.1 Học máy có giám sát 11 1.2.2 Học máy không giám sát 12 1.2.3 Học máy bán giám sát 13 1.2.4 Hàm mục tiêu, hàm tổn thất, hàm chi phí 13 1.2.5 Overfitting 14 1.3 SƠ LƯỢC VỀ HỌC SÂU 15 1.3.1 Mạng nơ-ron 16 1.3.1.1 Perceptron 16 1.3.1.2 Mạng nơ-ron truyền thẳng nhiều lớp 17 1.3.2 Hàm kích hoạt 18 1.3.2.1 Softmax 18 1.3.2.2 Sigmoid 19 1.3.2.3 Hàm 19 1.3.3 Huấn luyện mạng nơ-ron 20 1.3.3.1 SGD 20 1.3.3.2 Backpropagation 23 1.3.3.3 Hàm kích hoạt ReLU 24 1.3.3.4 Adam 24 1.3.4 Một số hàm chi phí 25 1.3.4.1 MSE 25 1.3.4.2 Categorical Cross Entropy 25 d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si iv Chương – PHƯƠNG PHÁP XÁC ĐỊNH TỶ LỆ BÀI VIẾT NÓI VỀ CÁI XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT 25 lu an n va p ie gh tn to 2.1 BIỂU DIỄN THUỘC TÍNH 25 2.1.1 Character-level, word-level 26 2.1.2 One-hot encoding 26 2.1.3 Word Embedding 27 2.1.4 Word2Vec 28 2.2 CÁC CẤU TRÚC MẠNG NƠ-RON SÂU 28 2.2.1 CNN 28 2.2.1.1 Lớp tích chập 28 2.2.1.2 Pooling 29 2.2.2 RNN 29 2.2.3 Dropout 30 2.3 MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN BẰNG HỌC SÂU 31 2.4 PHƯƠNG PHÁP MLP 33 2.5 PHƯƠNG PHÁP LSTM 34 2.6 PHƯƠNG PHÁP BI-LSTM-CNN 35 Chương – ĐÁNH GIÁ PHƯƠNG PHÁP XÁC ĐỊNH TỶ LỆ TIN XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT 37 oa nl w d 3.1 TẬP DỮ LIỆU 37 3.1.1 Phạm vi liệu thử nghiệm 37 3.1.2 Thu thập liệu 37 3.1.3 Xử lý & gán nhãn liệu 38 3.2 THIẾT KẾ THÍ NGHIỆM 40 3.2.1 Thí nghiệm 40 3.2.2 Thí nghiệm 41 3.2.3 Các độ đo để đánh giá kết 44 3.2.4 Kiểm chứng chéo 46 3.3 KẾT QUẢ THÍ NGHIỆM 46 3.3.1 Thí nghiệm 46 3.3.2 Thí nghiệm 48 KẾT LUẬN 51 oi lm ul nf va an lu z at nh z m co l gm @ DANH MỤC TÀI LIỆU THAM KHẢO 53 an Lu n va ac th si v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Nghĩa tiếng Anh CNN Convolutional Neural Network Mạng nơ-ron tích chập MLP Multilayer Perceptron Mạng nơ-ron nhiều lớp RNN Recurrent Neural Network Mạng nơ-ron hồi qui LSTM Long Short-Term Memory Mạng nhớ tạm dài hạn SGD Stochastic Gradient Descent Thuật toán giảm độ dốc ngẫu nhiên MSE Mean Squared Error Bình phương lỗi trung bình CSDL Database Cơ sở liệu TF-IDF Term Frequency – Inverse Document Frequency Tần suất từ – tần suất văn nghịch đảo TP True Positives Dự đốn dương tính FP False Positives Dự đốn dương tính sai (cảnh báo nhầm) TN True Negatives Dự đốn âm tính FN False Negatives Dự đốn âm tính sai (bỏ sót) lu Từ viết tắt Nghĩa tiếng Việt an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC HÌNH VẼ VÀ BẢNG Hình 1.1: Ví dụ phụ đề hình ảnh báo điện tử Hình 1.2: Cấu trúc perceptron 17 Hình 1.3: Minh họa cách hoạt động hàm kích hoạt Softmax 18 Hình 1.4: Đồ thị hàm sigmoid 19 lu Hình 1.6: Pseudo-code thuật tốn SGD 21 an n va Hình 1.7: Minh họa tác dụng momentum SGD 22 tn to Hình 2.1: Mơ hình mạng MLP với đầu vào dạng word vector 32 ie gh Hình 2.2: Minh họa cấu trúc mạng MLP với lớp dày đặc 33 p Hình 2.3: Cấu trúc đơn vị (cell) mạng LSTM 35 oa nl w Hình 3.1: Biểu đồ độ đo Recall mơ hình LSTM 47 d Hình 3.2: Biểu đồ độ đo Precision mơ hình LSTM 48 lu va an Hình 3.3: So sánh tiêu chí Recall mơ hình thí nghiệm 49 ul nf Hình 3.4: So sánh tiêu chí Precision mơ hình thí nghiệm 49 oi lm Hình 3.5: So sánh mơ hình phân loại tiêu chí Accuracy 50 z at nh Hình 3.6: Kết thí nghiệm với tiêu chí F1 mơ hình phân loại 50 z m co l gm @ Bảng 3.1: Bảng chân lý cho trường hợp kết dự đoán 44 an Lu n va ac th si MỞ ĐẦU Với phổ biến Internet, báo điện tử trở thành kênh thông tin quan trọng đời sống xã hội ngày Chức báo điện tử phản ánh mặt xã hội, cung cấp thơng tin thời sự, xác cho độc giả Khác với tạp chí chủ yếu cung cấp thơng tin mang tính tham khảo/học thuật lĩnh vực chuyên biệt, ví dụ như: tạp chí khoa học, tạp chí cơng nghệ, tạp chí văn học, tạp chí thể thao… [24] lu Như nói báo điện tử phản ánh thực xã hội an n va Một trang thông tin điện tử (website) hệ thống thông tin dùng để thiết lập tn to nhiều trang thơng tin trình bày dạng ký hiệu, số, chữ viết, hình ảnh, âm dạng thông tin khác phục vụ cho việc cung cấp sử dụng thông tin gh p ie Internet (Nghị định 72/2013/NĐ-CP) Từ năm 2015 đến tháng 3/2017, có 168 trang thơng tin điện tử cấp phép Việt Nam [25] Báo điện tử loại hình báo chí nl w xây dựng hình thức trang thơng tin điện tử phát hành mạng d oa Internet Tính đến tháng 6/2017, nước có 150 báo điện tử [26] Chưa có số liệu thống an lu kê xác trang thông tin điện tử tiếng Việt chưa cấp phép hoạt va động mạng Internet Với số lượng trang thông tin điện tử vậy, khối lượng thông oi lm ul nf tin đăng tải cho độc giả ngày lớn Bộ Thông tin Truyền thông (TT&TT) đưa quan điểm “cái xấu xuất z at nh với tỉ lệ 30% mặt báo nghĩa xấu trở thành xã hội; xấu chiếm 20% biểu xấu có xu hướng trở thành xã hội; cịn z xấu chiếm 10% khơng phải đủ sức tác động đến người” Nếu @ gm tỷ lệ xấu đăng tải tờ báo điện tử không phản ánh phù hợp với thực tế xã hội, m co “xói mịn niềm tin” người dân [23] l tờ báo góp phần cung cấp cho độc giả nhìn sai lệch thực trạng xã hội làm an Lu n va ac th si Như vậy, việc đánh giá tỷ lệ xấu mặt báo điện tử vô cấp thiết Tuy nhiên, với khối lượng thông tin khổng lồ báo điện tử đề cập, cần thiết có phương pháp để tự động thực cơng việc cách xác kịp thời Trong luận văn này, học viên tìm phương pháp hiệu để giải vấn đề đánh giá tỷ lệ thông tin tiêu cực báo điện tử cách tự động Vấn đề đặt luận văn vấn đề Bộ TT&TT quan tâm, lu tìm giải pháp Tuy nhiên, dễ dàng nhận thấy toán cần giải nằm lĩnh vực an phân loại văn Từ trang báo điện tử, ta thu thập thông tin va n không gắn liền với báo cụ thể như: số lượng viết đăng ngày, số tn to viết đăng chuyên mục, danh sách chuyên mục… Tuy nhiên, gh thông tin không đủ để ước lượng tỷ lệ thông tin tiêu cực trang báo Như vậy, p ie ta cần phải dựa vào lượng thơng tin tiêu đề, nội dung… báo để w xác định báo có nói xấu xã hội hay khơng Sau đó, ta tính tỷ lệ oa nl báo nói xấu tổng số báo d Trong khai phá văn bản, phân loại văn cịn có hướng nghiên cứu lu va an khác gần với vấn đề cần giải là: trích rút chủ đề (topic/concept/entity nf extraction), khai phá quan điểm (opinion mining) phân cụm văn (clustering) Thứ oi lm ul nhất, ta coi vấn đề cần giải toán trích rút chủ đề với chủ đề (xấu, tốt) Tuy nhiên, ta coi xấu tốt chủ đề Khi nói đến z at nh chủ đề, viết phản ánh mặt tốt viết khác phản ánh mặt xấu Thứ hai, mục tiêu toán khai phá quan điểm xác định quan điểm chủ quan z @ người viết Tuy nhiên, tốt/cái xấu nội dung báo mạng chất l gm quan điểm chủ quan (mang tính cảm xúc) mà thông tin thời khách quan Cái xấu/cái tốt ý kiến cá nhân tác giả báo mạng m co vật, tượng, mà tin tường thuật, phản ánh xác việc xảy an Lu xã hội Cuối cùng, cách tiếp cận tốn phân cụm văn áp n va ac th si 41  window = Kích thước cửa sổ quét Mỗi từ huấn luyện với từ phía trước từ phía sau  min_count = Tần số tối thiểu từ huấn luyện 1, đồng nghĩa với việc huấn luyện tất từ Giá trị chọn kích thước tập liệu huấn luyện nhỏ Với thí nghiệm này, để đánh giá độ bao phủ độ tin cậy kết dự lu đốn hai mơ hình, học viên sử dụng hai độ đo recall precision Kỹ thuật k-fold an cross validation với 𝑘 = thực để đánh giá kết thí nghiệm va n 3.2.2 Thí nghiệm gh tn to Với ba phương pháp trình bày Chương luận văn, học viên tiến p ie hành thí nghiệm nhằm tìm phương pháp phù hợp cho toán xác định tỷ lệ tin xấu báo điện tử tiếng Việt Thử nghiệm liệu cách khách quan để oa nl w đánh giá chất lượng mơ hình học máy d Tuy đánh giá tập liệu phương pháp MLP có lu an cách biểu diễn liệu đầu vào khác với hai phương án cịn lại MLP sử dụng nf va nhiều cách biểu diễn đầu vào khác MLP nhận liệu đầu vào oi lm ul dạng chuỗi theo trục tọa độ thời gian hai phương pháp LSTM BI-LSTM-CNN Từ kết thí nghiệm 1, cách sử dụng vector từ ngữ huấn luyện sẵn với word2vec z at nh tỏ ưu so với cách đưa thêm lớp Embedding vào mô hình Vì vậy, thí nghiệm này, hai mơ hình LSTM BI-LSTM-CNN sử dụng vector từ ngữ huấn z @ luyện sẵn word2vec Các thông số cài đặt mơ hình MLP mơ tả thí thí nghiệm m co l gm nghiệm Cấu hình dùng để huấn luyện từ vựng vector word2vec mô tả Đối với hai mơ hình LSTM BI-LSTM-CNN, mẫu tin tức giới an Lu hạn độ dài tối đa 200 từ Mẫu tin có độ dài ngắn 200 từ độn thêm (padding) n va ac th si 42 vector với toàn giá trị đủ độ dài 200 Như vậy, đầu vào hai mơ hình mảng có kích thước 𝐵 ⨯ 𝐿 ⨯ 𝐸 với 𝐵 kích thước tập liệu, 𝐿 độ dài mẫu tin (𝐿 = 200) 𝐸 độ dài vector từ (𝐸 = 128) Mơ hình LSTM cấu hình với đầu vào có độ dài thay đổi cách sử dụng lớp Masking thư viện TensorFlow (tf.keras.layers.Masking) Lớp có tác dụng tạm dừng lớp LSTM phía sau chuỗi đầu vào khơng cịn liệu Lý ta phải sử lu dụng lớp Masking đến từ hạn chế việc huấn luyện mơ hình mặc định an TensorFlow Lớp LSTM thư viện Keras vốn có hỗ trợ lớp đầu vào với độ dài thay va n đổi, chức huấn luyện mô hình lại huấn luyện mơ hình theo loạt (batch) tn to phải chuyển hóa loạt liệu huấn luyện thành kiểu liệu Tensor Kiểu liệu Tensor gh khơng cho phép phần tử có độ dài khác nhau, điều để đảm bảo hiệu tính p ie toán Việc sử dụng lớp Masking đảm bảo mục tiêu có độ dài mẫu nl w thay đổi mà lập trình lại loạt cơng cụ huấn luyện TensorFlow oa Sau lớp Masking lớp LSTM với số lượng đơn vị ẩn (hidden units) 128, d với kích thước vector từ ngữ Đây cấu hình sử dụng rộng rãi cho kết tốt lu va an nhiều toán [1] ul nf Sau lớp LSTM lớp Dropout với tham số 0.3 để giảm khả bị overfitting oi lm Cuối lớp đầu dày đặc (Dense) với 01 nơ-ron sử dụng hàm kích hoạt sigmoid Cấu trúc phần mơ hình mạng perceptron với lớp đầu vào có z at nh kích thước 128, lấy liệu đầu lớp LSTM làm liệu đầu vào z Mơ hình BI-LSTM-CNN có lớp LSTM bọc lớp Bidirectional để @ gm biến lớp LSTM thành hai chiều, giúp cho có khả đọc hiểu văn theo hai l hướng Lớp LSTM cấu hình để trả tồn ma trận trọng số bên m co với tham số return_sequences = True Tham số có tác dụng biến đầu mạng an Lu LSTM từ dạng vector trở thành dạng ma trận Ma trận đầu thực chất việc ghép nối vector bước thời gian (timestep) tạo thành Như đầu lớp n va ac th si 43 LSTM có kích thước 200 ⨯ 128 bọc ngồi lớp Bidirectional nên đầu lớp BI-LSTM gấp đơi kích thước nói (200 ⨯ 256) Tiếp sau lớp BI-LSTM lớp tích chập Conv2D lớp tích chập Keras thiết kế dùng để xử lý liệu hình ảnh, pixel hình ảnh định dạng RGB lại có số nguyên thể màu sắc Như đầu vào lớp Conv2D yêu cầu thêm chiều không gian Để đầu lớp BI-LSTM tương thích với đầu vào lu lớp Conv2D học viên sử dụng lớp Reshape làm trung gian Lớp an Reshape thực chất khơng làm thay đổi tính chất liệu Sự thay đổi cách bố trí va n liệu để phù hợp với cách đọc liệu lớp Conv2D Lớp Conv2D có số Sau lớp tích chập lớp MaxPool2D (max pooling) với kích thước cửa sổ ie gh tn to lượng lọc (filter) với kích thước cửa sổ lọc ⨯ (theo cấu hình [9]) p ⨯ Lớp max pooling có tác dụng lọc đặc trưng bật từ kết nl w lọc lớp tích chập Lớp MaxPool2D có đầu ma trận hai chiều d oa Đầu lớp MaxPool2D trở thành đầu vào lớp dày đặc có nơ-ron sử an lu dụng hàm kích hoạt softmax Kết đầu mơ hình vector dạng one-hot oi lm ul nf thuật toán Adam [14] va có phần tử Hàm chi phí MSE sử dụng q trình huấn luyện mơ hình Đối với mơ hình thí nghiệm này, độ đo recall, precision, accuracy điểm z at nh số F1 sử dụng làm độ đo chung để so sánh mơ hình Độ đo accuracy F1 chọn tốn xác định tỷ lệ tin xấu báo điện tử, sai số fp sai số fn có z ảnh hưởng khơng khác Mục tiêu cuối việc phân loại để ước lượng tỷ @ gm lệ phần trăm tin xấu toàn viết Kỹ thuật k-fold cross validation với m co l 𝑘 = thực để đánh giá kết thí nghiệm an Lu n va ac th si 44 3.2.3 Các độ đo để đánh giá kết Có bốn tiêu chí sử dụng để đánh giá kết mơ hình luận văn Các tiêu chí là: accuracy, recall, precision, F1 Những tiêu chí tính tốn dựa bốn số kết toán phân loại nhị phân là: true positive, false positive, true negative, false negative Trong toán xác định tin xấu, ta coi kết tin xấu dương tính tin bình thường âm tính trường hợp kết dự đốn lu dương tính cho mẫu có nhãn dương tính fp kết dự đốn dương tính cho an mẫu có nhãn âm tính tn trường hợp dự đốn cho mẫu có nhãn âm tính fn va n trường hợp dự đốn sai cho mẫu có nhãn âm tính to gh tn Bảng 3.1: Bảng chân lý cho trường hợp kết dự đoán p ie Tin xấu (nhãn) Tin bình thường (nhãn) Tin xấu (dự đốn) False positive w True positive True negative d oa nl Tin bình thường (dự đốn) False negative an lu Tiêu chí accuracy có cơng thức sau: + tn 𝑁 ul nf va ACC = oi lm Trong 𝛮 tổng số mẫu tập liệu z at nh Tiêu chí recall tỷ lệ dự đốn tổng số mẫu dương tính Recall có ý nghĩa thể độ bao phủ kết dự đoán Recall cao nhiều tin xấu z xác định Recall có cơng thức sau: @ tp + fn m co l gm Recall = Tuy nhiên có tình mà mơ hình dự đốn sai nhiều recall an Lu có giá trị cao Đó fn nhỏ fp lại lớn Bởi fp khơng ảnh hưởng đến recall n va ac th si 45 nên hầu hết dự đốn dương tính dự đốn sai recall có giá trị gần với 100% Chính vậy, recall thường kèm với precision để đánh giá mơ hình cách tồn vẹn Tiêu chí precision tỷ lệ dự đốn tồn dự đốn dương tính Tiêu chí có ý nghĩa thể độ tin cậy kết dự đốn Precision có cơng thức sau: Precision = tp + fp lu an Trong trường hợp ví dụ trên, recall đạt 100% fn = fp lớn, va n precision có giá trị nhỏ, gần to gh tn Tiêu chí F1 thường sử dụng cân hai tiêu chí recall precision Với mơ hình dự đốn khơng hồn hảo, hai tiêu chí recall ie p precision đạt mức cao (100%) tiêu chí có giá trị thấp Một báo cáo nl w kết thí nghiệm sử dụng hai tiêu chí dẫn đến kết khơng khách d oa quan Tiêu chí F1 tổng hợp từ recall precision giúp loại bỏ tình F1 = × recall × precision recall + precision ul nf va an lu Công thức điểm số F1 sau: oi lm Ngồi tiêu chí F1, tiêu chí tổng quan thường sử dụng điểm z at nh số Fβ Tiêu chí Fβ cho phép đặt trọng số khác cho sai số loại fp fn, để dùng cho toán mà sai số fp fn có chi phí khác Tham số β dùng để xác z địch tỷ lệ chi phí hai loại sai số Tiêu chí F1 trường hợp tiêu chí Fβ gm @ với β = Công thức Fβ sau: m co l (1 + β2 ) × Fβ = (1 + β2 ) × + β2 × fn + fp an Lu Trong cơng thức trên, fn coi có chi phí cao gấp β lần so với fp n va ac th si 46 3.2.4 Kiểm chứng chéo Kiểm chứng chéo (cross-validation) kỹ thuật phổ biến dùng để đánh giá hiệu mơ hình phân loại phương pháp học máy Tập liệu mẫu chia thành hai phần train test có phân bố đồng nhãn có đặc tính tương đồng với (số lượng mẫu hai phần khơng nhau) Trong q trình huấn luyện, mơ hình học máy học từ mẫu phần train không lu tiếp cận mẫu phần test Sau huấn luyện đạt kết ý muốn với tập an train, mơ hình áp dụng tập test để đánh giá hiệu với liệu mà mơ va n hình phân loại chưa thấy to gh tn Trên thực tế, cách làm khác thường áp dụng nhiều k-fold cross validation Với kỹ thuật này, tập liệu mẫu chia làm k phần đồng mô hình ie p huấn luyện thử nghiệm k lần lấy kết trung bình Ở lần, k nl w phần sử dụng làm tập test, phần lại hợp lại dùng làm tập train oa Phương pháp k-fold cross validation đem lại tính khách quan so với cross validation d thơng thường tồn tập mẫu có hội sử dụng để thử nghiệm Kết lu va an đo có mức độ tự tin (confidence) cao xét quan điểm thống kê [22] 3.3.1 Thí nghiệm oi lm ul nf 3.3 KẾT QUẢ THÍ NGHIỆM z at nh Kết thí nghiệm với k-fold cross validation đo tập thử nghiệm trình bày Hình 3.1 (tiêu chí recall) Hình 3.2 (tiêu chí precision) Với hai tiêu z chí đánh giá, phương án sử dụng vector word2vec huấn luyện trước có hiệu @ gm tốt Cụ thể, recall cao áp dụng vector word2vec huấn luyện trước m co l với phương pháp LSTM đạt 0.857943 precision cao đạt 0.861723 Hiệu tốt đạt khoảng epoch thứ 6, sau hiểu dần an Lu giảm xuống Độ đo precision có giá trị cao so với recall phương án Đáng n va ac th si 47 ý, với phương án sử dụng lớp Embedding, tiêu chí recall đạt tối đa 0.818845 Độ bao phủ thấp cho thấy tỷ lệ dự đốn xác thấp, mơ hình học thơng tin hữu ích so với phương pháp lại Chiều hướng giảm dần kết kéo dài thời gian huấn luyện biểu hiện tượng overfitting, mà hiệu tập train tăng theo trình huấn luyện hiệu tập test lại giảm Để đạt mơ hình phù hợp, có hiệu tốt thực tế, ta nên dừng huấn luyện khoảng epochs lu an n va p ie gh tn to d oa nl w va an lu oi lm ul nf Hình 3.1: Biểu đồ độ đo Recall qua 10 epochs huấn luyện mơ hình LSTM với lớp Embedding với vector word2vec huấn luyện trước z at nh z m co l gm @ an Lu n va ac th si 48 lu an n va ie gh tn to Hình 3.2: Biểu đồ độ đo Precision qua 10 epochs huấn luyện mô hình LSTM với lớp Embedding với vector word2vec huấn luyện trước p 3.3.2 Thí nghiệm nl w Thí nghiệm so sánh ba phương pháp nhiều tiêu chí khác Từ Hình 3.6, d oa thấy rõ phương pháp MLP LSTM tìm giải pháp nhanh hơn, đạt hiệu an lu cao sau khoảng – vòng huấn luyện (epochs) Phương pháp BI-LSTM- va CNN thường tìm giải pháp tốt vòng thứ 11 giải pháp tìm tốt ul nf đáng kể so với hai phương pháp lại Với phương pháp MLP BI-LSTM- oi lm CNN, số recall thường cao precision hai số tương tự phương pháp LSTM (Hình 3.3 Hình 3.4) Phương pháp LSTM có hiệu z at nh cao so với MLP gặp phải vấn đề overfitting nặng nề Trong đó, z phương pháp BI-LSTM-CNN có hiệu cao rõ rệt so với hai phương án lại gm @ khơng có dấu hiệu rõ rệt overfitting Ở số, phương pháp BI-LSTM-CNN m co 0.93304 l đạt mức xấp xỉ 0.9 (90%) với accuracy cao đạt 0.91615, điểm số F1 đạt cao an Lu n va ac th si 49 lu an n va tn to p ie gh Hình 3.3: So sánh tiêu chí Recall qua 15 epochs huấn luyện mơ hình phân loại Thí nghiệm d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ Hình 3.4: So sánh tiêu chí Precision mơ hình phân loại qua 15 epochs huấn luyện – thí nghiệm an Lu n va ac th si 50 lu an n va p ie gh tn to Hình 3.5: So sánh mơ hình phân loại tiêu chí Accuracy, huấn luyện qua 15 epochs d oa nl w oi lm ul nf va an lu z at nh z Hình 3.6: Kết thí nghiệm với tiêu chí F1 mơ hình phân loại m co l gm @ an Lu n va ac th si 51 KẾT LUẬN Trong luận văn này, học viên tiến hành nghiên cứu tài liệu phương pháp giải toán phân loại văn để áp dụng cho toán xác định tỷ lệ tin xấu báo điện tử tiếng Việt Các kiến thức tảng học máy học sâu trình bày theo trình tự từ đến nâng cao Luận văn từ vấn đề lý thuyết đến ứng dụng mang tính thực nghiệm với mục tiêu xuyên suốt để giải toán đề lu cách hiệu Thơng qua q trình tham khảo tài liệu, nhiều phương pháp an tóm tắt thảo luận học viên lựa chọn điều chỉnh ba phương pháp học va n sâu tiêu biểu để giải toán xác định tỷ lệ tin xấu: (1) phương pháp MLP đại diện cho tn to nhóm mạng nơ-ron truyền thẳng truyền thống, (2) phương pháp LSTM đại diện cho ie gh nhóm mạng nơ-ron hồi qui (3) phương pháp BI-LSTM-CNN đại diện cho nhóm mơ p hình kết hợp nhiều cấu trúc mạng khác Qua thử nghiệm tập liệu học w viên tự thu thập xử lý, phương pháp BI-LSTM-CNN cho hiệu tốt ổn định d oa nl hai phương pháp lại cách đáng kể lu Tuy trọng tâm luận văn để giải toán phân biệt tin xấu tin va an không xấu, mục tiêu ứng dụng lại tìm tỷ lệ phần trăm tin xấu trang báo ul nf điện tử Tuy mơ hình học máy với độ xác tuyệt đối điều bất khả thi oi lm với khoa học máy tính thời điểm tại, tốn khơng thực cần mơ hình hồn hảo Cách mà sử dụng kết mô hình khiến cho mơ hình z at nh với độ xác chưa cao trở thành hữu ích thực tế Chẳng hạn, với accuracy 0.95, giả sử trang báo có 100 viết thực tế 30 số z gm @ tin xấu Có hai trường hợp cho sai số lớn 5% phát sai rơi vào 30 tin xấu (phát 25 tin xấu, 75 tin tốt) 5% phát sai rơi vào 70 tin tốt (phát l m co 35 tin xấu, 65 tin tốt) Sai số trường hợp ±16.7% Như vậy, để khẳng định trang báo có vượt tỷ lệ 30% tin xấu hay khơng, ta cần kết dự đốn an Lu n va ac th si 52 35% tin xấu Để khẳng định trang báo chưa vượt tỷ lệ 30% tin xấu, ta cần kết dự đoán nhỏ 25% Nghiên cứu luận văn học viên cịn nhiều thiếu xót mặt lý thuyết thực hành Nếu có thêm thời gian nghiên cứu, học viên tìm hiểu thêm mảng lý thuyết sâu học sâu kỹ thuật học cấu trúc liệu (representation learning), lý thuyết huấn luyện mơ hình để thiết kế mơ hình học sâu phù hợp với đặc lu điểm toán liệu, tránh overfitting, cấu trúc mạng nơ-ron mang tính an tảng mạng auto-encoder, mạng deep belief network, RBMs… Học viên tin rằng, va n tiếp cận đến lý thuyết chuyên sâu hơn, hướng nghiên cứu mở tn to học viên nâng cao khả ứng dụng học sâu để giải nhiều p ie gh tốn khó thực tế d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si 53 DANH MỤC TÀI LIỆU THAM KHẢO [1] Goodfellow, I., Bengio, Y., & Courville, A (2016) Deep learning MIT press [2] Zhang, X., Zhao, J., & LeCun, Y (2015) Character-level convolutional networks for text classification In Advances in neural information processing systems (pp 649-657) lu [3] Tai, K S., Socher, R., & Manning, C D (2015) Improved semantic representations an from tree-structured long short-term memory networks arXiv preprint va n arXiv:1503.00075 tn to [4] Polyak, B T (1964) Some methods of speeding up the convergence of iteration p ie gh methods USSR Computational Mathematics and Mathematical Physics, 4(5), 1-17 [5] Minaee, S., Kalchbrenner, N., Cambria, E., Nikzad, N., Chenaghlu, M., & Gao, J nl w (2020) Deep Learning Based Text Classification: A Comprehensive Review arXiv d oa preprint arXiv:2004.03705 va an lu [6] LeCun, Y., Bengio, Y., & Hinton, G (2015) Deep learning nature, 521(7553), 436 [7] Kalchbrenner, N., Grefenstette, E., & Blunsom, P (2014) A convolutional neural nf oi lm ul network for modelling sentences arXiv preprint arXiv:1404.2188 [8] Hochreiter, S., & Schmidhuber, J (1997) Long short-term memory Neural z at nh computation, 9(8), 1735-1780 z [9] Zhou, P., Qi, Z., Zheng, S., Xu, J., Bao, H., & Xu, B (2016) Text classification @ improved by integrating bidirectional LSTM with two-dimensional max pooling arXiv m co l gm preprint arXiv:1611.06639 [10] Yang, Y., & Liu, X (1999, August) A re-examination of text categorization an Lu methods In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval (pp 42-49) ACM n va ac th si 54 [11] Zhang, L., Wang, S., & Liu, B (2018) Deep learning for sentiment analysis: A survey Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8(4), e1253 [12] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P (2011) Natural language processing (almost) from scratch Journal of Machine Learning Research, 12(Aug), 2493-2537 lu [13] Iyyer, M., Manjunatha, V., Boyd-Graber, J., & Daumé III, H (2015, July) Deep an unordered composition rivals syntactic methods for text classification In Proceedings va n of the 7th IJCNLP - ACL (Volume 1: Long Papers) (pp 1681-1691) tn to [14] Kingma, D P., & Ba, J (2014) Adam: A method for stochastic optimization arXiv gh p ie preprint arXiv:1412.6980 w [15] Jones, K S (1972) A statistical interpretation of term specificity and its application oa nl in retrieval Journal of documentation d [16] Mikolov, T., Chen, K., Corrado, G., & Dean, J (2013) Efficient estimation of word lu va an representations in vector space arXiv preprint arXiv:1301.3781 ul nf [17] Pennington, J., Socher, R., & Manning, C D (2014, October) Glove: Global oi lm vectors for word representation In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp 1532-1543) z at nh [18] Hastie, T., Tibshirani, R., & Friedman, J (2008) Unsupervised learning In The z elements of statistical learning (pp 485-585) Springer, New York, NY @ gm [19] Rosenblatt, F (1958) The perceptron: a probabilistic model for information storage m co l and organization in the brain In Psychological Review, 65(6), 386 [20] Rumelhart, D E., Hinton, G E., & Williams, R J (1986) Learning representations an Lu by back-propagating errors In Nature, 323(6088), 533 n va ac th si 55 [21] Wilson, A C., Roelofs, R., Stern, M., Srebro, N., & Recht, B (2017) The marginal value of adaptive gradient methods in machine learning In Advances in Neural Information Processing Systems (pp 4148-4158) [22] Sebastiani, F (2002) Machine learning in automated text categorization ACM computing surveys (CSUR), 34(1), 1-47 [23] Giang, P (2018) Bộ TT&TT giao ban quản lý nhà nước tháng năm 2018 In Cổng lu thông tin điện tử Bộ Thông tin Truyền thông Retrieved from an http://mic.gov.vn/Pages/TinTuc/137560/Bo-TT-TT-giao-ban-quan-ly-nha-nuoc-thang- va n 7-nam-2018.html tn to [24] Ca, D (2017) Báo Tạp chí khác nào? In Nhà quản lý Retrieved from gh p ie http://nhaquanly.vn/bao-va-tap-chi-khac-nhau-nao-d23155.html w [25] Authority of Broadcasting and Electronic Information (2017) Tổng hợp giấy phép oa nl Trang Thông tin điện tử tổng hợp (từ năm 2015 đến tháng 3/2017) Received from d http://abei.gov.vn/danh-sach-cap-phep/tong-hop-giay-phep-t/106467 lu va an [26] Minh, B (2017) Số liệu thống kê lĩnh vực TT&TT tính đến tháng ul nf 6/2017 In Infonet Retrieved from https://infonet.vn/so-lieu-thong-ke-moi-nhat-ve-linh- oi lm vuc-tttt-tinh-den-thang-62017-post232004.info z at nh z m co l gm @ an Lu n va ac th si