1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận văn Thạc sĩ: Xác định tỷ lệ tin xấu trên báo điện tử tiếng Việt bằng phương pháp học sâu

21 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 819,63 KB

Nội dung

Mục đích nghiên cứu của Luận văn là nghiên cứu các phương pháp học sâu dành cho dữ liệu dạng văn bản và ứng dụng vào bài toán xác định tin xấu trên báo điện tử tiếng Việt. Để hiểu rõ hơn mời các bạn cùng tham khảo nội dung chi tiết của Luận văn này.

i HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đặng Đình Quân XÁC ĐỊNH TỶ LỆ TIN XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 8.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - NĂM 2020 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Trần Quang Anh Phản biện 1: ………………………………………………………… Phản biện 2: ………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: … ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng 1 MỞ ĐẦU Với phổ biến Internet, báo điện tử trở thành kênh thông tin quan trọng đời sống xã hội ngày Khác với tạp chí chủ yếu cung cấp thơng tin mang tính tham khảo/học thuật lĩnh vực chuyên biệt, báo điện tử phản ánh thực xã hội Bộ Thông tin Truyền thông (TT&TT) đưa quan điểm “cái xấu xuất với tỉ lệ 30% mặt báo nghĩa xấu trở thành xã hội; xấu chiếm 20% biểu xấu có xu hướng trở thành xã hội; cịn xấu chiếm 10% khơng phải đủ sức tác động đến người” Nếu tỷ lệ xấu đăng tải tờ báo điện tử không phản phù hợp với thực tế xã hội, tờ báo góp phần cung cấp cho độc giả nhìn sai lệch thực trạng xã hội làm “xói mịn niềm tin” người dân [23] Như vậy, việc đánh giá tỷ lệ xấu mặt báo điện tử vô cấp thiết Các phương pháp học máy thống kê cổ điển áp dụng để phân loại văn theo chủ đề (category) với kết tốt [10] Các kỹ thuật học sâu (CNN, RNN, LSTM) chưa vượt qua phương pháp cổ điển toán phân loại văn lựa chọn khả quan Từ lý trên, học viên lựa chọn đề tài “XÁC ĐỊNH TỶ LỆ TIN XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU” cho luận văn tốt nghiệp trình độ đào tạo thạc sĩ 2 Mục đích, đối tượng phạm vi nghiên cứu: Mục đích nghiên cứu luận văn nghiên cứu phương pháp học sâu dành cho liệu dạng văn ứng dụng vào toán xác định tin xấu báo điện tử tiếng Việt Đối tượng nghiên cứu luận văn phương pháp học sâu dành cho liệu dạng văn toán xác định tin xấu dành cho báo điện tử tiếng Việt Phạm vi nghiên cứu luận văn viết thuộc hai chuyên mục “đời sống” “kinh doanh” báo điện tử tiếng Việt Phương pháp nghiên cứu: - Về mặt lý thuyết: Thu thập, khảo sát, phân tích tài liệu thơng tin có liên quan đến tốn xác định tỷ lệ tin xấu báo điện tử tiếng Việt phương pháp học sâu áp dụng cho liệu văn - Về mặt thực nghiệm: Xây dựng tập liệu tin xấu tiếng Việt, làm thí nghiệm cài đặt huấn luyện số mơ hình dự đốn, tổng hợp so sánh kết thí nghiệm mơ hình khác để tìm ưu, nhược điểm khả áp dụng phương pháp Kết cấu luận văn gồm chương sau Chương 1: Sơ lược học máy, học sâu toán xác định tỷ lệ tin xấu Chương 2: Phương pháp xác định tỷ lệ viết nói xấu báo điện tử tiếng Việt Chương 3: Đánh giá phương pháp xác định tỷ lệ viết nói xấu báo điện tử tiếng Việt 3 Chương – SƠ LƯỢC VỀ HỌC MÁY, HỌC SÂU VÀ BÀI TOÁN XÁC ĐỊNH TỶ LỆ TIN XẤU 1.1 GIỚI THIỆU BÀI TOÁN XÁC ĐỊNH TỶ LỆ TIN XẤU Để xác định tỷ lệ tin xấu trang báo điện tử, tốn đặt để gán nhãn tốt/xấu cho viết trang báo Thơng tin báo điện tử thường bao gồm chữ viết, hình ảnh, âm video Trong đó, phần lớn báo điện tử có chứa nội dung chữ viết hình ảnh Nội dung video ngày trở lên phổ biến chưa chiếm đa số trang báo điện tử Trên hầu hết trang báo điện tử, hình ảnh viết ghi phụ đề miêu tả nội dung ảnh Trong phạm vi thời gian cho phép luận văn, học viên lựa chọn tập trung nghiên cứu nội dung văn báo Bài toán tổng quát mà luận văn cần giải toán phân loại với nhãn hai lớp Giải pháp cần đưa nhãn xác đầu vào nội dung dạng text báo, từ tính tỷ lệ phần trăm tin xấu tổng số viết trang báo điện tử 1.1.1 Định nghĩa tin xấu Tin nói việc, tượng tiêu cực (khơng phân biệt nước hay giới), nói việc mang tính chất phản cảm, khơng hay, khơng đẹp, gây tác hại đến môi trường, kinh tế, xã hội… Tin xấu tin nói thực trạng đáng buồn xã hội, khó khăn kinh tế, thiên tai Luận văn khơng có mục đích đưa định nghĩa chuẩn tin xấu Thay vào đó, nghiên cứu đặt mục tiêu thử nghiệm hiệu mơ hình học máy việc phân biệt/phát tin xấu theo định nghĩa cụ thể 4 1.1.2 Phân loại văn Phân loại văn toán cổ điển phổ biến khoa học máy tính nói chung lĩnh vực học máy nói riêng Mục tiêu tốn xây dựng mơ hình phần mềm để tự động phân loại văn thành hai nhiều lớp Bài toán phân loại văn giải phổ biến với phương pháp học máy Gần đây, học sâu trở thành phương pháp phổ biến để giải toán 1.1.3 Phân tích cảm xúc Phân tích cảm xúc khai phá quan điểm nghiên cứu tính tốn ý kiến người, tình cảm, cảm xúc, đánh giá thái độ thực thể sản phẩm, dịch vụ, tổ chức, cá nhân, vấn đề, kiện, chủ đề thuộc tính họ Sự khởi đầu phát triển nhanh chóng lĩnh vực trùng khớp với phương tiện truyền thông xã hội web 1.2 SƠ LƯỢC VỀ HỌC MÁY Nền tảng trí tuệ nhân tạo khả máy móc nhận thức người nhờ việc “học” từ ví dụ Việc học cỗ máy thơng minh có nhiều điểm tương đồng với q trình học người Học máy (machine learning) mô lại q trình học nói để khiến cho phần mềm máy tính học nhận thức liệu số (văn bản, hình ảnh, âm thanh…) Mơ hình học máy chương trình máy tính có chứa tập tham số có hai chức học dự đốn Mỗi mơ hình học máy có mục tiêu xác định, tác vụ cụ thể mà cần thực (phân loại, phân cụm, phát hiện, lọc, khôi phục…) Tập hợp ví dụ mẫu gọi tập liệu huấn luyện (training data) Các đặc tính ý tập liệu huấn luyện độ lớn tính đại diện (representativeness) Não người có khả lựa chọn đặc tính để dựa vào nhận dạng đối tượng Q trình học máy gọi trích chọn thuộc tính Hiệu mơ hình đầu phụ thuộc nhiều vào việc lựa chọn thuộc tính tốt Với học sâu (deep learning), q trình trích chọn thuộc tính tự động hóa 1.2.1 Học máy có giám sát Hình thức phổ biến học máy học máy có giám sát (supervised learning) Trong học máy có giám sát, ví dụ mẫu cung cấp kèm theo kết (gọi nhãn) chuẩn cho chức học Điều tương tự với việc cho học sinh biết đáp án của tập dạy học Các toán tiêu biểu giải phương pháp học máy có giám sát là:  Phân loại (classification)  Hồi quy (regression)  Phát hành vi bất thường (anomaly detection) 1.2.2 Học máy không giám sát Khác biệt lớn học máy không giám sát có giám sát vắng mặt nhãn tập mẫu Trong học máy không giám sát, chức học phải tự điều chỉnh tham số mà khơng có nhãn chuẩn cho trước Một vài tốn giải học máy khơng giám sát là:  Phân cụm (clustering)  Giảm chiều liệu (dimensionality reduction) 1.2.3 Học máy bán giám sát Học máy bán giám sát trường hợp có phần nhỏ mẫu tập liệu huấn luyện có nhãn kèm theo Một cách tiếp cận hướng sử dụng mẫu có nhãn để huấn luyện mơ hình thơ, sau dùng mơ hình chưa hoàn thiện để gán nhãn cho mẫu lại 1.2.4 Hàm mục tiêu, hàm tổn thất, hàm chi phí Hàm mục tiêu (objective function) hàm dự đốn có chứa tham số tối ưu mà ta cần tìm Như vậy, hàm mục tiêu hàm chưa biết mà ta hy vọng tìm Hàm tổn thất hàm số khác biệt kết dự đoán nhãn chuẩn Hàm chi phí hàm tổng hợp giá trị hàm tổn thất toàn tập liệu Hàm chi phí có vai trị đặc biệt quan trọng q trình huấn luyện mơ hình 1.2.5 Overfitting Khi mơ hình học máy có hiệu tập huấn luyện, ta gọi trường hợp underfitting Khi mơ hình có hiệu cao tập huấn luyện hiệu tập thử nghiệm lại thấp, ta gọi trường hợp overfitting Hai chiều hướng coi ngược thực tế ta điều khiển xu hướng dẫn đến hai tình nói cách điều chỉnh độ lớn hay độ phức tạp (capacity) mơ hình 1.3 SƠ LƯỢC VỀ HỌC SÂU 1.3.1 Mạng nơ-ron Ứng dụng coi phổ biến lĩnh vực machine learning mạng nơ-ron nhân tạo (gọi tắt mạng nơ-ron) Lấy cảm hứng từ cấu trúc não sinh học, mạng lưới thần kinh bao gồm số lượng lớn đơn vị xử lý thông tin (được gọi nơ-ron) tổ chức thành lớp, hoạt động đồng với Nó huấn luyện để thực tác vụ, phân loại văn bản, cách điều chỉnh trọng số kết nối nơ-ron mạng 1.3.1.1 Perceptron Mơ hình mạng nơ-ron có tên perceptron, tạo để mô hoạt động não người Perceptron mạng nơ-ron lớp đơn giản, có khả giải tốn tuyến tính “học” khơng gian liệu tuyến tính 1.3.1.2 Mạng nơ-ron truyền thẳng nhiều lớp Các mạng nơ-ron truyền thẳng sâu – Multilayer Perceptron (MLP) – mơ hình học sâu điển hình với nhiều lớp ẩn (hidden layers), giải tốn khơng tuyến tính [20] 1.3.2 Hàm kích hoạt 1.3.2.1 Softmax 𝑒 𝑦𝑖 𝑆(𝑦𝑖 ) = ∑𝑗 𝑒 𝑦 𝑗 Hình 1.3: Minh họa cách hoạt động hàm kích hoạt Softmax Nguồn: https://towardsdatascience.com/@ManishChablani 1.3.2.2 Sigmoid 𝑒𝑥 𝑆(𝑥) = = + 𝑒 −𝑥 𝑒 𝑥 + 1.3.2.3 Hàm 𝑒 𝑥 − 𝑒 −𝑥 tanh(𝑥) = 𝑥 𝑒 + 𝑒 −𝑥 Đạo hàm dễ tính tốn hồn tồn khơng phụ thuộc vào giá trị đầu vào 𝑥, mà phụ thuộc vào giá trị đầu tanh′(𝑥) = − tanh(𝑥)2 1.3.3 Huấn luyện mạng nơ-ron 1.3.3.1 SGD Gần tất ứng dụng học sâu sử dụng thuật toán quan trọng: tối ưu giảm độ dốc ngẫu nhiên (Stochastic Gradient Descent) SGD phát triển từ thuật toán gốc Gradient Descent Nguyên lý hoạt động SGD coi độ dốc (gradient) giá trị ước lượng Tiếp theo, thuật toán SGD di chuyển tập trọng số không gian trọng số theo chiều xuống dốc dựa vào độc dốc vừa tìm Tốc độ di chuyển tập trọng số quy định giá trị gọi learning rate Momentum chế thiết kế để tăng tốc độ học cho SGD [4] 1.3.3.2 Backpropagation Để tối ưu mạng nơ-ron SGD ta tinh chỉnh tham số ma trận tham số lớp mạng dựa vào đạo hàm đầu đầu vào (phương pháp gradient descent) Như vậy, để huấn luyện mạng nhiều lớp, ta phải tính đạo hàm đầu giá trị đầu vào Nghiên cứu [20] mạng huấn luyện cách hiệu dựa quy trình đơn giản gọi back-propagation (việc tính đạo hàm chuỗi) 9 1.3.3.3 Hàm kích hoạt ReLU Cơng thức hàm ReLU 𝑔(𝑧) = max{0, 𝑧} Hàm ReLU giữ giá trị đạo hàm lớn q trình backpropagation nên khơng gặp phải vấn đề đạo hàm biến (vanishing gradient) hàm kích hoạt khác 1.3.3.4 Adam Adam [14] thuật tốn tối ưu thích nghi, giới thiệu vào năm 2014 Một cách khái quát, Adam kết hợp khả tự động thích nghi learning rate cho trục tọa độ với chế momentum Trong thực nghiệm, thuật tốn Adam có tốc độ tìm kết nhanh SGD lại có xu hướng dễ bị overfitting mơ hình đào tạo Adam thường khơng tốt mơ hình huấn luyện SGD [21] 1.3.4 Một số hàm chi phí 1.3.4.1 MSE 𝑛 𝑀𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 𝑛 𝑖=1 1.3.4.2 Categorical Cross Entropy 𝐶 𝐶𝐸 = − ∑ 𝑦𝑖 ∗ log(𝑦̂𝑖 ) 𝑖=1 10 Chương – PHƯƠNG PHÁP XÁC ĐỊNH TỶ LỆ BÀI VIẾT NÓI VỀ CÁI XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT 2.1 BIỂU DIỄN THUỘC TÍNH 2.1.1 Character-level, word-level 2.1.2 One-hot encoding 2.1.3 Word Embedding Các phương pháp học sâu dựa mạng nơ-ron hồi quy (RNN) thường sử dụng đầu vào cấp độ từ ngữ có kỹ thuật cho phép huấn luyện vector số thực dùng để đại diện cho từ ngữ Kỹ thuật gọi word embedding [16], đời với bùng nổ phương pháp học sâu Trên lý thuyết, word embedding có ưu điểm vượt trội so với one-hot encoding term weighting Vị trí tương đối từ mô lại word embedding, từ trái nghĩa có vị trí đối xứng không gian vector 𝑀 chiều, từ gần nghĩa có vị trí gần phép tính khơng gian áp dụng vector gần thể nghĩa từ Ví dụ [16]: vector(“king”) - vector(“man”) + vector(”woman”) ≈ vector(“queen”) 2.1.4 Word2Vec Một ứng dụng tiếng word embedding thuật toán word2vec vector từ ngữ tiếng Anh huấn luyện sẵn Google Các vector từ ngữ tập word2vec có độ dài 300 phần tử huấn luyện từ tập liệu Google News có chứa 100 tỷ từ 11 2.2 CÁC CẤU TRÚC MẠNG NƠ-RON SÂU 2.2.1 CNN Mạng nơ-ron tích chập mạng nơ-ron có ứng dụng tốn tử có tên tích chập (convolution) lớp mạng 2.2.1.1 Lớp tích chập Một lớp tích chập điển hình mạng nơ-ron có tham số sau:  Số lượng lọc  Kích thước cửa sổ 2.2.1.2 Pooling Kỹ thuật pooling có tác dụng làm giảm độ phức tạp liệu đầu vào cách chọn lấy giá trị từ cửa sổ Khi hàm max sử dụng lớp pooling, ta gọi lớp mạng lớp max pooling 2.2.2 RNN Khác với mạng nơ-ron truyền thẳng, mạng nơ-ron hồi quy (recurrent neural network, RNN) tồn lớp mà đầu dùng làm đầu vào Hay nói cách khác, cấu trúc mạng hình thành vịng trịn khép kín Cấu trúc mạng khơng có tiềm mơ logic phức tạp (sâu, nhiều lớp) mà cịn có tính khái qt cao tham số (parameters) sử dụng cho tất bước biến đổi liệu 2.2.3 Dropout Ngồi việc có nhiều điểm tối ưu cục bộ, hay gọi “bẫy” dành cho thuật toán tối ưu dựa vào nguyên lý xuống dốc (GD-based) khiến cho việc tìm 12 giải pháp tối ưu trở nên khó khăn cịn có vấn đề overfitting Dropout kỹ thuật sinh ta để khắc phục tình trạng Nguyên lý Dropout ngẫu nhiên bỏ qua phần nơ-ron lớp mạng (tạm thời “tắt” nơ-ron bước) để làm giảm phụ thuộc lẫn nơ-ron lớp 13 2.3 THAM KHẢO TÀI LIỆU Một ví dụ mạng MLP dùng cho phân loại văn Deep Average Network [13] với cấu trúc minh họa Hình 2.1 Bằng việc tính trung bình cộng word vector, mơ hình bỏ qua thông tin thứ tự xếp từ văn Trong số loại mạng RNN mạng LSTM vượt trội có khả nắm bắt ràng buộc từ văn dài nhiều Phương pháp Tree-LSTM [3] kết hợp nhiều đơn vị LSTM thành cấu trúc dạng để nắm bắt thông tin ngữ nghĩa phức tạp văn Trong mạng RNN nhận diện đặc trưng theo thời gian mạng CNN lại nhận diện dấu hiệu hữu không gian [6] Một mơ hình mạng CNN ứng dụng cho toán phân loại văn mơ hình DCNN [7] Mơ hình có mục tiêu phân loại câu Nó sử dụng lớp pooling có kích thước động (dynamic k-max pooling) Đầu vào mạng DCNN ma trận hợp thành từ word vector từ câu 2.4 PHƯƠNG PHÁP MLP Mạng MLP cấu tạo từ lớp mạng kết nối toàn phần (fully connected) Trong cơng cụ học sâu, lớp kết nối tồn phần nhắc đến với tên dense layer (lớp dày đặc) Trong phương pháp này, học viên sử dụng mạng MLP với lớp ẩn Lớp đầu vào có kích thước 3000 nơ-ron Lớp ẩn thứ lớp dày đặc có 128 nơ-ron, sử dụng hàm kích hoạt ReLU Lớp ẩn thứ hai lớp dày đặc có 32 nơ-ron, sử dụng hàm kích hoạt ReLU Lớp ẩn thứ ba lớp Dropout với tỷ lệ 0.5 Lớp đầu có nơ-ron, sử dụng hàm kích hoạt sigmoid Dữ liệu đầu vào biểu diễn dạng one-hot encoding 14 2.5 PHƯƠNG PHÁP LSTM Phương pháp thứ hai học viên áp dụng cho tốn mơ hình mạng LSTM với đầu vào có độ dài thay đổi Một lớp Dropout đầu 𝑀 tế bào lớp output sử dụng để tăng tính độc lập cho tế bào LSTM giảm khả mơ hình bị overfitting 2.6 PHƯƠNG PHÁP BI-LSTM-CNN Lấy toàn output bước thời gian từ mạng LSTM để hình thành ma trận ứng dụng kỹ thuật từ mạng CNN pooling ma trận Phương pháp ứng dụng cấu trúc mạng LSTM hai chiều – Bidirectional LSTM, viết tắt BI-LSTM Nghiên cứu [5] cho thấy BI-LSTM có khả hiểu văn dạng ngôn ngữ tự nhiên tốt so với LSTM nguyên Ngoài ra, phương pháp này, học viên áp dụng thêm lớp Flatten để chuyển đầu lớp Pooling từ 2D thành 1D kỹ thuật Dropout để tránh tình trạng overfit Thuật toán Adam [14] lựa chọn để giúp tăng tốc trình huấn luyện 15 Chương – ĐÁNH GIÁ PHƯƠNG PHÁP XÁC ĐỊNH TỶ LỆ TIN XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT 3.1 TẬP DỮ LIỆU 3.1.1 Phạm vi liệu thử nghiệm Dữ liệu thử nghiệm lấy từ chuyên mục “Thời sự” báo điện tử VnExpress (https://vnexpress.net) 3.1.2 Thu thập liệu Dữ liệu thu thập công cụ lấy tin tự động học viên tự phát triển 3.1.3 Xử lý & gán nhãn liệu Loại bỏ tin trùng lặp Gán nhãn thủ công với hai lớp “Tin xấu” “Tin bình thường” Rà sốt chỉnh lại viết bị tình trạng đoạn văn lặp hai lần loại bỏ tên tác giả cịn sót lại cuối viết mà công cụ tự động chưa loại bỏ hết Loại bỏ định dạng HTML Chuyển thành dạng chữ viết thường (lower-case) Loại bỏ các dấu chấm, phẩy, xuống dòng… (punctuations), ký tự đặc biệt Sau thực bước thu thập xử lý liệu nêu trên, tập liệu cuối bao gồm tổng số 8546 viết Số viết gán nhãn tin xấu theo tiêu chí: 5200 viết 3.2 THIẾT KẾ THÍ NGHIỆM 3.2.1 Thí nghiệm So sánh hiệu lớp Embedding trực tiếp vector word2vec huấn luyện sẵn Mơ hình LSTM sử dụng để thử nghiệm tập liệu mơ tả phần trước 16 3.2.2 Thí nghiệm So sánh phương pháp MLP, LSTM BI-LSTM-CNN với tiêu chí recall, precision, accuracy điểm số F1 sử dụng làm độ đo chung để so sánh mơ hình Kỹ thuật k-fold cross validation với 𝑘 = thực để đánh giá kết thí nghiệm 3.2.3 Các độ đo để đánh giá kết ACC = + tn 𝑁 Recall = tp + fn Precision = F1 = × tp + fp recall × precision recall + precision Công thức Fβ sau: (1 + β2 ) × Fβ = (1 + β2 ) × + β2 × fn + fp Trong cơng thức trên, fn coi có chi phí cao gấp β lần so với fp 3.2.4 Kiểm chứng chéo Trong q trình huấn luyện, mơ hình học máy học từ mẫu phần train không tiếp cận mẫu phần test Sau huấn luyện đạt kết ý muốn với tập train, mơ hình áp dụng tập test để đánh giá hiệu với liệu mà mơ hình phân loại chưa thấy 17 Trên thực tế, cách làm khác thường áp dụng nhiều k-fold cross validation Với kỹ thuật này, tập liệu mẫu chia làm k phần đồng mơ hình huấn luyện thử nghiệm k lần lấy kết trung bình Ở lần, k phần sử dụng làm tập test, phần lại hợp lại dùng làm tập train 3.3 KẾT QUẢ THÍ NGHIỆM 3.3.1 Thí nghiệm Hình 3.1: Biểu đồ độ đo Recall qua 10 epochs huấn luyện mơ hình LSTM với lớp Embedding với vector word2vec huấn luyện trước 3.3.2 Thí nghiệm Ở số, phương pháp BI-LSTM-CNN đạt mức xấp xỉ 0.9 (90%) với accuracy cao đạt 0.91615, điểm số F1 đạt cao 0.93304 18 Hình 3.2: Biểu đồ độ đo Precision qua 10 epochs huấn luyện mơ hình LSTM với lớp Embedding với vector word2vec huấn luyện trước Hình 3.6: Kết thí nghiệm với tiêu chí F1 mơ hình phân loại 19 KẾT LUẬN Trong luận văn này, học viên tiến hành nghiên cứu tài liệu phương pháp giải toán phân loại văn để áp dụng cho toán xác định tỷ lệ tin xấu báo điện tử tiếng Việt Các kiến thức tảng học máy học sâu trình bày theo trình tự từ đến nâng cao Luận văn từ vấn đề lý thuyết đến ứng dụng mang tính thực nghiệm với mục tiêu xuyên suốt để giải toán đề cách hiệu Thơng qua q trình tham khảo tài liệu, nhiều phương pháp tóm tắt thảo luận học viên lựa chọn điều chỉnh ba phương pháp học sâu tiêu biểu để giải toán xác định tỷ lệ tin xấu: (1) phương pháp MLP đại diện cho nhóm mạng nơ-ron truyền thẳng truyền thống, (2) phương pháp LSTM đại diện cho nhóm mạng nơ-ron hồi qui (3) phương pháp BI-LSTM-CNN đại diện cho nhóm mơ hình kết hợp nhiều cấu trúc mạng khác Qua thử nghiệm tập liệu học viên tự thu thập xử lý, phương pháp BI-LSTM-CNN cho hiệu tốt ổn định hai phương pháp lại cách đáng kể ... giá phương pháp xác định tỷ lệ viết nói xấu báo điện tử tiếng Việt 3 Chương – SƠ LƯỢC VỀ HỌC MÁY, HỌC SÂU VÀ BÀI TOÁN XÁC ĐỊNH TỶ LỆ TIN XẤU 1.1 GIỚI THIỆU BÀI TOÁN XÁC ĐỊNH TỶ LỆ TIN XẤU Để xác. .. áp dụng phương pháp Kết cấu luận văn gồm chương sau Chương 1: Sơ lược học máy, học sâu toán xác định tỷ lệ tin xấu Chương 2: Phương pháp xác định tỷ lệ viết nói xấu báo điện tử tiếng Việt Chương... vượt qua phương pháp cổ điển toán phân loại văn lựa chọn khả quan Từ lý trên, học viên lựa chọn đề tài “XÁC ĐỊNH TỶ LỆ TIN XẤU TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU” cho luận văn tốt

Ngày đăng: 18/06/2021, 10:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w