Phát hiện lập trường sử dụng kỹ thuật học sâu TT

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG -*** - ĐẶNG THỊ NGỌC YẾN PHÁT HIỆN LẬP TRƯỜNG SỬ DỤNG KỸ THUẬT HỌC SÂU Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 TĨM TẮT LUẬN VĂN THẠC SỸ KỸ THUẬT ( Theo định hướng ứng dụng) Hà Nội - 2021 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Trần Thị Oanh Phản biện 1: PGS.TS Hoàng Hữu Hạnh Phản biện 2: PGS.TS Nguyễn Linh Giang Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 14 ngày 28 tháng năm 2021 MỞ ĐẦU Ngày công nghệ thông tin phát triển mạnh mẽ, xâm nhập toàn lĩnh vực đời sống xã hội Xã hội ngày phát triển nhu cầu áp dụng tiến công nghệ thông tin vào sống ngày cao để giải vấn đề phức tạp y tế, giáo dục, pháp luật.Với nhu cầu trao đổi tìm kiếm thông tin người ngày cao, thông tin tràn ngập phương tiện truyền thông, đặc biệt phát triển rộng rãi mạng Internet, ngày người phải xử lý lượng thông tin khổng lồ Do vậy, việc trích xuất tổng hợp ý kiến dư luận mang lại nhiều lợi ích cho đặc biệt quan tâm Để hỗ trợ việc trích xuất tổng hợp ý kiến dư luận diễn hiệu nhanh chóng, trí tuệ nhân tạo, đặc biệt học máy xử lý ngôn ngữ tự nhiên hy vọng tự động hóa đáng kể số quy trình việc phân tích, nghiên cứu tình hình xu hướng dư luận xã hội Trích xuất thơng tin tự động từ văn chủ đề nghiên cứu quan trọng xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) nhiều thập kỷ [2]Một số vấn đề nghiên cứu liên quan đến phân tích tự động văn bao gồm phân tình cảm (sentiment analysis) (khai thác ý kiến), nhận dạng cảm xúc (emotion recognition), khai thác lập luận (xác định lý do), phát mỉa mai / mỉa mai, phát tin đồn xác thực phát tin tức giả [2] Các giải pháp tự động hiệu suất cao cho vấn đề tạo điều kiện thuận lợi cho nhiệm vụ phân tích xu hướng thị trường, thu thập đánh giá người dùng cho sản phẩm, khảo sát ý kiến, quảng cáo nhắm mục tiêu, thăm dò ý kiến, dự đoán cho bầu cử trưng cầu dân ý, giám sát phương tiện truyền thông tự động lọc nội dung chưa xác nhận để có trải nghiệm người dùng tốt hơn, để giám sát sức khỏe cộng đồng trực tuyến Trong luận văn này, tập trung nghiên cứu vấn đề phát lập trường cho tiếng Việt sử dụng phương pháp học máy giám sát, cụ thể sử dụng số mơ hình truyền thống Decision Tree, Nạve Bayes, mơ hình học sâu đại LSTM, RNN Nội dung luận văn trình bày chương sau: Chương 1: Giới thiệu toán phát lập trường người dùng tiếng Việt Chương 2: Các phương pháp học máy sử dụng toán phát lập trường Chương 3: Đề xuất phương pháp, giải pháp: Chương trình bày chi tiết giải pháp đề xuất 2 Chương 4: Thực nghiệm đánh giá Trong phần Kết luận, luận văn tóm tắt kết nghiên cứu luận văn với bàn luận xung quanh đóng góp ưu điểm hạn chế từ đưa gợi mở cần tiếp tục nghiên cứu 3 CHƯƠNG I: BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG 1.1 Giới thiệu toán phát lập trường Internet trở thành phần thiếu sống hàng ngày người giới ngày đóng vai trị đặc biệt việc thúc đẩy phát triển mạnh mẽ kênh truyền thông mạng xã hội,diễn đàn, website tin tức Tại Việt Nam, kênh truyền thông mạng xã hội (MXH) ngày trở nên gần gũi thân thuộc với nhiều người, kể thanh, thiếu niên người già Theo báo cáo thường niên “Digital 2021” công bố WeAreSocial Hootsuite, Việt Nam có 68.72 triệu người dùng Internet chiếm 70.3% dân số 72 triệu người dùng mạng xã hội chiếm khoảng 73.6% Nhìn vào bối cảnh trên, lập trường hiểu ý kiến thể cá nhân hướng tới chủ đề kiện nhân vật [5]Bài tốn phát lập trường thu hút nhiều ý nhà nghiên cứu mang lại nhiều ứng dụng thiết thực Sau đó, họ xem xét lập luận ủng hộ chống lại tuyên bố, đồng thời sử dụng khả phán đốn lập luận để đánh giá tính hợp lệ tuyên bố đề cập Một công cụ cho phép người kiểm tra thực tế nhanh chóng hiệu Ngồi phát lập trường áp dụng nhiều ứng dụng khác như: phân loại tin đồn, phân tích, dự báo xu hướng thị trường, tạo hệ thống khuyến nghị, hỗ trợ giám sát sức khỏe cộng đồng, truy xuất thơng tin, khảo sát ý kiến góp ý người tiêu dùng 1.2 Một số nghiên cứu liên quan Trong năm gần đây, có nhiều nghiên cứu lĩnh vực Xử lý Ngôn ngữ Tự nhiên (Natural language processing - NLP) liên quan đến lĩnh vực phát lập trường Phát lập trường nhằm mục đích xác định lập trường tác giả văn mục tiêu (một thực thể, khái niệm, kiện, ý tưởng, ý kiến, tuyên bố, chủ đề, v.v.) Điều người tham gia sử dụng nhiều Classifers sử dụng hệ thống phân tích cảm tính hiệu suất cao khơng đảm bảo hiệu suất phát lập trường cải thiện Cuộc thi thứ ba tương tự với 5,400 tweets tiếng Tây Ban Nha and 5,400 tweets tiếng Catalan Hệ thống hoạt động tốt việc phát lập trường tweet Tây Ban Nha dựa cách tiếp cận dựa SVM với kết hợp tính khác Trong hệ thống hoạt động tốt tweet Catalan dựa hồi quy logistic 1.3 Tính thời tốn Phát lập trường chủ đề lĩnh vực Xử lý Ngôn ngữ Tự nhiên (Natural language processing - NLP) thu hút nhiều quan tâm nhà nghiên cứu ứng dụng thực tế Các nhà nghiên cứu chủ yếu tiếp cận vấn đề phát lập trường tiếng Anh Nhận thấy tầm quan trọng chủ đề với việc phát lập trường cho tiếng Việt chưa quan tâm nhiều, thúc chọn nghiên cứu đề tài “Phát lập trường cho tiếng Việt sử dụng kỹ thuật học sâu” Với ngữ liệu chúng tơi hy vọng đóng góp phần nhỏ việc làm phong phú thêm tài nguyên ngôn ngữ lĩnh vực xử lý ngôn tự nhiên ứng dụng cho Tiếng Việt Chúng hy vọng đề tài tiền đề quan trọng cho chun gia việc phân tích, nghiên cứu tình hình xu hướng dư luận xã hội 1.4 Kết luận chương Chương giới thiệu tổng quan toán phát lập trường, nêu bật đặc điểm liệu Tiếng Việt, đưa nghiên cứu phát lập trường liên quan giới thiệu số phương pháp phát lập trường 5 CHƯƠNG II: CÁC PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG Tiếp cận dựa học máy cách tiếp cận sử dụng phổ biến rộng rãi để giải toán phát lập trường Cách tiếp cận thay kiến thức chuyên môn tập lớn câu hỏi gán nhãn (tập liệu mẫu) Sử dụng tập này, phân lớp huấn luyện có giám sát Cách tiếp cận dựa học máy chia làm hai nhóm nhóm phương pháp học máy truyền thống nhóm phương pháp sử dụng mạng nơ-ron 2.1 Phương pháp học máy truyền thống 2.1.1 Thuật tốn phân lớp nạve Bayes Thuật tốn phân loại Naive Bayes thuật toán dựa định lý Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê, ứng dụng nhiều lĩnh vực Machine learning dùng để đưa dự đốn có độ xác cao, dựa tập liệu thu thập Naive Bayes Classification thuộc vào nhóm học máy có giám sát Kỹ thuật dễ hiểu mô tả giá trị đầu vào nhị phân phân loại Thuật tốn Naive Bayes tính xác suất cho yếu tố, sau chọn kết với xác suất cao Tuy nhiên, ta cần lưu ý giả định thuật toán Naive Bayes yếu tố đầu vào cho độc lập với 2.1.2 Cây định (Decision tree) Cây định phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Khi cho liệu đối tượng gồm thuộc tính với lớp nó, định sinh luật để dự đoán lớp đối tượng chưa biết Cây định gồm phần chính: node gốc, node nhánh Node gốc điểm bắt đầu định hai node gốc node chứa câu hỏi tiêu chí để trả lời Nhánh biểu diễn kết kiểm tra nút Ví dụ câu hỏi node yêu cầu câu trả lời “yes” “no” có node chịu trách nhiệm cho phản hồi “yes”, node “no” 2.2 Phương pháp học sâu 2.2.1 Mơ hình mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) RNN (Recurrent Neural Network) – Mạng nơ-ron hồi quy thuật toán ý nhiều thời gian gần kết tốt thu lĩnh vực xử lý ngôn ngữ tự nhiên, thiết kế cho việc xử lý loại liệu có dạng chuỗi Ý tưởng RNN (Recurrent Neural Network) sử dụng chuỗi thông tin Trong mạng nơ-ron truyền thống tất đầu vào đầu độc lập với RNN gọi hồi quy (Recurrent) chúng thực tác vụ cho tất phần tử chuỗi với đầu phụ thuộc vào phép tính trước Nói cách khác, RNN có khả nhớ thơng tin tính tốn trước Trên lý thuyết, RNN sử dụng thơng tin văn RNN có chế lặp hoạt động đường phép thơng tin truyền từ trạng thái sang trạng thái Training mạng nơ-ron có ba bước : - Chuyển tiếp đưa dự đoán - So sánh dự đoán với thật cách sử dụng loss funtion Loss funtion xuất giá trị lỗi giá trị ước tính mạng hoạt động - Sử dụng giá trị lỗi để thực lan truyền ngược, tính tốn độ dốc cho nút mạng 2.2.2 Mạng nhớ dài - ngắn (Long Short Term Memory) LSTM kiến trúc mạng nơ ron lặp lai nhân tạo (RNN) sử dụng lĩnh vực học sâu Nó thiết kế để giải toán phụ thuộc xa (long-term dependencies) mạng RNN bị ảnh hưởng vấn đề gradient biến LSTM mạng cải tiến RNN nhằm giải vấn đề nhớ bước dài RNN Về mơ hình LSTM khơng khác mơ hình truyền thống RNN, chúng sử dụng hàm tính tốn khác trạng thái ẩn Một LSTM gồm có cổng để trì điều hành trạng thái tế bào  Bước mơ hình LSTM việc định thông tin đưa đến trạng thái tế bào thông qua cổng  Bước xác định loại thông tin cần lưu lại cell state Ta có hai phần Một single sigmoid layer gọi “input gate layer” định giá trị cần cập nhật 7  Cuối cùng, cần quyếtđịnh xem thông tin output Output cần dựa trạng thái cell state, giá trị lọc bớt số thông tin LSTM bước lớn việc sử dụng RNN Ý tưởng giúp cho tất bước RNN truy vấn thông tin từ tập thông tin lớn Ví dụ, sử dụng RNN để tạo mơ tả cho ảnh, lấy phần ảnh để dự đốn mơ tả từ tất từ đầu vào 2.3 Kết luận chương Nội dung chương giới thiệu phương pháp học máy sử dụng toán phát lập trường, giới thiệu phương pháp học máy truyền thống, giới thiệu phương pháp học sâu so sánh hai phương pháp 8 CHƯƠNG III: ĐỀ XUẤT PHƯƠNG PHÁP, GIẢI PHÁP 3.1 Mơ tả tốn Phát lập trường xây dựng phân loại để xác định lập trường nhận xét định tun bố/ tiêu đề, với bình luận đồng ý, không đồng ý, thảo luận không liên quan  Input: Một tuyên bố bình luận tuyên bố  Output: Lập trường nội dung bình luận liên quan đến tuyên bố đưa thành bốn loại: o Agree: Nội dung bình luận đồng ý với tuyên bố o Disagree: Nội dung bình luận khơng đồng ý với tun bố o Discuss: Nội dung bình luận mang tính chất thảo luận chủ đề tương tự tuyên bố, khơng đưa quan điểm o Unrelated: Nội dung bình luậ thảo luận chủ đề khác với tuyên bố 3.2 Giải pháp đề xuất 3.2.1 Tiền xử lý liệu Tiền xử lý liệu phần quan trọng việc xây dựng mơ hình hoạt động tốt cho ứng dụng học máy Trong nghiên cứu này, luận văn sử dụng phương pháp chuẩn hóa liệu mã hóa từ để tiền xử lý liệu Chuẩn hóa liệu Chuẩn hóa văn giúp loại bỏ ký tự đặc biệt dấu chấm câu; đổi thành chữ thường Thuật toán tách từ Tokenization tách cụm từ, câu, đoạn văn toàn tài liệu văn thành đơn vị nhỏ thành từ có ý nghĩa Mã hóa phần q trình xử lý NLP (dữ liệu văn bản) ý nghĩa văn dễ dàng giải thích cách phân tích từ có văn 3.2.2 Phát lập trường sử dụng mơ hình học máy truyền thống Trích chọn đặc trưng Trích chọn đặc trưng có ý nghĩa quan trọng, ảnh hưởng trực tiếp đến kết phân lớp Các loại đặc trưng thường sử dụng tập từ (bag-of-word) Ngồi ra, phạm vi đồ án, chúng tơi cịn sử dụng thêm đặc trưng khác đặc trưng âm tiết (Bagof-syllables), âm tiết quan trọng, phân loại dựa Naïve bayes, biểu diễn từ Vector (Vector glove), Log-count ratios câu, từ phủ định Đặc trưng từ vựng Với đặc trưng từ vựng, câu biểu diễn dạng tập từ riêng biệt, không quan tâm tới ngữ pháp hay thứ tự từ câu, giữ lại số lần xuất từ câu Biểu diễn từ Vector Glove Phương pháp biểu diễn Vector từ Glove phương pháp học không giám sát, sử dụng để biểu diễn từ thành vector tương ứng Glove thuật toán biểu diễn cho vector từ huấn luyện thực số liệu thống kê từ từ đồng xảy tổng hợp từ corpus, kết biểu diễn không gian vector từ N chiều Đặc trưng độ đo TF-IDF TF-IDF (Term Frequency – Inverse Document Frequency) kỹ thuật sử dụng khai phá liệu văn Trọng số sử dụng để đánh giá tầm quan trọng từ văn Giá trị cao thể độ quan trọng cao phụ thuộc vào số lần từ xuất văn bù lại tần suất từ tập liệu Một vài biến thể tf-idf thường sử dụng hệ thống tìm kiếm cơng cụ để đánh giá xếp văn dựa vào truy vấn người dùng Tf-idf sử dụng để lọc từ stopwords toán tóm tắt văn phân loại văn Các bước thực  Hai phương pháp Naïve Bayes Decision Tree yêu cầu liệu biểu diễn vector số thực Như đầu vào chưa phải số ta cần phải tìm cách chuyển chúng dạng số  Tiền xử lý liệu: Thực biến đổi liệu phù hợp cho q trình tính tốn, tránh số q lớn mơ tả thuộc tính Thường nên co giãn (scaling) liệu để chuyển đoạn [-1, 1] [0,1]  Chọn hàm hạt nhân: Lựa chọn hàm hạt nhân phù hợp tương ứng cho toán cụ thể để đạt độ xác cao q trình phân lớp 10  Thực việc kiểm tra chéo để xác định tham số cho ứng đụng Điều định đến tính xác trình phân lớp  Sử dụng tham số cho việc huấn luyện với tập mẫu 3.2.3 Phát lập trường sử dụng mơ hình học sâu Word Embeddings Dữ liệu văn chuyển đổi thành biểu diễn vectơ trước đưa vào thuật toán học máy Trong nghiên cứu này, biểu diễn vector từ thử nghiệm Word2Vec Word2vec nhập kho văn xuất tập hợp vectơ Là kết hợp hai cách, sử dụng ngữ cảnh để dự đoán từ mục tiêu (một phương pháp gọi bag of word liên tục, CBOW) sử dụng từ để dự đoán ngữ cảnh mục tiêu, gọi skip-gram Trên thực tế, hai mơ hình mạng nơ-ron ba lớp với lớp đầu vào, lớp ẩn lớp đầu Mơ hình BiLSTM Việc phát xác lập trường phụ thuộc khơng vào thơng tin phía trước từ xét mà cịn thơng tin phía sau Tuy nhiên, kiến trúc LSTM truyền thống với lớp dự đốn nhãn từ dựa thơng tin có từ từ nằm trước BiLSTM làm tăng hiệu lượng thơng tin có sẵn cho mạng, cải thiện ngữ cảnh có sẵn cho thuật tốn (ví dụ: biết từ sau đứng trước từ câu Lớp phân loại ReLU Đầu trạng thái ẩn ô cuối mạng LSTM sử dụng làm đầu vào cho lớp kết nối với Hàm kích hoạt (activation function) mơ tỷ lệ truyền xung qua axon neuron thần kinh Trong mạng nơ-ron nhân tạo, hàm kích hoạt đóng vai trò thành phần phi tuyến output nơ-ron Hàm ReLU sử dụng nhiều năm gần huấn luyện mạng neuron ReLU đơn giản lọc giá trị < Ta sử dụng Activation functions với Neural Networks để xác định đầu mạng thần kinh ‘Yes’ hay ‘No’ ReLU sử dụng hầu hết mạng nơ-ron phức hợp học sâu ReLU sử dụng công thức đơn giản sau để biến đổi đầu vào: f(x)=max(0,x) 11 Đầu trạng thái ẩn ô cuối mạng LSTM sử dụng làm đầu vào cho lớp kết nối với Hàm kích hoạt mô tỷ lệ truyền xung qua axon neuron thần kinh Trong mạng nơ-ron nhân tạo, hàm kích hoạt đóng vai trị thành phần phi tuyến output nơ-ron 3.3 Kết luận chương Nội dung chương mơ tả tốn phát lập trường, đưa giải pháp đề xuất them hai hướng khảo sát phương pháp học máy truyền thống học sâu 12 CHƯƠNG IV: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương trình bày cách xây dựng, thu thập kho ngữ liệu, mô tả cách thiết lập thực nghiệm, đưa mơ hình thực nghiệm, giới thiệu công cụ sử dụng toán đánh giá kết thực nghiệm 4.1 Xây dựng ngữ liệu phát lập trường tiếng Việt Việc thực xây dựng kho ngữ liệu luận văn thực theo giai đoạn mô hình đây: Website (Các trang mạng xã hội) Thu thập liệu Tiêu đề bình luận thơ Tiền xử lý Gán nhãn Kho ngữ liệu Hình 4-1 Mơ hình xây dựng kho ngữ liệu 13 4.1.1 Thu thập liệu Luận văn tập trung vào nghiên cứu tốn phân loại ý kiến bình luận người dùng tập liệu Tiếng việt thu thập từ trang mạng xã hội Facebook, Twitter trang báo mạng Thực thu thập liệu từ nguồn: Vnexpress.vn, vtv24, dantri, beat.vn, baomoi.vn, trang Facebook: Beat.vn Webtretho.com Dữ liệu gồm 500 header chủ đề, tuyên bố Tương ứng với 11252 bình luận tương ứng 4.1.2 Tiền xử lý Dữ liệu sau thu thập từ trang báo mạng tiến hành tiền xử lý Luận văn thực tiền xử lý liệu cách loại bỏ số nhiễu như: câu sai tả, lỗi font 4.1.3 Gán nhãn Thực xem xét bình luận liên quan hay không liên quan với Header Nếu khơng liên quan gắn nhãn Unrelated, cịn bình luận liên quan phân chia thành loại nhãn Agrees, Disagrees, Discusses Quá trình gán nhãn: Những comment gán nhãn Agrees: - Thể quan điểm đồng ý, đồng tình với nhiều ý nêu header (sử dụng từ cụm từ cụ thể ‘đồng ý’, ‘đúng rồi’, ‘chính xác’, ‘quá chuẩn’, ‘ủng hộ’, “quá hay”) - Thể quan điểm ủng hộ, đồng cảm, tuyên dương, tán thành với nhiều ý nêu header Những comment gán nhãn Disagrees: - Thể quan điểm không đồng ý, phản nhiều ý nêu header - Thể quan điểm không ủng hộ, không đồng quan điểm với nhiều ý nêu header - Nêu dẫn chứng để gián tiếp phản đối nhiều ý nêu header - Khơng đồng tình, lên án , phê phán, trách móc hành động , đối tượng nêu Header 14 Những comment gán nhãn Discusses: - Thể quan điểm trung lập với ý kiến nêu header - Bổ sung, giải thích thêm thông tin, bàn luận với ý kiến nêu header - Nêu dẫn chứng thực tế để bàn luận thông tin header Những comment gán nhãn Unrelated: - Bình luận chủ đề khơng liên quan đến vấn đề nói header - Bình luận vấn đề lan man bên cạnh vấn đề nói header - Bài viết quảng cáo Check chéo liệu để kiểm tra tính thống gán nhãn Giai đoạn gán nhãn thủ công luận văn thực ba người gán nhãn Vì vậy, luận văn cần biết xem kết gán nhãn ba người có tương đồng với khơng Để kiểm tra điều đó, luận văn sử dụng độ đo Cohen’s kappa tài liệu báo độ đo tính tốn độ tương đồng gán nhãn hai người 4.1.3 Thống kê kho liệu Dữ liệu gồm 500 header chủ đề, tuyên bố Tương ứng với 11250 bình luận tương ứng Các viết liên quan đến chủ đề trị, đời sống, ý kiến, thời sự, giáo dục - Tổng số câu tiêu đề bình luận: 11750 - Tổng số từ: 1314459 - Tổng số từ trung bình / câu: 111 - Số từ (khơng tính lặp) tồn kho ngữ liệu: 8014 4.2 Thiết lập thực nghiệm Với liệu chuẩn bị cho thực nghiệm, luân văn lấy 11750 câu bình luận tiêu đề, chủ đề tương ứng tiếng Việt Từ liệu này, luận văn chia thành liệu, liệu xây dựng cách ngẫu nhiên tập liệu có Kết thu lần thực nghiệm tính trung bình để kết thực nghiệm 4.3 Công cụ thực nghiệm Luận văn sử dụng Google Colab làm cơng cụ để xây dựng đánh giá mơ hình Google Colab gọi Google Colaboratory, sản phẩm Google Research 15 phát triển, dựa Jupyter Notebook, cho phép chạy mã python thơng qua trình duyệt, đặc biệt thích hợp cho phân tích liệu, học máy giáo dục 4.4 Kết thực nghiệm Phương pháp phân loại dựa học máy đươc chia làm nhóm phương pháp học máy truyền thống phương pháp học máy sử dụng mạng nơ-ron Do vậy, luận văn lựa chọn thực nghiệm hai mơ hình đại diện cho hai nhóm phương pháp mơ hình Decision Tree, Nạve Bayes đại diện cho nhóm phương pháp học máy truyền thống, mơ hình RNN, LSTM đại diện cho nhóm phương pháp học máy sử dụng mạng nơron Mơ hình LSTM (Long-Short Term Memory) 4.4.1 Bảng cho thấy độ xác chạy kho liệu fold Kết cho thấy Fold đạt độ xác cao với 68% kết trung bình 66,38% Bảng 4-3: Độ xác fold sử dụng mơ hình LSTM (%) Fold Fold Fold Fold Fold Average Đây Accurac 67.2 64.9 68.00 66.00 65.80 66.38 y precision, recall điểm F1 nhãn (bảng 4), ta thấy, nhãn “Unrelated” có độ kết xác cao nhất, Recall điểm F1 tương ứng với 85,1%, 82,38% 83,62% Nhãn “Agree” cho kết khoảng 70% Tuy nhiên, nhãn khác lại cho kết thấp Bảng 4-4: Precision, recall F1-score tương ứng với nhãn (%) Labels Agree Disagree Discuss Unrelated Precision 70.68 56.48 57.82 85.10 Recall 69.46 55.52 60.56 82.38 F1-score 70.02 55.96 59.10 83.62 4.4.2 Mơ hình RNN(Recurrent Neural Network) Chạy liệu fold mô hình RNN Bảng cho thấy kết trung bình 62.3, tương đối thấp so với hai phương pháp LSTM Bảng 4-6 Độ xác fold sử dụng mơ hình RNN (%) 16 Accurac y Fold 61.00 Fold 64.40 Fold 62.00 Fold 64.50 Fold 61.20 Average 62.30 4.4.3 Mơ hình SVM (Support Vector Machine)Học máy Decision Tree Naïve Bayes Để xác minh tính hiệu mơ hình đề xuất, so sánh với số phương pháp học máy phổ biến làm đường sở Dưới số trích xuất tính SVM sử dụng nghiên cứu này: Word Embedding kỹ thuật mà biểu diễn văn cách sử dụng vectơ Các hình thức Word Embedding phổ biến Bag of Word Term Frequency-Inverse Document Frequency Trong luận văn sử dụng Bag of Word, Glove Vector, Term Frequency-Inverse Document Frequency hình thức biểu diễn văn dạng số đơn giản hiệu Bảng cho thấy kết Accuracy chạy kho liệu fold SVM, Fold cho điểm tốt với 69,24% SVM phương pháp cho điểm cao phương pháp sử dụng nghiên cứu Kết lần khác SVM cao kết trung bình chạy LSTM, khoảng 67% Bảng 4-57: Độ xác fold sử dụng mơ hình SVM Decision Tree (%) Fold AccuracyGl 52.1567 ove Vector 17 Bag of Word 57.13 TF - IDF 55.48 Fold 54.3367 25 56.37 55.53 Fold 52.4068 66 55.51 54.22 Fold 53.0267 46 58.8 52.76 Fold 53.5169 24 55.73 55.07 Average 53.0867 96 56.71 54.61 Bảng 4-8 Độ xác fold sử dụng mơ hình Nạve Bayes (%) Glove Vector Bag of Word TF - IDF Fold 42.56 Fold 43.76 Fold 40.27 Fold 43.11 Fold 44.27 Average 42.79 45.45 43.58 47.00 43.36 46.04 42.76 46.89 44.09 45.29 43.42 46.13 43.44 17 4.5 Thảo luận phân tích lỗi Dựa kết thực nghiệm thu được, nhận thấy phương pháp học sâu SVM LSTM cho kết cao hơnnhất (66.38%) so với hai ba phương pháp lại RNN (62.30%), Decision Tree (56.71%) Naïve Bayes (46.13%)phương pháp học sâu LSTM RNN Đó lý SVM ưu nghiên cứu liên quan đến xử lý ngôn ngữ Tuy nhiên, số nghiên cứu gần tìm lập trường tiếng Anh, mơ hình học sâu thường cho kết cao, khác biệt ngôn ngữ độ phức tạp tiếng Việt Kết hai phương pháp học sâu mức trung bình Vì vậy, thời gian tới, dành nhiều thời gian để hồn thiện phát triển mơn đạt kết cao 4.6 Kết luận chương Chương trình bày cách thiết lập thực nghiệm, mơ tả mơ hình thực nghiệm, giới thiệu công cụ thực nghiệm, đưa kết phân tích đánh giá kết thực nghiệm 18 KẾT LUẬN Sự phát triển internet thực bước tiến lớn nhân loại, lợi ích to lớn internet mang lại thật phủ nhận Tuy nhiên, giống dao hai lưỡi nhiều người sử dụng với mục đích tiêu cực bình luận xúc phạm, chửi bới, chí tung tin giả Mục đích nghiên cứu giúp xác định phân loại bình luận giúp ngăn chặn tin tức giả mạo Trong luận văn này, sử dụng nhiều phương pháp khác Decision Tree, Naïve Bayes, RNN LSTM để so sánh độ xác mơ hình lựa chọn mơ hình có kết tốt Luận văn khảo sát toán phát lập trường chủ đề, đề xuất phương pháp phù hợp Đồng thời phương pháp đề xuất phân tích đánh giá số phương pháp đánh giá thông dụng tập liệu thu thập Nhìn chung, luận văn đạt được: - Nghiên cứu cho toán phát lập trường Tiếng Việt tốn cịn nghiên cứu - Xây dựng liệu cho toán - Nghiên cứu nghiên cứu ban đầu đóng góp liệu cho nghiên cứu - Nghiên cứu số phương pháp phân loại dưa học máy sử dụng mơ hình LSTM mơ hình huấn luyện sẵn mà đạt kết phương pháp đại xử lý ngôn ngữ tự nhiên - Thực nghiệm, phân tích, đánh giá kết tìm trường hợp cho kết tốt Về hướng phát triển tương lai, luận văn tiếp tục nghiên cứu liệu lớn nhiều mô hình khác góp phần cải thiện tốt khả phát lập trường tiếng Việt nghiên cứu sử dụng thêm nhiều phương pháp, góp phần cải thiện tốt khả phân loại Ngoài luận văn nghiên cứu thử nghiệm với số mơ hình khác để tìm mơ hình phù hợp với toán phân loại phát lập trường tiếng Việt ... quan toán phát lập trường, nêu bật đặc điểm liệu Tiếng Việt, đưa nghiên cứu phát lập trường liên quan giới thiệu số phương pháp phát lập trường 5 CHƯƠNG II: CÁC PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG... lớp  Sử dụng tham số cho việc huấn luyện với tập mẫu 3.2.3 Phát lập trường sử dụng mơ hình học sâu Word Embeddings Dữ liệu văn chuyển đổi thành biểu diễn vectơ trước đưa vào thuật toán học máy... tài ? ?Phát lập trường cho tiếng Việt sử dụng kỹ thuật học sâu? ?? Với ngữ liệu chúng tơi hy vọng đóng góp phần nhỏ việc làm phong phú thêm tài nguyên ngôn ngữ lĩnh vực xử lý ngôn tự nhiên ứng dụng

Định dạng
Số trang	20
Dung lượng	164,41 KB