1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) phát hiện lập trường sử dụng kỹ thuật học sâu

61 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 1,67 MB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẶNG THỊ NGỌC YẾN PHÁT HIỆN LẬP TRƯỜNG SỬ DỤNG KỸ THUẬT HỌC SÂU LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2021 download by : skknchat@gmail.com HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẶNG THỊ NGỌC YẾN PHÁT HIỆN LẬP TRƯỜNG SỬ DỤNG KỸ THUẬT HỌC SÂU Chuyên ngành : Khoa học máy tính Mã số : 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN THỊ OANH HÀ NỘI – 2021 download by : skknchat@gmail.com i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chưa công bố cơng trình trước Tác giả Đặng Thị Ngọc Yến download by : skknchat@gmail.com ii LỜI CẢM ƠN Em xin chân thành cảm ơn TS Trần Thị Oanh, mơn Khoa học máy tính, Quốc tế, Đại học Quốc Gia Hà Nội tận tình dạy hướng dẫn cho em việc lựa chọn đề tài, thực đề tài viết báo cáo luận văn, giúp cho em hồn thành tốt luận văn Em xin chân thành cảm ơn thầy cô giáo Khoa Công nghệ thông tin người giảng dạy em, đặc biệt PGS.TS Ngô Xuân Bách thầy cô khoa Sau đại học tận tình dạy dỗ bảo em suốt hai năm học Xin chân thành cảm ơn hai em Nguyễn Phương Ly Đào Thanh Trang tham gia xây dựng kho ngữ liệu cho toán Cuối em xin cảm ơn gia đình, bạn bè, người ln bên cạnh động viên em lúc khó khăn giúp đỡ em suốt thời gian học tập nghiên cứu, tạo điều kiện tốt cho em để hồn thành tốt luận văn Mặc dù cố gắng hồn thành nghiên cứu phạm vi khả cho phép chắn khơng tránh khỏi thiếu sót Em kính mong nhận thông cảm thầy cô bạn Em xin chân thành cảm ơn! Hà Nội, 05/2021 Đặng Thị Ngọc Yến download by : skknchat@gmail.com iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN .ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG BIỂU vii MỞ ĐẦU CHƯƠNG I: BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG 1.1 Giới thiệu toán phát lập trường 1.2 Một số nghiên cứu liên quan 1.4 Kết luận chương CHƯƠNG II: CÁC PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG 2.1 Phương pháp học máy truyền thống 2.1.1 Thuật tốn phân lớp nạve Bayes 2.1.1 Cây định (Decision tree) 2.2 Phương pháp học sâu 10 2.1.2 Mơ hình mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) 10 3.1.1 Mạng nhớ dài - ngắn (Long Short Term Memory) 15 3.3 Kết luận chương 21 CHƯƠNG III: ĐỀ XUẤT PHƯƠNG PHÁP, GIẢI PHÁP 22 4.1 Mơ tả tốn 22 4.2 Tiền xử lý liệu 23 4.3 Phát lập trường sử dụng mơ hình học máy truyền thống 23 4.3.1 Trích chọn đặc trưng 23 4.3.2 Các bước thực 27 4.4 Phát lập trường sử dụng mơ hình học sâu 28 download by : skknchat@gmail.com iv 4.4.1 Word Embeddings 28 4.4.2 Mơ hình BiLSTM 29 4.4.3 Lớp phân loại ReLU 31 4.5 Kết luận chương 32 CHƯƠNG IV: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 33 5.1 Xây dựng ngữ liệu phát lập trường tiếng Việt 33 5.1.1 Thu thập liệu 33 5.1.2 Tiền xử lý 34 5.1.3 Gán nhãn 34 5.1.4 Thống kê kho liệu 39 5.2 Thiết lập thực nghiệm 40 5.3 Công cụ thực nghiệm 40 5.4 Các mô hình thực nghiệm 41 5.5 Kết thực nghiệm 43 5.5.1 Mơ hình LSTM (Long-Short Term Memory) 43 5.5.2 Mơ hình RNN(Recurrent Neural Network) 44 5.5.3 Học máy Decision Tree Naïve Bayes 44 5.6 Thảo luận phân tích lỗi 45 5.7 Kết luận chương 47 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 download by : skknchat@gmail.com v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt Bidirectional Encoder Representations Biểu diễn mã hóa hai chiều từ BERT from Transformers Transformer CNN Convolutional Neural Network Mạng nơ-ron tích chập GRU Gated Recurrent Units Cổng tái Unit LSTM Long-Short Term Memory Mạng nhớ dài-ngắn MLM Masked language modeling Mơ hình ngơn ngữ bị che RNN Recurrent Neural Network Mạng nơ-ron hồi quy SRM Structural rRisk rMinimization Cực tiểu hóa rủi ro có cấu trúc SVM Support Vector machine Máy vector hỗ trợ download by : skknchat@gmail.com vi DANH MỤC HÌNH VẼ Hình 2.1: Minh họa định 10 Hình 2.2: Mạng RNN trình unfold liên quan đến tính tốn chuyển tiếp 11 Hình 2.3: Mơ tả ví dụ RNN với đường bóng – tất hình, bảng biểu đánh số, 11 Hình 2.4: Mơ hình Recurrent Neural Network 12 Hình 2.5: Biểu diễn trạng thái ẩn đến bước 12 Hình 2.6: Ví dụ biểu diễn câu với RNN 13 Hình 2.7: Mã giả cho luồng điều khiển RNN 13 Hình 2.8: Traning mạng nơ-ron 14 Hình 2.9: Minh họa trạng thái ẩn cuối mạng RNN 14 Hình 2.10: Mơ hình kiến trúc tế bào LSTM memory cell 15 Hình 2.11: Mơ-đun lặp lại RNN lớp 17 Hình 2.12: Mô-đun lặp lại LSTM chứa bốn lớp tương tác 18 Hình 2.13: Biểu diễn trạng thái tế bào 18 Hình 2.14: Biểu diễn cổng sàng lọc thông tin 19 Hình 2.15: LSTM focus f 19 Hình 2.16: LSTM focus I 20 Hình 2.17: LSTM focus c 20 Hình 2.18: LSTM focus o 21 Hình 3.1: Mơ hình phát lập trường sử dụng kỹ thuật học sâu 28 Hình 3.2: Skip-Gram Learning Architecture 29 Hình 3.3: Mơ Hình cấu trúc BiLSTM 30 Hình 3.4 : Cấu trúc đơn vị nhớ BiLSTM 30 download by : skknchat@gmail.com vii Hình 4.1: Mơ hình xây dựng kho ngữ liệu 33 Hình 4.2: Mơ hình giai đoạn huấn luyện 41 Hình 4.3 Mơ hình giai đoạn phân lớp 41 Hình 4.4: Mơ hình giai đoạn huấn luyện sử dụng mạng nơ-ron 42 Hình 4.5: Mơ hình giai đoạn phân lớp sử dụng mạng nơ-ron 42 Hình 4.6: Các bước tốn phát lập trường sử dụng mạng nơ-ron 43 download by : skknchat@gmail.com vii DANH MỤC BẢNG BIỂU Bảng 3.1: Xác suất đồng xảy với từ ice steam với từ chọn corpus 25 Bảng 4.1: Bảng ví dụ kết duyệt 39 Bảng 4.2: Liệt kê số lượng bình luận tương ứng với nhãn phân loại 39 Bảng 4.3: Độ xác fold sử dụng mơ hình LSTM (%) 44 Bảng 4.4: Precision, recall F1-score tương ứng với nhãn (%) 44 Bảng 4.5: Độ xác fold sử dụng mơ hình RNN (%) 44 Bảng 4.6: Độ xác fold sử dụng mơ hình Decision Tree (%) 45 Bảng 4.7: Độ xác fold sử dụng mơ hình Nạve Bayes (%) 45 Bảng 4.8: Ví dụ số lỗi điển hình gán liệu 45 download by : skknchat@gmail.com 37 Những bình luận gán nhãn Discusses: - Thể quan điểm trung lập với ý kiến nêu tiêu đề Ví dụ 1: Lương 10tr đừng vội cưới: Discusses: Tùy cách sống người thơi, sống đua địi q lương 20 triệu khơng đủ, mà nghèo q khó sống Discusses: Nếu tương lai giống Nhật Bản Ở Nhật Bản nhiều người họ nghĩ không dám lập gia đình - Bổ sung, giải thích thêm thơng tin, bàn luận với ý kiến nêu tiêu đề Ví dụ 2: Nhiều người Việt hay nói chuyện quy trình lại làm việc theo cảm tính Discusses: Nằm phần đôn đốc, giám sát cấp quản lý Đa phần chủ doanh nghiệp nhỏ muốn lượt bỏ, nhanh tiện ln kèm với rủi ro.( Khơng muốn bỏ thêm chi phí cho an tồn) Discusses: Quy trình làm người hành khơng theo quy trình dùng người vận hành vơ trách nhiệm - Nêu dẫn chứng thực tế để bàn luận thơng tin tiêu đề Ví dụ 5: 2,5 điểm môn đỗ vào lớp 10 công lập Hà Nội: Discusses: Đưa em học trung bình tốn anh tồn 5, đ điểm năm mà thi đạt môn điểm ko hiểu có học sinh thi 2, điểm mơn tốn đươc? Discusses: nhớ cô giáo dạy văn ( người Hà nội cũ ) dạy cấp sau dạy trường cao đẳng sư phạm Thường tín nói đội ngũ giáo viên tự nhiên Ứng hoà B giỏi thấy , có thầy dạy xong cịn đánh giậm , nhớ thời gian khó Những bình luận gán nhãn Unrelated: - Bình luận chủ đề khơng liên quan đến vấn đề nói tiêu đề Ví dụ 1: Lương 10tr đừng vội cưới: Unrelated: Hôm trời đẹp thật Unrelated: Tơi hay cảm thấy khó thở có nguy bị bác ? download by : skknchat@gmail.com 38 - Bình luận vấn đề lan man bên cạnh vấn đề nói tiêu đề Ví dụ 2: 'Nội chiến' tranh giành tài sản gia tộc Trump Unrelated: Xưa ông thật đẹp trai, tài từ Hollywood Unrelated: Con ông Trump đẹp trai, cao thật - Bài viết quảng cáo Ví dụ 3: 'Nội chiến' tranh giành tài sản gia tộc Trump Unrelated: Tiếp cận hàng triệu người dùng với TikTok For Business Đạt mục tiêu kinh doanh Bán hàng thông qua TikTok For Business đến 20 thị trường tồn cầu Unrelated: Khơng cần vốn, không kinh nghiệm, nhiều niên 9X giàu lên nhanh chóng Làm giàu khơn ngoan cách kiếm tiền an toàn Truy cập: https://www.bimatcongtudo.club/ Check chéo liệu để kiểm tra tính thống gán nhãn Giai đoạn gán nhãn thủ công luận văn thực ba người gán nhãn Vì vậy, luận văn cần biết xem kết gán nhãn ba người có tương đồng với khơng Để kiểm tra điều đó, luận văn sử dụng độ đo Cohen’s kappa [35] tính tốn độ tương đồng gán nhãn hai người Công thức: 𝐾= 𝑝𝑜 − 𝑝𝑒 − 𝑝𝑒 Trong đó: 𝑝0 xác suất tương đối người 𝑝𝑒 xác suất ngẫu nhiên người Ví dụ: Có người A B duyệt tập hồ sơ gồm 50 bộ, kết đọc người, người nói “đủ” “thiếu” ám hồ sơ đủ giấy tờ thiếu giấy tờ Ta có kết duyệt người sau: download by : skknchat@gmail.com 39 Bảng 4.1: Bảng ví dụ kết duyệt B A Đủ Thiếu Đủ 20 Thiếu 10 15 Khi đó: 𝑝0 = (20 + 15) / 50 = 0.70 Xác suất người A đọc “Đủ” 50% Xác suất người B đọc “Đủ” 60% Xác suất người đọc “Đủ” : 0.5*0.6=0.3 Xác suất người đọc “Thiếu” : 0.5*0.4=0.2 Áp dụng vào liệu cách lấy ngẫu nhiên 2000 câu bình luận kiểm tra chéo, kết đo độ tương đồng phân loại trung bình ba người 99,2 Kết cho thấy ba người gán nhãn tương đồng với 4.1.4 Thống kê kho liệu Dữ liệu gồm 500 tiêu đề chủ đề, tuyên bố Tương ứng với 11250 bình luận tương ứng Các viết liên quan đến chủ đề trị, đời sống, ý kiến, thời sự, giáo dục - Tổng số câu tiêu đề bình luận: 11750 - Tổng số từ: 1314459 - Tổng số từ trung bình / câu: 111 - Số từ (khơng tính lặp) tồn kho ngữ liệu: 8014 Bảng 4.2: Liệt kê số lượng bình luận tương ứng với nhãn phân loại Nhãn phân loại Số lượng bình luận Agree 2938 Disagree 2574 Discuss 3334 Unrelated 2404 download by : skknchat@gmail.com 40 4.2 Thiết lập thực nghiệm Với liệu chuẩn bị cho thực nghiệm, luân văn lấy 11750 câu bình luận tiêu đề, chủ đề tương ứng tiếng Việt Từ liệu này, luận văn chia thành liệu, liệu xây dựng cách ngẫu nhiên tập liệu có Kết thu lần thực nghiệm tính trung bình để kết thực nghiệm Để đánh giá kết việc xác định thực thể thuộc tính ta đánh giá thơng qua độ xác (precision), độ bao phủ (recall) F1 xác định sau: 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑟𝑒𝑐𝑎𝑙𝑙 = 𝐹1 = 4.3 𝑠ố 𝑛ℎã𝑛 𝑔á𝑛 đú𝑛𝑔 𝑡ổ𝑛𝑔 𝑠ố 𝑛ℎã𝑛 đượ𝑐 𝑔á𝑛 𝑠ố 𝑛ℎã𝑛 𝑔á𝑛 đú𝑛𝑔 𝑡ổ𝑛𝑔 𝑠ố 𝑛ℎã𝑛 𝑡ℎự𝑐 𝑡ế ∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 Công cụ thực nghiệm Luận văn sử dụng Google Colab làm cơng cụ để xây dựng đánh giá mơ hình Google Colab cịn gọi Google Colaboratory, sản phẩm Google Research phát triển, dựa Jupyter Notebook, cho phép chạy mã python thơng qua trình duyệt, đặc biệt thích hợp cho phân tích liệu, học máy giáo dục Google Colab cung cấp cho thư viện phổ biến nghiên cứu Học sâu PyTorch, TensorFlow, Keras OpenCV Colab khơng u cầu cài đặt hay cấu hình máy tính nào, thứ chạy thơng qua trình duyệt, sử dụng tài ngun máy tính từ CPU GPU tốc độ cao, TPU có sẵn Yêu cầu để sử dụng Google Colab cần phải sử dụng tài khoản Google Với Colab, cần sử dụng dòng mã, nhập tập liệu hình ảnh, traning sở phân loại hình ảnh tập liệu đánh giá mơ hình Sổ tay Colab thực thi mã máy chủ đám mây Google Nhờ đó, tận dụng sức mạnh phần cứng Google, bao gồm GPU TPU, cấu hình máy tính sử dụng download by : skknchat@gmail.com 41 4.4 Các mơ hình thực nghiệm Với phương pháp học máy truyền thống Decision Tree, KNN, Naïve Bayes, v.v trình phân loại liệu văn (văn bản, câu) thường gồm hai giai đoạn sau: • Giai đoạn huẩn luyện: Giai đoạn huấn luyện nhận đầu vào tập ngữ liệu huấn luyện gồm câu bình luận gán nhãn, sau xử lý tập ngữ liệu áp dụng thuật toán huấn luyện cho đầu mơ hình phân loại Ngữ liệu huấn luyện Tiền xử lý Vector hóa Mơ hình phân loại Thuật tốn huấn luyện Trích chọn đặc trưng Hình 4.2: Mơ hình giai đoạn huấn luyện • Giai đoạnrphân lớp: Giairđoạn phân lớp nhậnrđầurvàorlà câu tiêu đề bình luận tương ứng củarngười dùng dạng ngơn ngữ tựrnhiên,rsau rq trình tiền xửrlýrvàráprdụngrmơrhìnhrphânrloạirsẽ chorrarnhãnrphân rloại câu bình luận đầu vào Tiêu đề + bình luận Tiền xử lý Vector hóa Nhãn cho bình luận Sử dụng mơ hình phân loại Trích chọn đặc trưng Hình 4.3 Mơ hình giai đoạn phân lớp Với phương pháp sử dụng mạng nơ-ron LSTM, CNN, RNN, v.v trình phát lập trường gồm hai giai đoạn: • Giairđoạnrhuẩnrluyện: Giai đoạnrhuấnrluyệnrnhận đầu vàorlà tậprngữ rliệurhuấnrluyện gồm tiêu đề bình luận tương ứngrđã gán rnhãn,rsaurkhi biểu diễn liệu đưa vào mạng nơ-ronrsẽ cho đầu rlàrmột mơ hình phân loại download by : skknchat@gmail.com 42 Ngữ liệu huấn luyện Biểu diễn liệu Mạng nơ-ron Mơ hình phân loại Hình 4.2: Mơ hình giai đoạn huấn luyện sử dụng mạng nơ-ron • Giai đoạn phân lớp:rGiai đoạn rphân rlớp rnhận rđầu rvào rlà tiêu đề bình luận rcủa rngười rdùng rdưới rdạng rngơn rngữ rtự rnhiên, rsau rq rtrình biểu diễn liệu rvà ráp rdụng rmơ rhình rphân rloại rsẽ rcho rra rnhãn rphân rloại rcủa rcâu rhỏi rđầu rvào Tiêu đề + bình luận Biểu diễn liệu Sử dụng mơ hình phân loại Nhãn cho bình luận Hình 4.3: Mơ hình giai đoạn phân lớp sử dụng mạng nơ-ron Ứng dụng toán phát lập trường LSTM Việc giải toán phát lập trường bao gồm việc giải chuỗi toán nhỏ Chuỗi toán nhỏ gọi pipline mơ hình học máy Phát lập trường sử dụng mơ hình mạng RNN, LSTM gồm bước sau: download by : skknchat@gmail.com 43 Tiền xử lý Xây dựng model vector hóa word2vec Word embedding Kiểm tra model Huấn luyện model Xây dựng model BiLSTM Hình 4.6: Các bước toán phát lập trường sử dụng mạng nơ-ron • Tiền xử lý kho ngữ liệu • Xây dựng model vector hóa Word2vec cho tập ngữ liệu văn tiền xử lý Mơ hình Word2vec chất việc huấn luyện mạng nơ-ron nhân tạo - Artificial Neural Network (ANN) với lớp ẩn Các cặp từ tách theo skip-gram dựa xác suất để tính độ tương quan từ • Word embedding sử dụng mơ hình kết Word2vec để vector câu tập ngữ liệu • Áp dụng mạng nơ-ron để giải toán bao gồm bước nhờ: Xây dựng model, huấn luyện model, kiểm tra model 4.5 Kết thực nghiệm Phương pháp phân loại dựa học máy đươc chia làm nhóm phương pháp học máy truyền thống phương pháp học máy sử dụng mạng nơ-ron Do vậy, luận văn lựa chọn thực nghiệm hai mơ hình đại diện cho hai nhóm phương pháp mơ hình Decision Tree, Nạve Bayes đại diện cho nhóm phương pháp học máy truyền thống, mơ hình RNN, LSTM đại diện cho nhóm phương pháp học máy sử dụng mạng nơ-ron 4.5.1 Mơ hình LSTM (Long-Short Term Memory) Bảng cho thấy độ xác chạy kho liệu fold Kết cho thấy Fold đạt độ xác cao với 68% kết trung bình 66,38% download by : skknchat@gmail.com 44 Bảng 4.3: Độ xác fold sử dụng mơ hình LSTM (%) Accuracy Fold Fold Fold Fold Fold Average 67.20 64.90 68.00 66.00 65.80 66.38 Đây kết precision, recall điểm F1 nhãn (bảng 4), ta thấy, nhãn “Unrelated” có độ xác cao nhất, Recall điểm F1 tương ứng với 85,1%, 82,38% 83,62% Nhãn “Agree” cho kết khoảng 70% Tuy nhiên, nhãn khác lại cho kết thấp Bảng 4.4: Precision, recall F1-score tương ứng với nhãn (%) Labels Agree Precision 70.68 Recall 69.46 F1-score 70.02 Disagree 56.48 55.52 55.96 Discuss 57.82 60.56 59.10 Unrelated 85.10 82.38 83.62 4.5.2 Mơ hình RNN(Recurrent Neural Network) Chạy liệu fold mơ hình RNN Bảng cho thấy kết trung bình 62.3, tương đối thấp so với hai phương pháp LSTM Bảng 4.5: Độ xác fold sử dụng mơ hình RNN (%) Fold Accuracy 61.00 Fold 64.40 Fold 62.00 Fold 64.50 Fold 61.20 Average 62.30 4.5.3 Học máy Decision Tree Naïve Bayes Để xác minh tính hiệu mơ hình đề xuất, so sánh với số phương pháp học máy phổ biến làm đường sở Word Embedding kỹ thuật mà biểu diễn văn cách sử dụng vectơ Trong luận văn sử dụng Bag of Word, Glove Vector, Term Frequency-Inverse Document Frequency hình thức biểu diễn văn dạng số đơn giản hiệu download by : skknchat@gmail.com 45 Bảng 4.6: Độ xác fold sử dụng mơ hình Decision Tree (%) Fold Fold Fold Fold Fold Average Glove Vector 52.15 54.33 52.40 53.02 53.51 53.08 Bag of Word 57.13 56.37 55.51 58.8 55.73 56.71 TF - IDF 55.48 55.53 54.22 52.76 55.07 54.61 Bảng 4.7: Độ xác fold sử dụng mơ hình Nạve Bayes (%) Fold Fold Fold Fold Fold Average Glove Vector 42.56 43.76 40.27 43.11 44.27 42.79 Bag of Word 45.45 47.00 46.04 46.89 45.29 46.13 TF - IDF 43.58 43.36 42.76 44.09 43.42 43.44 4.6 Thảo luận phân tích lỗi Dựa kết thực nghiệm thu được, nhận thấy phương pháp học sâu LSTM cho kết (66.38%) so với ba phương pháp lại RNN (62.30%), Decision Tree (56.71%) Naïve Bayes (46.13%) Tuy nhiên, số nghiên cứu gần tìm lập trường tiếng Anh, mơ hình học sâu thường cho kết cao, khác biệt ngơn ngữ độ phức tạp tiếng Việt Kết hai phương pháp học sâu mức trung bình Vì vậy, thời gian tới, chúng tơi dành nhiều thời gian để hoàn thiện phát triển môn đạt kết cao Một số lỗi điển hình hiển thị bảng sau: Bảng 4.8: Ví dụ số lỗi điển hình gán liệu Tiêu đề Bình luận Original label Trump tái Như ơng chịu thua Discuss tranh cử vào năm có kế hoạch tranh cử 2024 2024 Thua nói sớm cho có hình tượng tốt cơng chúng cãi riết làm nản lòng người ủng hộ download by : skknchat@gmail.com Predict label Disagree 46 Đừng đánh giá Sao bạn nói chúng tơi định Disagree Discuss sách giáo khoa lớp kiến với tư người lớn tư tư đám đông Chúng tơi định kiến với người lớn có à, khơng lên tiếng với mơn tốn mà tiếng việt tư người lớn Khi mà trẻ học tháng trời học tiếng việt mà cô thấy chưa đủ cịn tư đám đơng khơng từ hôm nhận sách Đừng trách phụ huynh vị đến trường lấy ý kiến thực tế cháu lớp giáo chủ nhiệm lớp Chín điều cần cải Từ quan điểm ơng bố có Disagree cách giáo dục phổ học cấp xin phản bác lại thông vài vấn đề vấn đề bạn nên nhìn nhận góc độ nhân lực giáo dục sở vật chất tâm sinh lý học sinh Nếu muốn đủ vấn đề cho bạn học theo kiểu phong trào homeschooling ghép nhi đồng với thiếu niên niên trường học dở học lớp 2, cháu hóng hớt bố mẹ dạy anh nhớ cách làm toán lớp Nếu dạy bố mẹ dạy nhà trường dạy kiểu vấn đề giáo trường dám dạy chui dạy cho vài học sinh mà muốn học thêm phụ huynh phải gãy lưỡi mà nhờ cô download by : skknchat@gmail.com Discuss 47 nhận mà dám nhận học sinh gần nhà khơng bị kỷ luật chơi Con học khơng theo kịp chương trình nặng cha mẹ không kèm đừng đổ lỗi cho giáo viên ép học thêm vấn đề Bạn nên xem dạy kỹ lãnh đạo từ nhỏ có phải tốt khơng lớp trưởng lớp phó tụi nhỏ đâu có lợi ích vấn đề giáo dục lớp lớn tơi khơng rõ, với lớp nhỏ có mục tiêu rõ ràng sgk học có mục tiêu nhỏ có phải bàn thêm đâu Vấn đề trường tơi ngồi mơn học ngoại khóa theo tuần năm lượt liên kết ngoại khóa chưa kể hoạt động văn hóa văn nghệ thể thao nhà trường bạn thấy tơi khơng Có thể thấy, có hiểu nhầm hai nhãn (Disagree Discuss), bình luận bị gắn nhãn sai thường bình luận dài khơng có dấu hiệu nhận biết với từ cụ thể “phản đối”, “không đồng ý”, “không tán thành” Trong q trình thu thập liệu, chúng tơi gặp phải xung đột nhãn, phải thảo luận phân tích phù hợp để chọn nhãn phù hợp cho nhận xét, máy móc hiểu nhầm tránh khỏi Tuy nhiên, lỗi chiếm phần nhỏ tổng số tập liệu 4.7 Kết luận chương Chương trình bày cách thiết lập thực nghiệm, mô tả mơ hình thực nghiệm, giới thiệu cơng cụ thực nghiệm, đưa kết phân tích đánh giá kết thực nghiệm download by : skknchat@gmail.com 48 download by : skknchat@gmail.com 49 KẾT LUẬN Sự phát triển internet thực bước tiến lớn nhân loại, lợi ích to lớn internet mang lại thật phủ nhận Tuy nhiên, giống dao hai lưỡi nhiều người sử dụng với mục đích tiêu cực bình luận xúc phạm, chửi bới, chí tung tin giả Mục đích nghiên cứu giúp xác định phân loại bình luận giúp ngăn chặn tin tức giả mạo Trong luận văn này, sử dụng nhiều phương pháp khác Decision Tree, Naïve Bayes, RNN LSTM để so sánh độ xác mơ hình lựa chọn mơ hình có kết tốt Luận văn khảo sát toán phát lập trường chủ đề, đề xuất phương pháp phù hợp Đồng thời phương pháp đề xuất phân tích đánh giá số phương pháp đánh giá thông dụng tập liệu thu thập Nhìn chung, luận văn đạt được: - Nghiên cứu cho toán phát lập trường Tiếng Việt toán cịn nghiên cứu - Xây dựng liệu cho toán - Nghiên cứu nghiên cứu ban đầu đóng góp liệu cho nghiên cứu - Nghiên cứu số phương pháp phân loại dưa học máy sử dụng mơ hình LSTM mơ hình huấn luyện sẵn mà đạt kết phương pháp đại xử lý ngôn ngữ tự nhiên - Thực nghiệm, phân tích, đánh giá kết tìm trường hợp cho kết tốt Về hướng phát triển tương lai, luận văn tiếp tục nghiên cứu liệu lớn nhiều mơ hình khác góp phần cải thiện tốt khả phát lập trường tiếng Việt nghiên cứu sử dụng thêm nhiều phương pháp, góp phần cải thiện tốt khả phân loại Ngoài luận văn nghiên cứu thử nghiệm với số mơ hình khác để tìm mơ hình phù hợp với tốn phân loại phát lập trường tiếng Việt download by : skknchat@gmail.com 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Đức Vinh, Phân tích câu hỏi hệ thống hỏi đáp tiếng Việt, Khóa luận tốt nghiệp đại học, Đại học quốc gia Hà Nội, 2009 [2] Nguyễn Minh Thành, Phân loại văn bản, Đồ án môn học Xử lý ngôn ngữ tự nhiên, Đại học quốc gia Thành phố Hồ Chí Minh, 01/2011 [3] Vu Thi Tuyen, Một số mơ hình học máy phân loại câu hỏi, Đại học Công nghê, 2016 [4] Nguyễn Thị Hương Thảo Phân lớp phân cấp Taxonomy văn Web ứng dụng Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2006 [5] Phạm Văn Sơn, Tìm hiểu Support Vector Machine cho toán phân lớp quan điểm Tiếng Anh [6] Shalmoli Ghosh⋆1, Prajwal Singhania⋆1, Siddharth Singh⋆1,Koustav Rudra⋆⋆2, and Saptarshi Ghosh1 Stance Detection in Web and Social Media: A Comparative Study [7] Dhruv Ghulati, Co-Founder, Factmata “Introducing Factmata—Artificial intelligence for automated fact-checking” [8] Che-Wen Chen, OrcID,Shih-Pang Tseng, Ta-Wen Kuan and Jhing-Fa Wang Outpatient Text Classification Using Attention-Based Bidirectional LSTM for Robot - Assisted Servicing in Hospital [9] Andreas Hanselowski, Avinesh PVS, Benjamin Schiller, Felix Caspelherr, Debanjan Chaudhuri, Christian M Meyer, Iryna Gurevych A Retrospective Analysis of the Fake News Challenge Stance Detection Task [10] Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 40–46 Brussels, Belgium, November 1, 2018 c 2018 Association for Computational Linguistics [11] Andreas Hanselowski, Avinesh PVS, Benjamin Schiller, Felix Caspelherr, Debanjan Chaudhuri, Christian M Meyer, Iryna Gurevych, A Retrospective Analysis of the Fake News Challenge Stance Detection Task, Research Training Group AIPHES Computer Science Department, Technische Universität Darmstadt Smart Data Analytics, University of Bonn download by : skknchat@gmail.com 51 [12] Peter Krejzl, Barbora Hourová, Josef Steinberger 2017 Stance detection in online discussions [13] Bilal Ghanem, Paolo Rosso, Francisco Rangel 2018 Stance Detection in Fake News A Combined Feature Representation Proceedings of the First Workshop on Fact Extraction and VERification (FEVER) [14] Isabelle Augenstein, Tim Rocktäschel, Andreas Vlachos, Kalina Bontcheva 2016 Stance Detection with Bidirectional Conditional Encoding [15] Qingying Sun, Zhongqing Wang, Qiaoming Zhu, Guodong Zhou 2018 Stance Detection with Hierarchical Attention Network Proceedings of the 27th International Conference on Computational Linguistics [16] Mirko Laia, Alessandra Teresa Cignarellaab, Delia Irazú Hernández Farías, Cristina Boscoa Viviana Patti, Paolo Rossob 2020 Multilingual stance detection in social media political debates Computer Speech & Language Volume 63, September 2020, 101075 [17] Shalmoli Ghosh, Prajwal Singhania, Siddharth Singh, Koustav Rudra, Saptarshi Ghosh 2019 Stance Detection in Web and Social Media: A Comparative Study International Conference of the Cross-Language Evaluation Forum for European Languages CLEF [18] Qingying Sun, Zhongqing Wang, Shoushan Li, Qiaoming Zhu & Guodong Zhou 2018 Stance detection via sentiment information and neural network model Frontiers of Computer Science download by : skknchat@gmail.com ... pháp học máy sử dụng tốn phát lập trường: Chương trình bày tổng quan số phương pháp phân lớp truyền thống, phương pháp phân lớp dựa kỹ thuât học sâu sử dụng toán phát lập trường mà chúng tơi sử dụng. ..HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐẶNG THỊ NGỌC YẾN PHÁT HIỆN LẬP TRƯỜNG SỬ DỤNG KỸ THUẬT HỌC SÂU Chuyên ngành : Khoa học máy tính Mã số : 8.48.01.01 LUẬN VĂN THẠC... 23 4.3 Phát lập trường sử dụng mơ hình học máy truyền thống 23 4.3.1 Trích chọn đặc trưng 23 4.3.2 Các bước thực 27 4.4 Phát lập trường sử dụng mơ hình học sâu

Ngày đăng: 01/04/2022, 15:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN