Phát hiện lập trường sử dụng kỹ thuật học sâu

ĐỒ ÁN TỐT NGHIỆP – CHƯƠNG 1: BÀI TOÁN GÁN NHÃN TỪ LOẠI HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - ĐẶNG THỊ NGỌC YẾN PHÁT HIỆN LẬP TRƯỜNG SỬ DỤNG KỸ THUẬT HỌC SÂU LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2021 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐỒ ÁN TỐT NGHIỆP – CHƯƠNG 1: BÀI TOÁN GÁN NHÃN TỪ LOẠI ĐẶNG THỊ NGỌC YẾN PHÁT HIỆN LẬP TRƯỜNG SỬ DỤNG KỸ THUẬT HỌC SÂU Chuyên ngành : Khoa học máy tính Mã số : 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN THỊ OANH HÀ NỘI – 2021 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chưa công bố cơng trình trước Tác giả Đặng Thị Ngọc Yến LỜI CẢM ƠN Em xin chân thành cảm ơn TS Trần Thị Oanh, môn Khoa học máy tính, Quốc tế, Đại học Quốc Gia Hà Nội tận tình dạy hướng dẫn cho em việc lựa chọn đề tài, thực đề tài viết báo cáo luận văn, giúp cho em hoàn thành tốt luận văn Em xin chân thành cảm ơn thầy cô giáo Khoa Công nghệ thông tin người giảng dạy em, đặc biệt PGS.TS Ngô Xuân Bách thầy cô khoa Sau đại học tận tình dạy dỗ bảo em suốt hai năm học Xin chân thành cảm ơn hai em Nguyễn Phương Ly Đào Thanh Trang tham gia xây dựng kho ngữ liệu cho tốn Cuối em xin cảm ơn gia đình, bạn bè, người bên cạnh động viên em lúc khó khăn giúp đỡ em suốt thời gian học tập nghiên cứu, tạo điều kiện tốt cho em để hồn thành tốt luận văn Mặc dù cố gắng hoàn thành nghiên cứu phạm vi khả cho phép chắn không tránh khỏi thiếu sót Em kính mong nhận thơng cảm thầy cô bạn Em xin chân thành cảm ơn! Hà Nội, 05/2021 Đặng Thị Ngọc Yến MỤC LỤC DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt BERT CNN GRU LSTM MLM RNN SRM SVM Tiếng Anh Bidirectional Encoder Representations from Transformers Convolutional Neural Network Gated Recurrent Units Long-Short Term Memory Masked language modeling Recurrent Neural Network Structural rRisk rMinimization Support Vector machine Tiếng Việt Biểu diễn mã hóa hai chiều từ Transformer Mạng nơ-ron tích chập Cổng tái Unit Mạng nhớ dài-ngắn Mơ hình ngơn ngữ bị che Mạng nơ-ron hồi quy Cực tiểu hóa rủi ro có cấu trúc Máy vector hỗ trợ DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU MỞ ĐẦU Ngày công nghệ thông tin phát triển mạnh mẽ, xâm nhập toàn lĩnh vực đời sống xã hội Xã hội ngày phát triển nhu cầu áp dụng tiến công nghệ thông tin vào sống ngày cao để giải vấn đề phức tạp y tế, giáo dục, pháp luật.Với nhu cầu trao đổi tìm kiếm thơng tin người ngày cao, thông tin tràn ngập phương tiện truyền thông, đặc biệt phát triển rộng rãi mạng Internet, ngày người phải xử lý lượng thông tin khổng lồ [1] Như vậy,việc trích xuất tổng hợp ý kiến dư luận mang lại nhiều lợi ích cho đặc biệt quan tâm Để hỗ trợ việc trích xuất tổng hợp ý kiến dư luận diễn hiệu nhanh chóng, trí tuệ nhân tạo, đặc biệt học máy xử lý ngôn ngữ tự nhiên hy vọng tự động hóa đáng kể số quy trình việc phân tích, nghiên cứu tình hình xu hướng dư luận xã hội Trích xuất thơng tin tự động từ văn chủ đề nghiên cứu quan trọng xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) nhiều thập kỷ [2] Một số vấn đề nghiên cứu liên quan đến phân tích tự động văn bao gồm phân tình cảm (khai thác ý kiến), nhận dạng cảm xúc, khai thác lập luận (xác định lý do), phát mỉa mai, phát tin đồn xác thực phát tin tức giả [2] Các giải pháp tự động hiệu suất cao cho vấn đề tạo điều kiện thuận lợi cho nhiệm vụ phân tích xu hướng thị trường, thu thập đánh giá người dùng cho sản phẩm, khảo sát ý kiến, quảng cáo nhắm mục tiêu, thăm dò ý kiến, dự đoán cho bầu cử trưng cầu dân ý, giám sát phương tiện truyền thông tự động lọc nội dung chưa xác nhận để có trải nghiệm người dùng tốt hơn, để giám sát sức khỏe cộng đồng trực tuyến.[2] Trong luận văn này, tập trung nghiên cứu vấn đề phát lập trường cho tiếng Việt sử dụng phương pháp học máy giám sát, cụ thể sử dụng số mơ hình truyền thống Decision Tree, Nạve Bayes, mơ hình học sâu đại LSTM , RNN Nội dung luận văn trình bày chương sau: • Chương 1: Giới thiệu toán phát lập trường người dùng tiếng Việt: Nội dung chương giới thiệu tổng quan tốn phát 10 lập trường, trình bày số nghiên cứu liên quan, mục tiêu ý nghĩa tốn • Chương 2: Các phương pháp học máy sử dụng toán phát lập trường: Chương trình bày tổng quan số phương pháp phân lớp truyền thống, phương pháp phân lớp dựa kỹ thuât học sâu sử dụng tốn phát lập trường mà chúng tơi sử dụng • Chương 3: Đề xuất phương pháp, giải pháp: Chương mơ tả tốn phát lập trường, đưa giải pháp đề xuất them hai hướng khảo sát phương pháp học máy truyền thống học sâu • Chương 4: Thực nghiệm đánh giá: Trong chương 4, luận văn trình bày chi tiết bước để xây dựng kho ngữ liệu phát lập trường cho tiếng Việt từ cách thu thập, tiền xử lý, xây dựng tập nhãn thống kê kho liệu Sau đó, luận văn trình bày thiết lập thử nghiệm, công cụ sử dụng kết đạt liệu xây dựng Chương so sánh thảo luận kết thử nghiệm liên quan Thực huấn luyện hệ thống với liệu tập nhãn xây dựng, thống kê đánh giá kết thực nghiệm 44 Disagrees: Tình online nhiều khơng bền đâu Disagrees: Cơ gái ơi, có bị lừa em Cẩn thận Ví dụ 4: Cử tri Mỹ gốc Việt 'phát khóc' nghe tin Trump nhiễm nCoV Disagrees: Vote phiếu cho Biden chiến thắng Disagrees: Không cấm hành vi không đeo trang sai lầm khủng khiếp mà người cho điểm tốt thua - Nêu dẫn chứng để gián tiếp phản đối nhiều ý nêu tiêu đề Ví dụ 5: Lương 10tr đừng vội cưới: Disagrees: Tôi 23 tuổi, lương triệu/tháng Sài Gòn mà chẳng thấy mà cưới cảm thấy hạnh phúc Disagrees: Chết em Em cưới vợ mà lương chưa triệu/tháng Khi vợ có bầu, sinh con, tổng thu nhập vợ chồng chưa triệu/tháng Cơ mà bọn em sống được, thiếu trước hụt sau tình cảm ngày sâu Disagrees: Tôi với vợ bán cơm ngày lời có 400k, hai vợ chồng Ni đứa sống sống sung túc Ví dụ 6: Tin vui hơm nay: Giá thịt heo đồng loạt giảm nước, mẹ nội trợ mừng rỡ xách giỏ chợ Disagrees: Giảm mạng thôi.hôm chợ thịt đắt thường nha Disagrees: Thông tin mang t/c minh họa chợ họ bảo nên mà - mua Khơng đồng tình, lên án , phê phán, trách móc hành động , đối tượng nêu tiêu đề Ví dụ 7: Chính thức khởi tố gã chồng bạo hành vợ suốt 11 năm khơng biết đẻ: lần đị "lênh đênh" Disagrees: Thời mà để đánh tận 11 năm cam chịu, ko hiểu Disagrees: Chị thật đáng trách, thời buổi nta hành hạ, nta mà chịu vài lần rồi,đằng k mà để hành hạ, thật tức chết Ví dụ 8: Liều tháo rào chắn cảnh báo sạt lở, niên Quảng Nam bị vùi lấp: Vùng vẫy bới đất cứu thân 45 Disagrees: Ngu cho chết lần sau hết dám liều Disagrees: Bó tay cảnh báo mà cịn tháo Những bình luận gán nhãn Discusses: - Thể quan điểm trung lập với ý kiến nêu tiêu đề Ví dụ 1: Lương 10tr đừng vội cưới: Discusses: Tùy cách sống người thơi, sống đua địi q lương 20 triệu khơng đủ, mà nghèo q khó sống Discusses: Nếu tương lai giống Nhật Bản Ở Nhật Bản nhiều người họ nghĩ không dám lập gia đình - Bổ sung, giải thích thêm thơng tin, bàn luận với ý kiến nêu tiêu đề Ví dụ 2: Nhiều người Việt hay nói chuyện quy trình lại làm việc theo cảm tính Discusses: Nằm phần đôn đốc, giám sát cấp quản lý Đa phần chủ doanh nghiệp nhỏ muốn lượt bỏ, nhanh tiện ln kèm với rủi ro.( Khơng muốn bỏ thêm chi phí cho an tồn) Discusses: Quy trình làm người hành khơng theo quy trình dùng người vận hành vơ trách nhiệm - Nêu dẫn chứng thực tế để bàn luận thơng tin tiêu đề Ví dụ 5: 2,5 điểm môn đỗ vào lớp 10 cơng lập Hà Nội: Discusses: Đưa em học trung bình tốn anh tồn 5, đ điểm năm mà thi đạt môn điểm ko hiểu có học sinh thi 2, điểm mơn tốn đươc? Discusses: nhớ giáo dạy văn ( người Hà nội cũ ) dạy cấp sau dạy trường cao đẳng sư phạm Thường tín nói đội ngũ giáo viên tự nhiên Ứng hồ B giỏi thấy , có thầy dạy xong cịn đánh giậm , nhớ thời gian khó Những bình luận gán nhãn Unrelated: - Bình luận chủ đề khơng liên quan đến vấn đề nói tiêu đề Ví dụ 1: Lương 10tr đừng vội cưới: Unrelated: Hôm trời đẹp thật 46 Unrelated: Tôi hay cảm thấy khó thở có nguy bị bác ? - Bình luận vấn đề lan man bên cạnh vấn đề nói tiêu đề Ví dụ 2: 'Nội chiến' tranh giành tài sản gia tộc Trump Unrelated: Xưa ông thật đẹp trai, tài từ Hollywood Unrelated: Con ông Trump đẹp trai, cao thật - Bài viết quảng cáo Ví dụ 3: 'Nội chiến' tranh giành tài sản gia tộc Trump Unrelated: Tiếp cận hàng triệu người dùng với TikTok For Business Đạt mục tiêu kinh doanh Bán hàng thông qua TikTok For Business đến 20 thị trường tồn cầu Unrelated: Khơng cần vốn, không kinh nghiệm, nhiều niên 9X giàu lên nhanh chóng Làm giàu khơn ngoan cách kiếm tiền an toàn Truy cập: https://www.bimatcongtudo.club/ Check chéo liệu để kiểm tra tính thống gán nhãn Giai đoạn gán nhãn thủ công luận văn thực ba người gán nhãn Vì vậy, luận văn cần biết xem kết gán nhãn ba người có tương đồng với khơng Để kiểm tra điều đó, luận văn sử dụng độ đo Cohen’s kappa [35] tính tốn độ tương đồng gán nhãn hai người Công thức: Trong đó: xác suất tương đối người xác suất ngẫu nhiên người Ví dụ: Có người A B duyệt tập hồ sơ gồm 50 bộ, kết đọc người, người nói “đủ” “thiếu” ám hồ sơ đủ giấy tờ thiếu giấy tờ Ta có kết duyệt người sau: 47 Bảng 4.1: Bảng ví dụ kết duyệt A Đủ Thiếu B Đủ 20 10 Thiếu 15 Khi đó: = (20 + 15) / 50 = 0.70 Xác suất người A đọc “Đủ” 50% Xác suất người B đọc “Đủ” 60% Xác suất người đọc “Đủ” : 0.5*0.6=0.3 Xác suất người đọc “Thiếu” : 0.5*0.4=0.2 Áp dụng vào liệu cách lấy ngẫu nhiên 2000 câu bình luận kiểm tra chéo, kết đo độ tương đồng phân loại trung bình ba người 99,2 Kết cho thấy ba người gán nhãn tương đồng với 4.1.4 Thống kê kho liệu Dữ liệu gồm 500 tiêu đề chủ đề, tuyên bố Tương ứng với 11250 bình luận tương ứng Các viết liên quan đến chủ đề trị, đời sống, ý kiến, thời sự, giáo dục - Tổng số câu tiêu đề bình luận: 11750 - Tổng số từ: 1314459 - Tổng số từ trung bình / câu: 111 - Số từ (khơng tính lặp) tồn kho ngữ liệu: 8014 Bảng 4.2: Liệt kê số lượng bình luận tương ứng với nhãn phân loại Nhãn phân loại Agree Disagree Discuss Unrelated 4.2 Thiết lập thực nghiệm Số lượng bình luận 2938 2574 3334 2404 Với liệu chuẩn bị cho thực nghiệm, luân văn lấy 11750 câu bình luận tiêu đề, chủ đề tương ứng tiếng Việt Từ liệu này, luận văn chia thành liệu, liệu xây dựng cách ngẫu nhiên tập 48 liệu có Kết thu lần thực nghiệm tính trung bình để kết thực nghiệm Để đánh giá kết việc xác định thực thể thuộc tính ta đánh giá thơng qua độ xác (precision), độ bao phủ (recall) F1 xác định sau: Công cụ thực nghiệm 4.3 Luận văn sử dụng Google Colab làm cơng cụ để xây dựng đánh giá mơ hình Google Colab cịn gọi Google Colaboratory, sản phẩm Google Research phát triển, dựa Jupyter Notebook, cho phép chạy mã python thông qua trình duyệt, đặc biệt thích hợp cho phân tích liệu, học máy giáo dục Google Colab cung cấp cho thư viện phổ biến nghiên cứu Học sâu PyTorch, TensorFlow, Keras OpenCV Colab không yêu cầu cài đặt hay cấu hình máy tính nào, thứ chạy thơng qua trình duyệt, sử dụng tài ngun máy tính từ CPU GPU tốc độ cao, TPU có sẵn Yêu cầu để sử dụng Google Colab cần phải sử dụng tài khoản Google Với Colab, cần sử dụng dịng mã, nhập tập liệu hình ảnh, traning sở phân loại hình ảnh tập liệu đánh giá mơ hình Sổ tay Colab thực thi mã máy chủ đám mây Google Nhờ đó, tận dụng sức mạnh phần cứng Google, bao gồm GPU TPU, cấu hình máy tính sử dụng Các mơ hình thực nghiệm 4.4 Với phương pháp học máy truyền thống Decision Tree, KNN, Nạve Bayes, v.v q trình phân loại liệu văn (văn bản, câu) thường gồm hai giai đoạn sau: 49 • Giai đoạn huẩn luyện: Giai đoạn huấn luyện nhận đầu vào tập ngữ liệu huấn luyện gồm câu bình luận gán nhãn, sau xử lý tập ngữ liệu áp dụng thuật toán huấn luyện cho đầu mơ hình phân loại Ngữ liệu huấn luyện Tiền xử lý Vector hóa Mơ hình phân loại Thuật tốn huấn luyện Trích chọn đặc trưng Hình 4.2: Mơ hình giai đoạn huấn luyện • Giai đoạnrphân lớp: Giairđoạn phân lớp nhậnrđầurvàorlà câu tiêu đề bình luận tương ứng củarngười dùng dạng ngơn ngữ tựrnhiên,rsau rq trình tiền xửrlýrvàráprdụngrmơrhìnhrphânrloạirsẽ chorrarnhãnrphân rloại câu bình luận đầu vào Tiêu đề + bình luận Tiền xử lý Vector hóa Nhãn cho bình luận Sử dụng mơ hình phân loại Trích chọn đặc trưng Hình 4.3 Mơ hình giai đoạn phân lớp Với phương pháp sử dụng mạng nơ-ron LSTM, CNN, RNN, v.v trình phát lập trường gồm hai giai đoạn: • Giairđoạnrhuẩnrluyện: Giai đoạnrhuấnrluyệnrnhận đầu vàorlà tậprngữ rliệurhuấnrluyện gồm tiêu đề bình luận tương ứngrđã gán rnhãn,rsaurkhi biểu diễn liệu đưa vào mạng nơ-ronrsẽ cho đầu rlàrmột mơ hình phân loại Ngữ liệu huấn luyện Biểu diễn liệu Mạng nơron 50 Mơ hình phân loại Hình 4.3: Mơ hình giai đoạn huấn luyện sử dụng mạng nơ-ron • Giai đoạn phân lớp:rGiai đoạn rphân rlớp rnhận rđầu rvào rlà tiêu đề bình luận rcủa rngười rdùng rdưới rdạng rngơn rngữ rtự rnhiên, rsau rq rtrình biểu diễn liệu rvà ráp rdụng rmơ rhình rphân rloại rsẽ rcho rra rnhãn rphân rloại rcủa rcâu rhỏi rđầu rvào Tiêu đề + bình luận Biểu diễn liệu Sử dụng mơ hình phân loại Nhãn cho bình luận Hình 4.4: Mơ hình giai đoạn phân lớp sử dụng mạng nơ-ron Ứng dụng toán phát lập trường LSTM Việc giải toán phát lập trường bao gồm việc giải chuỗi toán nhỏ Chuỗi toán nhỏ gọi pipline mơ hình học máy Phát lập trường sử dụng mơ hình mạng RNN, LSTM gồm bước sau: 51 Tiền xử lý Xây dựng model vector hóa word2vec Word embedding Huấn luyện model Xây dựng model BiLSTM Kiểm tra model Hình 4.6: Các bước toán phát lập trường sử dụng mạng nơ-ron • Tiền xử lý kho ngữ liệu • Xây dựng model vector hóa Word2vec cho tập ngữ liệu văn tiền xử lý Mơ hình Word2vec chất việc huấn luyện mạng nơ-ron nhân tạo - Artificial Neural Network (ANN) với lớp ẩn Các cặp từ tách theo skip-gram dựa xác suất để tính độ tương quan từ • Word embedding sử dụng mơ hình kết Word2vec để vector câu tập ngữ liệu • Áp dụng mạng nơ-ron để giải toán bao gồm bước nhờ: Xây dựng model, huấn luyện model, kiểm tra model Kết thực nghiệm 4.5 Phương pháp phân loại dựa học máy đươc chia làm nhóm phương pháp học máy truyền thống phương pháp học máy sử dụng mạng nơ-ron Do vậy, luận văn lựa chọn thực nghiệm hai mơ hình đại diện cho hai nhóm phương pháp mơ hình Decision Tree, Nạve Bayes đại diện cho nhóm phương pháp học máy truyền thống, mơ hình RNN, LSTM đại diện cho nhóm phương pháp học máy sử dụng mạng nơ-ron 4.5.1 Mơ hình LSTM (Long-Short Term Memory) Bảng cho thấy độ xác chạy kho liệu fold Kết cho thấy Fold đạt độ xác cao với 68% kết trung bình 66,38% 52 Bảng 4.3: Độ xác fold sử dụng mơ hình LSTM (%) Fold Fold Fold Fold Fold Avera ge 67.20 64.90 68.00 66.00 65.80 66.38 Accura cy Đây kết precision, recall điểm F1 nhãn (bảng 4), ta thấy, nhãn “Unrelated” có độ xác cao nhất, Recall điểm F1 tương ứng với 85,1%, 82,38% 83,62% Nhãn “Agree” cho kết khoảng 70% Tuy nhiên, nhãn khác lại cho kết thấp Bảng 4.4: Precision, recall F1-score tương ứng với nhãn (%) Labels Agree Disagree Discuss Unrelated Precision 70.68 56.48 57.82 85.10 Recall 69.46 55.52 60.56 82.38 F1-score 70.02 55.96 59.10 83.62 4.5.2 Mơ hình RNN(Recurrent Neural Network) Chạy liệu fold mơ hình RNN Bảng cho thấy kết trung bình 62.3, tương đối thấp so với hai phương pháp LSTM Bảng 4.5: Độ xác fold sử dụng mơ hình RNN (%) Accurac y Fold 61.00 Fold 64.40 Fold 62.00 Fold 64.50 Fold 61.20 Average 62.30 4.5.3 Học máy Decision Tree Nạve Bayes Để xác minh tính hiệu mơ hình đề xuất, so sánh với số phương pháp học máy phổ biến làm đường sở Word Embedding kỹ thuật mà biểu diễn văn cách sử dụng vectơ Trong luận văn sử dụng Bag of Word, Glove Vector, Term Frequency-Inverse Document Frequency hình thức biểu diễn văn dạng số đơn giản hiệu 53 Bảng 4.6: Độ xác fold sử dụng mơ hình Decision Tree (%) Glove Vector Bag of Word TF - IDF Fold 52.15 Fold 54.33 Fold 52.40 Fold 53.02 Fold 53.51 Average 53.08 57.13 55.48 56.37 55.53 55.51 54.22 58.8 52.76 55.73 55.07 56.71 54.61 Bảng 4.7: Độ xác fold sử dụng mơ hình Nạve Bayes (%) Glove Vector Bag of Word TF - IDF 4.6 Fold 42.56 Fold 43.76 Fold 40.27 Fold 43.11 Fold 44.27 Average 42.79 45.45 43.58 47.00 43.36 46.04 42.76 46.89 44.09 45.29 43.42 46.13 43.44 Thảo luận phân tích lỗi Dựa kết thực nghiệm thu được, nhận thấy phương pháp học sâu LSTM cho kết (66.38%) so với ba phương pháp lại RNN (62.30%), Decision Tree (56.71%) Naïve Bayes (46.13%) Tuy nhiên, số nghiên cứu gần tìm lập trường tiếng Anh, mơ hình học sâu thường cho kết cao, khác biệt ngôn ngữ độ phức tạp tiếng Việt Kết hai phương pháp học sâu mức trung bình Vì vậy, thời gian tới, chúng tơi dành nhiều thời gian để hồn thiện phát triển môn đạt kết cao Một số lỗi điển hình hiển thị bảng sau: Bảng 4.8: Ví dụ số lỗi điển hình gán liệu Tiêu đề Trump tái tranh cử vào năm 2024 Đừng đánh giá sách giáo khoa lớp tư người lớn Original label Như ông chịu Discuss thua có kế hoạch tranh cử 2024 Thua nói sớm cho có hình tượng tốt công chúng cãi riết làm nản lịng người ủng hộ Sao bạn nói định Disagree kiến với tư người lớn tư đám đông Chúng định kiến với có à, khơng lên tiếng với mơn tốn mà tiếng Bình luận Predict label Disagree Discuss 54 việt tư người lớn Khi mà trẻ học tháng trời học tiếng việt mà cô thấy chưa đủ cịn tư đám đơng khơng từ hôm nhận sách Đừng trách phụ huynh vị đến trường lấy ý kiến thực tế cháu lớp giáo chủ nhiệm lớp Chín điều cần cải Từ quan điểm ơng bố có Disagree cách giáo dục phổ học cấp xin phản thông bác lại vài vấn đề vấn đề bạn nên nhìn nhận góc độ nhân lực giáo dục sở vật chất tâm sinh lý học sinh Nếu muốn đủ vấn đề cho bạn học theo kiểu phong trào homeschooling ghép nhi đồng với thiếu niên niên trường học dở học lớp 2, cháu hóng hớt bố mẹ dạy anh nhớ cách làm toán lớp Nếu dạy bố mẹ dạy nhà trường dạy kiểu vấn đề giáo trường dám dạy chui dạy cho vài học sinh mà muốn học thêm phụ huynh phải gãy lưỡi mà nhờ cô nhận mà dám nhận học sinh gần nhà khơng bị kỷ luật chơi Con học khơng theo kịp chương trình nặng cha mẹ khơng kèm đừng đổ lỗi cho giáo viên ép học thêm vấn đề Bạn nên xem dạy kỹ lãnh đạo từ nhỏ có phải tốt khơng lớp trưởng lớp phó tụi nhỏ đâu có lợi ích vấn đề giáo dục lớp lớn tơi khơng rõ, với lớp nhỏ có mục tiêu rõ ràng sgk học có mục tiêu nhỏ có phải bàn thêm đâu Vấn đề trường tơi ngồi mơn học Discuss 55 ngoại khóa theo tuần năm lượt liên kết ngoại khóa chưa kể hoạt động văn hóa văn nghệ thể thao nhà trường bạn thấy tơi khơng Có thể thấy, có hiểu nhầm hai nhãn (Disagree Discuss), bình luận bị gắn nhãn sai thường bình luận dài khơng có dấu hiệu nhận biết với từ cụ thể “phản đối”, “khơng đồng ý”, “khơng tán thành” Trong q trình thu thập liệu, gặp phải xung đột nhãn, phải thảo luận phân tích phù hợp để chọn nhãn phù hợp cho nhận xét, máy móc hiểu nhầm khơng thể tránh khỏi Tuy nhiên, lỗi chiếm phần nhỏ tổng số tập liệu Kết luận chương 4.7 Chương trình bày cách thiết lập thực nghiệm, mơ tả mơ hình thực nghiệm, giới thiệu công cụ thực nghiệm, đưa kết phân tích đánh giá kết thực nghiệm 56 KẾT LUẬN Sự phát triển internet thực bước tiến lớn nhân loại, lợi ích to lớn internet mang lại thật khơng thể phủ nhận Tuy nhiên, giống dao hai lưỡi nhiều người sử dụng với mục đích tiêu cực bình luận xúc phạm, chửi bới, chí tung tin giả Mục đích nghiên cứu giúp xác định phân loại bình luận giúp ngăn chặn tin tức giả mạo Trong luận văn này, sử dụng nhiều phương pháp khác Decision Tree, Nạve Bayes, RNN LSTM để so sánh độ xác mơ hình lựa chọn mơ hình có kết tốt Luận văn khảo sát toán phát lập trường chủ đề, đề xuất phương pháp phù hợp Đồng thời phương pháp đề xuất phân tích đánh giá số phương pháp đánh giá thông dụng tập liệu thu thập Nhìn chung, luận văn đạt được: - Nghiên cứu cho toán phát lập trường Tiếng Việt tốn cịn nghiên cứu - Xây dựng liệu cho toán - Nghiên cứu nghiên cứu ban đầu đóng góp liệu cho nghiên cứu - Nghiên cứu số phương pháp phân loại dưa học máy sử dụng mơ hình LSTM mơ hình huấn luyện sẵn mà đạt kết phương pháp đại xử lý ngôn ngữ tự nhiên - Thực nghiệm, phân tích, đánh giá kết tìm trường hợp cho kết tốt Về hướng phát triển tương lai, luận văn tiếp tục nghiên cứu liệu lớn nhiều mơ hình khác góp phần cải thiện tốt khả phát lập trường tiếng Việt nghiên cứu sử dụng thêm nhiều phương pháp, góp phần cải thiện tốt khả phân loại Ngoài luận văn nghiên cứu thử nghiệm với số mơ hình khác để tìm mơ hình phù hợp với toán phân loại phát lập trường tiếng Việt 57 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Đức Vinh, Phân tích câu hỏi hệ thống hỏi đáp tiếng Việt, Khóa [2] luận tốt nghiệp đại học, Đại học quốc gia Hà Nội, 2009 Nguyễn Minh Thành, Phân loại văn bản, Đồ án môn học Xử lý ngôn ngữ tự [3] nhiên, Đại học quốc gia Thành phố Hồ Chí Minh, 01/2011 Vu Thi Tuyen, Một số mơ hình học máy phân loại câu hỏi, Đại học Công [4] nghê, 2016 Nguyễn Thị Hương Thảo Phân lớp phân cấp Taxonomy văn Web ứng [5] dụng Khóa luận tốt nghiệp đại học, Đại học Cơng nghệ, 2006 Phạm Văn Sơn, Tìm hiểu Support Vector Machine cho toán phân lớp quan điểm Tiếng Anh [6] Shalmoli Ghosh⋆1, Prajwal Singhania⋆1, Siddharth Singh⋆1,Koustav Rudra⋆⋆2, and Saptarshi Ghosh1 Stance Detection in Web and Social [7] Media: A Comparative Study Dhruv Ghulati, Co-Founder, Factmata “Introducing Factmata—Artificial [8] intelligence for automated fact-checking” Che-Wen Chen, OrcID,Shih-Pang Tseng, Ta-Wen Kuan and Jhing-Fa Wang Outpatient Text Classification Using Attention-Based Bidirectional LSTM for [9] Robot - Assisted Servicing in Hospital Andreas Hanselowski, Avinesh PVS, Benjamin Schiller, Felix Caspelherr, Debanjan Chaudhuri, Christian M Meyer, Iryna Gurevych A Retrospective Analysis of the Fake News Challenge Stance Detection Task [10] Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 40–46 Brussels, Belgium, November 1, 2018 c 2018 Association for Computational Linguistics [11] Andreas Hanselowski, Avinesh PVS, Benjamin Schiller, Felix Caspelherr, Debanjan Chaudhuri, Christian M Meyer, Iryna Gurevych, A Retrospective Analysis of the Fake News Challenge Stance Detection Task, Research Training Group AIPHES Computer Science Department, Technische Universität Darmstadt Smart Data Analytics, University of Bonn [12] Peter Krejzl, Barbora Hourová, Josef Steinberger 2017 Stance detection in online discussions [13] Bilal Ghanem, Paolo Rosso, Francisco Rangel 2018 Stance Detection in Fake News A Combined Feature Representation Proceedings of the First Workshop on Fact Extraction and VERification (FEVER) 58 [14] Isabelle Augenstein, Tim Rocktäschel, Andreas Vlachos, Kalina Bontcheva 2016 Stance Detection with Bidirectional Conditional Encoding [15] Qingying Sun, Zhongqing Wang, Qiaoming Zhu, Guodong Zhou 2018 Stance Detection with Hierarchical Attention Network Proceedings of the 27th International Conference on Computational Linguistics [16] Mirko Laia, Alessandra Teresa Cignarellaab, Delia Irazú Hernández Farías, Cristina Boscoa Viviana Patti, Paolo Rossob 2020 Multilingual stance detection in social media political debates Computer Speech & Language Volume 63, September 2020, 101075 [17] Shalmoli Ghosh, Prajwal Singhania, Siddharth Singh, Koustav Rudra, Saptarshi Ghosh 2019 Stance Detection in Web and Social Media: A Comparative Study International Conference of the Cross-Language Evaluation Forum for European Languages CLEF [18] Qingying Sun, Zhongqing Wang, Shoushan Li, Qiaoming Zhu & Guodong Zhou 2018 Stance detection via sentiment information and neural network model Frontiers of Computer Science ... ứng dụng Điều định đến tính xác q trình phân lớp  Sử dụng tham số cho việc huấn luyện với tập mẫu 3.4 Phát lập trường sử dụng mơ hình học sâu 36 Hình 3.1: Mơ hình phát lập trường sử dụng kỹ thuật. .. học máy sử dụng tốn phát lập trường: Chương trình bày tổng quan số phương pháp phân lớp truyền thống, phương pháp phân lớp dựa kỹ thuât học sâu sử dụng toán phát lập trường mà chúng tơi sử dụng. .. NGỌC YẾN PHÁT HIỆN LẬP TRƯỜNG SỬ DỤNG KỸ THUẬT HỌC SÂU Chuyên ngành : Khoa học máy tính Mã số : 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN

Định dạng
Số trang	58
Dung lượng	1,41 MB

Tiêu đề	Phát hiện lập trường sử dụng kỹ thuật học sâu
Tác giả	Đặng Thị Ngọc Yến
Người hướng dẫn	TS. Trần Thị Oanh
Trường học	Học viện công nghệ bưu chính viễn thông
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội