Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
2,51 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ LIÊN PHÂN TÍCH QUAN ĐIỂM TRONG LĨNH VỰC THỨC ĂN TRẺ EM SỬ DỤNG KỸ THUẬT HỌC MÁY LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH Hà Nội 2021 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ LIÊN PHÂN TÍCH QUAN ĐIỂM TRONG LĨNH VỰC THỨC ĂN TRẺ EM SỬ DỤNG KỸ THUẬT HỌC MÁY NGÀNH: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH Hà Nội 2021 MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii LỜI CAM ĐOAN…… viii LỜI CẢM ƠN……… ix MỞ ĐẦU…………… 1 Lý chọn đề tài Mục tiêu nhiệm vụ luận văn Bố cục luận văn CHƯƠNG 1: TỔNG QUAN VỀ BÀI TỐN PHÂN TÍCH QUAN ĐIỂM 1.1 Giới thiệu 1.2 Định nghĩa khái niệm phân tích quan điểm 1.2.1 Các thành phần quan điểm 1.2.2 Các nhiệm vụ phân tích quan điểm 1.3 Những thách thức lĩnh vực phân tích quan điểm 10 1.4 Các ứng dụng phân tích quan điểm 12 1.5 Phân lớp quan điểm 13 Kết luận chương 14 CHƯƠNG 2: CÁC KỸ THUẬT HỌC MÁY TRONG BÀI TỐN PHÂN TÍCH QUAN ĐIỂM 15 2.1 Các phương pháp tiếp cận phân tích quan điểm 15 2.1.1 Phương pháp tiếp cận dựa luật 15 2.1.2 Phương pháp tiếp cận dựa vào học máy 16 2.2 Phương pháp Naïve Bayes 16 2.3 Phương pháp Support Vector Machine (SVM) 18 2.4 Phương pháp Hồi quy Logistic (Logistic regression) 21 2.4.1 Giới thiệu 21 2.4.2 Mơ hình Logistic 21 2.4.3 Hàm Logistic tỉ lệ 23 2.5 Phương pháp tiếp cận học sâu (Deep Learning) 25 2.5.1 Mạng Neural hồi quy RNN 26 2.5.2 Mạng Long Short-Term Memory 28 Kết luận chương 32 CHƯƠNG 3: ỨNG DỤNG PHÂN TÍCH QUAN ĐIỂM VỚI DỮ LIỆU THỨC ĂN TRẺ EM 33 3.1 Hệ thống phân tích quan điểm 33 3.2 Đặc điểm liệu thức ăn trẻ em 34 3.3 Tiền xử lý liệu gán nhãn 35 3.3.1 Tiền xử lý liệu 35 3.3.2 Gán nhãn liệu 36 3.4 Trích chọn đặc trưng 39 3.5 Xây dựng lựa chọn mơ hình 41 3.6 Phương pháp đánh giá mơ hình 42 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 45 4.1 Môi trường thực nghiệm: 45 4.2 Xây dựng lựa chọn mô hình 45 4.3 Huấn luyện mơ hình 48 4.4 Kết thực nghiệm 48 4.5 Đánh giá thực nghiệm 51 Kết luận chương……………………………………………………….52 KẾT LUẬN……………… 53 Tài liệu tham khảo… 54 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Đầy đủ tiếng anh Ý nghĩa tiếng việt ACC Accuracy Độ xác trung bình thuật tốn BOW Bag of word Túi từ LSTM Long Short Term Memory Mạng nhớ thuật ngữ ngắn dài NLP Natural Language Processing Xử lý ngơn ngữ tự nhiên OA Opinion analysis Phân tích quan điểm SA Sentiment Analysis Phân tích cảm xúc SVM Support Vector Machine Máy véc-tơ hỗ trợ TF-IDF Term Frequency – Inverse Document Frequency Tần suất tài liệu nghịch đảo thuật ngữ vi DANH MỤC CÁC BẢNG BIỂU Bảng 1: Một số từ dừng tiếng Việt 36 Bảng 1: Kết huấn luyện mơ hình với độ đo ACC 48 Bảng 2: Kết độ xác theo cỡ liệu huấn luyện 49 Bảng 3: Thời gian huấn luyện tập liệu 50 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: SVM tìm dịng tốt phân tách hai lớp 19 Hình 2: Ví dụ siêu phẳng SVM 19 Hình 3: Siêu phẳng phân chia lề xa 21 Hình 4: Đồ thị hàm Logistic t thuộc (-6,6) 23 Hình 5: Mạng RNN có vịng lặp 27 Hình 6: Mơ đun lặp lại RNN 28 Hình 7: Mô đun lặp lại LSTM 28 Hình 8: Ct LSTM 29 Hình 9: Cổng trạng thái LSTM 30 Hình 10: Cổng quên LSTM 30 Hình 11: Cổng vào it 𝐶𝑡 ̃ 31 Hình 12: Giá trị state Ct 31 Hình 13: Kết trả ht 31 Hình 1: Kiến trúc hệ thống phân tích quan điểm 34 Hình 2: Tập liệu thức ăn trẻ em 35 Hình 3: Nhập liệu cần gán nhãn 37 Hình 4: Thực gán nhãn liệu 38 Hình 5: Tập liệu thức ăn trẻ em sau gán nhãn 38 Hình 6: Tỉ lệ tập liệu gán nhãn 39 Hình 7: Mơ hình phân lớp học máy truyền thống 42 Hình 1: Tệp liệu sau tải 46 Hình 2: Chương trình loại bỏ nhãn lớn nhỏ 47 Hình 3: Kết đánh giá mơ hình sử dụng độ đo ACC 48 Hình 4: Kết đánh giá độ lớn liệu với độ đo ACC 49 Hình 5: Một số bình luận dự đoán sai nhãn dùng LTSM……………51 viii LỜI CAM ĐOAN Em xin cam đoan nội dung trình bày luận văn em tự nghiên cứu tìm hiểu hướng dẫn giảng viên TS.Nguyễn Văn Vinh Mọi tham khảo tài liệu, cơng trình nghiên cứu số tác giả, em ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả “TÀI LIỆU THAM KHẢO” cuối luận văn Mọi chép khơng hợp lệ hay gian lận em xin hồn toàn chịu trách nhiệm Hà Nội, Ngày 26 tháng 11 năm 2021 Người cam đoan Nguyễn Thị Liên ix LỜI CẢM ƠN Trước hết em xin gửi lời cảm ơn bày tỏ lòng biết ơn sâu sắc đến thầy Nguyễn Văn Vinh, người định hướng đề tài, cung cấp cho em kiến thức, tài liệu tận tình hướng dẫn bảo em suốt trình thực đề tài luận văn Em xin chân thành cảm ơn thầy, cô giáo khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội dạy bảo, truyền thụ kiến thức, tạo điều kiện tốt suốt trình em học tập trường Em xin chân thành cảm ơn bạn bè đồng nghiệp, bạn học viên K24 ủng hộ khuyến khích tơi suốt q trình học tập trường Cuối cùng, Em xin gửi lời cảm ơn sâu sắc đến gia đình, người thân ln kịp thời động viên giúp đỡ tơi vượt qua khó khăn học tập sống Hà Nội, Ngày 26 tháng 11 năm 2021 Học viên Nguyễn Thị Liên MỞ ĐẦU Lý chọn đề tài Hiện phát triển nhanh chóng khoa học, cơng nghệ có đóng góp quan trọng, làm thay đổi mặt đời sống kinh tế - xã hội Sự đời, phát triển mạng Internet tạo nên đột phá kết nối, chia sẻ thông tin, thúc đẩy phát triển kinh tế, giao lưu văn hóa Bên cạnh đó, phát triển bùng nổ trang diễn đàn, mạng xã hội, trang web lấy ý kiến người dùng cầu nối để người dễ dàng thể quan điểm cá nhân kiện bật đáng quan tâm, thông tin kinh tế, trao đổi lĩnh vực đời sống xã hội, thị trường, sản phẩm dịch vụ Gần đây, toán phân tích quan điểm ứng dụng rộng rãi lĩnh vực: du lịch, khách sạn, dịch vụ tài tiêu dùng, chăm sóc sức khỏe Khi xã hội ngày phát triển bậc phụ huynh ngày quan tâm nhiều đến tương lai em mình, mục tiêu hàng đầu bổ sung thêm chất dinh dưỡng nhằm phát triển chiều cao, trí thơng minh cho bé Ngày nay, thay sử dụng cách thu thập đánh giá, phát phiếu thăm dò hỏi trực tiếp, trưng cầu ý kiến qua trang web, cá nhân hay tổ chức phân tích tự động lượng liệu đánh giá lớn từ trang mạng xã hội, diễn đàn, trang đánh giá sản phẩm nhằm tận dụng nguồn thơng tin hữu ích giúp tiết kiệm phần chi phí Các tổ chức doanh nghiệp, cơng ty lấy ý kiến đánh giá sản phẩm dịch vụ họ qua bình luận trang mạng Việc thu thập ý kiến đánh giá quan trọng cho doanh nghiệp tổ chức họ ln mong muốn tìm kiếm xem người tiêu dùng có nhận xét sản phẩm dịch vụ họ, nhờ họ xây dựng chiến lược bán hàng phát triển sản phẩm Ngoài người tiêu dùng mong muốn tham khảo ý kiến đánh giá sản phẩm hay dịch vụ mà họ quan tâm trước họ đưa định việc mua, bán hay sử dụng sản phẩm dịch vụ Vấn đề đặt làm biết chủ đề kiện có đánh giá tiêu cực hay tích cực, số lượng đánh giá lớn, vượt qua khả người Chính tốn phân tích quan điểm đặt để giải vấn đề Hiện nay, có nhiều kỹ thuật cho tốn hiệu sử dụng kỹ thuật học máy 41 Xuất nhiều văn Xuất tập ngữ liệu Bước 1: Tính TF theo cơng thức Bước 2: Tính IDF theo cơng thức Bước 3: Tính TF-IDF theo cơng thức Ta thấy hàm IDF(t,D) đảm bảo tính chất nêu từ quan trọng Một từ xuất nhiều văn mẫu hàm log lớn dẫn đến log tiến tương đương với từ giá trị Ngược lại, số từ sử dụng văn log tiến giá trị lớn Sử dụng phương pháp TF-IDF mô tả vector tập ngữ liệu kích thước số lượng văn x số lượng từ ngữ liệu Mơ hình TF-IDF cải tiến mơ hình Bag of Words góc độ nhấn mạnh từ quan trọng 3.5 Xây dựng lựa chọn mơ hình Bước đầu tiến hành thu thập liệu thô từ webstie, diễn đàn mạng xã hội Sau liệu tiền xử lý lấy mẫu, gán nhãn trước tiến hành học máy Dữ liệu lấy mẫu chia thành nhóm: tập liệu huấn luyện (training data), tập liệu kiểm thử (test data) Tập liệu huấn luyện sử dụng để thiết lập mơ hình học máy, liệu xác nhận sử dụng để lặp lại tinh chỉnh mơ hình chọn, chúng tơi dựa kết phân lớp xác tập liệu kiểm thử để tìm mơ hình học máy phù hợp hình 3.7 mơ hình nghiên cứu với phân lớp với phương pháp học máy truyền thống 42 Hình 7: Mơ hình phân lớp học máy truyền thống Trong trình huấn luyện (a), mơ hình học cách liên kết đầu vào cụ thể văn với đầu tương ứng nhãn dựa mẫu thử nghiệm sử dụng để huấn luyện Trích chọn đặc trưng chuyển đầu vào văn thành vectơ đặc trưng Các cặp vectơ đặc trưng nhãn (tích cực, tiêu cực trung tính ) đưa vào thuật tốn học máy để tạo mơ hình Trong quy trình dự đốn (b), trình trích chọn đặc trưng sử dụng để chuyển đổi đầu vào văn không nhìn thấy thành vectơ đặc trưng Sau đó, vectơ đặc trưng đưa vào mơ hình, tạo nhãn dự đốn (tích cực, tiêu cực trung tính) Trong phạm vi luận văn sử dụng kỹ thuật học máy toán phân tích quan điểm: Nạve Bayes, Support Vector Machine (SVM), Logistic Regression, Deep Learning (LSTM) 3.6 Phương pháp đánh giá mô hình Thơng thường phương pháp đánh giá mơ hình phân lớp quan điểm đo việc tính tốn xác phân lớp vào tập kiểm tra cụ thể Độ xác phân lớp định nghĩa sau: Accuracy (ACC): Độ đo xác trung bình tổng quát nhãn, tỷ lệ kết dự đoán tống số mẫu liệu thực tế https://www.nltk.org/book/ch06.html#fig-supervised-classification 43 Accuracy = TP+TN TP+TN+FP+FN = Số lượng dự đoán Tổng số mẫu (3.1) Trong True Positive (TP): tổng số lượng tích cực dự đốn ĐÚNG với số số lượng tích cực thực tế True Negative (TN): tổng số lượng tiêu cực dự đoán ĐÚNG với số lượng tiêu cực thực tế; False Positive (FP): tổng số lượng tích cực dự đốn SAI với số lượng tích cực thực tế; False Negative (FN): tổng số lượng tiêu cực dự đoán SAI với số lượng tiêu cực thực tế Precision (Độ xác): định nghĩa số lượng dự đốn thực xác có liên quan số tất dự đoán dựa lớp tích cực, tỉ lệ số mẫu tích cực phân loại số mẫu phân loại Precision = TP TP+FP = Số lượng tích cực phân loại Tổng số phân loại (3.2) Recall (Độ bao phủ): số thể tất trường hợp Positive, trường hợp dự đốn xác, tỉ lệ số mẫu tích cực số điểm thực positive Recall = TP TP+FN = Số lượng tích cực phân loại Tổng số phân loại thực tế (3.3) F_score: Độ đo F1 giá trị trung bình hài hịa độ xác độ bao phủ giúp tối ưu hóa phân loại cho độ xác cân hiệu suất thu hồi F1 = 2× Precision×Recall Precision+Recall (3.4) Thuật ngữ “độ xác” dễ gây nhầm lẫn Accuracy Precision (Accuracy khơng phân biệt Positive/negative) Người ta cịn gọi Precision “Khả xác định” Precision khơng khảo sát mơ hình mơt cách độc lập, mà đặt mơ hình vào bối cảnh (dữ liệu) Do ta khơng nói chung chung: ”mơ hình xác”, mà là: ”Mơ hình xác mẫu/dữ liệu thời” Kết luận chương 44 Chương trình bày bước thu thập, gán nhãn thực tiền xử lý cho liệu đầu vào Trong chương phân tích đặc điểm đặc trưng liệu thực nghiệm thức ăn trẻ em với bình luận tiếng việt nhằm giải thích cho việc lựa chọn giải thuật, mơ hình phù hợp với liệu toán Trong chương chi tiết bước xây dựng mơ hình, cài đặt thực nghiệm để giải vấn đề toán cho phân tích, tổng hợp kết trình thực nghiệm, đưa đánh giá với mong muốn lựa chọn mơ hình tối ưu cho toán đặt 45 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ Trong chương chúng tơi trình bày cấu hình thử nghiệm kết thử nghiệm cho tốn phân tích quan điểm với liệu lĩnh vực thức ăn trẻ em Đồng thời chúng tơi phân tích thảo luận kết đạt 4.1 Dữ liệu thực nghiệm: Luận văn thực nghiệm với tập liệu thức ăn trẻ em Về nguồn liệu chi tiết liệu trình bày chương Đầu vào 15926 câu bình luận tiếng việt gán nhãn, chia làm tập: tập liệu huấn luyện tập liệu kiểm thử theo tỉ lệ 80% 20% 4.2 Môi trường thực nghiệm: - Processor: Intel(R) Core(TM) i3-6100U CPU @ 2.30GHz - Memory (Ram): 4.00 GB - System type: 64-bit operating system, x64-based processor - Edition: Windows 10 Pro -2021 Các thử nghiệm cài đặt sử dụng ngơn ngữ lập trình Python mơi trường Jupyter Notebook Một số thư viện Python sử dụng thực nghiệm gồm: Numpy, Pandas, Scikit- Learning, TensorFlow 4.3 Xây dựng lựa chọn mơ hình Chương trình lập trình có hai mã nguồn chương trình thực đọc, phân tích cấu trúc tập tin PE tiến hành dịch ngược mã hex, chương trình thứ hai chương trình đọc liệu mẫu, chạy thuật tốn trích chọn đặc trưng chạy thuật toán học máy Numpy thư viện toán học phổ biến mạnh mẽ Python Nó cho phép làm việc hiệu với ma trận mảng với tốc độ xử lý nhanh nhiều lần sử dụng “core Python” đơn Ngoài ra, Python hỗ trợ thư viện khác để mở rộng thêm tính Numpy Pandas thư viện phần mềm viết riêng cho ngơn ngữ lập trình Python xây dựng dựa Numpy để thực thao tác quản lý phân tích liệu, thiết kế phép làm việc với liệu gán nhãn quan hệ theo cách trực quan Đặc biệt, cung cấp cấu trúc liệu phép toán để thao tác với bảng số chuỗi thời gian khả import liệu từ nhiều nguồn khác CSV 46 TensorFlow Google phát triển, cung cấp công cụ để xây dựng đào tạo mạng nơ-ron Ngồi cịn có hỗ trợ vectơ hóa văn bản, tần suất từ truyền thống nhúng qua từ nâng cao Keras cung cấp tóm tắt hữu ích để làm việc với nhiều loại mạng nơ-ron, mạng nơ-ron hồi quy (RNN) Keras chạy Tensorflow, cung cấp cơng cụ hữu ích để phân loại văn Luận văn sử dụng thư viện Pandas để tải tệp csv phân tích tập liệu thức ăn trẻ em sau: import pandas as pd import numpy as np data = pd.read_csv("food_kid_converted.tsv", Kết tệp dữ"label"]) liệu names=["text", delimiter="\t", data Hình 1: Tệp liệu sau tải Tệp liệu thức ăn trẻ em có 15926 bình luận gán nhãn thủ công chia làm hai cột cụ thể Một cột câu bình luận người dùng miền liệu thức ăn trẻ em, cột tham số gán nhãn tương đương từ đến nhãn Trong trình gán nhãn tập liệu thủ công không tránh khỏi 47 sai sót nhỏ, để huấn luyện mơ hình học máy tốt loại bỏ nhãn nhỏ lớn filtered_data = data[(data['label'] >= 1) & (data['label']