Ứng dụng học sâu cho bài toán phân tích quan điểm

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHĨA LUẬN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN ỨNG DỤNG HỌC SÂU CHO BÀI TỐN PHÂN TÍCH QUAN ĐIỂM GVHD: Th.S QCH ĐÌNH HỒNG SVTH: NGUYỄN THỊ MỸ LINH VÕ THỊ NGỌC THẮM SKL010862 Tp Hồ Chí Minh, năm 2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN KỸ THUẬT DỮ LIỆU NGUYỄN THỊ MỸ LINH – 19133032 VÕ THỊ NGỌC THẮM – 19133051 Đề tài: ỨNG DỤNG HỌC SÂU CHO BÀI TỐN PHÂN TÍCH QUAN ĐIỂM KHĨA LUẬN TỐT NGHIỆP KỸ SƯ KỸ THUẬT DỮ LIỆU GIẢNG VIÊN HƯỚNG DẪN ThS QCH ĐÌNH HỒNG TP Hồ Chí Minh, Năm 2023 XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ĐH SƯ PHẠM KỸ THUẬT TP.HCM KHOA CNTT ******* ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên 1: Nguyễn Thị Mỹ Linh MSSV: 19133032 Họ tên Sinh viên 2: Võ Thị Ngọc Thắm MSSV: 19133051 Ngành: Kỹ thuật liệu Tên đề tài: ỨNG DỤNG HỌC SÂU CHO BÀI TỐN PHÂN TÍCH QUAN ĐIỂM Họ tên Giáo viên hướng dẫn: ThS Qch Đình Hồng NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm Đánh giá loại: Điểm: Tp Hồ Chí Minh, ngày tháng năm 2023 Giáo viên hướng dẫn (Ký & ghi rõ họ tên) XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ĐH SƯ PHẠM KỸ THUẬT TP.HCM KHOA CNTT ******* ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên 1: Nguyễn Thị Mỹ Linh MSSV: 19133032 Họ tên Sinh viên 2: Võ Thị Ngọc Thắm MSSV: 19133051 Ngành: Kỹ thuật liệu Tên đề tài: ỨNG DỤNG HỌC SÂU CHO BÀI TỐN PHÂN TÍCH QUAN ĐIỂM Họ tên giáo viên phản biện: TS Lê Thiên Bảo NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm: Đề nghị cho bảo vệ hay không: Đánh giá loại: Điểm: Tp Hồ Chí Minh, ngày tháng năm 2023 Giáo viên phản biện (Ký & ghi rõ họ tên) LỜI CẢM ƠN Trong trình nghiên cứu đề tài, chúng tơi xin bày tỏ lịng biết ơn chân thành đến Quý Thầy Cô giảng viên hỗ trợ dẫn với tận tâm tôn trọng Chúng muốn gửi lời cảm ơn sâu sắc đến Ban giám hiệu trường Đại học Sư phạm Kỹ Thuật Thành phố Hồ Chí Minh tạo điều kiện môi trường học tập chất lượng, giúp chúng tơi có thể phát triển tối đa q trình nghiên cứu đề tài Chúng muốn gửi lời cảm ơn đặc biệt đến Ban chủ nhiệm khoa Công nghệ Thông tin Thầy Cô khoa cung cấp môi trường học tập làm việc chuyên nghiệp, nhiệt tình hỗ trợ chúng tơi việc thực đề tài Điều không việc hồn thành đề tài mà cịn áp dụng cho tất sinh viên khoa Công nghệ Thông tin suốt trình học tập làm việc trường Đặc biệt, muốn gửi lời cảm ơn chân thành đến Thầy Qch Đình Hồng - Giảng viên hướng dẫn khóa luận chun ngành – Khoa Cơng nghệ Thông tin – Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh Thầy dành thời gian công sức để hướng dẫn, quan tâm góp ý cho chúng tơi giai đoạn khó khăn đề tài Tuy nhiên, thời gian hồn thành đề tài hạn chế, khơng thể tránh khỏi sai sót hạn chế định Chúng tơi mong nhận phản hồi, đóng góp ý kiến bảo từ Quý Thầy Cô để có thể thu thập thêm kiến thức hữu ích nâng cao trình độ để phục vụ tốt nghiệp sau Chúng xin chân thành cảm ơn! KẾ HOẠCH THỰC HIỆN Tìm hiểu cơng nghệ áp dụng vào Tuần 1, 20/03 – 02/04 project, tìm hiểu sơ lược thuật tốn cần dùng để xây dựng model Tìm hiểu sentiment analysis, NLP Tuần 3, 03/04 - 16/04 Tiến hành thu thập dán nhãn liệu Tìm hiểu word embedding (word2vec) Tuần 5, 17/04 - 28/04 thuật toán LSTM, RNN, BERT Tuần 7, 03/05 - 14/05 Tiến hành liệu véc-tơ hóa liệu với word embedding Tạo mơ hình phân tích cảm xúc ngơn Tuần 9, 10 15/05 - 28/05 ngữ sử dụng BERT, sử dụng kết hợp CNN LSTM Sử dụng Python kết hợp với ngôn ngữ HTML, CSS JavaScript để xây dựng Tuần 11, 12 29/05 – 11/06 ứng dụng Phân tích ý kiến người dùng theo khía cạnh Tiến hành trình kiểm thử, điều chỉnh Tuần 13, 14 12/06 - 25/06 tham số để cải thiện mô hình tiếp tục viết báo cáo Kiểm tra lần cuối, hoàn thành báo cáo Tuần 15, 16 26/06 – 09/07 Trao đổi với thầy hướng dẫn nội dung cần trình bày MỤC LỤC Phần 1: MỞ ĐẦU 1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC Phần 2: NỘI DUNG .5 Chương 1: CƠ SỞ LÝ THUYẾT 1.1 TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM (SENTIMENT ANALYSIS) 1.1.1 Khái niệm phân tích quan điểm 1.1.2 Lợi ích phân tích quan điểm 1.1.3 Các cấp độ phân tích quan điểm 1.1.4 Phân tích quan điểm cấp độ khía cạnh 1.1.5 Những trường hợp sử dụng phân tích quan điểm 1.1.6 Thách thức tốn phân tích quan điểm .9 1.2 TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN (NLP) 11 1.2.1 Xử lý ngôn ngữ tự nhiên .11 1.2.2 Các bước xử lý xử lý ngôn ngữ tự nhiên 12 1.2.3 Một vài ứng dụng xử lý ngôn ngữ tự nhiên 13 1.3 WORD EMBEDDING 14 1.3.1 Term Frequency – Inverse Document Frequency (TF-IDF) .15 1.3.2 Word2Vec 16 1.3.3 Glove 20 1.3.4 FastText .22 1.3.5 BERT 23 1.4 TỔNG QUAN VỀ DEEP LEARNING .24 1.4.1 Deep Learning .24 1.4.2 Một vài ứng dụng Deep Learning 24 1.4.3 Cách thức hoạt động Deep Learning 25 1.4.4 Convolutional Neural Network (CNNs) .26 1.4.5 Recurrent neural network (RNNs) 28 1.4.6 Long short-term memory (LSTMs) 29 1.4.7 Transformer 30 1.4.8 Mơ hình BERT dựa kiến trúc Transformer 33 Chương 2: XÂY DỰNG MƠ HÌNH PHÂN TÍCH QUAN ĐIỂM 37 2.1 BÀI TOÁN 37 2.2 THU THẬP DỮ LIỆU 38 2.3 XỬ LÝ DỮ LIỆU 40 2.3.1 Tiền xử lý liệu 40 2.3.2 Véc-tơ hóa liệu .40 2.4 XÂY DỰNG, HUẤN LUYỆN MƠ HÌNH VÀ ĐÁNH GIÁ KẾT QUẢ 42 2.5 XÂY DỰNG ỨNG DỤNG CHO MƠ HÌNH PHÂN TÍCH QUAN ĐIỂM DỰA TRÊN KHÍA CẠNH 46 2.5.1 Thiết kế 46 2.5.2 Thực 48 Phần 3: KẾT LUẬN 50 KẾT QUẢ ĐẠT ĐƯỢC 50 ƯU ĐIỂM VÀ NHƯỢC ĐIỂM 50 HƯỚNG PHÁT TRIỂN 51 LỜI KẾT 52 TÀI LIỆU THAM KHẢO 54 DANH MỤC CÁC TỪ VIẾT TẮT BERT Bidirectional Encoder Representations from Transformers CBOW Continuous Bag-of-Words CNN Convolutional Neural Network: Mạng nơ-ron tính chập LSTM Long short-term memory: Bộ nhớ ngắn hạn kéo dài NLP Natural Language Processing PhoBERT Pretrained hetero-lingual Bidirectional Encoder Representations from Transformers RNN Recurrent Neural Network: Mạng nơ-ron hồi quy VLSP Vietnamese Language and Speech Processing DANH MỤC HÌNH ẢNH Hình 1.1: Kiến trúc CNN phân loại câu 27 Hình 1.2: Kiến trúc mạng RNN .28 Hình 1.3: Kiến trúc node mạng LSTM 30 Hình 1.4 Kiến trúc mơ hình Transformer .31 Hình 2.1: Minh họa đánh giá sau tiền xử lý 40 Hình 3.1 Kiến trúc mơ hình CNN kết hợp LSTM 42 Hình 3.2: Kết mơ hình CNN kết hợp LSTM tập test 44 Hình 3.3: Kiến trúc mơ hình PhoBERT 44 Hình 3.4: Kết mơ hình PhoBert tập test 46 Hình 3.5: Kiểm tra kết tập test .46 Hình 4.1 Phân tích thiết kế giao diện 47 Hình 4.2 Phân tích thiết kế chức 48 Hình 4.3 Giao diện trang phân tích bình luận 48 Hình 4.4 Giao diện trang lưu trữ liệu 49 Hình 4.5 Giao diện trang thống kê liệu 49 2.4 XÂY DỰNG, HUẤN LUYỆN MƠ HÌNH VÀ ĐÁNH GIÁ KẾT QUẢ • Mơ hình CNN kết hợp LSTM Chúng tơi sử dụng mạng CNN để trích xuất thơng tin cục (local information) từ liệu Sau đó, chúng tơi sử dụng đặc trưng trích xuất mạng CNN làm đầu vào cho mạng LSTM để rút trích thông tin mối quan hệ phụ thuộc ngữ cảnh (contextual dependencies information) Hình 3.1 Kiến trúc mơ hình CNN kết hợp LSTM 42 Theo Hình 3.1, trình làm việc mơ sau: Input Layer: Đây lớp đầu vào mơ hình, tạo với kích thước max_feature 48 đại diện cho độ dài tối đa văn đầu vào Các đoạn văn biểu diễn dạng chuỗi số nguyên (index từ từ điển) Embedding Layer: Đây lớp nhúng (embedding) từ, sử dụng để biểu diễn từ văn dạng vector số Lớp sử dụng ma trận nhúng (embedding matrix) truyền vào không cập nhật (trainable=False) Điều có nghĩa ma trận nhúng sử dụng phép biến đổi tĩnh để biểu diễn từ Conv1D Layer: Đây lớp tích chập chiều với 256 lọc, kích thước cửa sổ hàm kích hoạt 'relu' Lớp tích chập giúp học đặc trưng từ cụm từ liên tiếp văn MaxPooling1D Layer: Sau lớp Conv1D, lớp MaxPooling1D sử dụng để giảm kích thước đầu tạo biểu diễn gộp đặc trưng học từ lớp Conv1D Dropout Layer: Lớp Dropout với tỷ lệ 0.5 sử dụng để tránh tượng overfitting trình huấn luyện Bidirectional LSTM Layers: Hai lớp LSTM đôi chiều sử dụng để mơ hình hóa thơng tin ngữ cảnh từ hai hướng từ văn Lớp LSTM có 128 đơn vị trả chuỗi kết (return_sequences=True) Lớp LSTM thứ hai có 64 đơn vị trả chuỗi kết Dense Layer: Sau hai lớp LSTM đơi chiều, có lớp Dense với 64 đơn vị hàm kích hoạt 'relu' Lớp giúp học biểu diễn cao cấp đặc trưng từ chuỗi đầu vào Output Layer: Lớp Dense cuối có kích thước đầu 4, áp dụng hàm kích hoạt sigmoid nếu aspect_only=True nếu aspect_only=False Các giá trị đầu có thể hiểu xác suất điểm số cho lớp đầu tương ứng 43 Kết mơ hình CNN kết hợp LSTM thử nghiệm tập test Hình 3.2: Kết mơ hình CNN kết hợp LSTM tập test • Mơ hình PhoBERT Mơ hình thứ hai dự án chúng tơi PhoBERT - mơ hình ngơn ngữ tiếng Việt dựa kiến trúc Transformer Được huấn luyện liệu tiếng Việt, PhoBERT giúp trích xuất biểu diễn từ vựng thông tin ngữ cảnh từ văn đầu vào Khả hiểu ngữ cảnh ý nghĩa từ ngôn ngữ tiếng Việt giúp mô hình xử lý phân tích quan điểm dựa khía cạnh cách hiệu Hình 3.3: Kiến trúc mơ hình PhoBERT 44 Theo Hình 3.3, q trình làm việc mơ sau: Input Layer: Model sử dụng lớp đầu vào cho thành phần BERT: - 'input_ids': Là đầu vào mã hóa từ văn thành số nguyên theo mã hóa từ vựng - 'token_type_ids': Là đầu vào mã hóa thơng tin loại token (đầu vào từ vựng đầu vào văn tiếp theo) cho việc sử dụng BERT - 'attention_mask': Là đầu vào để đánh dấu phần thông tin thực văn phần padding Các đầu vào xử lý lớp TFAutoModel từ thư viện Transformers Pretrained BERT: Model sử dụng mô hình BERT tải sẵn (pretrained) từ thư viện transformers Mơ hình đặt tên pretrained_bert tải với output_hidden_states=True, cho phép truy xuất hidden states BERT Hidden States: Sau đưa đầu vào qua pretrained_bert, hidden states BERT trích xuất lưu biến hidden_states Điều cho phép mô hình truy cập thơng tin ngữ cảnh từ tất lớp ẩn BERT Pooling Layer: Trong lớp này, ta ghép nối (concatenate) hidden states BERT từ lớp cuối (-4, -3, -2, -1) để tạo thành vector biểu diễn gộp văn Sau đó, lấy vector biểu diễn gộp (tương ứng với ký tự [CLS] đầu câu) để có biểu diễn cuối văn bản, lưu biến pooled_output Dropout Layer: Lớp Dropout với tỷ lệ 0.2 áp dụng lên pooled_output để giảm overfitting trình huấn luyện Output Layer: Đầu model lớp Dense với đơn vị hàm kích hoạt softmax Đầu ghép nối từ lớp Dense tương ứng với cột (labels) dataframe df_train Mỗi lớp Dense dự đoán xác suất lớp cho văn đầu vào BERT Model: Sử dụng mơ hình BERT xác định trước (pretrained_bert) từ thư viện Transformers Đầu vào truyền vào mơ hình BERT lấy hidden states mơ hình 45 Kết mơ hình thử nghiệm tập test Hình 3.4: Kết mơ hình PhoBert tập test Kiểm tra kết tập test Hình 3.5: Kiểm tra kết tập test 2.5 XÂY DỰNG ỨNG DỤNG CHO MƠ HÌNH PHÂN TÍCH QUAN ĐIỂM DỰA TRÊN KHÍA CẠNH - Độ xác mơ hình CNN kết hợp LSTM: 0.6846 - Độ xác mơ hình PhoBert: 0.8043 So sánh độ xác mơ hình chúng tơi thấy mơ hình PhoBert cho độ xác cao Vì chúng tơi chọn mơ hình PhoBert để xây dựng mơ hình phân tích quan điểm dựa khía cạnh người dùng sử dụng văn tiếng Việt 2.5.1 Thiết kế Chúng tơi sử dụng ngơn ngữ lập trình Python kết hợp với ngôn ngữ HTML, CSS JavaScript để xây dựng ứng dụng Phân tích ý kiến người dùng theo khía cạnh Quy trình thiết kế ứng dụng thực sau: 46 • Backend Sử dụng ngơn ngữ Python thư viện Flask để xây dựng phần backend ứng dụng Backend xử lý yêu cầu từ phía client gửi lại phản hồi tương ứng Backend tương tác với mơ hình lưu trữ để dự đoán trả kết phân tích ý kiến • Server Phần server ứng dụng xây dựng Python để hỗ trợ việc truy xuất mơ hình phân tích ý kiến lưu trữ Server cung cấp chức sau: Hiển thị trang phân tích văn bình luận trực tiếp: Cho phép người dùng nhập văn bình luận hiển thị kết phân tích ý kiến tương ứng Hiển thị kết quả: Nhận đầu vào câu phân tích trả kết phân tích ý kiến dựa mơ hình huấn luyện Hiển thị trang thống kê liệu phân: Hiển thị thông tin liệu huấn luyện kiểm tra sử dụng trình xây dựng mơ hình Qua quy trình thiết kế trên, chúng tơi tạo ứng dụng phân tích ý kiến người dùng theo khía cạnh, cho phép người dùng nhập bình luận nhận kết phân tích ý kiến tương ứng Hình 4.1 Phân tích thiết kế giao diện 47 Hình 4.2 Phân tích thiết kế chức 2.5.2 Thực Ở trang Aspect-Based Sentiment Analysis người dùng có thể nhập câu đánh giá vào “Review” sau nhấn “Predict” để xem kết phân tích ô “Result” chọn “Reset” để load lại trang Hình 4.3 Giao diện trang phân tích bình luận 48 Sau người dùng chọn “Predict” liệu tự động lưu vào database người dung có thể xem liệu lưu trang data Hình 4.4 Giao diện trang lưu trữ liệu Dữ liệu lưu trữ thống kế số liệu trang Statistics, người dung có thể xem thống kê khía cạnh đánh giá nhiều hay đa sơ cảm xúc khách hàng tích cực, tiêu cực hay trung lập để có thể cải thiện chất lượng dịch vụ, ăn nhà hàng Hình 4.5 Giao diện trang thống kê liệu 49 Phần 3: KẾT LUẬN KẾT QUẢ ĐẠT ĐƯỢC Đề tài "Phân tích quan điểm dựa khía cạnh người dùng" đạt số kết quan trọng việc phân tích ý kiến đánh giá từ người dùng khía cạnh khác Dưới số kết đáng ý: Phân tích quan điểm xác: Hệ thống phân tích quan điểm đạt mức độ xác đáng kể việc xác định phân loại quan điểm người dùng theo khía cạnh nhà hàng, khơng gian, đồ ăn, dịch vụ đồ uống Điều giúp người dùng có nhìn tổng quan ý kiến người khác khía cạnh cụ thể Giao diện người dùng thuận tiện: Ứng dụng thiết kế với giao diện người dùng thân thiện dễ sử dụng, giúp người dùng dễ dàng nhập liệu nhận kết phân tích cách nhanh chóng Các chức hiển thị trang mơ hình đánh giá kết quả, phân tích liệu huấn luyện kiểm tra, phân tích văn bình luận trực tiếp mang lại trải nghiệm tốt cho người dùng Tích hợp Flask Python: Sử dụng Flask ngôn ngữ lập trình Python giúp xây dựng phần backend server cách hiệu Flask cung cấp công cụ thư viện hỗ trợ mạnh mẽ, Python ngôn ngữ linh hoạt phổ biến lĩnh vực xử lý ngôn ngữ tự nhiên ƯU ĐIỂM VÀ NHƯỢC ĐIỂM • Ưu điểm Đáp ứng nhu cầu phân tích ý kiến: Đề tài giải quyết vấn đề quan trọng việc hiểu phân tích ý kiến người dùng khía cạnh cụ thể Điều có thể hỗ trợ quyết định kinh doanh, nâng cao chất lượng dịch vụ tạo trải nghiệm tốt cho khách hàng Mở rộng tùy chỉnh được: Hệ thống có khả mở rộng tùy chỉnh để phân tích quan điểm nhiều lĩnh vực khác cho khía cạnh khác Điều tạo tiềm ứng dụng rộng lớn linh hoạt cho cơng nghệ phân tích ý kiến • Nhược điểm: 50 Hạn chế ngơn ngữ: Hiện tại, hệ thống hỗ trợ phân tích quan điểm tiếng Việt Việc mở rộng hệ thống để hỗ trợ nhiều ngơn ngữ khác có thể thách thức yêu cầu công sức tài nguyên phát triển Độ xác phụ thuộc vào liệu: Độ xác hệ thống phân tích quan điểm phụ thuộc vào liệu huấn luyện Nếu liệu huấn luyện không đủ đại diện không cung cấp đủ thơng tin khía cạnh, kết phân tích có thể khơng xác khơng đầy đủ Độ phức tạp đánh giá: Đánh giá khía cạnh quan điểm người dùng có thể phụ thuộc vào ngữ cảnh có thể phức tạp Hệ thống cần cải tiến để xử lý trường hợp phức tạp đảm bảo tính tồn vẹn đắn kết phân tích Tuy có nhược điểm định, đề tài "Phân tích quan điểm dựa khía cạnh người dùng" mang lại nhiều ưu điểm tiềm phát triển việc hiểu phân tích ý kiến người dùng Việc tiếp tục nghiên cứu cải thiện hệ thống đóng góp vào phát triển lĩnh vực phân tích ý kiến ứng dụng trí tuệ nhân tạo HƯỚNG PHÁT TRIỂN Mở rộng khả phân tích khía cạnh: Hiện tại, đề tài tập trung vào số khía cạnh cụ thể nhà hàng, khơng gian, đồ ăn, dịch vụ đồ uống Tuy nhiên, có thể mở rộng hệ thống để phân tích hiển thị kết cho nhiều khía cạnh khác nhau, tùy thuộc vào lĩnh vực nhu cầu cụ thể người dùng Xử lý ngôn ngữ tự nhiên tiên tiến hơn: Nghiên cứu phương pháp mơ hình tiên tiến lĩnh vực xử lý ngôn ngữ tự nhiên có thể cải thiện độ xác hiệu suất hệ thống Các phương pháp BERT, Transformer mơ hình ngơn ngữ sâu có thể khám phá để cải thiện khả phân tích quan điểm hiểu ý kiến Mở rộng ứng dụng sang lĩnh vực khác: Đề tài có thể mở rộng để áp dụng nhiều lĩnh vực khác sản phẩm công nghệ, dịch vụ du lịch, phim ảnh, nhiều ngành công nghiệp khác Điều đòi hỏi việc thu thập xử lý liệu phù hợp cho lĩnh vực cụ thể Tích hợp hệ thống với liệu thời gian thực: Để đáp ứng nhu cầu người dùng, có thể tích hợp hệ thống với liệu thời gian thực từ nguồn mạng xã hội, diễn 51 đàn, trang đánh giá sản phẩm để cung cấp kết phân tích quan điểm cập nhật xác Tăng cường giao diện người dùng: Cải thiện giao diện người dùng để đảm bảo thuận tiện tương tác tốt cho người dùng Các tính phân tích văn bình luận trực tiếp, gợi ý phân tích khía cạnh, trực quan hóa liệu có thể phát triển để nâng cao trải nghiệm người dùng Tối ưu hóa hiệu suất mở rộng quy mơ: Đối với ứng dụng thực tế, cần nghiên cứu triển khai giải pháp tối ưu hóa hiệu suất mở rộng quy mô hệ thống Điều bao gồm việc tối ưu hóa mã nguồn, xử lý song song, triển khai hệ thống tảng phân tán LỜI KẾT Trong nghiên cứu phát triển ứng dụng phân tích quan điểm dựa khía cạnh người dùng, tiến hành xây dựng hệ thống mạnh mẽ hiệu Đề tài nhằm mục đích phân tích ý kiến người dùng theo khía cạnh cụ thể nhà hàng, không gian, đồ ăn, dịch vụ, đồ uống nhiều khía cạnh khác Qua q trình nghiên cứu, chúng tơi tìm hiểu phương pháp kỹ thuật xử lý ngôn ngữ tự nhiên, phân loại cảm xúc phân tích quan điểm Chúng tơi sử dụng mơ hình Machine Learning để xây dựng mơ hình phân loại phân tích quan điểm dựa liệu huấn luyện Để triển khai ứng dụng, chúng tơi sử dụng ngơn ngữ lập trình Python công nghệ Flask, HTML, CSS JavaScript Backend ứng dụng xây dựng Python sử dụng thư viện Flask để xử lý yêu cầu từ phía client Phần server xây dựng để truy xuất mơ hình lưu trữ trả kết phân tích ý kiến cho người dùng Qua q trình thiết kế phát triển, chúng tơi xây dựng thành cơng ứng dụng phân tích quan điểm dựa khía cạnh người dùng Ứng dụng cho phép người dùng nhập bình luận nhận kết phân tích ý kiến chi tiết khía cạnh mà họ quan tâm Điều giúp người dùng có nhìn tồn diện xác khía cạnh sản phẩm, dịch vụ kiện mà họ quan tâm 52 Đề tài “Ứng dụng học sâu cho tốn phân tích quan điểm” mang lại kết tích cực hữu ích việc hiểu ý kiến quan điểm người dùng Điều có thể ứng dụng nhiều lĩnh vực, từ công nghiệp du lịch, nhà hàng, sản phẩm cơng nghệ cho đến lĩnh vực trị xã hội Chúng hi vọng đề tài góp phần nâng cao khả hiểu tương tác với người dùng ứng dụng thực tế 53 TÀI LIỆU THAM KHẢO [1] Aston Zhang, Zachary C Lipton, Mu Li, Alexander J Smola, Dive into Deep Learning, https://d2l.djl.ai/ [2] Wikipedia, Sentiment analysis, https://en.wikipedia.org/wiki/Sentiment_analysis , 2022 [3] Wikipedia, Word2vec, https://vi.wikipedia.org/wiki/Word2vec, 2022 [4] Mayur Wankhade et al Annavarapu Chandra Sekhara Rao, A survey on sentiment analysis methods, applications, and challenges, https://link.springer.com/article/10.1007/s10462-022-10144-1 ,2022 [5] Ye Zhang et al Byron C Wallace, A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification, https://aclanthology.org/I17-1026.pdf, 2022 [6] Recurrent Neural Network (RNN) TensorFlow, https://websitehcm.com/recurrent-neural-network-rnn-trong-tensorflow/, 2022 [7] Akash Shastri, neural network architectures you need to know for NLP!, https://towardsdatascience.com/3-neural-network-architectures-you-need-toknow-for-nlp-5660f11281be, 2022 [8] Amazon Vietnam, Phân tích cảm xúc gì?, https://aws.amazon.com/vi/what-is/sentiment-analysis/, 2022 [9] FPT Digital, Xử lý ngơn ngữ tự nhiên: Cơng nghệ giúp máy tính hiểu giao tiếp với người, https://digital.fpt.com.vn/dxarticles/xu-ly-ngon-ngu-tunhien.html, 2022 [10] Ben Lutkevich, natural language processing (NLP), https://www.techtarget.com/searchenterpriseai/definition/natural-languageprocessing-NLP, 2021 [11] Bing Liu, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, May 2012 [12] Nguyễn Hưng, Deep Learning gì? Tổng quan Deep Learning từ A-Z, 21-04-2022, 30-12-2022, https://vietnix.vn/deep-learning-la-gi/ 54 [13] Topdev, Thuật tốn CNN gì? Cấu trúc mạng Convolutional Neural Network, 21-01-2022, 29-12-2022, https://topdev.vn/blog/thuat-toan-cnn- convolutional-neural-network/ [14] Vietnix, Thuật toán CNN gì? Tìm hiểu Convolutional Neural Network, 19-07-2022, 29-12-2022, https://vietnix.vn/cnn-la-gi/ [15] Tritueviet, Sử dụng mạng LSTM (Long Short Term Memory) để dự đoán số liệu hướng thời gian, 21-09-2022, 29-12-2022, http://trituevietvn.com/chi-tiet/su-dung-mang-lstm-long-short-term-memory-de-du-doan-so-lieu-huong-thoigian-123 [16] Bùi Quang Mạnh, Word Embedding - Tìm hiểu khái niệm NLP, 14-09-2020, 29-12-2022, https://viblo.asia/p/word-embedding-tim-hieu-khainiem-co-ban-trong-nlp-1Je5E93G5nL [17] Openbot , TF-IDF gì? , 02-08-2022, 29-12-2022, https://blog.openbot.vn/tf-idf-la-gi/ [18] Nguyễn Ngọc Hồi, Lê Đình Khang, “Phân tích quan điểm học sâu ứng dụng”, Khóa luận tốt nghiệp, Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh, năm 2022 [19] Nguyễn Văn Hiếu, Thuật tốn CNN xử lí ngơn ngữ tự nhiên, 01-07- 2023, https://blog.luyencode.net/thuat-toan-cnn-trong-nlp/ [20] Kelvin Jose, RNNs, LSTMs, CNNs, Transformers and BERT, 01-07-2023, https://medium.com/analytics-vidhya/rnns-lstms-cnns-transformers-and-bertbe003df3492b [21] Phạm Nam, Giải mã kiến trúc transformer paper Attention is all you need, 01-07-2023, https://viblo.asia/p/giai-ma-kien-truc-transformer-trong- paper-attention-is-all-you-need-RnB5pJeGZPG [22] Phạm Đình Khang, BERT model, https://phamdinhkhanh.github.io/2020/05/23/BERTModel.html#2gi%E1%BB%9Bi-thi%E1%BB%87u-v%E1%BB%81-bert 55 01-07-2023, S K L 0

Định dạng
Số trang	66
Dung lượng	4,18 MB