1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng học sâu cho bài toán phân tích quan điểm

66 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 4,18 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHĨA LUẬN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN ỨNG DỤNG HỌC SÂU CHO BÀI TỐN PHÂN TÍCH QUAN ĐIỂM GVHD: Th.S QCH ĐÌNH HỒNG SVTH: NGUYỄN THỊ MỸ LINH VÕ THỊ NGỌC THẮM SKL010862 Tp Hồ Chí Minh, năm 2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN KỸ THUẬT DỮ LIỆU NGUYỄN THỊ MỸ LINH – 19133032 VÕ THỊ NGỌC THẮM – 19133051 Đề tài: ỨNG DỤNG HỌC SÂU CHO BÀI TỐN PHÂN TÍCH QUAN ĐIỂM KHĨA LUẬN TỐT NGHIỆP KỸ SƯ KỸ THUẬT DỮ LIỆU GIẢNG VIÊN HƯỚNG DẪN ThS QCH ĐÌNH HỒNG TP Hồ Chí Minh, Năm 2023 XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ĐH SƯ PHẠM KỸ THUẬT TP.HCM KHOA CNTT ******* ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên 1: Nguyễn Thị Mỹ Linh MSSV: 19133032 Họ tên Sinh viên 2: Võ Thị Ngọc Thắm MSSV: 19133051 Ngành: Kỹ thuật liệu Tên đề tài: ỨNG DỤNG HỌC SÂU CHO BÀI TỐN PHÂN TÍCH QUAN ĐIỂM Họ tên Giáo viên hướng dẫn: ThS Qch Đình Hồng NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm Đánh giá loại: Điểm: Tp Hồ Chí Minh, ngày tháng năm 2023 Giáo viên hướng dẫn (Ký & ghi rõ họ tên) XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh Phúc ĐH SƯ PHẠM KỸ THUẬT TP.HCM KHOA CNTT ******* ******* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên 1: Nguyễn Thị Mỹ Linh MSSV: 19133032 Họ tên Sinh viên 2: Võ Thị Ngọc Thắm MSSV: 19133051 Ngành: Kỹ thuật liệu Tên đề tài: ỨNG DỤNG HỌC SÂU CHO BÀI TỐN PHÂN TÍCH QUAN ĐIỂM Họ tên giáo viên phản biện: TS Lê Thiên Bảo NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm: Đề nghị cho bảo vệ hay không: Đánh giá loại: Điểm: Tp Hồ Chí Minh, ngày tháng năm 2023 Giáo viên phản biện (Ký & ghi rõ họ tên) LỜI CẢM ƠN Trong trình nghiên cứu đề tài, chúng tơi xin bày tỏ lịng biết ơn chân thành đến Quý Thầy Cô giảng viên hỗ trợ dẫn với tận tâm tôn trọng Chúng muốn gửi lời cảm ơn sâu sắc đến Ban giám hiệu trường Đại học Sư phạm Kỹ Thuật Thành phố Hồ Chí Minh tạo điều kiện môi trường học tập chất lượng, giúp chúng tơi có thể phát triển tối đa q trình nghiên cứu đề tài Chúng muốn gửi lời cảm ơn đặc biệt đến Ban chủ nhiệm khoa Công nghệ Thông tin Thầy Cô khoa cung cấp môi trường học tập làm việc chuyên nghiệp, nhiệt tình hỗ trợ chúng tơi việc thực đề tài Điều không việc hồn thành đề tài mà cịn áp dụng cho tất sinh viên khoa Công nghệ Thông tin suốt trình học tập làm việc trường Đặc biệt, muốn gửi lời cảm ơn chân thành đến Thầy Qch Đình Hồng - Giảng viên hướng dẫn khóa luận chun ngành – Khoa Cơng nghệ Thông tin – Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh Thầy dành thời gian công sức để hướng dẫn, quan tâm góp ý cho chúng tơi giai đoạn khó khăn đề tài Tuy nhiên, thời gian hồn thành đề tài hạn chế, khơng thể tránh khỏi sai sót hạn chế định Chúng tơi mong nhận phản hồi, đóng góp ý kiến bảo từ Quý Thầy Cô để có thể thu thập thêm kiến thức hữu ích nâng cao trình độ để phục vụ tốt nghiệp sau Chúng xin chân thành cảm ơn! KẾ HOẠCH THỰC HIỆN Tìm hiểu cơng nghệ áp dụng vào Tuần 1, 20/03 – 02/04 project, tìm hiểu sơ lược thuật tốn cần dùng để xây dựng model Tìm hiểu sentiment analysis, NLP Tuần 3, 03/04 - 16/04 Tiến hành thu thập dán nhãn liệu Tìm hiểu word embedding (word2vec) Tuần 5, 17/04 - 28/04 thuật toán LSTM, RNN, BERT Tuần 7, 03/05 - 14/05 Tiến hành liệu véc-tơ hóa liệu với word embedding Tạo mơ hình phân tích cảm xúc ngơn Tuần 9, 10 15/05 - 28/05 ngữ sử dụng BERT, sử dụng kết hợp CNN LSTM Sử dụng Python kết hợp với ngôn ngữ HTML, CSS JavaScript để xây dựng Tuần 11, 12 29/05 – 11/06 ứng dụng Phân tích ý kiến người dùng theo khía cạnh Tiến hành trình kiểm thử, điều chỉnh Tuần 13, 14 12/06 - 25/06 tham số để cải thiện mô hình tiếp tục viết báo cáo Kiểm tra lần cuối, hoàn thành báo cáo Tuần 15, 16 26/06 – 09/07 Trao đổi với thầy hướng dẫn nội dung cần trình bày MỤC LỤC Phần 1: MỞ ĐẦU 1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC Phần 2: NỘI DUNG .5 Chương 1: CƠ SỞ LÝ THUYẾT 1.1 TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM (SENTIMENT ANALYSIS) 1.1.1 Khái niệm phân tích quan điểm 1.1.2 Lợi ích phân tích quan điểm 1.1.3 Các cấp độ phân tích quan điểm 1.1.4 Phân tích quan điểm cấp độ khía cạnh 1.1.5 Những trường hợp sử dụng phân tích quan điểm 1.1.6 Thách thức tốn phân tích quan điểm .9 1.2 TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN (NLP) 11 1.2.1 Xử lý ngôn ngữ tự nhiên .11 1.2.2 Các bước xử lý xử lý ngôn ngữ tự nhiên 12 1.2.3 Một vài ứng dụng xử lý ngôn ngữ tự nhiên 13 1.3 WORD EMBEDDING 14 1.3.1 Term Frequency – Inverse Document Frequency (TF-IDF) .15 1.3.2 Word2Vec 16 1.3.3 Glove 20 1.3.4 FastText .22 1.3.5 BERT 23 1.4 TỔNG QUAN VỀ DEEP LEARNING .24 1.4.1 Deep Learning .24 1.4.2 Một vài ứng dụng Deep Learning 24 1.4.3 Cách thức hoạt động Deep Learning 25 1.4.4 Convolutional Neural Network (CNNs) .26 1.4.5 Recurrent neural network (RNNs) 28 1.4.6 Long short-term memory (LSTMs) 29 1.4.7 Transformer 30 1.4.8 Mơ hình BERT dựa kiến trúc Transformer 33 Chương 2: XÂY DỰNG MƠ HÌNH PHÂN TÍCH QUAN ĐIỂM 37 2.1 BÀI TOÁN 37 2.2 THU THẬP DỮ LIỆU 38 2.3 XỬ LÝ DỮ LIỆU 40 2.3.1 Tiền xử lý liệu 40 2.3.2 Véc-tơ hóa liệu .40 2.4 XÂY DỰNG, HUẤN LUYỆN MƠ HÌNH VÀ ĐÁNH GIÁ KẾT QUẢ 42 2.5 XÂY DỰNG ỨNG DỤNG CHO MƠ HÌNH PHÂN TÍCH QUAN ĐIỂM DỰA TRÊN KHÍA CẠNH 46 2.5.1 Thiết kế 46 2.5.2 Thực 48 Phần 3: KẾT LUẬN 50 KẾT QUẢ ĐẠT ĐƯỢC 50 ƯU ĐIỂM VÀ NHƯỢC ĐIỂM 50 HƯỚNG PHÁT TRIỂN 51 LỜI KẾT 52 TÀI LIỆU THAM KHẢO 54 DANH MỤC CÁC TỪ VIẾT TẮT BERT Bidirectional Encoder Representations from Transformers CBOW Continuous Bag-of-Words CNN Convolutional Neural Network: Mạng nơ-ron tính chập LSTM Long short-term memory: Bộ nhớ ngắn hạn kéo dài NLP Natural Language Processing PhoBERT Pretrained hetero-lingual Bidirectional Encoder Representations from Transformers RNN Recurrent Neural Network: Mạng nơ-ron hồi quy VLSP Vietnamese Language and Speech Processing DANH MỤC HÌNH ẢNH Hình 1.1: Kiến trúc CNN phân loại câu 27 Hình 1.2: Kiến trúc mạng RNN .28 Hình 1.3: Kiến trúc node mạng LSTM 30 Hình 1.4 Kiến trúc mơ hình Transformer .31 Hình 2.1: Minh họa đánh giá sau tiền xử lý 40 Hình 3.1 Kiến trúc mơ hình CNN kết hợp LSTM 42 Hình 3.2: Kết mơ hình CNN kết hợp LSTM tập test 44 Hình 3.3: Kiến trúc mơ hình PhoBERT 44 Hình 3.4: Kết mơ hình PhoBert tập test 46 Hình 3.5: Kiểm tra kết tập test .46 Hình 4.1 Phân tích thiết kế giao diện 47 Hình 4.2 Phân tích thiết kế chức 48 Hình 4.3 Giao diện trang phân tích bình luận 48 Hình 4.4 Giao diện trang lưu trữ liệu 49 Hình 4.5 Giao diện trang thống kê liệu 49 2.4 XÂY DỰNG, HUẤN LUYỆN MƠ HÌNH VÀ ĐÁNH GIÁ KẾT QUẢ • Mơ hình CNN kết hợp LSTM Chúng tơi sử dụng mạng CNN để trích xuất thơng tin cục (local information) từ liệu Sau đó, chúng tơi sử dụng đặc trưng trích xuất mạng CNN làm đầu vào cho mạng LSTM để rút trích thông tin mối quan hệ phụ thuộc ngữ cảnh (contextual dependencies information) Hình 3.1 Kiến trúc mơ hình CNN kết hợp LSTM 42 Theo Hình 3.1, trình làm việc mơ sau: Input Layer: Đây lớp đầu vào mơ hình, tạo với kích thước max_feature 48 đại diện cho độ dài tối đa văn đầu vào Các đoạn văn biểu diễn dạng chuỗi số nguyên (index từ từ điển) Embedding Layer: Đây lớp nhúng (embedding) từ, sử dụng để biểu diễn từ văn dạng vector số Lớp sử dụng ma trận nhúng (embedding matrix) truyền vào không cập nhật (trainable=False) Điều có nghĩa ma trận nhúng sử dụng phép biến đổi tĩnh để biểu diễn từ Conv1D Layer: Đây lớp tích chập chiều với 256 lọc, kích thước cửa sổ hàm kích hoạt 'relu' Lớp tích chập giúp học đặc trưng từ cụm từ liên tiếp văn MaxPooling1D Layer: Sau lớp Conv1D, lớp MaxPooling1D sử dụng để giảm kích thước đầu tạo biểu diễn gộp đặc trưng học từ lớp Conv1D Dropout Layer: Lớp Dropout với tỷ lệ 0.5 sử dụng để tránh tượng overfitting trình huấn luyện Bidirectional LSTM Layers: Hai lớp LSTM đôi chiều sử dụng để mơ hình hóa thơng tin ngữ cảnh từ hai hướng từ văn Lớp LSTM có 128 đơn vị trả chuỗi kết (return_sequences=True) Lớp LSTM thứ hai có 64 đơn vị trả chuỗi kết Dense Layer: Sau hai lớp LSTM đơi chiều, có lớp Dense với 64 đơn vị hàm kích hoạt 'relu' Lớp giúp học biểu diễn cao cấp đặc trưng từ chuỗi đầu vào Output Layer: Lớp Dense cuối có kích thước đầu 4, áp dụng hàm kích hoạt sigmoid nếu aspect_only=True nếu aspect_only=False Các giá trị đầu có thể hiểu xác suất điểm số cho lớp đầu tương ứng 43 Kết mơ hình CNN kết hợp LSTM thử nghiệm tập test Hình 3.2: Kết mơ hình CNN kết hợp LSTM tập test • Mơ hình PhoBERT Mơ hình thứ hai dự án chúng tơi PhoBERT - mơ hình ngơn ngữ tiếng Việt dựa kiến trúc Transformer Được huấn luyện liệu tiếng Việt, PhoBERT giúp trích xuất biểu diễn từ vựng thông tin ngữ cảnh từ văn đầu vào Khả hiểu ngữ cảnh ý nghĩa từ ngôn ngữ tiếng Việt giúp mô hình xử lý phân tích quan điểm dựa khía cạnh cách hiệu Hình 3.3: Kiến trúc mơ hình PhoBERT 44 Theo Hình 3.3, q trình làm việc mơ sau: Input Layer: Model sử dụng lớp đầu vào cho thành phần BERT: - 'input_ids': Là đầu vào mã hóa từ văn thành số nguyên theo mã hóa từ vựng - 'token_type_ids': Là đầu vào mã hóa thơng tin loại token (đầu vào từ vựng đầu vào văn tiếp theo) cho việc sử dụng BERT - 'attention_mask': Là đầu vào để đánh dấu phần thông tin thực văn phần padding Các đầu vào xử lý lớp TFAutoModel từ thư viện Transformers Pretrained BERT: Model sử dụng mô hình BERT tải sẵn (pretrained) từ thư viện transformers Mơ hình đặt tên pretrained_bert tải với output_hidden_states=True, cho phép truy xuất hidden states BERT Hidden States: Sau đưa đầu vào qua pretrained_bert, hidden states BERT trích xuất lưu biến hidden_states Điều cho phép mô hình truy cập thơng tin ngữ cảnh từ tất lớp ẩn BERT Pooling Layer: Trong lớp này, ta ghép nối (concatenate) hidden states BERT từ lớp cuối (-4, -3, -2, -1) để tạo thành vector biểu diễn gộp văn Sau đó, lấy vector biểu diễn gộp (tương ứng với ký tự [CLS] đầu câu) để có biểu diễn cuối văn bản, lưu biến pooled_output Dropout Layer: Lớp Dropout với tỷ lệ 0.2 áp dụng lên pooled_output để giảm overfitting trình huấn luyện Output Layer: Đầu model lớp Dense với đơn vị hàm kích hoạt softmax Đầu ghép nối từ lớp Dense tương ứng với cột (labels) dataframe df_train Mỗi lớp Dense dự đoán xác suất lớp cho văn đầu vào BERT Model: Sử dụng mơ hình BERT xác định trước (pretrained_bert) từ thư viện Transformers Đầu vào truyền vào mơ hình BERT lấy hidden states mơ hình 45 Kết mơ hình thử nghiệm tập test Hình 3.4: Kết mơ hình PhoBert tập test Kiểm tra kết tập test Hình 3.5: Kiểm tra kết tập test 2.5 XÂY DỰNG ỨNG DỤNG CHO MƠ HÌNH PHÂN TÍCH QUAN ĐIỂM DỰA TRÊN KHÍA CẠNH - Độ xác mơ hình CNN kết hợp LSTM: 0.6846 - Độ xác mơ hình PhoBert: 0.8043 So sánh độ xác mơ hình chúng tơi thấy mơ hình PhoBert cho độ xác cao Vì chúng tơi chọn mơ hình PhoBert để xây dựng mơ hình phân tích quan điểm dựa khía cạnh người dùng sử dụng văn tiếng Việt 2.5.1 Thiết kế Chúng tơi sử dụng ngơn ngữ lập trình Python kết hợp với ngôn ngữ HTML, CSS JavaScript để xây dựng ứng dụng Phân tích ý kiến người dùng theo khía cạnh Quy trình thiết kế ứng dụng thực sau: 46 • Backend Sử dụng ngơn ngữ Python thư viện Flask để xây dựng phần backend ứng dụng Backend xử lý yêu cầu từ phía client gửi lại phản hồi tương ứng Backend tương tác với mơ hình lưu trữ để dự đoán trả kết phân tích ý kiến • Server Phần server ứng dụng xây dựng Python để hỗ trợ việc truy xuất mơ hình phân tích ý kiến lưu trữ Server cung cấp chức sau: Hiển thị trang phân tích văn bình luận trực tiếp: Cho phép người dùng nhập văn bình luận hiển thị kết phân tích ý kiến tương ứng Hiển thị kết quả: Nhận đầu vào câu phân tích trả kết phân tích ý kiến dựa mơ hình huấn luyện Hiển thị trang thống kê liệu phân: Hiển thị thông tin liệu huấn luyện kiểm tra sử dụng trình xây dựng mơ hình Qua quy trình thiết kế trên, chúng tơi tạo ứng dụng phân tích ý kiến người dùng theo khía cạnh, cho phép người dùng nhập bình luận nhận kết phân tích ý kiến tương ứng Hình 4.1 Phân tích thiết kế giao diện 47 Hình 4.2 Phân tích thiết kế chức 2.5.2 Thực Ở trang Aspect-Based Sentiment Analysis người dùng có thể nhập câu đánh giá vào “Review” sau nhấn “Predict” để xem kết phân tích ô “Result” chọn “Reset” để load lại trang Hình 4.3 Giao diện trang phân tích bình luận 48 Sau người dùng chọn “Predict” liệu tự động lưu vào database người dung có thể xem liệu lưu trang data Hình 4.4 Giao diện trang lưu trữ liệu Dữ liệu lưu trữ thống kế số liệu trang Statistics, người dung có thể xem thống kê khía cạnh đánh giá nhiều hay đa sơ cảm xúc khách hàng tích cực, tiêu cực hay trung lập để có thể cải thiện chất lượng dịch vụ, ăn nhà hàng Hình 4.5 Giao diện trang thống kê liệu 49 Phần 3: KẾT LUẬN KẾT QUẢ ĐẠT ĐƯỢC Đề tài "Phân tích quan điểm dựa khía cạnh người dùng" đạt số kết quan trọng việc phân tích ý kiến đánh giá từ người dùng khía cạnh khác Dưới số kết đáng ý: Phân tích quan điểm xác: Hệ thống phân tích quan điểm đạt mức độ xác đáng kể việc xác định phân loại quan điểm người dùng theo khía cạnh nhà hàng, khơng gian, đồ ăn, dịch vụ đồ uống Điều giúp người dùng có nhìn tổng quan ý kiến người khác khía cạnh cụ thể Giao diện người dùng thuận tiện: Ứng dụng thiết kế với giao diện người dùng thân thiện dễ sử dụng, giúp người dùng dễ dàng nhập liệu nhận kết phân tích cách nhanh chóng Các chức hiển thị trang mơ hình đánh giá kết quả, phân tích liệu huấn luyện kiểm tra, phân tích văn bình luận trực tiếp mang lại trải nghiệm tốt cho người dùng Tích hợp Flask Python: Sử dụng Flask ngôn ngữ lập trình Python giúp xây dựng phần backend server cách hiệu Flask cung cấp công cụ thư viện hỗ trợ mạnh mẽ, Python ngôn ngữ linh hoạt phổ biến lĩnh vực xử lý ngôn ngữ tự nhiên ƯU ĐIỂM VÀ NHƯỢC ĐIỂM • Ưu điểm Đáp ứng nhu cầu phân tích ý kiến: Đề tài giải quyết vấn đề quan trọng việc hiểu phân tích ý kiến người dùng khía cạnh cụ thể Điều có thể hỗ trợ quyết định kinh doanh, nâng cao chất lượng dịch vụ tạo trải nghiệm tốt cho khách hàng Mở rộng tùy chỉnh được: Hệ thống có khả mở rộng tùy chỉnh để phân tích quan điểm nhiều lĩnh vực khác cho khía cạnh khác Điều tạo tiềm ứng dụng rộng lớn linh hoạt cho cơng nghệ phân tích ý kiến • Nhược điểm: 50 Hạn chế ngơn ngữ: Hiện tại, hệ thống hỗ trợ phân tích quan điểm tiếng Việt Việc mở rộng hệ thống để hỗ trợ nhiều ngơn ngữ khác có thể thách thức yêu cầu công sức tài nguyên phát triển Độ xác phụ thuộc vào liệu: Độ xác hệ thống phân tích quan điểm phụ thuộc vào liệu huấn luyện Nếu liệu huấn luyện không đủ đại diện không cung cấp đủ thơng tin khía cạnh, kết phân tích có thể khơng xác khơng đầy đủ Độ phức tạp đánh giá: Đánh giá khía cạnh quan điểm người dùng có thể phụ thuộc vào ngữ cảnh có thể phức tạp Hệ thống cần cải tiến để xử lý trường hợp phức tạp đảm bảo tính tồn vẹn đắn kết phân tích Tuy có nhược điểm định, đề tài "Phân tích quan điểm dựa khía cạnh người dùng" mang lại nhiều ưu điểm tiềm phát triển việc hiểu phân tích ý kiến người dùng Việc tiếp tục nghiên cứu cải thiện hệ thống đóng góp vào phát triển lĩnh vực phân tích ý kiến ứng dụng trí tuệ nhân tạo HƯỚNG PHÁT TRIỂN Mở rộng khả phân tích khía cạnh: Hiện tại, đề tài tập trung vào số khía cạnh cụ thể nhà hàng, khơng gian, đồ ăn, dịch vụ đồ uống Tuy nhiên, có thể mở rộng hệ thống để phân tích hiển thị kết cho nhiều khía cạnh khác nhau, tùy thuộc vào lĩnh vực nhu cầu cụ thể người dùng Xử lý ngôn ngữ tự nhiên tiên tiến hơn: Nghiên cứu phương pháp mơ hình tiên tiến lĩnh vực xử lý ngôn ngữ tự nhiên có thể cải thiện độ xác hiệu suất hệ thống Các phương pháp BERT, Transformer mơ hình ngơn ngữ sâu có thể khám phá để cải thiện khả phân tích quan điểm hiểu ý kiến Mở rộng ứng dụng sang lĩnh vực khác: Đề tài có thể mở rộng để áp dụng nhiều lĩnh vực khác sản phẩm công nghệ, dịch vụ du lịch, phim ảnh, nhiều ngành công nghiệp khác Điều đòi hỏi việc thu thập xử lý liệu phù hợp cho lĩnh vực cụ thể Tích hợp hệ thống với liệu thời gian thực: Để đáp ứng nhu cầu người dùng, có thể tích hợp hệ thống với liệu thời gian thực từ nguồn mạng xã hội, diễn 51 đàn, trang đánh giá sản phẩm để cung cấp kết phân tích quan điểm cập nhật xác Tăng cường giao diện người dùng: Cải thiện giao diện người dùng để đảm bảo thuận tiện tương tác tốt cho người dùng Các tính phân tích văn bình luận trực tiếp, gợi ý phân tích khía cạnh, trực quan hóa liệu có thể phát triển để nâng cao trải nghiệm người dùng Tối ưu hóa hiệu suất mở rộng quy mơ: Đối với ứng dụng thực tế, cần nghiên cứu triển khai giải pháp tối ưu hóa hiệu suất mở rộng quy mô hệ thống Điều bao gồm việc tối ưu hóa mã nguồn, xử lý song song, triển khai hệ thống tảng phân tán LỜI KẾT Trong nghiên cứu phát triển ứng dụng phân tích quan điểm dựa khía cạnh người dùng, tiến hành xây dựng hệ thống mạnh mẽ hiệu Đề tài nhằm mục đích phân tích ý kiến người dùng theo khía cạnh cụ thể nhà hàng, không gian, đồ ăn, dịch vụ, đồ uống nhiều khía cạnh khác Qua q trình nghiên cứu, chúng tơi tìm hiểu phương pháp kỹ thuật xử lý ngôn ngữ tự nhiên, phân loại cảm xúc phân tích quan điểm Chúng tơi sử dụng mơ hình Machine Learning để xây dựng mơ hình phân loại phân tích quan điểm dựa liệu huấn luyện Để triển khai ứng dụng, chúng tơi sử dụng ngơn ngữ lập trình Python công nghệ Flask, HTML, CSS JavaScript Backend ứng dụng xây dựng Python sử dụng thư viện Flask để xử lý yêu cầu từ phía client Phần server xây dựng để truy xuất mơ hình lưu trữ trả kết phân tích ý kiến cho người dùng Qua q trình thiết kế phát triển, chúng tơi xây dựng thành cơng ứng dụng phân tích quan điểm dựa khía cạnh người dùng Ứng dụng cho phép người dùng nhập bình luận nhận kết phân tích ý kiến chi tiết khía cạnh mà họ quan tâm Điều giúp người dùng có nhìn tồn diện xác khía cạnh sản phẩm, dịch vụ kiện mà họ quan tâm 52 Đề tài “Ứng dụng học sâu cho tốn phân tích quan điểm” mang lại kết tích cực hữu ích việc hiểu ý kiến quan điểm người dùng Điều có thể ứng dụng nhiều lĩnh vực, từ công nghiệp du lịch, nhà hàng, sản phẩm cơng nghệ cho đến lĩnh vực trị xã hội Chúng hi vọng đề tài góp phần nâng cao khả hiểu tương tác với người dùng ứng dụng thực tế 53 TÀI LIỆU THAM KHẢO [1] Aston Zhang, Zachary C Lipton, Mu Li, Alexander J Smola, Dive into Deep Learning, https://d2l.djl.ai/ [2] Wikipedia, Sentiment analysis, https://en.wikipedia.org/wiki/Sentiment_analysis , 2022 [3] Wikipedia, Word2vec, https://vi.wikipedia.org/wiki/Word2vec, 2022 [4] Mayur Wankhade et al Annavarapu Chandra Sekhara Rao, A survey on sentiment analysis methods, applications, and challenges, https://link.springer.com/article/10.1007/s10462-022-10144-1 ,2022 [5] Ye Zhang et al Byron C Wallace, A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification, https://aclanthology.org/I17-1026.pdf, 2022 [6] Recurrent Neural Network (RNN) TensorFlow, https://websitehcm.com/recurrent-neural-network-rnn-trong-tensorflow/, 2022 [7] Akash Shastri, neural network architectures you need to know for NLP!, https://towardsdatascience.com/3-neural-network-architectures-you-need-toknow-for-nlp-5660f11281be, 2022 [8] Amazon Vietnam, Phân tích cảm xúc gì?, https://aws.amazon.com/vi/what-is/sentiment-analysis/, 2022 [9] FPT Digital, Xử lý ngơn ngữ tự nhiên: Cơng nghệ giúp máy tính hiểu giao tiếp với người, https://digital.fpt.com.vn/dxarticles/xu-ly-ngon-ngu-tunhien.html, 2022 [10] Ben Lutkevich, natural language processing (NLP), https://www.techtarget.com/searchenterpriseai/definition/natural-languageprocessing-NLP, 2021 [11] Bing Liu, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, May 2012 [12] Nguyễn Hưng, Deep Learning gì? Tổng quan Deep Learning từ A-Z, 21-04-2022, 30-12-2022, https://vietnix.vn/deep-learning-la-gi/ 54 [13] Topdev, Thuật tốn CNN gì? Cấu trúc mạng Convolutional Neural Network, 21-01-2022, 29-12-2022, https://topdev.vn/blog/thuat-toan-cnn- convolutional-neural-network/ [14] Vietnix, Thuật toán CNN gì? Tìm hiểu Convolutional Neural Network, 19-07-2022, 29-12-2022, https://vietnix.vn/cnn-la-gi/ [15] Tritueviet, Sử dụng mạng LSTM (Long Short Term Memory) để dự đoán số liệu hướng thời gian, 21-09-2022, 29-12-2022, http://trituevietvn.com/chi-tiet/su-dung-mang-lstm-long-short-term-memory-de-du-doan-so-lieu-huong-thoigian-123 [16] Bùi Quang Mạnh, Word Embedding - Tìm hiểu khái niệm NLP, 14-09-2020, 29-12-2022, https://viblo.asia/p/word-embedding-tim-hieu-khainiem-co-ban-trong-nlp-1Je5E93G5nL [17] Openbot , TF-IDF gì? , 02-08-2022, 29-12-2022, https://blog.openbot.vn/tf-idf-la-gi/ [18] Nguyễn Ngọc Hồi, Lê Đình Khang, “Phân tích quan điểm học sâu ứng dụng”, Khóa luận tốt nghiệp, Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh, năm 2022 [19] Nguyễn Văn Hiếu, Thuật tốn CNN xử lí ngơn ngữ tự nhiên, 01-07- 2023, https://blog.luyencode.net/thuat-toan-cnn-trong-nlp/ [20] Kelvin Jose, RNNs, LSTMs, CNNs, Transformers and BERT, 01-07-2023, https://medium.com/analytics-vidhya/rnns-lstms-cnns-transformers-and-bertbe003df3492b [21] Phạm Nam, Giải mã kiến trúc transformer paper Attention is all you need, 01-07-2023, https://viblo.asia/p/giai-ma-kien-truc-transformer-trong- paper-attention-is-all-you-need-RnB5pJeGZPG [22] Phạm Đình Khang, BERT model, https://phamdinhkhanh.github.io/2020/05/23/BERTModel.html#2gi%E1%BB%9Bi-thi%E1%BB%87u-v%E1%BB%81-bert 55 01-07-2023, S K L 0

Ngày đăng: 08/12/2023, 15:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w