1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích ý kiến bình luận của người dùng trực tuyến sử dụng mô hình BERT

66 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 17,26 MB

Nội dung

TOT NGHIEP DAI HOC Dé tai: “Phân tích ý kiến bình luận của người dùng trực tuyến sử dung mô hình BERT” GVHD: Ths Nguyễn Thị Trang Sinh viên: NguyThễị n Hà Ma SV: B17DCCN192 Lớp: D17HTTT6 Niên khóa: 2017 — 2022 Hé dao tao: Dai hoc chinh quy Hà Nội — 01/2022 TOT NGHIEP DAI HOC Đề tai: “Phân tích ý kiến bình luận của người dùng trực tuyến sử dung mô hình BERT” GVHD: Ths Nguyễn Thị Trang Sinh viên: Nguyễn Thị Hà Ma SV: B17DCCN192 Lớp: D17HTTT6 Niên khóa: 2017 — 2022 Hé dao tao: Dai hoc chinh quy Hà Nội — 01/2020 LỜI CẢM ƠN Lời đầu tiên, em xin bày tỏ sự cảm ơn chân thành đối với cô giáo ThS Nguyễn Thị Trang — giáo viên hướng dẫn trực tiếp của em, đã có những chỉ dẫn góp ý giúp em có thể hoàn thiện được đồ án Em cũng xin gửi lời cảm ơn tới các thầy cô trong khoa Công nghệ thông tin, Học Viện Công Nghệ Bưu Chính Viễn Thông đã chỉ bảo và tạo điều kiện cho em học tập tại trường trong suôt thời gian qua Mặc dù đã cố gắng hoàn thành đồ án nhưng chắc chắn sẽ không tránh khỏi những thiêu sót, em kính mong nhận được sự thông cảm và chỉ bảo của các thây cô và các bạn Em xin chân thành cảm ơn! Hà Nội, 01/2022 Sinh viên thực hiện Nguyễn Thị Hà LỜI CAM ĐOAN Tôi xin cam đoan đây là đồ án của bản thân thực hiện Các số liệu, kết quả trình bày trong đô án là trung thực và chưa từng được ai công bô trong bât kỳ công trình nào trước đây Hà Nội, tháng 01 năm 2022 Sinh viên thực hiện Nguyễn Thị Hà NHẬN XÉT, ĐÁNH GIA, CHO DIEM (của giảng viên hướng dẫn) Điểm: (bằng chữ ) Hà Nội, tháng 01 năm 2022 Giảng viên hướng dẫn ThS Nguyễn Thị Trang NHAN XÉT, ĐÁNH GIÁ (của giảng viên phản biện) Hà Nội, tháng 01 năm 2022 Giảng viên phản biện Lá Tóm tắt Việc trích xuất ý kiến tâm lý khách hàng từ văn bản, bình luận là bài toán phân tích ý kiến khách hàng, với đầu vào là các văn ban thô có những thông tin về sản pham, về ý kiến của khách hàng, đánh giá về doanh nghiệp Thông thường ta cần phải xác định xem thông tin đó là tích cực, tiêu cực, hay trung tính Trong đồ án này sẽ thực nghiệm một số giải pháp dé giải quyết bài toán này Đây không phải là một bài toán mới, mà nó đã và đang được phát triển mạnh mẽ trong tiếng Anh, và cũng đã có nhiều nghiên cứu áp dụng cho Tiếng Việt với nhiều phương pháp Tuy nhiên đồ án sẽ thực nghiệm cùng với mô hình BERT, được đánh giá là có tiềm năng hiệu của cao trong những năm gần đây và so sánh với các phương pháp được sử dụng trước đó cho ngôn ngữ Tiếng Việt Phân tích ý kiến cũng là một trong những công tác quan trọng trong lĩnh vực NLP, có ý nghĩa quan trọng trong học thuật, nghiên cứu và trong các ngành công nghiệp — dịch vụ, với sự quan trọng và nhu cầu cần thiết của bài toán và có nhiều tiềm năng để thực nghiệm/nghiên cứu các mô hình/kỹ thuật mới vì vậy em đã thử nghiệm đối với bài toán này Trong đồ án này, đồ án sẽ trình bày về các kiến thực cơ bản về học máy, từ các phương pháp truyền thống đến mạng noron học sâu, áp dụng cho bài toán về xử lí ngôn ngữ tự nhiên này Tiếp theo đồ án sẽ trình bày cụ thé về phương pháp BERT, sau đó là tiễn hành thực nghiệm các phương pháp SVM, LSTM, CNN, Navie Bayes, BERT trên tập dir liệu tiếng việt và cuối cùng là đánh giá so sánh các phương pháp với nhau Sau khi thu được kết quả, thực nghiệm của phương pháp BERT với độ chính xác là 86,1%, độ đo F1 là 85,35% với bộ dữ liệu Foody và độ chính xác là 87,18%, độ đo F1 là 78,48% với bộ dir liệu thé giới di động, phần nào chứng minh được độ hiệu quả của phương pháp, và tiềm năng dé áp dụng nâng cao chất lượng phân loại Cuối dùng là phân kết luận sẽ tóm lược những kết quả đạt được của đồ án, chỉ ra các hạn chế và đưa ra định hướng phát triển trong thời gian sắp tới Từ khóa: Xử lí ngôn ngữ tự nhiên, phân loại văn bản, phân tích ý kiến bình luận Danh sách các thuật ngữ viết tắt STT | Từ viết tắt Tiếng Anh Tiếng Việt/ Giải thích 1 BERT Bidirectional Encoder | Biéu diễn mã hóa hai chiều từ 2 CNN Representations from | Transformer 3 GPU Transformers 4 GRU Convolutional Neural | Mạng than kinh tích chập Network Bộ xử lý đồ họa Graphics Processing Unit Gated Recurrent Units | mạng lưới thân kinh tái phát 5 KNN K-Nearest Neighbors Thuật toán K lang giêng gần nhất 6 LSTM Long Short Term Mang bộ nhớ dai-ngan 7 NLP Memory networks Xu lý ngôn ngữ tự nhiên 8 RNN Natural language Mang no-ron hoi quy processing 9 SVM Máy vector hỗ trợ RNN - Recurrent 10 | TF-IDF Tần suất thuật ngữ - Tần suất tài Neural Network liệu nghịch đảo Support Vector Machine Term Frequency — Inverse Document Frequency DANH SÁCH HÌNH VE: Hình 1: Biéu đồ thé hiện sự phụ thuộc vào dt liệu ảnh hưởng đến hiệu suất của các 105658011177 -1L .A 6 Hình 2: Mô hình SVM nhị phân -.- G.6 2c 1.211.19 111 111 2 1111.11.91.H.H.n g.ư 8 Hình 3: Ví dụ minh họa một mô hình mang noron CNN «+.

Ngày đăng: 08/03/2024, 13:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w