1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng xử lý ngôn ngữ tự nhiên phân tích nhu cầu sử dụng dịch vụ viễn thông từ các bình luận trên mạng xã hội

74 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN PHẠM THẾ AN ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN PHÂN TÍCH NHU CẦU SỬ DỤNG DỊCH VỤ VIỄN THÔNG TỪ CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG – 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN PHẠM THẾ AN ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN PHÂN TÍCH NHU CẦU SỬ DỤNG DỊCH VỤ VIỄN THÔNG TỪ CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Hoàng Phước Lộc ĐÀ NẴNG – 2022 i LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới TS Hoàng Phước Lộc – Giảng viên trường Cao Đẳng Sư Phạm Quảng Trị, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn Tôi xin chân thành cảm ơn các thầy, cô ở Trường Khoa Học Máy Tính - Đại học Duy Tân đã cung cấp cho tôi những kiến thức và tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu Tôi xin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và tạo mọi điều kiện tốt nhất cho tôi Tôi xin chân thành cảm ơn! Đà Nẵng, tháng 10 năm 2021 Họ và tên Phạm Thế An ii LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi thực hiện dưới sự hướng dẫn của TS Hoàng Phước Lộc, Giảng viên trường Cao Đẳng Sư Phạm Quảng Trị Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc Đà Nẵng, tháng 10 năm 2021 Họ và tên Phạm Thế An iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC i DANH MỤC CÁC TỪ VIẾT TẮT .vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii DANH MỤC CÁC BẢNG viii MỞ ĐẦU 1 Chương 1 GIỚI THIỆU VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 4 1.1 Khái quát xử lý ngôn ngữ tự nhiên .4 1.1.1 Khái niệm 4 1.1.2 Trí tuệ nhân tạo 4 1.1.3 Nhập nhằng trong ngôn ngữ 5 1.1.4 Dịch máy .5 1.2 Quy trình xử lý ngôn ngữ tự nhiên .6 1.2.1 Tiền xử lý văn bản 6 1.2.2 Phân tích hình thái 7 1.2.3 Phân tíchcú pháp 8 1.2.4 Phân tích ngữ nghĩa 9 1.2.5 Tích hợp văn bản 11 1.2.6 Phân tích thực nghĩa 11 1.3 Các bài toán và ứng dụng của NLP 11 iv 1.4 Kết luận chương 1 13 Chương 2 MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ 14 2.1 Khái quát về tách từ Tiếng Việt .14 2.1.1 Các hướng tiếp cận với bài toán tách từ .15 2.1.2 Nhập nhằng trong tách từ Tiếng Việt 17 2.1.2 Loại bỏ Từ dừng 18 2.2 Một số phương pháp tách từ Tiếng Việt 18 2.2.1 Phương pháp mô hình Markov ẩn 18 2.2.2 Phương pháp chuyển dịch trạng thái hữu hạn có trọng số 20 2.2.3 Phương pháp so khớp cực đại 25 2.3 Phân lớp quan điểm 28 2.3.1 Khái niệm phân lớp quan điểm 28 2.3.2 Phương pháp phân lớp dựa vào cụm từ thể hiện quan điểm 28 2.3.3 Phân lớp dựa vào phân lớp văn bản 32 2.3.4 Phân lớp dựa vào hàm tính điểm số 32 2.3.5 Phân lớp dựa vào kỹ thuật học máy 33 2.4 Kết luận chương 2 40 Chương 3 MÔ HÌNH ĐỀ XUẤT 41 3.1 Mô hình hệ thống .41 3.1.1 Giới thiệu 41 3.1.2 Mô hình hệ thống 42 3.2 Thu thập bình luận 43 3.2.1 Tiền xử lý dữ liệu 44 v 3.2.2 Tách từ tiếng Việt 45 3.3 Phân lớp phản hồi, bình luận 46 3.4 Thử nghiệm và đánh giá kết quả 49 3.4.1 Thu thập dữ liệu 49 3.4.2 Cài đặt giải thuật NaiveBayes 50 3.4.3 Cài đặt giải thuật Support Vector Machines (SVM ) 52 3.4.4 Cài đặt giải thuật Fasttext 53 3.4.5 Đánh giá các giải thuật 56 3.4.6 Về ưu điểm của mô hình áp dụng: 57 3.4.7 Về nhược điểm của mô hình áp dụng: 58 3.5 Kết luận chương 3 58 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 Kết luận 59 Hướng phát triển 59 TÀI LIỆU THAM KHẢO vi DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Ý nghĩa Natural language processing (Xử lý ngôn ngữ tự NLP nhiên) Part – Of – Speech (Từ loại) POS Suppor vector Machine (Phương pháp sử dụng Máy học) SVM Artificial intelligence (Trí thông minh nhân tạo) Hidden Markov Models AI Weighted Finite State Transducer HMM Conditional Random Fields WFST Pointwise mutual information (Chuẩn hóa thông tin CRF lẫn nhau) Hypertext Markup Language PMI HTML vii DANH MỤC CÁC BẢNG Bảng 2.1- Bảng các nhãn từ loại của Pennn TreebankBảng 29 Bảng 2.2 - Nhãn của mẫu cho trích chọn với cụm có hai từ 30 Bảng 3.1 - Thống kê dữ liệu thu thập trên các nhãn 49 Bảng 3.2 - Bảng đánh giá kết quả thực thi các giải thuật 56 viii DANH MỤC CÁC HÌNH VẼ, ĐỒ TH Hình 1.1 - Các bước xử lý văn bản 15 Hình 1.2 - Cây cú pháp của câu "Nam là sinh viên giỏi" 18Y Hình 2.1 - Mô hình Markov ẩn 19 Hình 2.2 - Đồ thị vô hướng HMM 19 Hình 2.3 - Sơ đồ mô hình WFST 21 Hình 2.4 - Mô hình máy vector hỗ trợ khả tách tuyến tính 37 Hình 2.5 - Phương pháp lề mềm 3 Hình 3.1 - Mô hình khai thác nhu cầu của các bình luận trên mạng xã hội 42 Hình 3.2 - Các bước thu thập bình luận 43 Hình 3.3 - Sơ đồ huấn luyện cơ sở tri thức 47 Hình 3.4 - Sơ đồ xác định nhu cầu theo câu bình luận 48 Hình 3.5 - Thống kê dữ liệu thu thập trên các nhãn 50 Hình 3.6 - Cài đặt giải thuật Naive Bayes .51 Hình 3.7 – Cài đặt giải thuật SVM 53 Hình 3.8 - Kiến trúc mô hình của fastText cho một câu với các thuộc tính từ ngram x1, x2,…,xN .54 Hình 3.9 - Các word được tách ra từ câu “this is a sentence” với n=3 55 Hình 3 10 - Cài đặt giải thuật Fasttext 56

Ngày đăng: 08/03/2024, 16:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w