1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu và ứng dụng Deep Learning trong tổng hợp ý kiến khách hàng điện tử: Trường hợp bài toán dịch vụ khách sạn

7 38 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 7
Dung lượng 451,82 KB

Nội dung

Bài viết sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên trong việc thu thập và trích xuất thông tin bình luận trên văn bản tiếng Việt, thực nghiệm trên tập dữ liệu của bài toán dịch vụ khách sạn. Ứng dụng Deep Learning với các mô hình mạng Neural DNN, CNN, Bi-LSTM để phân lớp sắc thái bình luận là tích cực hay tiêu cực, với kết quả độ chính xác đạt 96%.

Trường Đại học Kinh tế - Đại học Đà Nẵng NGHIÊN CỨU VÀ ỨNG DỤNG DEEP LEARNING TRONG TỔNG HỢP Ý KIẾNKHÁCH HÀNG ĐIỆN TỬ: TRƯỜNG HỢP BÀI TOÁN DỊCH VỤ KHÁCH SẠN AN APPLICATION OF NATURAL LANGUAGE PROCESSING, DEEP LEARNINGAND RULE-BASED FOR SENTIMENT ANALYSIS OF ONLINE CUSTOMER REVIEWS: A CASE STUDY FROM HOTEL SERVICE GVHD: Nguyễn Thành Thủy SVTH: Trần Thị Châu Giang, Ngô Triệu Long, Nguyễn An Phú, Trương Đình Hồng, Nguyễn Mạnh Dần Trường Đại học Kinh tế - Đại học Đà Nẵng thuynt@due.edu.vn TÓM TẮT Thời đại kết nối sức mạnh hiệu ứng cộng đồng, truyền miệng phương thức marketing hiệu Ngày nay, bình luận đánh giá khách hàng trải nghiệm họ hàng hóa – dịch vụ phương tiện truyền thông xã hội trọng Chúng nguồn tham khảo quan trọng, mang lại định cho lựa chọn khách hàng mới, sở để xây dựng cải tiến chất lượng dịch vụ nhằm gia tăng hài lòng trung thành khách hàng doanh nghiệp Trong nghiên cứu này, sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên việc thu thập trích xuất thơng tin bình luận văn tiếng Việt, thực nghiệm tập liệu toán dịch vụ khách sạn Ứng dụng Deep Learning với mơ hình mạng Neural DNN, CNN, Bi-LSTM để phân lớp sắc thái bình luận tích cực hay tiêu cực, với kết độ xác đạt 96% Ứng dụng kỹ thuật Rule-Based để phân tách thực thể, làm sở cho việc chấm điểm chất lượng dịch vụ dựa mức độ hài lòng khách hàng Từ khóa: NLP, Deep Learning, CNN, DNN, Bi-LSTM, Rule-Based ABSTRACT In the age of connection, word of mouth is always one of the best effective marketing methods via the community power Recently, customers’ reviews about their real experience on goods or services on social media are highly focused They are not only a trustful reference source for a new customer on making decisions but also an important information for managers to maintain and improve their service quality which can increase customer satisfaction and gain loyal customers In this study, we use Natural Language Processing techniques in collecting, extracting online comments (in Vietnamese), and experimenting on the hotel reviews data set We apply Neural Networks models in Deep Learning like DNN, CNN, Bi-LSTM to classify a review as a positive or a negative, with approximately 96% accuracy Finally, Rule-based technology is used to separate and recognize objects, making a basis for grading hotel service quality We conclude by comparing accuracy of different strategic models and discuss about the result after grading service quality of group of 3-star hotels in Danang, Vietnam Keywords: NLP, Deep Learning, CNN, DNN, Bi-LSTM, Rule-Based 156 Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019 Giới thiệu Các doanh nghiệp lĩnh vực khách sạn năm chi khoản chi phí vơ lớn việc hoàn thiện nâng cao chất lượng dịch vụ khách sạn Nhưng để việc làm thực hiệu với số tiền doanh nghiệp bỏ ra, họ phải cân nhắc đến cảm nhận thực khách hàng trải nghiệm, điều phản ánh xác tình trạng khách sạn: làm tốt mặt hạn chế điều gì? Ứng dụng mơ hình Deep Learning vào việc xây dựng hệ thống phần mềm hỗ trợ trích xuất thơng tin, phân loại phân tích cách tự động liệu nhận xét, đánh giá (review) trực tuyến khách hàng dạng văn (ngôn ngữ tiếng Việt) mức độ hài lòng: trường hợp toán dịch vụ khách sạn Bài nghiên cứu tập trung giải mục tiêu cụ thể sau: - Xác định review tích cực (Positive) hay tiêu cực (Negative); - Tách đối tượng (được gom thành nhóm đối tượng: nhân viên, phịng nghỉ, tiện lợi, dịch vụ) có xuất review; - Chấm điểm khách sạn dựa số review tích cực tiêu cực; chấm điểm tiêu chí (đối tượng), dựa theo mức độ hài lòng thể review khác hàng cho khách sạn cụ thể Đối tượng nghiên cứu: - Các công nghệ kỹ thuật thiết kế hệ thống phân tích tự động; - Cơng nghệ trích xuất thơng tin tự động (Data Crawling); - Lý thuyết xử lý ngôn ngữ tự nhiên với ngôn ngữ tiếng Việt, đánh giá mặt ngữ nghĩa câu; - Lý thiết học máy (Deep Learning), lý thuyết khai phá liệu (Data Mining) giúp tối ưu trí tuệ nhân tạo việc phân tích đưa kết Bài nghiên cứu thực phạm vi trang web khách sạn, resort địa bàn thành phố Đà Nẵng; website chun cho việc đặt phịng trực tuyến có hỗ trợ tiếp nhận ý kiến phản hồi từ khách hàng ngôn ngữ tiếng Việt Về mặt ý nghĩa khoa học, nghiên cứu thực nghiệm giả thuyết kỹ thuật xử lý trích xuất liệu tự động, xử lý ngôn ngữ tự nhiên, kỹ thuật học máy, khai phá liệu huấn luyện trang bị khả tự học cho hệ thống Ngoài ra, từ kết nghiên cứu, doanh nghiệp tối ưu hóa chi phí, tăng hiệu suất hiệu hoạt động kinh doanh dịch vụ trải nghiệm khách hàng điện tử Cơ sở lý thuyết phương pháp nghiên cứu 2.1 Cơ sở lý thuyết 2.1.1 Trích xuất liệu tự động (Crawler) Crawler từ để ám cơng cụ (phần mềm, modules, plugins) có chức tự động phân tích liệu từ nguồn nội dung sau bóc tách thơng tin cần thiết theo tiêu chí mà lập trình viên hệ thống thiết lập Quá trình thực gọi Web Crawling hay Spidering 2.1.2 Xử lý ngôn ngữ tự nhiên – ngôn ngữ Tiếng Việt: Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - cơng cụ hồn hảo tư giao tiếp [6] Xử lý ngôn ngữ kỹ thuật quan trọng nhằm giúp máy tính hiểu ngơn ngữ người, qua hướng dẫn máy tính thực giúp đỡ người công việc 157 Trường Đại học Kinh tế - Đại học Đà Nẵng có liên quan đến ngơn ngữ như: dịch thuật, phân tích liệu văn bản, nhận dạng tiếng nói, tìm kiếm thơng tin, [6] 2.1.3 Phương pháp Học sâu – Deep Learning Deep Learning kỹ thuật máy học (Machine Learning) mạnh mẽ nhiều người ngành biết đến nghiên cứu Với khả biểu diễn thông tin (Represent Problem/Feature Engineering) học (Learning) Bên cạnh lĩnh vực gặt hái nhiều thành công xử lý ảnh số video số, hay xử lý tiếng nói, áp dụng vào xử lý ngôn ngữ tự nhiên Ngày tốn lĩnh vực Machine Learning nói chung Deep Learning nói riêng chia làm loại là: Supervised Learning, Unsupervised Learning, Reinforcement Learning Bài nghiên cứu tập trung vào toán phân loại nhánh Supervised Learning 2.1.4 Nhận diện thực thể chấm điểm chất lượng dịch vụ: Các bình luận ảnh hưởng đến hầu hết giai đoạn mô hình 5A (nhận biết (aware), thu hút (appeal), tìm hiểu (ask), hành động (act) ủng hộ (advocate)) Mỗi định đưa bị ảnh hưởng yếu tố bên bên [4] Trong việc lựa chọn khách sạn, ngồi sở thích, điều kiện cá nhân phù hợp, hiển nhiên bị thu hút nơi có điểm đánh giá cao Xây dựng cải tiến chất lượng dịch vụ xem vấn đề quan trọng kinh doanh nói chung kinh doanh khách sạn nói riêng nhắm gia tăng hài lòng trung thành khách hàng doanh nghiệp Những tín hiệu việc lựa chọn khách sạn khách hàng gồm: Phòng nghỉ, Nhân viên, Đồ ăn thức uống, Các dịch vụ giá trị gia tăng, An ninh Sự tiện lợi [3] Từ nhóm nghiên cứu chia nhân tố thành nhóm chính: Phịng nghỉ, Nhân viên, Sự tiện lợi Dịch vụ Sau nhận diện thực thể (các nhân tố ảnh hưởng đến hài lịng khách hàng), chúng tơi tiến hành chấm điểm đối tượng theo cách quy tắc: điểm cộng (+) cho đối tượng xuất bình luận tích cực, điểm trừ (-) bình luận tiêu cực 2.2 Phương pháp thực 2.2.1 Phương pháp trích xuất liệu tự động – Scrapy Framework Scrapy framework viết Python, cấp sẵn cấu trúc tương đối hoàn chỉnh để thực việc crawl extract data từ website cách nhanh chóng dễ dàng 2.2.2 Phương pháp xử lý ngôn ngữ tự nhiên Ứng dụng thư viện xây dựng sẵn cho xử lý tiếng Việt (VNTokenizer, PosTagging) kết hợp với số kỹ thuật nhóm tự nghiên cứu xây dựng để tiền xử lý liệu Dữ liệu kiểu text chuyển hóa thành vector để máy hiểu xử lý thơng qua WordEmbbeding 2.2.3 Phương pháp xây hình mơ hình phân lớp: Ứng dụng kỹ thuật DNN, CNN Bi-LSTM Deep Learning kết hợp với kỹ thuật điều chỉnh tham số để tiến hành huấn luyện phân lớp liệu 2.2.4 Phương pháp tách vế câu nhận diện thực thể: Sử dụng công cụ phổ biến Regular Expression (còn gọi biểu thức quy) để tiến hành tách câu Cơng cụ cú pháp dùng để so khớp chuỗi tập chuỗi Phương pháp tách câu nhóm tiến trình gồm bước sau: Bước 1: Tạo danh sách gồm: giới từ (từ nối tương phản), dấu kết thúc câu (dấu chấm, dấu chấm thang, dấu chấm phẩy, ) Bước 2: Sử dụng Regular Expression để tiến hành tách câu dựa vào danh sách tạo 158 Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019 Đối với vấn đề nhận diện thực thể, sử dụng phương pháp Rule-Based để xác định số lần xuất đối tượng (nhân tố ảnh hưởng), để đánh giá bình luận nhắc tới đối tượng ghi điểm cho đối tượng Kết đánh giá 3.1 Kết 3.1.1 Kết thực nghiệm phân lớp liệu mơ hình neural network Bảng Kết hiệu suất mơ hình Deep Learning Tên mơ hình F1-Score DNN 0.961 Bi-LSTM 0.955 CNN 0.954 Dựa vào kết thực nghiệm tập liệu, đưa độ xác mơ hình mạng neural bảng với thang đo từ 0-100, nhìn độ xác mơ hình mạng neural, với liệu DNN cho kết tốt Nhưng kết chênh lệch không khác điều chưa thể kết luận mạng DNN tốt CNN Bi-LSTM 3.1.2 Kết thực nghiệm nhận diện thực thể chấm điểm chất lượng dịch vụ: Bảng Kết chấm điểm chất lượng dịch vụ theo nhân tố theo câu bình luận (Trích) 159 Trường Đại học Kinh tế - Đại học Đà Nẵng Mỗi câu bình luận có nhiều vế, vế (có thể) có nhiều ý khác có nhập nhằng cảm xúc negative positive câu Để khắc phục vấn đề này, tách câu thành nhiều vế phân tích độc lập nhằm tăng độ xác Dưới kết phân tích khách sạn (3 sao) Đà Nẵng: Hoàng Quân, LaMaison, Lamuno, AnaMaison: Bảng cho thấy tỷ lệ số lượng bình luận tích cực tiêu cực khách sạn AnaMaison, LaMaison, Lamuno đồng đều, nhiên, có chêch lệch lớn khách sạn Hồng Qn số lượng bình luận tiêu cực gần gấp đơi số lượng bình luận tích cực 160 Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019 Kết phân tích cho thấy, nhóm nhân tố như: Nhân viên, CSVC Dịch vụ, Khách sạn Lamuno có số lượng bình luận tích cực cao nhất, đồng thời số lượng bình luận tiêu cực hầu hết thấp khách sạn lại Mặt khác, khách sạn Hồng Qn lại có số lượng bình luận tiêu cực cao nhóm nhân tố số lượng bình luận tích cực thấp Đây điều đáng lưu ý với doanh nghiệp khách sạn khách hàng chất lượng dịch vụ 3.2 Đánh giá Đề tài nghiên cứu thực nghiệm giải thuật mạng Neural, việc phân tích sắc thái phân loại bình luận văn tiếng Việt dịch vụ khách sạn - lưu trú Phục vụ cho yêu cầu đánh giá mức độ biểu cảm người dùng thông qua website đặt phịng khách sạn trực tuyến, từ làm sở cho việc chấm điểm mức độ hài lòng chất lượng dịch vụ khách sạn – lưu trú khách hàng điện tử Dựa việc nghiên cứu sở lý thuyết công nghệ liên quan, đề tài xây dựng mơ hình mạng neural CNNs, RNNs, ANNs nghiên cứu thực nghiệm việc kết hợp mạng để phân loại văn bản, cho kết đáp ứng mục tiêu đề Kết luận 4.1 Kết đạt đề tài: - Xây dựng mơ hình deep learning thực nghiệm tập liệu với 14,000 câu văn bình luận (tiếng Việt); xác định sắc thái cảm xúc tích cực hay tiêu cực; kết dự đốn với độ xác (accuracy) đo lường đạt 96%; - Sử dụng kỹ thuật Rule-based để phân tách thực thể (nhân tố ảnh hưởng đến chất lượng dịch vụ) câu văn bản, từ gom thành nhóm thực thể, làm sở cho việc chấm điểm chất lượng dịch vụ dựa mức độ hài lòng khách hàng; - Thực nghiệm chấm điểm chất lượng dịch vụ cho khách sạn địa bàn thành phố Đà Nẵng, dựa bình luận phản hồi chất lượng dịch vụ khách hàng khách sạn tương ứng; 4.2 Hạn chế: Một số vấn đề ảnh hưởng đến q trình huấn luyện kết dự đoán: - Tập liệu huấn luyện dựa tập gán nhãn (tiêu cực/ tích cực) người viết nhận xét; - Sự nhập nhằng mặt ngữ nghĩa ngôn ngữ tiếng Việt; - Lỗi tả, từ viết tắt, từ địa phương, từ đồng nghĩa, sai ngữ pháp, chưa giải hiệu quả; - Đề tài dừng lại việc phân loại với mức độ cảm xúc (tiêu cực/tích cực) 4.3 Hướng phát triển đề tài - Nâng cao chất lượng chuẩn hóa liệu, giải nhập nhằng mặt ngữ nghĩa, lỗi tả, từ viết tắt, ; - Mở rộng phân loại mức độ cảm xúc thang đo Likert mức độ; Ứng dụng kỹ thuật nhận diện thực thể (Named-entity recognition – NER) hiệu nhằm tăng độ xác chấm điểm chất lượng dịch vụ; TÀI LIỆU THAM KHẢO [1] Alia Karim Abdul Hassan, Ahmed Bahaa aldeen abdulwahhab, 2017, “Reviews Sentiment analysis for collaborative recommender system”, DOI: 10.24017/science.2017.3.22; [2] Nguyễn Thái Ân, 2017, “Ứng dụng Deep Learning cho phân tích cảm xúc với liệu twitter”, Học viện Bưu Viễn thơng; 161 Trường Đại học Kinh tế - Đại học Đà Nẵng [3] Lê Văn Huy, Nguyễn Duy Quang, 2011, “Nghiên cứu nhân tố tác động đến hài lòng khách du lịch quốc tế khách sạn 4-5 sao: nghiên cứu thực tiễn Green Plaza – Đà Nẵng”; [4] Philip Kotler, 2017, “Tiếp Thị 4.0”, NXB Trẻ; [5] Nguyễn Thạc Dân Thành, 2013, “Sentiment classification for vietnamese user reviews and its application to a sentiment analysis system”, Đại học Công nghệ, Đại học Quốc gia Hà Nội; [6] Vũ Hữu Tiệp, 2019, “Machine Learning bản”, NXB Khoa học Kỹ thuật; [7] Vikram Elango, Govindrajan Narayanan, 2016, “Sentiment Analysis for Hotel Reviews”; 162 ... mức độ hài lòng khách hàng; - Thực nghiệm chấm điểm chất lượng dịch vụ cho khách sạn địa bàn thành phố Đà Nẵng, dựa bình luận phản hồi chất lượng dịch vụ khách hàng khách sạn tương ứng; 4.2 Hạn... liệu nhận xét, đánh giá (review) trực tuyến khách hàng dạng văn (ngơn ngữ tiếng Việt) mức độ hài lịng: trường hợp toán dịch vụ khách sạn Bài nghiên cứu tập trung giải mục tiêu cụ thể sau: - Xác... ý với doanh nghiệp khách sạn khách hàng chất lượng dịch vụ 3.2 Đánh giá Đề tài nghiên cứu thực nghiệm giải thuật mạng Neural, việc phân tích sắc thái phân loại bình luận văn tiếng Việt dịch vụ

Ngày đăng: 10/12/2021, 09:35

HÌNH ẢNH LIÊN QUAN

Bảng 1. Kết quả hiệu suất của các mô hình Deep Learning - Nghiên cứu và ứng dụng Deep Learning trong tổng hợp ý kiến khách hàng điện tử: Trường hợp bài toán dịch vụ khách sạn
Bảng 1. Kết quả hiệu suất của các mô hình Deep Learning (Trang 4)
3.1.1. Kết quả thực nghiệm phân lớp dữ liệu trên mô hình neural network - Nghiên cứu và ứng dụng Deep Learning trong tổng hợp ý kiến khách hàng điện tử: Trường hợp bài toán dịch vụ khách sạn
3.1.1. Kết quả thực nghiệm phân lớp dữ liệu trên mô hình neural network (Trang 4)
Bảng 3. cho thấy tỷ lệ giữa số lượng bình luận tích cực và tiêu cực của các khách sạn AnaMaison, LaMaison, và Lamuno là khá đồng đều, tuy nhiên, có sự chêch lệch lớn đối với khách sạn Hoàng Quân vì số  lượng bình luận tiêu cực gần gấp đôi số lượng bình lu - Nghiên cứu và ứng dụng Deep Learning trong tổng hợp ý kiến khách hàng điện tử: Trường hợp bài toán dịch vụ khách sạn
Bảng 3. cho thấy tỷ lệ giữa số lượng bình luận tích cực và tiêu cực của các khách sạn AnaMaison, LaMaison, và Lamuno là khá đồng đều, tuy nhiên, có sự chêch lệch lớn đối với khách sạn Hoàng Quân vì số lượng bình luận tiêu cực gần gấp đôi số lượng bình lu (Trang 5)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w