1. Trang chủ
  2. » Mẫu Slide

Luận Văn Thạc Sĩ Khoa Học Dữ Liệu Ứng Dụng Học Máy Và Xử Lý Ngôn Ngữ Tự Nhiên Trong Việc Nhận Diện Mức Độ Hài Lòng Của Du Khách Tại Các Khách Sạn Thông Qua Các Lời Bình Luận Và Nhận Xét

108 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng học máy và xử lý ngôn ngữ tự nhiên trong việc nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét
Tác giả Tạ Phước Ánh
Người hướng dẫn TS. Lê Thị Quỳnh Liên
Trường học Đại học Huế, Khoa Kỹ thuật và Công nghệ
Chuyên ngành Ứng dụng Khoa học Dữ liệu
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2023
Thành phố Huế
Định dạng
Số trang 108
Dung lượng 4,29 MB

Cấu trúc

  • PHẦN I MỞ ĐẦU (14)
    • 1. T ÍNH CẤP THIẾT CỦA ĐỀ TÀI (14)
    • 2. M ỤC TIÊU NGHIÊN CỨU (15)
      • 2.1. M ỤC TIÊU CHUNG (15)
      • 2.2. M ỤC TIÊU CỤ THỂ (15)
    • 3. Đ ỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU (16)
      • 3.1. Đ ỐI TƯỢNG NGHIÊN CỨU (16)
      • 3.2. P HẠM VI NGHIÊN CỨU (16)
    • 4. P HƯƠNG PHÁP NGHIÊN CỨU (17)
    • 5. K ẾT CẤU LUẬN VĂN (17)
  • PHẦN II NỘI DUNG NGHIÊN CỨU (18)
    • CHƯƠNG 1. THỰC TRẠNG VÀ CƠ SỞ LÝ THUYẾT (18)
      • 1.1. T ỔNG QUAN TÌNH HÌNH NGHIÊN CỨU TRÊN THẾ GIỚI VÀ TRONG NƯỚC (18)
        • 1.1.1. Tình hình nghiên cứu trên thế giới (18)
        • 1.1.2. Tình hình nghiên cứu tại Việt Nam (20)
      • 1.2. T HỰC TRẠNG VỀ NGÀNH DU LỊCH Ở V IỆT N AM (22)
        • 1.2.1. Hệ thống khách sạn tại Việt Nam (22)
        • 1.2.2. Đặc điểm khách du lịch quốc tế (22)
        • 1.2.3. Đặc điểm khách du lịch nội địa (24)
      • 1.3. T ÍNH CẤP THIẾT CỦA VIỆC NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN (25)
      • 1.4. T ỔNG QUAN VỀ T RIP A DVISOR (26)
        • 1.5.1. Công cụ, phần mềm (27)
        • 1.5.2. Tổng quan về kỹ thuật thu thập dữ liệu website (31)
        • 1.5.3. Tổng quan về các kỹ thuật xử lý ngôn ngữ tự nhiên (34)
        • 1.5.4. Tổng quan về các mô hình học máy (45)
      • 1.6. Ứ NG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ MÔ HÌNH HỌC MÁY (49)
    • CHƯƠNG 2. ĐỀ XUẤT MÔ HÌNH NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN THÔNG QUA CÁC LỜI BÌNH LUẬN TRÊN TRIPADVISOR (50)
      • 2.1. Đ Ề XUẤT MÔ HÌNH NGHIÊN CỨU (50)
      • 2.2. G IAI ĐOẠN 1: T HU THẬP DỮ LIỆU VÀ GÁN NHÃN (50)
        • 2.2.1. Quá trình thu thập dữ liệu (50)
        • 2.2.2. Gắn nhãn dữ liệu (52)
      • 2.3. G IAI ĐOẠN 2: T IỀN XỬ LÝ DỮ LIỆU (53)
        • 2.3.1. Phân tích và lấy mẫu dữ liệu (53)
        • 2.3.2. Làm sạch dữ liệu (53)
        • 2.3.3. Trích chọn tập con đặc trưng (54)
        • 2.3.4. Biến đổi thuộc tính dữ liệu (55)
      • 2.4. G IAI ĐOẠN 3: T RÍCH XUẤT ĐẶC TRƯNG VĂN BẢN (55)
        • 2.4.1. Trích xuất đặc trưng bằng Embedding (55)
        • 2.4.2. Trích xuất đặc trưng bằng GloVe (56)
        • 2.4.3. Trích xuất đặc trưng bằng TF-IDF (56)
      • 2.5. G IAI ĐOẠN 3: H UẤN LUYỆN VÀ KIỂM THỬ MÔ HÌNH DỰ ĐOÁN PHÂN LOẠI CẢM XÚC (57)
        • 2.5.1. Mô hình BiLSTM (57)
        • 2.5.2. Mô hình RandomForest (58)
        • 2.5.3. Ước lượng hiệu quả của các mô hình bằng phương pháp xác thực chéo k-Fold Cross Validation (k-CV) (60)
      • 2.6. G IAI ĐOẠN 4: Đ ÁNH GIÁ MÔ HÌNH (61)
        • 2.6.1. Thước đo điểm F1 trung bình vĩ mô (64)
        • 2.6.2. Thước đo điểm F1 trung bình có trọng số (64)
        • 2.6.3. Thước đo độ chính xác (65)
    • CHƯƠNG 3. THỰC NGHIỆM MÔ HÌNH ĐỀ XUẤT VÀ PHÂN TÍCH KẾT QUẢ (66)
      • 3.1. T HU THẬP DỮ LIỆU VÀ GÁN NHÃN DỮ LIỆU (66)
        • 3.1.1. Thu thập dữ liệu (67)
        • 3.1.2. Gán nhãn (69)
      • 3.2. T IỀN XỬ LÝ DỮ LIỆU (70)
        • 3.2.1. Lấy mẫu dữ liệu (70)
        • 3.2.2. Làm sạch dữ liệu (71)
        • 3.2.3. Trích xuất tập con đặc trưng (73)
        • 3.2.4. Vector hóa các tập dữ liệu (74)
      • 3.3. T RÍCH XUẤT ĐẶC TRƯNG VĂN BẢN (76)
        • 3.3.1. Trích xuất đặc trưng văn bản với Embedding (76)
        • 3.3.2. Trích xuất đặc trưng văn bản với GloVe (76)
        • 3.3.3. Trích xuất đặc trưng văn bản với TF-IDF (78)
      • 3.4. H UẤN LUYỆN VÀ KIỂM THỬ (79)
        • 3.4.1. Thí nghiệm 1: Trích xuất đặc trưng văn bản bằng nhúng từ kết hợp mô hình phân loại BiLSTM (79)
        • 3.4.2. Thí nghiệm 2: Trích xuất đặc trưng văn bản bằng GloVe kết hợp mô hình phân loại BiLSTM (81)
        • 3.4.3. Thí nghiệm 3: Trích xuất đặc trưng văn bản bằng TF-IDF kết hợp mô hình phân loại BiLSTM (84)
        • 3.4.4. Thí nghiệm 4: Trích xuất đặc trưng văn bản bằng nhúng từ kết hợp mô hình RF (86)
        • 3.4.5. Thí nghiệm 5: Trích xuất đặc trưng văn bản bằng GloVe kết hợp mô hình RF (87)
        • 3.4.6. Thí nghiệm 6: Trích xuất đặc trưng văn bản bằng TF-IDF kết hợp mô hình RF (87)
      • 3.5. K ẾT QUẢ THÍ NGHIỆM (88)
  • PHẦN III KẾT LUẬN VÀ KIẾN NGHỊ (91)
    • 1. K ẾT LUẬN (91)
    • 2. K IẾN NGHỊ (92)
  • PHỤ LỤC (95)
    • 1. M Ã NGUỒN CHƯƠNG TRÌNH THU THẬP DỮ LIỆU (95)
    • 2. M Ã NGUỒN GIAI ĐOẠN TIỀN XỬ LÝ DỮ LIỆU (97)
    • 3. M Ã NGUỒN MÔ HÌNH THÍ NGHIỆM (99)
      • 3.1. T HÍ NGHIỆM 1 (99)
      • 3.2. T HÍ NGHIỆM 2 (99)
      • 3.3. T HÍ NGHIỆM 3 (101)
      • 3.4. T HÍ NGHIỆM 4 (102)
      • 3.5. T HÍ NGHIỆM 5 (103)
      • 3.6. T HÍ NGHIỆM 6 (104)
  • TÀI LIỆU THAM KHẢO (105)

Nội dung

Luận Văn Thạc Sĩ Khoa Học Dữ Liệu Ứng Dụng Học Máy Và Xử Lý Ngôn Ngữ Tự Nhiên Trong Việc Nhận Diện Mức Độ Hài Lòng Của Du Khách Tại Các Khách Sạn Thông Qua Các Lời Bình Luận Và Nhận Xét PHẦN I MỞ ĐẦU 1. Tính cấp thiết của đề tài Theo báo cáo thường niên của Bộ Văn hóa thể thao và Du lịch Việt Nam [1], năm 2019 tiếp tục là một năm thắng lợi của Du lịch Việt Nam. Ngành du lịch đón trên 18 triệu lượt khách quốc tế, tăng 16,2%; phục vụ 85 triệu lượt khách nội địa, tăng 6%; tổng thu du lịch đạt 755 nghìn tỷ đồng, tăng 18,5% so với năm 2018. Việt Nam cũng lần thứ 2 liên tiếp được ghi nhận là điểm đến hàng đầu khu vực Châu Á do World Travel Awards trao tặng. Đóng góp trực tiếp của du lịch chiếm tỷ trọng ngày càng cao trong Tổng sản phẩm quốc nội (GDP): năm 2015 là 6,3% đến năm 2019 là 9,2%, tăng 2,9 điểm phần trăm. Theo đà tăng trưởng của ngành du lịch, hoạt động kinh doanh cơ sở lưu trú du lịch (CSLTDL) cũng được đầu tư và mở rộng đáp ứng nhu cầu đa dạng của khách du lịch trong nước và quốc tế. Đến hết năm 2019, tổng số CSLTDL cả nước ước tính khoảng 30.000 cơ sở với 650.000 buồng, tăng 2.000 CSLTDL (+7,1%) và 100.000 buồng (+18%) so với năm 2018. giai đoạn 2015-2019, số lượng CSLTDL tăng 1,58 lần từ 19.000 cơ sở lên 30.000 cơ sở (tăng bình quân 12,0%/năm); số lượng buồng tăng 1,76 lần từ 370.000 buồng lên 650.000 buồng (tăng bình quân 15,1%/năm). Dấu ấn về công nghệ số hiện hữu ngày càng rõ nét trong lĩnh vực kinh doanh lưu trú với xu hướng gia tăng đặt phòng trực tuyến, thanh toán điện tử, công nghệ thông minh được áp dụng trong quản lý và cung cấp tiện ích phục vụ khách tại cơ sở lưu trú. Năm 2019, ngành du lịch triển khai thực hiện các đề án, chỉ thị của Thủ tướng Chính phủ về ứng dụng công nghệ thông tin tiếp cận cuộc Cách mạng công nghiệp lần thứ 4 (CMCN 4.0). Chỉ thị 16/CT-TTg ngày 04/5/2017 của Thủ tướng Chính phủ về việc tăng cường năng lực tiếp cận cuộc Cách mạng công nghiệp lần thứ 4, trong đó đặt ra yêu cầu ưu tiên phát triển du lịch thông minh. Quyết định 1671/QĐ-TTg ngày 30/11/2018 của Thủ tướng Chính phủ phê duyệt Đề án tổng thể ứng dụng Công nghệ thông tin trong lĩnh vực du lịch giai đoạn 2018-2020, định hướng đến năm 2025 xác định quan điểm ứng dụng công nghệ thông tin là yêu cầu, giải pháp đột phá để tạo thuận lợi, thu hút khách du lịch, nâng cao năng lực cạnh tranh và hội nhập quốc tế, góp phần hiện thực hóa mục tiêu phát triển du lịch trở thành ngành kinh tế mũi nhọn. Và Quyết định 1783/QĐ-BVHTTDL ngày 17/5/2019 của Bộ VHTTDL ban hành Kế hoạch thực hiện Đề án tổng thể ứng dụng công nghệ thông tin trong lĩnh vực du lịch, đề ra những nhiệm vụ, giải pháp cụ thể để triển khai Đề án của Thủ tướng Chính phủ. Nhu cầu ứng dụng công nghệ mới để thu hút khách du lịch, nâng cao năng lực cạnh tranh là một trong những yếu tố đang được chú trọng trong giai đoạn hiện nay. Khai phá dữ liệu từ các lời bình luận, bình luận của du khách trên các nền tảng công nghệ du lịch trực tuyến là một hướng tiếp cận mới đáp ứng nhu cầu này. Dữ liệu về các khách sạn, nhà hàng, điểm đến thu hút khách du lịch hay phản hồi và đánh giá của họ tạo ra một bộ dữ liệu du lịch khổng lồ, ẩn chứa trong đó nhiều tri thức có giá trị. Khám phá từ bộ dữ liệu du lịch này để có được những thông tin mới, thú vị và hữu ích có thể giúp cho các CSLTDL tối ưu các sản phẩm du lịch đồng thời xác định được các đối tượng du lịch cùng hành vi và sở thích của họ. Cảm xúc của khách du lịch là một trong những thông tin hữu ích mà các nhà cung cấp dịch vụ hay các nhà quản lý CSLTDL có thể thu được từ bộ dữ liệu du lịch này. Tùy từng mức độ phân tích mà cảm xúc này có biểu hiện được một cái nhìn tổng quan hay một khía cạnh cụ thể từ góc nhìn của khách hàng đối với chất lượng của dịch vụ. Tuy nhiên, việc đọc và phân tích hàng trăm, thậm chí hàng ngàn đánh giá mỗi ngày là một công việc rất khó khăn đối với con người. Do đó, ứng dụng học máy và xử lý ngôn ngữ tự nhiên là một giải pháp hiệu quả để đánh giá mức độ hài lòng của khách hàng thông qua các lời bình luận và bình luận. 2. Mục tiêu nghiên cứu 2.1. Mục tiêu chung Mục tiêu chung của nghiên cứu là ứng dụng được học máy và xử lý ngôn ngữ tự nhiên để tạo ra một hệ thống có khả năng nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét. 2.2. Mục tiêu cụ thể - Thu thập các lời bình luận và nhận xét bằng tiếng Anh của du khách về khách sạn kèm điểm đánh giá. - Ứng dụng xử lý ngôn ngữ tự nhiên để trích xuất các đặc trưng của các lời bình luận, nhận xét. - Ứng dụng học máy để học tập và nhận diện mức độ hài lòng của du khách qua các lời bình luận nhận xét. - Đề xuất mô hình kết hợp học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách thông qua các lời bình luận, nhận xét. - Thực nghiệm triển khai mô hình và đánh giá kết quả mô hình. 3. Đối tượng và phạm vi nghiên cứu 3.1. Đối tượng nghiên cứu - Mức độ hài lòng của du khách nước ngoài đối với khách sạn tại Việt Nam thông qua các lời bình luận và nhận xét trên nền tảng TripAdvisor. - Nền tảng TripAdvisor - Các mô hình học máy: ▪ Mạng nơron LSTM ▪ RandomForest (RF) - Các kỹ thuật xử lý ngôn ngữ tự nhiên: ▪ Về tiền xử lý văn bản ▪ Phân tích và lấy mẫu ▪ Làm sạch dữ liệu • Loại bỏ kí tự đặc biệt • Loại bỏ từ dừng • Chuẩn hóa chữ thường • Chuẩn hóa chính tả • Bổ đề ngôn ngữ ▪ Trích chọn tập con đặc trưng ▪ Biến đổi thuộc tính dữ liệu ▪ Về trích xuất đặc trưng ▪ Nhúng từ (Embedding) ▪ Term frequency – Inverse document frequency (TF-IDF) ▪ Global Vector (GloVe) - Các thang đo điểm đánh giá mô hình học máy: ▪ Thang đo MA F1-score ▪ Thang đo WA F1-score ▪ Thang đo Accuracy 3.2. Phạm vi nghiên cứu - Thời gian: 03/2023-09/2023. - Không gian: Thực nghiệm trên bộ dữ liệu lời bình luận, nhận xét bằng tiếng Anh của tất cả du khách nước ngoài cùng điểm đánh giá về các khách sạn ở Việt Nam thu được từ website Tripadvisor.com. - Thời điểm hoàn thành thu thập dữ liệu: 30/8/2023.4. Phương pháp nghiên cứu Nghiên cứu này sử dụng kết hợp các phương pháp nghiên cứu sau: - Phương pháp nghiên cứu lý thuyết, tổng hợp tài liệu: lý thuyết về thu thập dữ liệu, lý thuyết về xử lý ngôn ngữ tự nhiên, lý thuyết học máy. - Phương pháp thực nghiệm: xây dựng chương trình thu thập dữ liệu, chương trình xử lý dữ liệu, chương trình học máy kết hợp xử lý ngôn ngữ tự nhiên. - Phương pháp thu thập dữ liệu: Sử dụng các kỹ thuật thu thập dữ liệu tự động (Crawling) để tiến hành thu thập các bài đánh giá, nhận xét về khách sạn bao gồm dữ liệu về nội dung lời đánh giá và xếp hạng sao của đánh giá. - Các phương pháp tiền xử lý dữ liệu văn bản và gán nhãn cho dữ liệu và lưu lại thành tập dữ liệu cho thực nghiệm. - Các thuật toán học máy: Sử dụng thuật toán học máy khác nhau về xử lý ngôn ngữ tự nhiên trong quá trình đào tạo và kiểm thử mô hình thực nghiệm. 5. Kết cấu luận văn: Nội dung luận văn gồm có 3 chương: Chương 1: Cơ sở lý luận và thực tiễn về học máy và xử lý ngôn ngữ tự nhiên trong nhận diện mức độ hài lòng từ các lời đánh giá và nhận xét. Chương 2: Đề xuất mô hình nhận diện mức độ hài lòng của du khách đối với các khách sạn thông qua các lời bình luận trên Tripadvisor. Chương 3: Thực nghiệm mô hình đề xuất và phân tích kết quả.

NỘI DUNG NGHIÊN CỨU

THỰC TRẠNG VÀ CƠ SỞ LÝ THUYẾT

THỰC TRẠNG VÀ CƠ SỞ LÝ THUYẾT

1.1 Tổng quan tình hình nghiên cứu trên thế giới và trong nước

1.1.1 Tình hình nghiên cứu trên thế giới

Một nghiên cứu của Abdulaziz M Alayba và cộng sự (2018) [2] đã nghiên cứu về một mô hình kết hợp mạng thần kinh tích chập (Convolutional Neural Network - CNN) và mạng bộ nhớ dài ngắn hạn (Long Short-Term Memory - LSTM) cùng với các tác vụ Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) để phân loại cảm xúc cho văn bản Nghiên cứu sử dụng bô bộ dữ liệu văn bản bằng tiếng Ả Rập, được gán nhãn với hai lớp cảm xúc bao gồm Tích cực và Tiêu cực Bộ dữ liệu được tạo ra bởi bốn tập dữ liệu bao gồm: Tập dữ liệu dịch vụ y tế Ả Rập, tập dữ liệu các tweet trên Twitter (Ar-Twitter) chứ 2000 tweet với 1000 tweet cho mỗi lớp cảm xúc, một tập dữ liệu khác về cảm xúc bằng Tiếng Ả Rập chưa 54.000 tweets bao gồm bốn lớp cảm xúc, trong đó chỉ xử dụng 1684 tweet có với cảm xúc tiêu cực và 795 tweet có cảm xúc tích cực Các tác giả mở rộng số lượng tính năng trong tập dữ liệu thông qua phương pháp phân tách văn bản theo ba cấp độ bao gồm: cấp độ ký tự, cấp độ chuỗi ký tự và cấp độ từ Thí nghiệm cho thấy đối với phương pháp phân tách văn bản theo cấp độ từ hoặc chuỗi ký tự có kết quả phân loại tình cảm tốt hơn đối với cấp độ ký tự Mô hình đã cho ra kết quả phân loại cảm xúc dối với tập dữ liệu Dịch vụ Y tế Ả Rập (AHS) đạt 94,24%

Một nghiên cứu khác của Rehman và cộng sự (2019) [3]cũng đã đề xuất mô hình có tên là Hybird CNN-LSTM để giải quyết vấn đề phân tích tình cảm Đầu tiên, nghiên cứu này sử dụng phương pháp Word to Vector (Word2Vc) để huấn luyện các biểu diễn từ ban đầu còn được gọi là nhúng từ Word2Vc chuyển đổi các chuỗi văn bản thành một vector các giá trị số, tính toán khoảng cách giữa các từ và tạo các nhóm các từ tương tự dựa trên ý nghĩa của chúng Sau khi thực hiện nhúng từ, mô hình đề xuất kết hợp tập hợp các đặc trưng được trích xuất bởi các lớp tích chập và lớp tổng hợp tối đa toàn cầu với các phụ thuộc dài hạn Mô hình đề xuất cũng sử dụng kỷ thuật bỏ học, chuẩn hóa và một đơn vị tuyến tính chỉnh lưu để cải thiện độ chính xác Kết quả của nghiên cứu cho thấy rằng Mô hình Hybird CNN-LSTM được đề xuất vượt trội hơn các kỹ thuật học sâu và học máy truyền thống về các điểm đánh giá như precision,

6 recall, f-measure, và accuracy Mô hình được đào tạo trên tập dữ liệu đánh giá phim IMDB với 40.000 bài đánh giá và tập dữ liệu đánh giá phim Amazon với

2000 bài đánh giá Tất cả các bài đánh giá đều được gán nhãn từ hai phân loại cảm xúc tích cực và tiêu cực Kết quả thí nghiệm đã đạt được những điểm nổi bật là mô hình được đề xuất cải thiện điểm số f-measure lên tới 4-8% so với các mô hình CNN hay LSTM riêng lẻ Độ chính xác của mô hình cũng đạt được hơn 90% Kết quả này vẫn thấp hơn với mơ hình kết hợp Nạve Bayes và Support Vector Machine tuy sự chênh lệch về độ chính xác là không nhiều

Một nghiên cứu của Ali Ahani và cộng sự (2019) [4]đã nghiên cứu về việc áp dụng các phương pháp học máy vào phân tích các đánh giá và xếp hạng trực tuyến đối với khách sạn Mục tiêu của nghiên cứu này là phát triển phương pháp phân khúc khách sạn spa và dự đoán lựa chọn du lịch của khách hàng bằng cách áp dụng các phương pháp học máy Phương pháp đánh giá được thực hiện thông qua tập hợp các tập dữ liệu từ xếp hạng của khách du lịch và đánh giá bằng văn bản về các khách sạn spa trên TripAdvisor Nghiên cứu đã đề xuất một phương pháp phân khúc khách sạn qua các bước: Chuẩn bị dữ liệu, phân cụm dữ liệu bằng phương pháp phân cụm không giám sát (Self-Organizing Map

- SOM), tính toán độ tương đồng giữa các cụm bằng phương pháp phân tích dữ liệu đa chiều Phân tích (Hierarchical Orthogonal Singular Value Decomposition – HOSVM), dự đoán mối quan tâm của khách hàng trong từng cụm bằng phương pháp phân loại và hồi quy dựa trên cây quyết định (Classification and Regression Trees – CART), phương pháp khai phá văn bản (Text mining) Kết quả nghiên cứu đã phát hiện được chín phân khúc thị trường khách sạn khác nhau

Một nghiên cứu của Said Gadri và cộng sự (2021) [5] nghiên cứu được một hệ thống có thể dự đoán được sự hài lòng của khách hàng đối với các dịch vụ du lịch với độ chính xác lên đến 85% Hệ thống sử dụng các phương pháp học máy và học sâu như Linear Discriminant Analysis, k-nearest neighbors, Classification and Regression Trees, Naive Bayes, Deep Neural Networks và Support Vector Machines Tập dữ liệu được thu thập gồm các khoảng 100.000 lời bình luận trên Tripadvisor cho nhiều loại dịch vụ du lịch Dữ liệu đã được gán nhãn bởi mộ nhóm chuyên gia dựa trên các tiêu chí về nội dung, từ ngữ, giọng điệu và một số yếu tố khác theo thang điểm của mức độ hài lòng từ 1 đến

5 sao với sự cân bằng về tỉ lệ cho khoảng 20% lời bình luận ở mỗi mức độ Nghiên cứu này có một số hạn chế về tập dữ liệu có thể kể đến đầu tiên về quy mô tập dữ liệu, dữ liệu được chia nhỏ thành nhiều mảng cho nhiều dịch vụ với khoảng 10.000 lời bình luận cho mỗi dịch vụ Điều này có thể khiến cho kết

7 quả dự đoán không chính xác theo từng ngữ cảnh cụ thể của từng dịch vụ Thứ hai việc gắn nhãn được xử lý thủ công bởi một nhóm chuyên gia và dựa trên một số tiêu chí, tuy điều này giúp tập dữ liệu chính xác hơn nhưng cũng dẫn đến sai lệch do sự chủ quan trong phân tích, gây tốn kém về sức người và thời gian xử lý và sẽ rất khó khăn nếu cần xử lý trên tập dữ liệu kích thước lớn hơn

Một nghiên cứu của Mingyang Li và cộng sự (2022) [6] đã đề xuất một phương pháp dựa trên lý thuyết bằng chứng (Evidence Theory - là một mô hình toán học để xử lý thông tin không chắc chắn) để khám phá sự hài lòng ẩn chứa bên trong các bài đánh giá của khách hàng với khách sạn thông qua các bài đánh giá trực tuyến đa website Phương pháp này đầu tiên xác định các thuộc tính khách sạn quan trọng nhất từ các bài đánh giá, sau đó sử dụng lý thuyết bằng chứng để tính toán mức độ hài lòng của khách hàng với từng thuộc tính Phương pháp này được đánh giá trên một tập dữ liệu gồm 1000 bài đánh giá trực tuyến cho 10 khách sạn Kết quả cho thấy phương pháp này có thể tính toán mức độ hài lòng của khách hàng với độ chính xác cao Nghiên cứu này có một số hạn chế Đầu tiên, nghiên cứu chỉ sử dụng một tập dữ liệu với kích thước nhỏ này có thể dẫn đến sự thiên vị trong kết quả nghiên cứu Thứ hai, nghiên cứu chỉ tập trung vào một số thuộc tính khách sạn nhất định, chẳng hạn như vị trí, giá cả, tiện nghi và dịch vụ khách hàng Điều này có thể dẫn đến việc bỏ qua các thuộc tính khách sạn quan trọng khác Cuối cùng, nghiên cứu chỉ sử dụng phương pháp dựa trên lý thuyết bằng chứng để tính toán mức độ hài lòng của khách hàng Điều này có thể dẫn đến việc bỏ qua các phương pháp khác có thể chính xác hơn

1.1.2 Tình hình nghiên cứu tại Việt Nam

Tại Việt Nam, các nghiên cứu về ứng dụng học máy và xử lý ngôn ngữ tự nhiên cũng được triển khai từ rất sớm Trong đó có thể kể đến nghiên cứu của Nguyễn Tấn Phát và cộng sự (2014) [7] đưa ra một hệ thống phân tích quan điểm các nhận xét của tiếng Việt trên các website thương mại điện tử dựa trên xử lý ngôn ngữ tự nhiên Hệ thống này có khả năng xác định xác định các chủ đề được đề cập đến trong lời bình luận và đưa ra nhận định về ý nghĩa của nhận xét mang tính tích cực, tiêu cực hoặc trung tính Tập dữ liệu sử dụng trong nghiên cứu này bao gồm ba loại: Tập dữ liệu bình luận một thực thể chứa các bình luận nói về một thực thể duy nhất, tập dữ liệu bình luận nhiều thực thể chứa các bình luận nói về nhiều hơn một thực thể, tập dữ liệu hỗn hợp chứa cả các lời bình luận về chỉ một thực thể hoặc nhiều hơn một thực thể Kết quả của nghiên cứu này có độ chính xác trên tập bình luận một thực thể là 90,37%, trên tập bình luận nhiều thực thể là 67,44% và trên tập bình luận về một hoặc nhiều

8 thực thể là 84,5% Kết quả này cho thấy mô hình hệ thống có nhược điểm đối với việc xác định các thực thể của tập dữ liệu bình luận Tập dữ liệu cần được xác định chủ đề về các thực thể được đề cập đến, hiệu suất mô hình cũng ảnh hưởng nhiều đối với số lượng thực thể được đề cập đến trong bình luận

Võ Hoàng Quân và cộng sự (2017) [8] cũng đã nghiên cứu một mô hình Đa kênh LSTM-CNN để phân tích cảm xúc đối với ngôn ngữ Việt Nam Nghiên cứu được triển khai trên hai tập dữ liệu gồm một tập dữ liệu do nhóm tác giả tự tạo đó là Vietnamese sentiment (VS) chứa 17.500 bài đánh giá bằng tiếng Việt trên các sàn thương mại điện tử và được gán nhãn bằng tay cho ba phân loại cảm xúc tích cực, tiêu cực và trung lập, một tập dữ liệu khác là tập dữ liệu Vietnamese Language and Speech Processing (VLSP) năm 2016 chứa 5.100 bài đánh giá đã được gán nhãn cho ba phân loại cảm xúc Kết quả mô hình đạt tốt nhất trên tập dữ liệu VS với điểm số Precision lần lượt trên ba phân loại tích cực, trung lập và tiêu cực là 0,92, 0,81 và 0,9 , với điểm số F1 lần lượt là 0,91, 0,85, 0,864, kết quả này tốt hơn nhiều so với kết quả trên tập dữ liệu VSLP với điểm số Precision cho ba phân loại lần lượt là 0,622, 0,534 và 0,632, với điểm số F1 lần lượt là 0,676, 0,5 và 0,598

Một nghiên cứu khác gần đây của Nguyễn Thành Thuỷ và cộng sự (2019)

[9] đề xuất một mô hình học máy trong phân tích ý kiến khách hàng dựa trên văn bản tiếng Việt đối với bài toán dịch vụ khách sạn, phân lớp sắc thái một lời bình luận là tích cực hay tiêu cực Tập dữ liệu được sử dụng trong nghiên cứu này được thu thập từ website booking.com với 26.587 lời bình luận bằng Tiếng Việt Kết quả nghiên cứu đã cho thấy một mô hình hiệu quả với giá trị độ chính xác F1 đạt đến 96,03% Mặc dù có kết quả tốt, nhưng nghiên cứu vẫn còn hạn chế đó là đang thực hiện trên bài toán phân loại nhị phân Để thông tin khai thác được có giá trị sử dụng cao hơn, bài mô hình cần được mở rộng lên nghiên cứu trên bài toán phân loại đa lớp

Nguyễn Hữu Phát và cộng sự (2020) [10] đã nghiên cứu về sử dụng mạng LSTM và Word2Vec để phân loại văn bản bằng tiếng Việt Nghiên cứu đưa ra một hệ thống bao gồm hai khối chính, một khối huấn luyện và một khối dự đoán Trong hai khối, hai thuật toán Word2vec và LSTM được kết hợp để tăng độ chính xác cho việc phân loại văn bản tiếng Việt Ngoài ra, một bước tiền xử lý dữ liệu phù hợp với dữ liệu tiếng Việt được sử dụng Tập dữ liệu được sử dụng trong nghiên cứu này là VNTC chứa 10 chủ đề gồm 84.129 bài viết được chia thành hai phần dùng cho huấn luyện và dùng cho thử nghiệm Kết quả thí nghiệm đạt được độ chính xác 93,8%

1.2 Thực trạng về ngành du lịch ở Việt Nam

ĐỀ XUẤT MÔ HÌNH NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN THÔNG QUA CÁC LỜI BÌNH LUẬN TRÊN TRIPADVISOR

ĐỀ XUẤT MÔ HÌNH NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN THÔNG QUA CÁC LỜI BÌNH

2.1 Đề xuất mô hình nghiên cứu

Kế thừa và tham khảo các mô hình nghiên cứu ứng dụng học máy và xử lý ngôn ngữ tự nhiên vào phân tích cảm xúc văn bản, đề tài đề xuất một mô hình nghiên cứu nhằm nhận diện mức độ hài lòng của du khách đối với các khách sạn thông qua các lời bình luận trên nền tảng Tripadvisor Mô hình thực hiện được thể hiện tại Hình 2.1 với năm giai đoạn chính bao gồm:

- Giai đoạn 1: Thu thập dữ liệu và gắn nhãn

- Giai đoạn 2: Tiền xử lý dữ liệu

- Giai đoạn 3: Trích xuất đặc trưng

- Giai đoạn 4: Huấn luyện mô hình và kiểm thử

- Giai đoạn 5: Đánh giá mô hình

Hình 2.1 Mô hình nghiên cứu

2.2 Giai đoạn 1: Thu thập dữ liệu và gán nhãn

2.2.1 Quá trình thu thập dữ liệu Để thực hiện phân tích cảm xúc trong các bài đánh giá, lời bình luận, nhận xét của du khách đối với các khách sạn, nghiên cứu tạo một tập dữ liệu mới cho phép sử dụng dữ liệu liên quan đến vấn đề đang được phân tích và việc sử dụng dữ liệu cá nhân đảm bảo rằng không vi phạm bất kỳ quy tắc bảo mật nào [29]

Mục đích của luận văn này là thu thập dữ liệu và ý kiến du khách về khách sạn thông qua nền tảng TripAdvisor Trong quá trình này, nghiên cứu đã thu thập dữ liệu và xây dựng tập dữ liệu từ website Tripadvisor.com đối với danh mục khách sạn tại Việt Nam

Dữ liệu được thu thập bằng chương trình web crawler Web crawler được viết trên ngôn ngữ NodeJs Bằng việc sao chép lại yêu cầu của website tripadvisor.com về máy chủ dữ liệu, web crawler gửi các yêu cầu truy xuất dữ liệu các lời bình luận về khách sạn của du khách tương tự như website tripadvisor Sau khi yêu cầu được hoàn thành, máy chủ dữ liệu gửi tra một phản hồi chứa các dữ liệu đã được yêu cầu Dữ liệu được trả về là một tập hợp nhiều trường dữ liệu Web crawler phân tích dữ liệu này, trích chọn ra các trường dữ liệu về các lời bình luận Cuối cùng web crawler lưu các giá trị của các trường dữ liệu được trích chọn vào cơ sở dữ liệu Với đặc trưng của tập dữ liệu có chứa nhiều bảng dữ liệu và nhiều kiểu dữ liệu, trong đó có dạng dữ liệu kiểu chuỗi ký tự hay dữ liệu kiểu văn bản với có thể chứa dữ liệu không sạch, do đó nghiên cứu đề xuất sử dụng một cơ sở dữ liệu được xây dựng dựa trên hệ quản trị cơ sở dữ liệu SQLite Quá trình thu thập dữ liệu sử dụng cho nghiên cứu này được tách thành hai quá trình gồm: Quá trình thu thập dữ liệu về khách sạn và quá trình thu thập dữ liệu về lời bình luận của từng khách sạn

2.2.1.1 Quá trình thu thập dữ liệu khách sạn

Quá trình thu thập dữ liệu khách sạn ở Việt Nam được thực hiện theo các bước sau:

Bước 1: Gửi yêu cầu truy xuất dữ liệu danh sách khách sạn ở Việt Nam trên website tripadvisor.com Các dữ liệu điều kiện cần được gửi theo yêu cầu bao gồm:

- geoId : Id vị trí địa lý của Việt Nam trên tripadvisor

- limit : Số khách sạn lớn nhất được trả dữ liệu về cho yêu cầu

- offset : Số khách sạn cần bỏ qua khi tìm kiếm dữ liệu theo yêu cầu

Bước 2: Nhận thông dữ liệu trả về của phản hồi cho yêu cầu truy xuất

Bước 3: Trích xuất các thông tin liên quan đến danh sách khách sạn được trả về Các thông tin được tìm kiếm và thu thập cho nghiên cứu này bao gồm:

- url : đường dẫn để truy cập vào trang thông tin về khách sạn trên website tripadvisor.com

- locationId : Id của khách sạn trên tripadvisor, được trích xuất từ thông tin trong reviewLink

Bước 4: Lưu dữ liệu khách sạn vào cơ sở dữ liệu Dữ liệu về khách sạn được lưu tại bảng dữ liệu ‘hotel’ trong cơ sở dữ liệu

Bước 5: Lặp lại các bước thu thập dữ liệu khách sạn cho đến khi đủ tất cả khách sạn ở Việt Nam trên website tripadvisor.com

2.2.1.2 Quá trình thu thập dữ liệu lời bình luận của từng khách sạn

Quá trình thu thập dữ liệu các lời bình luận về khách sạn ở Việt Nam được thực hiện theo các bước sau:

Bước 1: Lấy danh sách các khách sạn đã thu thập thông tin từ cơ sỡ dữ liệu thu thập được

Bước 2: Với mỗi khách sạn trong dánh sách, gửi yêu cầu truy xuất dữ liệu các lời bình luận trên website tripadvisor.com Các dữ liệu điều kiện cần được gửi theo yêu cầu bao gồm:

- locationId : Id của khách sạn trên tripadvisor

- limit : Số khách sạn lớn nhất được trả dữ liệu về cho yêu cầu

- offset : Số khách sạn cần bỏ qua khi tìm kiếm dữ liệu theo yêu cầu

Bước 3: Nhận thông tin dữ liệu trả về của phản hồi yêu cầu truy xuất

Bước 4: Trích xuất các thông tin liên quan đến các lời bình luận được trả về Các thông tin được tìm kiếm và thu thập cho nghiên cứu này bao gồm:

- id : id của lời bình luận được tạo tự động trong cơ sở dữ liệu thu thập

- url : đường dẫn đến trang xem lời bình luận trên website tripadvisor.com

- title : Tiêu đề của lời bình luận

- createdDate : Ngày lời bình luận được tạo

- originalLanguage : ngôn ngữ được sử dụng cho lời bình luân

- text : Nội dung lời bình luận

- locationId : id của khách sạn được lưu trong cơ sở dữ liệu thu thập được

Bước 5: Lưu dữ liệu các lời bình luận về khách sạn vào cơ sở dữ liệu

Bước 6: Lặp lại các bước thực hiện thu thập dữ liệu lời bình luận cho đến khi thu thập đủ tất cả các lời bình luận về khách sạn

Bước 7: Lặp lại quá trình từ bước 2 cho đến khi tất cả các khách sạn đã được thu thập dữ liệu lời bình luận

Nghiên cứu này đề cập đến việc phân tích ý kiến thông qua các kỹ thuật học máy có giám sát Điều này có nghĩa là tập dữ liệu được gán nhãn đã chứa câu trả lời đúng Mô hình đề xuất phương pháp gắn nhãn dữ liệu dựa trên điểm số (rating) của du khách với ba thái cực của cảm xúc là tích cực, tiêu cực và

40 trung lập Nhãn tích cực sẽ được gán cho các lời bình luận có điểm số 4 và 5, nhãn trung lập sẽ được gán cho các lời bình luận có điểm số 3, nhãn tích cực sẽ được gán cho các lời bình luận có điểm số 2 và 1

2.3 Giai đoạn 2: Tiền xử lý dữ liệu Đối với các mô hình học máy, độ sạch của dữ liệu là một yếu tố quan trọng, ảnh hưởng lớn đến hiệu xuất của mô hình Từ tập dữ liệu thu thập được, phần dữ liệu được sử dụng cho quá trình xử lý, phân tích, huấn luyện là nội dung lời bình luận của du khách Dữ liệu này là những đoạn văn bản thô có thể chứa rất nhiều dữ liệu không liên quan hoặc vô nghĩa hay còn gọi là dữ liệu nhiễu có thể ảnh hưởng xấu đến kết quả và gây hao tốn tài nguyên Vì vậy, mô hình được đề xuất cần trải qua giai đoạn tiền xử lý dữ liệu nhằm trích xuất ra mẫu dữ liệu phù hợp, làm sạch dữ liệu, biến đổi dữ liệu về dạng thích hợp cho giai đoạn tiếp theo, giảm tiêu tốn tài nguyên Giai đoạn này trải qua bốn quá trình bao gồm quá trình phân tích và lấy mẫu dữ liệu, quá trình làm sạch dữ liệu, quá trình trích xuất tập con đặc trưng và quá trình rời rạc hóa dữ liệu (gán mã dữ liệu)

2.3.1 Phân tích và lấy mẫu dữ liệu

Quá trình phân tích và lấy mẫu dữ liệu được áp dụng chủ yếu vào thời điểm huấn luyện và kiểm tra mô hình nhằm tăng hiệu suất huấn luyện và hiệu quả của mô hình Quá trình này thực hiện một số phép thống kê để tổng quát được bộ dữ liệu, từ đó tìm ra các đặc tính của tập dữ liệu còn chưa phù hợp với nghiên cứu, chủ yếu là độ cân bằng dữ liệu giữa các nhãn cảm xúc Dựa vào các đặc tính này để thực hiện các thao tác rút gọn, cắt bớt hoặc loại bỏ dữ liệu để đạt được bộ dữ liệu phù hợp cho các công việc tiếp theo của nghiên cứu

Quá trình làm sạch dữ liệu thực hiện tuần tự các bước theo sơ đồ ở Hình 2.2:

- Bước 1: Đổi về chữ viết thường để tránh sự khác biệt về chữ thường chữ hoa giữa các từ có cùng ý nghĩa Bước này được thực hiện thông qua chức năng ‘lower’ đối với các dữ liệu chuỗi của Python Chức năng này sẽ tìm kiếm tất cả các ký tự viết hoa trong chuỗi văn bản và chuyển các ký tự này thành ký tự viết thường

- Bước 2: Loại bỏ kí tự đặc biệt: Là những ký tự không thuộc bảng chữ cái hoặc ở dạng số, là những siêu liên kết, thẻ, khoảng trắng và dấu câu Bước này sử dụng phương pháp tìm kiếm và loại bỏ thông qua chức năng tìm kiếm và thay thế của Python

- Bước 3: Tách từ: Sử dụng chức năng RegexpTokenizer để tiến hành tách từ Các chuỗi văn bản được tách bằng “khoảng trắng”

- Bước 4: Loại bỏ các từ dừng bao gồm mạo từ, đại từ, liên từ, giới từ và những từ cần thiết để hình thành câu nhưng không ảnh hưởng đến giá trị quan điểm cuối cùng của bình luận Bước này duyệt qua tất cả các từ đã tách được ở quá trình tách từ, mỗi từ sẽ được tìm kiếm trong từ điển stopwords của thư viện NLTK Nếu từ này tồn tại trong từ điển stopwords thì sẽ không dữ lại và được loại bỏ

THỰC NGHIỆM MÔ HÌNH ĐỀ XUẤT VÀ PHÂN TÍCH KẾT QUẢ

THỰC NGHIỆM MÔ HÌNH ĐỀ XUẤT VÀ PHÂN TÍCH KẾT QUẢ

3.1 Thu thập dữ liệu và gán nhãn dữ liệu

Dữ liệu thu thập được lưu vào cơ sở dữ liệu bao gồm 2 bảng dữ liệu như Hình 3.1, được thiết kế như sau:

Bảng dữ liệu về khách sạn: hotel Bảng này bao gồm các trường dữ liệu sau:

Bảng dữ liệu về lời bình luận: review Bảng này bao gồm các trường dữ liệu sau:

Hình 3.1 Cấu trúc dữ liệu của hai bảng dữ liệu `hotel` và `review`

3.1.1.1 Thu thập dữ liệu khách sạn ở Việt Nam

Thông qua phân tích các cấu trúc website tripadvisor.com và cách truy xuất dữ liệu, một số các thông số được sử dụng cho quá trình thu thập dữ liệu khách sạn ở Việt Nam được tìm thấy bao gồm:

- geoId : 293921 – id của khu vực Việt Nam trên website tripadvisor.com

- limit : 50 – số lượng tối đa các kết quả có thể trả về đối với yêu cầu truy xuất dữ liệu về khách sạn

- offset : 0,50,100,… - số các kết quả được bỏ qua, được tăng dần sau mỗi chu trình thu thập dữ liệu về khách sạn thành công và tăng một bước bằng giá trị của tham số limit

- địa chỉ gửi yêu cầu : https://www.tripadvisor.com/data/graphql/ids

Thực hiện lặp lại các quá trình truy xuất và thu thập dữ liệu về khách sạn, cuối cùng thu được tập dữ liệu về khách sạn ở Việt Nam bao gồm 3.176 khách sạn được lưu tại bảng dữ liệu ‘ hotel ’ trong cơ sở dữ liệu như Hình 3.2

Hình 3.2 Tập dữ liệu về khách sạn ở Việt Nam

3.1.1.2 Thu thập dữ liệu lời bình luận của từng khách sạn ở Việt Nam

Từ tập dữ liệu khách sạn đã thu thập được, mỗi dòng dữ liệu tương ứng với mỗi khách sạn sẽ được thu thập dữ liệu các lời bình luận Các đữ liệu yêu cầu được sử dụng như:

- locationId : giá trị thuộc tính locationId của dòng dữ liệu khách sạn đang được thu thập lời bình luận

- limit : 20 – số lượng tối đa các kết quả có thể trả về đối với yêu cầu truy xuất dữ liệu về lời bình luận

- offset : 0,20,40,… - số các kết quả được bỏ qua, được tăng dần sau mỗi chu trình thu thập dữ liệu về khách sạn thành công và tăng một bước bằng giá trị của tham số limit

- địa chỉ gửi yêu cầu : https://www.tripadvisor.com/data/graphql/ids

Tập dữ liệu các lời bình luận thu thập được bao gồm 1.046.502 bản ghi cho tất cả các bài đánh giá đới với khách sạn Việt Nam trên Tripadvisor Tập dữ liệu được mô tả như trong Hình 3.3

Hình 3.3 Tập dữ liệu các lời bình luận của du khách về khách sạn

Bảng 3.1 cho thấy bình luận bằng tiếng Anh đang là phần dữ liệu quan trọng nhất trong tập dữ liệu khi chiếm đến 66,5% lượng bình luận của tập dữ liệu, số lượng khách sạn được đánh giá cũng lớn nhất với 3.155 số khách sạn

Bảng 3.1 Bảng thống kê dữ liệu lời bình luận theo các ngôn ngữ

Số khách sạn có bình luận 2.165 3.155 3.065

Tỉ lệ số bình luận (%) 6,2 66,5 27,3

Số lượng bình luận lớn nhất trong các khách sạn 2.253 6.909 2.607

Số lượng bình luận trung bình của 1 khách sạn 20,48 219,19 89,82

Các thông tin về một bài đánh cần cho mục đích nghiên cứu này bao gồm nội dung lời bình luận, điểm đánh giá, ngôn ngữ Lọc chọn các bài đánh giá với lời bình luận bằng tiếng Anh, tập dữ liệu còn lại 696.156 dòng dữ liệu được sử dụng trong nghiên cứu này Tập dữ liệu được các lời bình luận bằng tiếng Anh được mô tả như trong Hình 3.4

Hình 3.4 Tập dữ liệu các lời bình luận bằng tiếng Anh

Thực hiện gán nhãn cho dữ liệu dựa trên điểm đánh giá, với điểm 4 và 5 được gắn nhãn Tích cực (Positive), điểm 3 được gắn nhãn Trung lập (Neutral), điểm 1 và 2 được gắn nhãn Tiêu cực (Positive) Nhãn được lưu trữ vào cột dữ liệu sentiment trong bảng dữ liệu như Hình 3.5

Hình 3.5 Tập dữ liệu các lời bình luận đã được gán nhãn

Một thống kê đơn giản về phân bổ dữ liệu theo ba lớp nhãn tại sơ đồ Hình 3.6 chỉ ra lớp nhãn Tích cực có số lượng bản ghi vượt trội hơn hẳn so với hai lớp còn lại, điều này cho thấy du khách có xu hướng để lại lời bình luận khi có được sự hài lòng từ các dịch vụ đã trải nghiệm

Hình 3.6 Phân bổ dữ liệu cho từng lớp

3.2 Tiền xử lý dữ liệu

Theo thống kê về phân bổ dữ liệu cho từng lớp nhãn ở Hình 3.6, dữ liệu có nhãn tích cực có số lượng quá chênh lệch so với hai lớp nhãn còn lại Để cân

58 bằng bộ dữ liệu, nghiên cứu đã giảm bớt 90% số lượng bản ghi của lớp có nhãn tích cực Tập dữ liệu còn lại 122.376 dòng dữ liệu với 63.754 dữ liệu có nhãn tích cực, 35.864 dữ liệu có nhãn trung lập, 22.758 dữ liệu có nhãn tiêu cực Phân bổ dữ liệu tho từng lớp nhãn được thể hiện tại Hình 3.7 Mặc dù sự chênh lệch vẫn tồn tại, nhưng điều đó cũng thể hiện được xu hướng cảm xúc của các lời bình luận của du khách thiên về Tích cực hơn hai thái cực cảm xúc còn lại

Hình 3.7 Kết quả phân bổ dữ liệu sau khi lấy mẫu

- Bước 1: Đổi về chữ viết thường Để đổi về chữ viết thường, nghiên cứu sử dụng phương thức ‘lower’ được ung cấp cho các đối tượng văn bản trong Python Kết quả bước này được ví dụ trong Hình 3.8

Hình 3.8 Kết quả Bước 1: đổi về chữ viết thường

- Bước 2: Loại bỏ ký tự đặc biệt Tất cả các ký tự không phải ký tự chữ viết thường và khoảng trắng sẽ bị loại bỏ Kết quả bước này được ví dụ trong Hình 3.9

Hình 3.9 Kết quả Bước 2: Loại bỏ ký tự đặc biệt

- Bước 3: Tách từ Các lời bình luận sẽ được tách thành danh sách các từ riêng lẽ bởi “khoảng trắng” Kết quả bước này được ví dụ tại Hình 3.10

Hình 3.10 Kết quả Bước 3: Tách từ

- Bước 4: Loại bỏ các từ dừng Các từ dừng sẽ được loại bỏ bằng cách so khớp với từ điển từ dừng của thư viện NLTK Kết quả bước này được ví dụ tại Hình 3.11

Hình 3.11 Kết quả Bước 4: Loại bỏ từ dừng

Ngày đăng: 27/04/2024, 15:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w