1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch

48 107 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 178,59 KB

Nội dung

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN NGỌC THẠCH PHÂN TÍCH QUAN ĐIÊM DựA THEO KHÍA CẠNH VÀ ỨNG DỤNG XÁC ĐỊNH SỞ THÍCH CỦA DU KHÁCH VỀ SẢN PHAM DU LỊCH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Bình Đinh - Năm 2020 Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN NGỌC THẠCH PHÂN TÍCH QUAN ĐIEM DựA THEO KHÍA CẠNH VÀ ỨNG DỤNG XÁC ĐỊNH SỞ THÍCH CỦA DU KHÁCH VỀ SẢN PHAM DU LỊCH Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 08 48 01 01 Người hướng dẫn : TS LÊ QUANG HÙNG Lời cam đoan Tôinguồn xin cam đoan luận văn làluận kết nghiên cứu tôi, Hùng Các thực nội dung trích dẫn hướng từ dẫn nghiên củanày TS cứu Lê Quang tác rõ giả khác mà tơi phần trình tài bày liệu tham khảo văn ghi Lời cảm ơn Trong q trình nghiên cứu hồn thành Luận văn, học viên nhận đinh hướng, giúp đỡ, ý kiến đóng góp quý báu lời động viên thầy cô giáo, đồng nghiệp gia đình Trước hết, tơi xin chân thành bày tỏ lời cảm ơn tới thầy TS Lê Quang Hùng, Lê Thi Xinh tận tình hướng dẫn giúp đỡ q trình nghiên cứu Tơi xin chân thành cảm ơn Phòng sau đại học, quý thầy cô giáo Khoa Công nghệ thông tin tạo kiện thuận lợi để tơi hồn thành nhiệm vụ nghiên cứu Cuối cùng, xin bày tỏ lời cảm ơn tới đồng nghiệp, gia đình, bạn bè ln động viên, chia sẻ, ủng hộ giúp đỡ để vượt qua khó khăn để đạt kết nghiên cứu Luận văn Tóm tắt Phân tích quan điểm (sentiment analysis) q trình phân tích, đánh giá quan điểm (hoặc số) người đối tượng (quan điểm mang tính tích cực, tiêu cực hay trung lập) Bài tốn phân tích quan điểm ứng dụng nhiều thực tế, đặc biệt hoạt động quảng bá kinh doanh Việc phân tích đánh giá người dùng sản phẩm xem họ đánh giá tiêu cực, tích cực đánh giá mặt hạn chế sản phẩm giúp công ty nâng cao chất lượng sản phẩm/dịch vụ tăng cường hình ảnh cơng ty, đặc biệt sản phẩm lĩnh vực du lịch cụ thể nhà hàng, khách sạn Các cách tiếp cận để giải tốn chia làm ba loại: (i) sử dụng tập luật (rule-based), (ii) sử dụng học máy (machine learning) (iii) kết hợp (i) với (ii) Phân tích quan điểm cho tồn văn tốn phân tích quan điểm Việc phân tích quan điểm theo loại toán thường mức tài liệu không quan tâm tới vấn đề chi tiết người đánh giá sản phẩm thích hay khơng thích khía cạnh sản phẩm Như vậy, đánh giá quan điểm cho toàn văn không đủ chi tiết cho ứng dụng thực tế Tức là, văn đánh giá tích cực đối tượng cụ thể khơng có nghĩa người dùng có ý kiến tích cực khía cạnh đối tượng Tương tự, văn đánh giá tiêu cực cho đối tượng khơng có nghĩa người dùng khơng thích tất khía cạnh đối tượng Để phân tích quan điểm phù hợp với nhu cầu sử dụng thực tế, cần phải nghiên cứu sâu quan điểm mức khía cạnh (aspect-based sentiment analysis) Phân tích quan điểm theo khía cạnh bao gồm ba tốn điển sau: Rút trích khía cạnh; Phân loại quan điểm theo khía cạnh; Xếp hạng khía cạnh Trong luận văn này, chúng tơi tập trung giải ba toán ứng dụng xác định sở thích du khách sản phẩm du lịch, cụ thể sau: • Thứ nhất, tốn rút trích khía cạnh, chúng tơi xác đinh từ thể khía cạnh văn Từ tập khía cạnh, câu văn đánh giá chưa gán nhãn, cần dự đoán nhãn khía cạnh thích hợp cho • Thứ hai, với tốn phân loại quan điểm theo khía cạnh, chúng tơi sử dụng kỹ thuật học máy có giám sát để phân lớp quan điểm cho văn • Thứ ba, tốn xếp hạng khía cạnh, từ tập văn đánh giá người dùng, xếp hạng (hay tính điểm) theo mức độ đánh giá quan điểm theo khía cạnh người dùng thảo luận văn Thực nghiệm cài đặt miền liệu du lich (từ nhận xét khách sạn AVANI (https://www.tripadvisor.com) cho thấy kết khả quan Từ khóa: khía cạnh, phân khai tích pháquan quanđiểm, điểm phân tích quan điểm theo Muc luc Lời cam đoan Lời cảm ơn ii Danh mục chữ viết tắt NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) POS Part Of Speech (Nhãn từ loại) SVM Support Vector Machine (Máy véc-tơ hỗ trợ) TF-IDF Term Frequency Inverse Document Frequency (Tần số nghịch đảo từ) PMI Pointwise Mutual Information (Độ đo thông tin tương hỗ) SO Semantic Orientation (Hướng ngữ nghĩa) Danh sách hình vẽ 1.1 1.2 Danh sách bảng 1.3 3.1 3.2 • Các mẫu tích cực mẫu x thuộc lớp tích cực gán nhãn y — i i • Các mẫu tiêu cực mẫu x thuộc lớp tiêu cực gán nhãn y = — i i 2.2.4Dự đoán xếp hạng theo khía cạnh 3.154 Xếp hạng khía cạnh công việc đinh hướng ước lượng đánh giá quan điểm theo khía cạnh sản phẩm Bài tốn cho trước tập văn đánh giá tập thực thể (ví dụ thực thể khách sạn) bao gồm quan điểm sản phẩm khía cạnh u cầu xếp hạng mức độ u thích khía cạnh người dùng đánh giá văn 3.155 Cơng thức dự đốn xếp hạng theo khía cạnh sau: 3.156 Sp -1 nn 3.157 scor e Q 3.158 k positive S 3.159Sn 3.160 (2.4) X 100 score negative — I (2.5) X 100 3.161 k S 3.162 Trong đó: • scorepositive điểm xếp hạng quan điểm tích cực; • scorenegative điểm xếp hạng quan điểm tiêu cực; • sp số câu phân lớp quan điểm tích cực; • s số câu phân lớp quan điểm tiêu cực; n • Sk tổng số câu thuộc khía cạnh thứ k 3.163 *? 2.3 Tổng kết chương 3.164 Trong chương này, thực nhiệm vụ cần giải tốn phân tích quan điểm theo khía cạnh trình bày chi tiết bước để giải tốn xác đinh khía cạnh, xác đinh hướng quan điểm tổng hợp quan điểm Tiếp theo, Chương 3, luận văn trình bày bước tiến hành thực nghiệm so sánh, đánh giá kết thực nghiệm 3.165 Chương 3.166 Thực nghiệm 3.167 Trong chương này, chúng tơi trình bày cài đặt kết thực nghiệm xác đinh sở thích du khách sản phẩm du lich 3.1 Cài đặt thực nghiệm 3.1.1 Dữ liệu thực nghiệm 3.168 Chúng xây dựng liệu đánh giá khách sạn AVANI thành phố Quy Nhơn Các đánh giá khách sạn AVANI thu thập từ trang Tripadvisor Tập liệu bao gồm 800 nhận xét du khách 3.1.2 Công cụ thực nghiệm 3.169 Chúng sử dụng công cụ sau để tiến hành thực nghiệm: vnTokenize 3.170 vnTokenizer [33] phần mềm tách từ cho văn tiếng Việt Nó phân đoạn văn tiếng Việt thành đơn vi từ vựng (từ, tên, ngày tháng, số biểu thức thông thường khác) với độ xác cao, khoảng 96 - 98% 3.171 vnTokenizer viết Java Phần mềm yêu cầu cần phải cài đặt Java Runtime Environment 1.6+ 3.172 Phần mềm sử dụng từ dòng lệnh lập trình thơng qua giao diện 8https://www.tripadvisor.com.vn 9http://mim.hus.vnu.edu/phuonglh/ lập trình ứng dụng API (Application Programming Interface) Để chạy vnTokenizer, với hệ điều hành MS Windows dùng vnTokenizer.bat, hệ điều hành Unix, Linux, MacOS X dùng /vnTokenizer.sh Tập tin đầu vào phải tập văn túy mã hóa UTF-8 Kết lưu đến tập văn túy tập XML đơn giản ln mã hóa UTF-8 3.173 Để tách từ tập tin, hệ điều hành Windows, sử dụng cú pháp sau: vnTokenizer.bat -I -o [options] Các lựa chọn (options) là: • -xo (đầu xml) - Ghi kết vào tệp XML đơn giản thay đinh dạng văn mặc đinh • -nu (khơng có gạch dưới) - Khơng nối âm tiết từ ký tự gạch mà thay vào khoảng trắng • -sd (nhận dạng câu) - nhận dạng câu trước tách từ Nếu lựa chọn sử dụng, đầu tiên, vnTokenizer nhận dạng câu tập tin sau tách câu nhận dạng Theo mặc đinh, vnTokenizer xử lý tồn văn mà khơng chia tách thành câu 3.174 SVMlight 3.175 SVMlight [14] cơng cụ thực thi thuật tốn SVM C Vapnik 10 cho vấn đề nhận dạng mẫu, hồi quy học xếp loại Phần mềm cung cấp phương pháp đánh giá hiệu suất cách hiệu 3.176 Các đặc trưng chương trình sau: • Thuật tốn tối hóa nhanh; • Giải vấn đề phân lớp hồi quy; • Giải vấn đề xếp hạng (ví dụ: học chức thu hồi cơng cụ tìm kiếm Striver); 10 http://svmlight.joachims.org • Tính tốn, ước lượng tỉ lệ lỗi, độ xác độ bao phủ; • Xử lý hàng nghìn vector hỗ trợ; • Xử lý hàng trăm nghìn ví dụ huấn luyện 3.177 SVMlight bao gồm module học (svm-learn) module phân loại (svm- classify) Modun phân loại sử dụng để áp dụng mơ hình học cho ví dụ 3.178 Tệp đầu vào chứa liệu huấn luyện vector hóa Dịng câu nhận xét bi bỏ qua chúng bắt đầu dấu = Mỗi dòng vector đại diện cho liệu huấn luyện có đinh dạng sau: 3.179 -3.180 = :: / \ 3.181 : 3.182 _ J X 3.183 Chúng cài đặt thuật tốn: • Rút trích khía cạnh, phân hoạch tập D thành k tập • vector hóa tập theo đinh dạng thuật toán SVM • Tính điểm xếp hạng sở thích du khách dựa theo khía cạnh 3.1.3 Các bước tiến hành • Bước 1: Tiền xử lý liệu: Đầu vào câu nhận xét, tiến hành loại bỏ từ dừng, kí hiệu đặc biệt tiến hành tách từ văn cơng cụ vnTokenize • Bước 2: Xác đinh khía cạnh thực thể, xác đinh tập từ lõi tập từ chủ đề cho khía cạnh Tập từ lõi tập từ chủ đề theo khía cạnh sản phẩm khách sạn liệt kê Bảng 3.1 3.184 Ngoài tập từ lõi tập từ chủ để tương ứng với khía cạnh, chúng tơi cịn xác đinh từ phủ đinh mức độ quan điểm sau: 3.185 Từ phủ định mức độ: "Khơng", "chưa", "kém", "ít", "thiếu", "rất", "vừa", "cực", "cực kì", "siêu" 3.186 BẢng 3.1: Tập từ lõi từ chủ đề theo khía cạnh 3.187 Khí 3.188 Từ lõi 3.189 Từ chủ đề 3.190 3.192 Đắt, rẻ, phù hợp, hợp lý, chát, mềm a cạnhGiá 3.191 Giá phịng Vi trí 3.194 Vi trí, view, cảnh 3.193 3.195 Đẹp, lành,thích hợp,gần, xa, dễ quan, khuôn viên dàng,thuận tiện, tiện lợi, xanh, hỗn độn, thuận lợi 3.196 Phòn 3.197 Phòng, villa, nội g thất, thiết bi, tiện nghi, thiết kế 3.198 Đẹp, sạch, sẽ, rộng, rộng rãi, thoáng mát, nhẹ nhàng, dễ chiu, đầy đủ, đáng nhớ, tiện nghi, trang nhã, bình thường, cũ, đơn giản, ấm cúng, hoàn hảo, bẩn, thư giãn, dơ, yên tĩnh, ấn tượng, hợp lý, lớn, dễ thương, xinh đẹp, mới, chất lượng, tinh tế, đại, gọn gàng, hỏng, nhỏ, nóng, ẩm ướt, thảm họa, đẳng cấp, hơi, lung linh 3.199 Dich vụ 3.200 Đồ ăn, thức uống, wifi, internet, hồ bơi, spa, xe điện 3.202 Nhâ n viên 3.203 Nhân viên, lễ tân, bảo vệ, phục vụ, quản lý 3.201 Phong phú, ngon, tươi, tuyệt, tuyệt vời, thoải mái, đa dạng, ok, rẻ, thú vi, thích, ổn, xứng đáng, hứng thú, chất lượng, tệ, qua loa, nghèo nàn, đặc sắc, tối tân, miễn phí, tồi, hấp dẫn, xuất sắc, đáng sợ, lạ, bình dân 3.204 Thân thiện, vui vẻ, nhiệt tình, lich sự, hài lịng, chun nghiệp, nhanh chóng, quan tâm, chu đáo, ấm áp, cởi mở, niềm nở,phiền hà, tận tình, tế nhi, đơ, khó chiu, dễ chiu, yếu,chậm chạp, kip thời, ngoan, lễ phép, coi thường, hịa nhã, đáng u, lơi thơi, dun dáng, tốt bụng, chân thành 3.205 3.206 3.207 • Bước 3: Rút trích khía cạnh a câu có chứa từ lõi thuộc khía k cạnh a Nhóm câu có khía cạnh lại thành tập Kết có tập k câu nhận xét tương ứng với khía cạnh Kết sau tách tập D thành tập khía cạnh: 3.208 BẢng 3.2: Kết rút trích khía cạnh 3.209 Khí 3.210 Số a3.211 cạnh Giá lượng câu 3.212 phòng 18 3.213 Vi 3.214 trí 35 3.215 Ph 3.216 ịng Dic 64 3.217 3.218 h vụ Nh 57 3.219 3.220 ân viên 42đinh dạng thuật tốn SVM 3.221 • Bước Tiến hành vector hóa tập theo 3.222 = :: 3.223 : 3.224 _ X 3.225 Ví dụ: "Nhân viên thân thiện nhiệt tình, đặc biệt quản lý chu đáo, quan tâm tới khách hàng" Câu vector hóa dựa tập từ chủ đề tập từ phủ đinh, mức độ sau: 1:1 2:0 3:1 4:0 5:0 6:0 7:0 8:1 9:1 10:0 11:0 12:0 13:0 14:0 15:0 16:0 17:0 18:0 3.226 19:0 20:0 21:0 22:0 23:0 24:0 25:0 26:0 27:0 28:0 29:0 30:0 31:0 32:0 33:0 34:0 35:0 3.227 36:0 37:0 38:0 39:0 3.228 Với nhãn quan điểm gán câu thuộc quan điểm tích cực (Gán nhãn quan điểm -1 câu thuộc quan điểm tiêu cực) 3.229 f - D:\Thực nghiệm\Price _train.txt - Notepad+ + — □X 3.230 File Edit Search View Encoding X >J Language Settings Tools Macro Run Plugins Window ? 3.231 3.232 niniiBu s|® a H Price train.txt EJ B Price train.txt □ 3.233 3.234 3.2353.236 3.2373.2383.2393.2403.2413.2423.243 3.2443.245 3.2463.247 3.248 3.249 3.2503.2513.252 3.2533.2543.2553.2563.2573.2583.259 3.2603.261 3.2623.263 3.264 3.265 3.2663.2673.268 3.2693.2703.2713.2723.2733.2743.275 3.2763.277 3.2783.279 3.280 3.281 3.2823.2833.284 3.2853.2863.2873.2883.2893.2903.291 3.2923.293 3.2943.295 3.296 3.297 3.2983.2993.300 3.3013.3023.3033.3043.3053.3063.307 3.3083.309 3.3103.311 3.312 3.313 3.3143.3153.316 3.3173.3183.3193.3203.3213.3223.323 3.3243.325 3.3263.327 3.328 3.329 3.3303.3313.332 3.3333.3343.3353.3363.3373.3383.339 3.3403.341 3.3423.343 3.344 3.345 3.3463.3473.348 3.3493.3503.3513.3523.3533.3543.355 3.3563.357 3.3583.359 3.360 3.361 3.3623.3633.364 3.3653.3663.3673.3683.3693.3703.371 3.3723.373 3.3743.375 3.376 3.377 3.3783.3793.380 3.3813.3823.3833.3843.3853.3863.387 3.3883.389 3.3903.391 3.392 3.393 3.3943.3953.396 3.3973.3983.3993.4003.4013.4023.403 3.4043.405 3.4063.407 3.408 3.409 3.4103.4113.412 3.4133.4143.4153.4163.4173.4183.419 3.4203.421 3.4223.423 3.424 3.425 3.4263.4273.428 3.4293.4303.4313.4323.4333.4343.435 3.4363.437 3.4383.439 3.440 3.441 3.4423.4433.444 3.4453.4463.4473.4483.4493.4503.451 3.4523.453 3.4543.455 3.456 3.457 3.4583.4593.460 3.4613.4623.4633.4643.4653.4663.467 3.4683.469 3.4703.471 3.472 3.4743.4753.476 3.4773.4783.4793.4803.4813.4823.483 3.4843.485 3.4863.487 3.473 1: 3: 4:0 3.493 5:0 3.494 6:0 3.495 7:0 3.496 8:0 3.497 9:0 3.498 10:0 3.499 11:03.500 12:0 3.501 13:0 3.490 3.491 3.492 3.4883.489 3.502 3.508 3.509 3.512 3.503 3.504 3.505 3.506 3.507 S 3.510 Window 3.511 3.513 3.514 eng 15,97 Ln : Col : el : s (CR LF) UTF-8 IN: V 3.515 Hình 3.1: Định dạng liệu cơng cụ SVM 3.516 light • Bước Với tập chia ngẫu nhiên thành hai phần liệu huấn luyện kiểm tra theo tỉ lệ 7:3 (7 phần liệu dùng để làm tập liệu huấn luyện, phần liệu dùng để làm tập liệu đánh giá) Với tập huấn luyện tiến hành học phân lớp quan điểm Ta có mơ hình phân lớp • Bước Tiến hành phân lớp quan điểm tập liệu kiểm tra • Bước 7: Tính điểm xếp hạng cho khía cạnh 3.517 3.2 3.1.4 Độ đo 3.3 Chúng sử dụng tập liệu đánh giá (tập liệu gán nhãn thủ công) đưa vào phân lớp xây dựng tập huấn luyện Sau tính tốn giá tri: độ xác(precision - P), độ bao phủ(recall - R) độ đo F1 (Tiêu chuẩn đánh giá) dùng để đánh giá chất lượng thuật toán phân lớp 3.4 Trong giá tri: P, R, F1 tính sau: 3.5 t 3.6 posi tive+ f ruer 3.7 t upositive a se ^ epositive 3.9 t3.10 rpositive + rue 3.11 u t positive f alse enegative 3.8 ( ) 3.12 (3.2) 3.13 (3.3) 3.14 Trong đó: 3.15 truepositive: Số câu phân loại vào lớp tích cực 3.16 falsepositive: Số câu phân loại sai vào lớp tích cực 3.17 falsenegative: Số câu phân loại sai vào lớp tiêu cực 3.18 Ví dụ, phân lớp nhận dạng 10 câu thuộc phân lớp tích cực liệu đánh giá gồm 12 câu thuộc phân lớp tích cực lại câu thuộc phân lớp tiêu cực Nếu 10 câu phân lớp nhận dạng thuộc phân lớp tích cực có câu câu nhận dạng sai ta có: 3.19 P = 9/10 = 90% 3.20 R = 9/12 = 75% 3.21 F = (2 * 90 * 75)/(90 + 75) = 83% 3.518 3.519 3.520 3.521 3.522 3.523 3.524 3.525 3.526 3.527 3.528 3.529 3.530 3.531 3.532 3.533 3.534 3.535 3.536 3.537 3.538 3.539 3.540 3.541 3.542 3.543 3.544 3.545 3.546 3.547 3.548 3.549 3.550 3.551 3.552 3.553 3.554 3.2 Kết thực nghiêm 3.555 Bảng 3.3 trình bày kết dự đốn xếp hạng cho khía cạnh xếp theo mức độ yêu thích người dùng 3.556 BẢng 3.3: Kết xếp hạng theo khía cạnh 3.557 Khí 3.558 Xếp hạng theo liệu 3.559 Xếp hạng theo dự scorđoán scor a cạnh giá score 3.561 Styyr đánh 3.562 negative 3.563 3.564 &positive 3.565 Phò 3.566 3.567 3.568 3.569 14% ng 80 20 86 3.570 Nh 3.571 3.572 3.573 3.574 24% ân viên Vi 72 28 76 3.575 3.576 3.577 3.578 3.579 26% trí 72 28 74 3.580 Giá 3.581 3.582 3.583 3.584 23% phòng 70 30 77 3.585 Dic 3.586 3.587 3.588 3.589 34% 3.590 h vụ 68 32 66 3.591 Các khía cạnh xếp giảm dần dựa điểm xếp hạng theo dự đốn Khía cạnh phịng người dùng thích nhiều có tỉ lệ 86%, tiếp đến khía cạnh nhân viên có tỉ lệ 76% Khía cạnh có mức độ u thích thấp dịch vụ với tỉ lệ 66% 3.592 Hình 3.2 thể so sánh mức độ yêu thích người dùng theo khía cạnh dựa điểm xếp hạng theo dự đoán Để so sánh điểm xếp hạng theo dự đoán điểm xếp hạng theo liệu đánh giá, chúng tơi thể Hình 3.3 3.593 3.594 Hình 3.2: Biểu đồ so sánh mức độ u thích người dùng theo khía cạnh 3.595 3.596 ■ ■ xếphạngtheodữ liệu đánh giá Positive ■ xếphạngtheodữ liệu đánh già Negative ■ xếp hạng theo dự đoán Positive ■ xếphạngtheodự đốn Negative 3.597 Hình 3.3: Biểu đồ so sánh điểm xếp hạng theo dự đoán điểm xếp hạng theo liệu đánh giá 3.598 BẢng 3.4: Đánh giá phân lớp SVM 3.599 Khí 3.600 Độ 3.601 Độ bao a3.603 cạnh Giá xác (P) 3.604 (R) ' 3.605 phủ 89,4% phịng 3.607 Ví 3.608 91,6% 94,7% 3.609 92,4% trí 3.611 Ph 3.612 94,0% 3.613 91,6% ịng Dịc 3.615 3.616 96,3% 3.617 90,2% h vụ Nh 3.619 3.620 93,6% 3.621 91,8% 3.623 ân viên 3.602 Đ ộ3.606 đo F 90,5 3.610 93,5 3.614 92,8 3.618 93,2 3.622 92,7 3.3 Đánh giá 3.624 Kết xếp hạng theo khía cạnh trình bày bảng 3.3 Với điểm xếp hạng theo quan điểm tích cực, thấy, điểm xếp hạng theo dự đoán điểm xếp hạng theo liệu đánh giá tương ứng với khía cạnh chênh lệch từ 2% đến 7% Trong đó, khía cạnh giá phịng cho độ chênh lệch cao 7%, khía cạnh vị trí khía cạnh dịch vụ cho độ chênh lệch thấp 2% 3.625 Bảng 3.4 trình bày đánh giá phân lớp quan điểm SVM theo khía cạnh thơng qua ba độ đo: Độ xác (P), độ bao phủ (R) độ đo F Chúng ta thấy, kết phân lớp khía cạnh giá phịng, vị trí, phịng, dịch vụ, nhân viên tính theo độ xác từ 91% trở lên Các kết gần xấp xỉ với kết tính theo độ bao phủ Điều cho thấy, phân lớp tương đối ổn đinh đánh giá theo độ xác độ bao phủ, kết độ đo F theo khía cạnh xấp xỉ 3.626 3.627 KÊT LUẬN Trong phần này, chúng tơi tóm lược lại kết luận văn Ngồi ra, chúng tơi trình bày hướng phát triển cho nghiên cứu tương lai Tóm lược kết luận văn 3.628 Luận văn tập trung nghiên cứu phân tích quan điểm dựa khía cạnh ứng dụng xác đinh sở thích du khách sản phẩm du lịch Nội dung kết nghiên cứu trình bày Chương 1-3 Các kết luận văn tóm tắt sau: • Thứ nhất, chúng tơi trình bày kiến thức tổng quan tốn phân tích quan điểm, phân tích quan điểm theo khía cạnh cách tiếp cận để giải tốn • Thứ hai, chúng tơi phát biểu tốn xác định sở thích du khách sản phẩm du lịch dựa theo khía cạnh, phạm vi đề tài, lựa chọn sản phẩm du lịch khách sạn để đánh giá; trình bày chi tiết quy trình phân tích quan điểm theo khía cạnh • Thứ ba, chúng tơi thực nghiệm liệu đánh giá khách sạn theo quy trình trình bày Chương 2, kết qủa thực nghiệm đánh giá với độ xác 90% Hướng phát triển luận văn 3.629 Chúng tơi nghiên cứu phân tích quan điểm dựa khía cạnh ứng dụng xác định sở thích du khách sản phẩm du lịch Chúng hy vọng rằng, bước khởi đầu cho nghiên cứu phân tích quan điểm dựa khía cạnh ứng dụng Trong tương lai phát triển luận văn theo hướng sau: • Thứ nhất, tiếp tục xây dựng liệu cho tốn phân tích quan điểm miền du lịch • Thứ hai, mở rộng tốn phân tích quan điểm theo khía cạnh cho sản phẩm khác miền du lịch • Thứ ba, giai đoạn phân lớp quan điểm dựa khía cạnh, cài đặt thực nghiệm nhiều thuật tốn (ví dụ: k — NN, Naive Bayes, ) Từ đó, so sánh, đánh giá lựa chọn thuật toán tốt cho cho tốn • Thứ tư, xây dựng ứng dụng phân tích quan điểm miền du lịch 3.630 Tài liêu tham khảo [1] Bengio, Y., Courville, A., and Vincent, P (2013) Representation learning: A review and new perspectives IEEE transactions on pattern analysis and machine intelligence, 35(8):1798-1828 [2] Bennett, J., Lanning, S., et al (2007) The netflix prize In Proceedings of KDD cup and workshop, volume 2007, page 35 New York [3] Brody, S and Elhadad, N (2010) An unsupervised aspect-sentiment model for online reviews In Human language technologies: The 2010 annual conference of the North American chapter of the association for computational linguistics, pages 804-812 [4] Carenini, G., Cheung, J C K., and Pauls, A (2013) Multi-document summarization of evaluative text Computational Intelligence, 29(4):545-576 [5] Cilibrasi, R L and Vitanyi, P M (2007) The google similarity distance IEEE Transactions on knowledge and data engineering, 19(3):370-383 [6] Cortes, C and Vapnik, V (1995) Support vector machine Machine learning, 20(3):273-297 [7] Ding, X., Liu, B., and Yu, P S (2008) A holistic lexicon-based approach to opinion mining In Proceedings of the 2008 international conference on web search and data mining, pages 231-240 [8] Ganu, G., Elhadad, N., and Marian, A (2009) Beyond the stars: improving rating predictions using review text content In WebDB, volume 9, pages 1-6 Citeseer [9] Hinton, G E and Salakhutdinov, R R (2006) Reducing the dimensionality of data with neural networks science, 313(5786):504-507 [10] Hu, M and Liu, B (2004) Mining and summarizing customer reviews In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 168-177 [11] Hyvarinen, A and Oja, E (2000) Independent component analysis: algorithms and applications Neural networks, 13(4-5):411-430 [12] Jindal, N and Liu, B (2007) Review spam detection In Proceedings of the 16th international conference on World Wide Web, pages 1189-1190 [13] Jindal, N and Liu, B (2008) Opinion spam and analysis In Proceedings of the 2008 international conference on web search and data mining, pages 219230 [14] Joachims, T (1999) Svmlight: Support vector machine SVM-Light Support Vector Machine http://svmlight joachims org/, University of Dortmund, 19(4) [15] Kim, S.-M and Hovy, E (2004) Determining the sentiment of opinions In COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics, pages 1367-1373 [16] Kramer, J and Gordon, C (2014) Improvement of a naive bayes sentiment classifier using mrs-based features In Proceedings of the Third Joint Conference on Lexical and Computational Semantics (* SEM 2014), pages 22-29 [17] Lim, E.-P., Nguyen, V.-A., Jindal, N., Liu, B., and Lauw, H W (2010) Detecting product review spammers using rating behaviors In Proceedings of the 19th ACM international conference on Information and knowledge management, pages 939-948 [18] Liu, B (2012) Sentiment analysis and opinion mining Synthesis lectures on human language technologies, 5(1):1-167 [19] Long, C., Zhang, J., and Zhu, X (2010) A review selection approach for accurate feature rating estimation In Coling 2010: Posters, pages 766-774 [20] Mai, L and Le, B (2018) Aspect-based sentiment analysis of vietnamese texts with deep learning In Asian Conference on Intelligent Information and Database Systems, pages 149-158 Springer [21] Moghaddam, S and Ester, M (2010) Opinion digger: an unsupervised opinion miner from unstructured product reviews In Proceedings of the 19th ACM international conference on Information and know ledge management, [22] pages 1825-1828 Narayanan, V., Arora, I., and Bhatia, A (2013) Fast and accurate sentiment classification using an enhanced naive bayes model In International Conference on Intelligent Data Engineering and Automated Learning, [23] pages 194-201 Springer Pang, B and Lee, L (2008) Opinion mining and sentiment analysis foundations and trends in information retrieval vol [24] Pang, B., Lee, L., and Vaithyanathan, S (2002) Thumbs up? sentiment classification using machine learning techniques arXiv preprint cs/0205070 [25] Pavlopoulos, J and Androutsopoulos, I (2014) Aspect term extraction for sentiment analysis: New datasets, new evaluation measures and an improved unsupervised method In Proceedings of the 5th Workshop on Language Analysis for Social Media (LASM) , [26] pages 44-52 Pham, D.-H and Le, A.-C (2018) Exploiting multiple word embeddings and one-hot character vectors for aspect-based sentiment analysis International Journal of Approximate Reasoning, [27] 103:1-10 Popescu, A.-M and Etzioni, O (2007) Extracting product features and opinions from reviews In Natural language processing and text mining, pages 9-28 Springer [28] Poria, S., Cambria, E., and Gelbukh, A (2016) Aspect extraction for opinion mining with a deep convolutional neural network Knowledge-Based Systems, 108:42-49 [29] Ravi, K and Ravi, V (2015) A survey on opinion mining and sentiment analysis: tasks, approaches and applications Knowledge-Based Systems, 89:1446 [30] Sauper, C and Barzilay, R (2013) Automatic aggregation by joint modeling of aspects and values Journal of Artificial Intelligence Research, 46:89-127 [31] Taboada, M., Brooke, J., Tofiloski, M., Voll, K., and Stede, M (2011) Lexicon-based methods for sentiment analysis Computational linguistics, 37(2):267-307 [32] Tang, D., Qin, B., and Liu, T (2016) Aspect level sentiment classification with deep memory network arXiv preprint arXiv:1605.08900 [33] Thắng, Đ Q., Phương, L H., Huyền, N T M., Tú, N C., Rossignol, M., and Lương, V X Word segmentation of vietnamese texts: a comparison of approaches [34] Turney, P D (2002) Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews arXiv preprint cs/0212032 [35] Van Thin, D., Nguye, V D., Van Nguyen, K., and Nguyen, N L.-T (2018) Deep learning for aspect detection on vietnamese reviews In 2018 5th NAFOS- TED Conference on Information and Computer Science (NICS), pages 104-109 IEEE [36] Vo, Q.-H., Nguyen, H.-T., Le, B., and Nguyen, M.-L (2017) Multi-channel lstm-cnn model for vietnamese sentiment analysis In 2017 9th international conference on knowledge and systems engineering (KSE), pages 24-29 IEEE [37] Wang, H., Lu, Y., and Zhai, C (2011) Latent aspect rating analysis without aspect keyword supervision In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 618-626 [38] Wang, Y., Huang, M., Zhu, X., and Zhao, L (2016) Attention-based lstm for aspect- level sentiment classification In Proceedings of the 2016 conference on empirical methods in natural language processing, pages 606-615 [39] Weimer, M., Karatzoglou, A., Le, Q V., and Smola, A J (2008) Cofi rankmaximum margin matrix factorization for collaborative ranking In Advances in neural information processing systems, pages 1593-1600 [40] Wogenstein, F., Drescher, J., Reinel, D., Rill, S., and Scheidt, J (2013) Evaluation of an algorithm for aspect-based opinion mining using a lexicon-based approach In Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining, pages 1-8 [41] Xinh, L T (2017) Khai phá quan điểm dựa kỹ thuật học có giám sát [42] Zhu, J., Wang, H., Tsou, B K., and Zhu, M (2009) Multi-aspect opinion polling from textual reviews In Proceedings of the 18th ACM conference on Information and knowledge management, pages 1799-1802 [43] Zhuang, L., Jing, F., and Zhu, X.-Y (2006) Movie review mining and summarization In Proceedings of the 15th ACM international conference on Infor mation and knowledge management, pages 43-50 ... hiểu sở lý thuyết phân tích quan điểm, phân tích quan điểm theo khía cạnh • Thứ hai, ứng dụng phân tích quan điểm theo khía cạnh vào việc xác định sở thích du khách sản phẩm du lịch 11 Phạm vi... bao gồm: phân tích quan điểm, phân tích quan điểm theo khía cạnh • Chương Trình bày ứng dụng phân tích quan điểm theo khía cạnh vào việc xác định sở thích du khách sản phẩm du lịch 3.9đặt thực... định sở thích du khách sản phẩm du lịch dựa phân tích quan điểm theo khía cạnh 3.69 3.70 Trong chương này, chúng tơi phát biểu tốn xác đinh sở thích du khách sản phẩm du lich dựa phân tích quan điểm

Ngày đăng: 16/08/2021, 11:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w