Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng

15 3 0
Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết này do đó tập trung vào việc mở rộng từ điển VietSentiWordNet với việc làm giàu các từ quan điểm thuộc lĩnh vực du lịch, trong đó một mô hình mở rộng từ điển VietSentiWordNet sử dụng phương pháp dựa trên từ vựng được đề xuất và một tiến trình tiền xử lý dữ liệu với nhiều chức năng được tích hợp cũng được bổ sung nhằm nâng cao hiệu quả phân lớp quan điểm. Kết quả thực nghiệm cho thấy rằng việc từ điển VietSentiWordNet được mở rộng đã phân lớp quan điểm chính xác hơn đối với các câu quan điểm trong lĩnh vực du lịch.

Tạp chí Khoa học Đại học Huế: Kỹ thuật Công nghệ; pISSN 2588-1175 | eISSN 2615-9732 Tập 129, Số 2A, 2020, Tr 15–29; DOI: 10.26459/hueunijtt.v129i1A.5949 MỞ RỘNG TỪ ĐIỂN VIETSENTIWORDNET CHO MIỀN DỮ LIỆU THUỘC LĨNH VỰC DU LỊCH SỬ DỤNG PHƯƠNG PHÁP DỰA TRÊN TỪ VỰNG Lê Văn Hịa* Khoa Du lịch – Đại học Huế Tóm tắt Khai phá quan điểm giúp xác định hướng quan điểm (tích cực, tiêu cực) người dùng chủ đề, sản phẩm hay dịch vụ Có số cách tiếp cận khác khai phá quan điểm, phương pháp khai phá quan điểm dựa từ vựng phổ biến Độ xác phương pháp khai phá quan điểm dựa từ vựng phụ thuộc nhiều vào từ điển sử dụng, chứa từ quan điểm lĩnh vực cụ thể Một liệu thực phân lớp tốt lĩnh vực này, lại hiệu số lĩnh vực khác VietSentiWordNet từ điển quan điểm tiếng Việt sử dụng phổ biến nay, thiếu nhiều từ quan điểm cho miền liệu thuộc lĩnh vực du lịch Bài báo tập trung vào việc mở rộng từ điển VietSentiWordNet với việc làm giàu từ quan điểm thuộc lĩnh vực du lịch, mơ hình mở rộng từ điển VietSentiWordNet sử dụng phương pháp dựa từ vựng đề xuất tiến trình tiền xử lý liệu với nhiều chức tích hợp bổ sung nhằm nâng cao hiệu phân lớp quan điểm Kết thực nghiệm cho thấy việc từ điển VietSentiWordNet mở rộng phân lớp quan điểm xác câu quan điểm lĩnh vực du lịch Từ khóa: Từ điển VietSentiWordNet; miền liệu du lịch; khai phá quan điểm; phương pháp dựa từ vựng; hướng quan điểm Giới thiệu Khai phá quan điểm phân nhánh khác xử lý ngôn ngữ tự nhiên, nghiên cứu thái độ, cảm xúc tình cảm người chủ đề, sản phẩm, hàng hóa dịch vụ cụ thể [1] Lĩnh vực liên quan đến xử lý ngôn ngữ, ngôn ngữ học tính tốn kết hợp với khai phá văn bản, bao gồm kỹ thuật liên quan đến khai phá liệu quan điểm cố gắng thu thập thơng tin có giá trị từ liệu Theo W Medhat cộng [2], khai phá quan điểm tiếp cận theo hướng chính: Học máy (machine-learning), dựa từ vựng (lexiconbased), lai (kết hợp hai phương pháp trên) Phương pháp dựa từ vựng thực việc tìm kiếm từ vựng quan điểm để phân tích văn Từ vựng quan điểm tích cực thể số trạng thái mong muốn (như: yêu, thích, …), từ vựng quan điểm tiêu cực thể số trạng thái khơng mong muốn (như: ghét, khơng thích, …) Ngồi ra, cịn có cụm từ vựng quan điểm thành ngữ mà sau gọi chung từ vựng quan điểm * Liên hệ: lvhoa@hueuni.edu.vn Nhận bài: 03–8–2020; Hoàn thành phản biện: 07–9–2020; Ngày nhận đăng: 08–9–2020 Lê Văn Hoà Tập 129, Số 2A, 2020 Khai phá quan điểm dựa từ vựng thực tế thu hút nhiều nhà khoa học quan tâm Cụ thể, nghiên cứu C Bucur [3] xây dựng mơ hình khai phá quan điểm, trích xuất đánh giá khách sạn từ diễn đàn Internet phân loại chúng dựa vào từ điển SentiWordNet [4]; V Soni cộng [5] sử dụng phương pháp dựa từ vựng kết hợp từ điển SentiWordNet để tìm khía cạnh tích cực tiêu cực sản phẩm điện thoại di động website Amazon.com; M Kundi cộng [6] đề xuất mơ hình sử dụng phương pháp dựa từ vựng để phân lớp quan điểm với liệu tweet mạng xã hội Twitter G Qiu cộng [7] sử dụng phương pháp dựa từ điển để xác định câu quan điểm quảng cáo theo ngữ cảnh Đối với tiếng Việt, nghiên cứu Kiều Thanh Bình cộng [8] sử dụng từ điển liên quan đến đặc trưng cấu hình kiểu dáng máy tính Vũ Tiến Thành cộng [9] xây dựng mô hình khai phá quan điểm khách hàng sản phẩm điện thoại di động dựa vào luật cú pháp tiếng Việt từ điển VietSentiWordNet [10] Rõ ràng, tùy thuộc vào lĩnh vực ứng dụng mà nghiên cứu làm giàu thêm từ quan điểm cho lĩnh vực kết mơ hình khai phá quan điểm dựa từ điển mở rộng nâng cao hiệu phân lớp quan điểm Riêng với lĩnh vực du lịch, chưa có nghiên cứu khai phá quan điểm miền liệu tiếng Việt Theo P Haseena Rahmath [11], thách thức lớn khai phá quan điểm đặc tính phụ thuộc lĩnh vực từ quan điểm Một liệu thời điểm thực phân lớp tốt lĩnh vực thực phân lớp hiệu lĩnh vực khác Cùng chung với quan điểm này, Hong Nam Nguyen cộng [12] cho từ điển quan điểm tồn số giới hạn định áp dụng để phân tích bình luận đánh giá tiếng Việt khai phá quan điểm người sử dụng Đa số từ điển sử dụng mơ hình khai phá liệu thiếu nhiều từ quan điểm, đặc biệt lĩnh vực cụ thể, dẫn đến hiệu phân lớp không cao Từ lý đó, chúng tơi đề xuất mở rộng từ điển VietSentiWordNet Vũ Xuân Sơn cộng [10] với việc làm giàu thêm từ quan điểm liên quan đến lĩnh vực du lịch Để thực điều đó, chúng tơi đề xuất mơ hình mở rộng từ điển VietSentiWordNet cho miền liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa từ vựng Ý tưởng xây dựng mơ hình xuất phát từ nghiên cứu [6, 8, 13, 14] với liệu vào bình luận liên quan đến lĩnh vực du lịch Thêm vào đó, chúng tơi đề xuất tiến trình tiền xử lý liệu với số chức tích hợp nhằm nâng cao hiệu phân lớp, thêm dấu, chuẩn hóa láy âm tiết (đối với từ thể cảm xúc đặc biệt), chuẩn hóa chữ viết tắt, xử lý biểu tượng cảm xúc Các đề xuất nhằm hướng đến xây dựng từ điển quan điểm tiếng Việt mà áp dụng cho việc phân lớp quan điểm lĩnh vực du lịch Các phần báo gồm: phân tích nghiên cứu liên quan mô tả Phần 2; Phần đề xuất phương pháp mở rộng từ điển VietSentiWordNet cho miền liệu du lịch, hai sơ đồ bổ sung từ quan điểm tiền xử lý liệu mô tả chi tiết Phần thực nghiệm phân tích kết Kết luận báo trình bày Phần 16 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 Nghiên cứu liên quan Khai phá quan điểm nhằm phát quan điểm đối tượng tích cực hay tiêu cực Các đặc trưng đối tượng mô tả, đánh giá mức độ khác Theo B Liu [15], thành phần quan điểm bao gồm: - Người nêu quan điểm (Opinion holder): người tổ chức đưa quan điểm đối tượng - Đối tượng (Object): thực thể phản ảnh người nêu quan điểm đưa quan điểm - Quan điểm (Opinion): ý kiến, tình cảm đánh giá người nêu quan điểm đối tượng Tùy theo trường hợp mục đích cụ thể, việc khai phá quan điểm mức khác nhau: mức tài liệu, mức câu mức đặc trưng Dựa vào nhiệm vụ liên quan đến mức giả định thực mức khác nhau, N Mishra cộng [16] đưa đánh giá khai phá quan điểm mức khác mô tả Bảng Bảng Đánh giá khai phá quan điểm mức khác Mức khai phá Giả định thực quan điểm Mức tài liệu Mỗi tài liệu tập trung vào đối tượng chứa quan điểm đưa người nêu quan điểm Không áp dụng cho đăng Nhiệm vụ liên quan Nhiệm vụ: Phân loại quan điểm đánh giá Các lớp: Tích cực, tiêu cực trung lập blog diễn đàn có nhiều quan điểm nhiều đối tượng nguồn Mức câu Một câu chứa quan điểm đăng người nêu quan điểm; điều nhiều trường hợp, ví dụ có nhiều quan điểm câu ghép câu phức Ranh giới câu xác định tài liệu cho Nhiệm vụ 1: Xác định câu cho chủ quan có quan điểm Các lớp: Khách quan chủ quan (có quan điểm) Nhiệm vụ 2: Phân loại quan điểm câu cho Các lớp: Tích cực, tiêu cực trung lập 17 Lê Văn Hoà Tập 129, Số 2A, 2020 Mức khai phá Giả định thực quan điểm Mức đặc trưng Nhiệm vụ liên quan Nguồn liệu tập trung vào đặc Nhiệm vụ 1: Xác định trích xuất trưng đối tượng đăng đặc trưng đối tượng nhận người nêu quan điểm xét người nêu quan điểm Không áp dụng cho đăng Nhiệm vụ 2: Xác định hướng blog diễn đàn có nhiều quan quan điểm đặc trưng tích cực, điểm nhiều đối tượng nguồn tiêu cực hay trung lập Nhiệm vụ 3: Gom nhóm đặc trưng đồng nghĩa Tạo tóm tắt quan điểm dựa đặc trưng nhiều đánh giá Đã có số nghiên cứu liên quan đến khai phá quan điểm sử dụng phương pháp dựa từ vựng Cụ thể, nghiên cứu C Bucur [3] đề xuất mơ hình để trích xuất phân loại đánh giá khách sạn đăng người dùng website du lịch Hệ thống trích xuất đánh giá khách sạn từ internet sử dụng kỹ thuật khai phá quan điểm để phân loại chúng dựa vào từ điển SentiWordNet [4] Tuy nhiên, mơ hình khai phá quan điểm tác giả xử lý nhiều mức (mức từ, mức câu mức tài liệu) nên gặp khó khăn tổng hợp quan điểm bình luận chứa nhiều quan điểm liên quan đến nhiều đối tượng Tương tự, nghiên cứu V Soni cộng [5] sử dụng phương pháp dựa từ vựng kết hợp với từ điển SentiWordNet Nhóm tác giả tập trung vào việc phân tích quan điểm cấp độ khía cạnh để tìm khía cạnh tích cực tiêu cực sản phẩm điện thoại website Amazon.com Mục tiêu phân tích mức khía cạnh xác định đặc trưng phân tích, trích xuất đặc trưng tính tốn độ phân cực Trong nghiên cứu này, nhóm tác giả thiết kế từ điển liệu cho lĩnh vực điện thoại di động Tuy nhiên, giai đoạn tiền xử lý liệu nhóm tác giả chưa tích hợp chức xử lý chữ viết tắt biểu tượng cảm xúc để tăng ngữ nghĩa cho văn Trong đó, nghiên cứu M Kundi cộng [6] đề xuất mơ hình sử dụng phương pháp dựa từ vựng để phân lớp quan điểm với liệu tweet mạng xã hội Twitter Mơ hình dựa tổng hợp nguồn liệu từ vựng từ điển khác Nghiên cứu quan tâm đến việc xử lý tiếng lóng biểu tượng cảm xúc giúp cho việc phân lớp đạt hiệu cao Ngoài ra, nghiên cứu G Qiu cộng [7] sử dụng phương pháp dựa từ điển để xác định câu quan điểm quảng cáo theo ngữ cảnh Nhóm tác giả đề xuất chiến lược quảng cáo để cải thiện mức độ phù hợp quảng cáo trải nghiệm người dùng Nhóm tác giả sử dụng phân tích cú pháp từ điển quan điểm sau đề xuất cách tiếp cận dựa luật để giải vấn đề trích xuất chủ đề nhận dạng thái độ người tiêu dùng trích xuất từ khóa quảng cáo Kết nhóm tác giả chứng minh tính hiệu phương pháp đề xuất trích xuất từ khóa quảng cáo lựa chọn quảng cáo Tuy nhiên, nhóm tác giả quan tâm đến việc trích xuất 18 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 từ khóa quảng cáo mà chưa tích hợp chức tiền xử lý liệu để tăng ngữ nghĩa cho liệu phân tích Ở nước, nghiên cứu Kiều Thanh Bình Phạm Bảo Sơn [8] đề xuất hệ thống khai phá quan điểm cho sản phẩm máy tính từ bình luận tiếng Việt sử dụng phương pháp dựa luật để xây dựng đánh giá tự động quan điểm người dùng mức câu, nhóm tác giả sử dụng từ điển liệu khác để phân lớp đặc trưng quan điểm từ điển từ liên quan đến đặc trưng cấu hình máy tính (cấu hình, vi xử lý, hệ thống ); từ điển từ liên quan đến đặc trưng kiểu dáng (thiết kế, thân máy, màu sắc, kích cỡ ); từ điển chứa từ quan điểm (tích cực, tiêu cực) Tuy nhiên, q trình tiền xử lý liệu nhóm tác giả quan tâm đến việc tách từ, gán nhãn từ loại cho câu chưa quan tâm đến việc chuẩn hóa liệu trường hợp liệu tiếng Việt khơng dấu có chứa biểu tượng cảm xúc nên hiệu phân lớp không cao Trong đó, nghiên cứu Vũ Tiến Thành cộng [9] trình bày phương pháp xây dựng hệ thống khai phá quan điểm khách hàng đặc trưng sản phẩm dựa vào luật cú pháp tiếng Việt từ điển VietSentiWordNet Kết quả, nhóm tác giả xây dựng mơ hình khai phá tổng hợp quan điểm dựa đặc trưng từ đánh giá khách hàng sản phẩm điện thoại di động Điểm hạn chế mơ hình đề xuất nhóm tác giả chưa quan tâm đến việc xử lý biểu tượng cảm xúc chữ viết tắt pha thứ (pha tiền xử lý liệu) Ngoài ra, Hong Nam Nguyen cộng [12] đề xuất phương pháp khai phá quan điểm văn tiếng Việt sử dụng từ điển quan điểm cho miền cụ thể để tăng độ xác Từ điển quan điểm nhóm tác giả xây dựng quan tâm đến miền liệu sản phẩm điện tử điện thoại di động máy tính Để nâng cao hiệu phân lớp, nhóm tác giả xử lý trường hợp câu bình luận chứa chữ viết tắt, tiếng lóng Mơ hình nhóm tác giả đề xuất phụ thuộc vào độ xác phần mềm dịch từ tiếng Anh sang tiếng Việt, từ tiếng Việt sang tiếng Anh từ điển Việt – Việt, thách thức lớn ảnh hưởng đến độ xác hệ thống Từ nghiên cứu liên quan trên, thấy nghiên cứu chưa quan tâm đến từ điển liệu cho miền liệu thuộc lĩnh vực du lịch Ngoài ra, số nghiên cứu chưa quan tâm đến chức tiền xử lý liệu giúp cho việc phân lớp có độ xác đạt hiệu cao Với đặc thù nguồn liệu câu quan điểm thu thập từ bình luận, ý kiến đánh giá khách hàng, trình xây dựng từ điển liệu chưa cần quan tâm đến đặc trưng đối tượng nghiên cứu mà quan tâm đến hướng quan điểm (tích cực, tiêu cực) câu nên chọn phương pháp khai phá quan điểm dựa từ vựng mức câu phù hợp với tốn xây dựng từ điển Mơ hình mở rộng từ điển VietSentiWordNet cho miền liệu du lịch Chúng mở rộng từ điển VietSentiWordNet với nhiều bổ sung liên quan đến từ quan điểm thuộc lĩnh vực du lịch dựa vào nghiên cứu [6, 8, 13, 14] mơ hình phân lớp 19 Lê Văn Hoà Tập 129, Số 2A, 2020 quan điểm sử dụng phương pháp dựa từ vựng Hình mơ tả mơ hình mở rộng từ điển VietSentiWordNet cho miền liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa từ vựng Mơ hình bao gồm giai đoạn thực sau: (1) Thu thập liệu (2) Tiền xử lý liệu (3) Phân lớp quan điểm (4) Bổ sung loại bỏ liệu từ điển Hình Mơ hình mở rộng từ điển VietSentiWordNet cho miền liệu thuộc lĩnh vực du lịch 3.1 Giai đoạn 1: Thu thập liệu Để có liệu đưa vào phân tích, chúng tơi tiến hành thu thập bình luận, ý kiến đánh giá từ nhiều nguồn khác Fanpage, diễn đàn, website liên quan đến khách sạn, nhà hàng, điểm du lịch, công ty lữ hành Với mục tiêu thu thập liệu từ nhiều nguồn khác nhau, trình thu thập liệu thực tự động nguồn liệu Fanpage điểm du lịch bán tự động nguồn liệu website, diễn đàn Bảng liệt kê 31.630 câu bình luận thu thập từ nhiều nguồn liệu khác Từ liệu sau thu thập, tách làm liệu (bộ liệu đầu vào cho trình xây dựng từ điển liệu liệu kiểm thử) 20 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 Bảng Số câu bình luận thu thập từ nhiều nguồn liệu khác Số câu STT Địa Lĩnh vực bình luận https://facebook.com/diemdulichhue Điểm du lịch 476 https://facebook.com/assessdestination Điểm du lịch 768 https://facebook.com/khamphadiemdulichhue Điểm du lịch 1.058 https://facebook.com/Đại-Nội-Huế-Imperial-City-Hue- Điểm du lịch 1.131 356344234958914 https://traveloka.com Khách sạn 698 https://tripadvisor.com.vn Nhà hàng 640 https://liberzy.com Tour du 122 du 819 lịch https://tripadvisor.com.vn Tour lịch https://www.shopee.vn Sản phẩm 567 10 https://www.shopee.vn Du lịch 241 https://www.foody.vn/hue Điểm du lịch 11 12 (Điểm du lịch di tích, nghỉ dưỡng, sinh thái, tham quan) https://www.foody.vn/da-nang Huế Điểm du lịch 2.501 (Điểm du lịch sinh thái, tham quan, nghỉ dưỡng, khu vui chơi) Đà Nẵng https://www.tripadvisor.com.vn/Attractions-g293926- 13 1.575 Activities-Hue_Thua_Thien_Hue_Province.html Hoạt động 8.331 giải trí Huế (Điểm di tích lịch sử, tơn giáo, hoạt động trời, tham quan ẩm thực) https://www.tripadvisor.com.vn/Attractions-g298085- 14 Activities-Da_Nang.html Hoạt động 4.732 giải trí Đà (Điểm du lịch thiên nhiên, danh lam thắng cảnh, bảo tàng, siêu Nẵng thị) https://www.tripadvisor.com.vn/Attractions-g293925- 15 Activities-c57-Ho_Chi_Minh_City.html Hoạt giải trí động 7.975 (Điểm du lịch thiên nhiên, danh lam thắng cảnh, hoạt động TPHCM trời) 3.2 Giai đoạn 2: Tiền xử lý liệu Dữ liệu đầu vào giai đoạn câu bình luận thu thập Để nâng cao hiệu phân lớp chất lượng liệu từ điển, dựa vào nghiên cứu [6, 17] để tích hợp chức tiền xử lý liệu bao gồm thêm dấu, chuẩn hóa láy âm tiết, chuẩn hóa chữ viết 21 Lê Văn Hoà Tập 129, Số 2A, 2020 tắt, xử lý biểu tượng cảm xúc Trong chức tiền xử lý liệu đầu tiên, tiến hành thêm dấu cho câu bình luận câu tiếng Việt khơng dấu Vấn đề thêm dấu đưa toán dịch máy ngơn ngữ nguồn tiếng Việt khơng dấu ngơn ngữ đích tiếng Việt có dấu Bài toán dịch máy cụ thể Sequence-to-Sequence Learning với kiến trúc EncoderDecoder đạt hiệu cao sử dụng mơ hình Transformer [18] Trong chức tiền xử lý liệu tiếp theo, tiến hành chuẩn hóa liệu tiếng Việt sử dụng quy tắc biểu thức quy (Regular Expression) Trường hợp thứ nhất: chuẩn hóa láy âm tiết (đối với từ thể cảm xúc đặc biệt), ví dụ: câu bình luận “Chất lượng dịch vụ tuyệt vờiiiiiiii” chuẩn hóa thành “Chất lượng dịch vụ tuyệt vời” “Thức ăn ngonnn điiiiiiii !!!!!!!!” chuẩn hóa thành “Thức ăn ngon !” Trường hợp thứ hai: chuẩn hóa chữ viết tắt, hệ thống thực việc thay từ như: “ko”, “khong” thành từ “không” “đc”, “dc” thành từ “được” hay “ok”, “nice”, “good” thành từ “tốt” để nâng cao hiệu xác định hướng quan điểm cho câu bình luận Ngồi ra, chúng tơi cịn dựa vào cơng cụ Demojize [19] để xử lý biểu tượng cảm xúc cách chuyển biểu tượng cảm xúc thành văn Bảng mô tả danh sách biểu tượng cảm xúc chuyển sang dạng văn theo quy định công cụ Demojize Kết thúc giai đoạn này, thu thập câu bình luận chuẩn hóa xử lý biểu tượng cảm xúc Bảng Danh sách biểu tượng cảm xúc chuyển sang dạng văn STT Biểu tượng Dạng văn STT angry_face Dạng văn loudly_crying_fa ce anguished_face pensive_face broken_heart 10 red_heart cold_face … face_blowing_a_kis 103 smiling_face grimacing_face 104 thumbs_down grinning_face 105 thumbs_up 3.3 Biểu tượng s Giai đoạn 3: Phân lớp quan điểm Dữ liệu đầu vào giai đoạn câu bình luận qua xử lý Bước đầu tiên, dựa vào công cụ ViTokenizer [20] để thực tách từ câu Công cụ ViTokenizer sử 22 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 dụng thuật toán Conditional Random Field với độ xác 98,50% cho tách từ tiếng Việt Bước giai đoạn này, dựa vào nghiên cứu [13, 14] để xây dựng quy trình phân lớp quan điểm gồm cơng việc chính: xây dựng từ quan điểm tiếng Việt có trọng số (VnOpinionWords) dựa vào từ quan điểm để xác định câu quan điểm với trọng số tích cực, tiêu cực từ quan điểm Cơng việc đầu tiên, xây dựng từ quan điểm tiếng Việt có trọng số VnOpinionWords chứa từ quan điểm trọng số (tích cực, tiêu cực) từ quan điểm Để xây dựng từ quan điểm này, sử dụng từ điển Việt – Anh để dịch từ quan điểm tiếng Việt sang tiếng Anh, sau gán trọng số (tích cực, tiêu cực) cho từ quan điểm tiếng Việt dựa vào trọng số từ tiếng Anh tương ứng từ điển SentiWordNet 3.0 [4] SentiWordNet 3.0 nguồn từ vựng tạo để hỗ trợ ứng dụng khai phá quan điểm với ngôn ngữ tiếng Anh Công việc xác định câu quan điểm với trọng số tích cực, tiêu cực từ quan điểm, sử dụng phương pháp dựa từ vựng kết hợp với từ quan điểm tiếng Việt có trọng số VnOpinionWords để xác định câu có chứa từ quan điểm, sau tính trọng số tích cực, tiêu cực cho từ quan điểm câu quan điểm 3.4 Giai đoạn 4: Bổ sung loại bỏ liệu từ điển Dữ liệu từ điển VietSentiWordNetPlus mở rộng từ từ điển VietSentiWordNet Vũ Xuân Sơn cộng [10] với khoảng 900 tập từ quan điểm Hệ thống tự động bổ sung từ quan điểm vào từ điển liệu dựa vào kết phân lớp quan điểm câu bình luận giai đoạn (phân lớp quan điểm) Để đảm bảo liệu từ điển không trùng lặp, hệ thống kiểm tra tồn từ quan điểm từ điển, sau bổ sung liệu vào từ điển theo khuôn dạng mô tả Bảng Quá trình chạy thực nghiệm bổ sung thêm 1,710 từ quan điểm thuộc lĩnh vực du lịch vào từ điển VietSentiWordNetPlus Như vậy, số lượng từ quan điểm thuộc lĩnh vực du lịch bổ sung vào từ điển VietSentiWordNetPlus lớn gần gấp hai lần (từ 900 lên 2,615) số từ quan điểm có từ điển VietSentiWordNet Bảng Khuôn dạng từ quan điểm từ điển liệu STT PosScore NegScore SynsetTerms Gloss 0,5 trong_lành Khơng khí lành 0,625 tuyệt Cảnh vật đẹp tuyệt 0,125 chật_hẹp Không gian chật hẹp 0,75 hùng_vĩ Phong cảnh hùng vĩ 0,875 nghèo_nàn Thức ăn sáng nghèo nàn … 23 Lê Văn Hoà Tập 129, Số 2A, 2020 2612 :relieved_face Biển đẹp, đồ ăn lại ngon 😌😌 2613 0,625 nguy_hiểm Trời mưa nguy hiểm 2614 0,875 lộn_xộn Biển dạo đông đúc lộn xộn 2615 0,625 gồ_ghề Đường kiệt vào khách sạn gồ ghề Ngoài ra, để nâng cao hiệu phân lớp liệu từ điển liệu, thực giai đoạn loại bỏ liệu nhiễu Mục đích giai đoạn nhằm loại bỏ từ quan điểm từ điển phân lớp khơng xác thuộc lĩnh vực du lịch Trong trình chạy thử nghiệm từ điển VietSentiWordNet ban đầu, phát 12 từ quan điểm phân lớp khơng xác (câu tích cực mà hệ thống cho câu tiêu cực) Bảng mô tả danh sách từ quan điểm phân lớp khơng xác Bộ từ điển VietSentiWordNetPlus khắc phục hạn chế giúp cho kết phân lớp xác Bảng Danh sách từ quan điểm phân lớp khơng xác STT Từ quan điểm Ví dụ câu bình luận phân lớp khơng xác cho Thuận tiện cho việc di chuyển; Địa điểm lí tưởng cho du lịch lành Khơng khí lành sống Chỗ sống ảo tuyệt vời mát mẻ Khơng khí lành mát mẻ 11 phong phú Mặt hàng phong phú; Kiến trúc phong phú 12 xanh Vườn xanh mát; Biển đẹp xanh Thực nghiệm phân tích kết Trong thực nghiệm, có nhiều độ đo sử dụng để đánh giá hiệu suất phân loại Trong đó, bốn độ đo sử dụng rộng rãi bao gồm: Accuracy, Precision, Recall, F1-score [21] Ngồi ra, ma trận Confusion cơng cụ hữu ích giúp phân tích mức độ hiệu mà 24 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 phân loại phân loại mẫu liệu lớp khác Ví dụ tham số ma trận Confusion hai lớp tích cực, tiêu cực minh họa Bảng Bảng Ma trận Confusion hai lớp tích cực, tiêu cực Mẫu liệu thực tế Tiêu Tích cực (Positive) Bộ phân loại cực (Negative) Tích cực (Positive) True Positive (TP) False Positive (FP) Tiêu False True cực (Negative) Negative (FN) Negative (TN) Ý nghĩa tham số ma trận Confusion hai lớp tích cực, tiêu cực: - True Positive (TP): số mẫu lớp Positive phân loại dự đốn xác Positive - True Negative (TN): số mẫu lớp Negative phân loại dự đốn xác Negative - False Positive (FP): số mẫu lớp Negative bị phân loại dự đoán nhầm thành Positive - False Negative (FN): số mẫu lớp Positive bị phân loại dự đoán nhầm thành Negative Một số độ đo đánh giá hiệu suất phân loại: Độ xác tổng quát (Accuracy) xác định hiệu suất phân loại tỷ lệ phần trăm mẫu dự đốn xác Accuracy tính tỷ số số mẫu dự đốn xác (khơng phân biệt Positive hay Negative) tổng số mẫu Cơng thức tính độ xác tổng quát (Accuracy): Accuracy = (TP + TN) (TP + TN + FP + FN) Độ xác (Precision) cho biết độ xác phân loại tỷ lệ phần trăm tất mẫu dự đốn tính cực thực tính cực Cơng thức tính độ xác (Precision): Precision = TP (TP + FP) Độ đầy đủ (Recall) thường liên quan đến thước đo mức độ đầy đủ phân loại tỷ lệ phần trăm mẫu tích cực thực dự đốn xác tích cực Cơng thức tính độ đầy đủ (Recall): Recall = TP (TP + FN) Độ đầy đủ điều hòa (F-score) thước đo phân tích thống kê có tính đến độ xác mức độ đầy đủ, F-score có giá trị từ đến Giá trị F-score gần với độ xác phân loại cao Cơng thức tính độ đầy đủ điều hịa (F-score): F-score = Precision × Recall (Precision + Recall) 25 Lê Văn Hoà Tập 129, Số 2A, 2020 Một ví dụ minh họa kết đánh giá thực nghiệm hệ thống phân lớp sử dụng từ điển VietSentiWordNetPlus điểm du lịch Đại Nội Huế mô tả Bảng Bảng Kết đánh giá thực nghiệm điểm du lịch Đại Nội Huế Mẫu liệu thực Kết đánh giá tế Positive Hệ Positive Negative TP FP 92 08 FN TN 05 33 thống Negativ phân lớp e Trung bình Accurac Precisio Recall F-score 92,00 94,85 93,40 90,58 % % % % 86,84 80,49 83,54 % % % 89,42 87,67 88,47 % % % y n Từ kết đánh giá thực nghiệm Bảng 7, thấy hiệu suất phân lớp sử dụng từ điển VietSentiWordNetPlus điểm du lịch Đại Nội Huế cao Trong đó, hệ thống dự đốn lớp Positive có Precision(Positive) 92,00%, Recall(Positive) 94,85%, Fscore(Positive) 93,40%; dự đốn lớp Negative có Precision(Negative) 86,84%, Recall(Negative) 80,49%, F-score(Negative) 83,54%; độ xác tổng quát (Accuracy) 90,58% Như vậy, hiệu suất phân lớp trung bình sử dụng từ điển VietSentiWordNetPlus điểm du lịch Đại Nội Huế có độ xác tổng quát (Accuracy) 90,58%, độ xác (Precision) 89,42%, độ đầy đủ (Recall) 87,67% độ đầy đủ điều hịa (F-score) 88,47% Chúng tơi thực cài đặt với thiết lập tương tự hệ thống phân lớp quan điểm Vũ Xuân Sơn cộng để so sánh kết thực nghiệm phân lớp quan điểm từ điển VietSentiWordNet từ điển VietSentiWordNetPlus (của mở rộng) Bảng so sánh hiệu suất xác định hướng quan điểm (theo phương pháp Accuracy Precision - Recall) 10 điểm du lịch từ điển VietSentiWordNetPlus với từ điển VietSentiWordNet Kết đánh giá hiệu suất trung bình xác định hướng quan điểm từ điển VietSentiWordNetPlus độ xác tổng quát, độ xác, độ đầy đủ, độ đầy đủ điều hòa là 87,42%; 86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% từ điển VietSentiWordNet ban đầu 26 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 Bảng Hiệu suất xác định hướng quan điểm từ điển VietSentiWordNetPlus VietSentiWordNet TT Điểm du lịch N VSWN Pos/ Neg Accuracy Precision VSWNPlus Recall F-score Accuracy Precision Recall F-score Đại Nội 146 97/41 52,17% 48,60% 48,38% 47,79% 90,58% 89,42% 87,67% 88,47% Núi Bạch Mã` 123 77/42 61,34% 58,06% 58,23% 58,12% 85,71% 85,18% 83,01% 83,89% Suối Thanh Tân 121 84/33 69,23% 62,01% 62,01% 62,01% 84,62% 82,22% 78,25% 79,83% Biển Thuận An 116 62/51 61,06% 60,52% 59,82% 59,67% 85,84% 86,78% 85,01% 85,43% Suối Voi 112 59/51 56,36% 55,80% 55,33% 54,87% 82,73% 84,29% 81,90% 82,20% Chùa Thiên Mụ 109 74/29 54,37% 52,90% 53,56% 51,26% 86,41% 82,93% 84,25% 83,54% Biển Lộc Bình 106 39/42 62,96% 64,41% 63,46% 62,50% 91,36% 91,34% 91,39% 91,35% Biển Cảnh Dương 97 69/23 69,57% 61,96% 63,77% 62,47% 83,70% 78.15% 80.43% 79.14% Đầm Lập An 85 46/34 63,75% 62,83% 62,72% 62,77% 90,00% 90.10% 89.39% 89.68% 10 Chùa Huyền Không 66 37/22 52,54% 50,18% 50,18% 50,12% 93,22% 92.75% 92.75% 92.75% 60,34% 57,73% 57,75% 57,16% 87,42% 86,32% 85,41% 85,63% Trung bình Trong đó, VSWN: từ điển VietSentiWordNet, VSWNPlus: từ điển VietSentiWordNetPlus, N: Số câu bình luận, Pos/Neg: tỉ lệ số câu tích cực/ tiêu cực, Accuracy độ xác tổng quát, Precision độ xác, Recall độ đầy đủ, F-score độ đầy đủ điều hòa Kết luận Trong báo này, chúng tơi đề xuất mơ hình mở rộng từ điển VietSentiWordNet cho miền liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa từ vựng Cụ thể, mở rộng từ điển VietSentiWordNet với việc làm giàu thêm từ quan điểm thuộc lĩnh vực du lịch tích hợp chức tiền xử lý liệu bao gồm thêm dấu, chuẩn hóa láy âm tiết (đối với từ thể cảm xúc đặc biệt), chuẩn hóa chữ viết tắt, xử lý biểu tượng cảm xúc Dựa kết thực nghiệm, từ điển VietSentiWordNetPlus cho kết phân lớp quan điểm tốt hơn, với trung bình độ xác tổng quát, độ xác, độ đầy đủ độ đầy đủ điều hòa 87,42%; 86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% từ điển VietSentiWordNet ban đầu Tuy nhiên, việc gán trọng số cho từ quan điểm để xây dựng từ quan điểm tiếng Việt có trọng số (VnOpinionWords) có mức độ xác phụ thuộc vào độ xác từ điển Việt – Anh, nên cần có nhiều nghiên cứu để nâng cao hiệu cách tiếp cận khai phá quan điểm dựa từ vựng 27 Lê Văn Hoà Tập 129, Số 2A, 2020 Tài liệu tham khảo A Arora, C Patil, S Correia (2015), Opinion Mining: An Overview, International Journal of Advanced Research in Computer and Communication Engineering Vol 4, Issue 11, pp 94-98 W Medhat, A Hassan, H Korashy (2014), Sentiment analysis algorithms and applications: A survey Ain Shams Engineering Journal, 5(4), pp 1093-1113 C Bucur (2015), Using opinion mining techniques in tourism, in Proceedings of the 2nd Global Conference on Business, Economics, Management and Tourism, Procedia Economics and Finance 23, pp 1666-1673 S Baccianella, A Esuli, F Sebastiani (2010), SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining, In: Proceedings of the 7th Conference on International Language Resources and Evaluation, pp 2200–2204 V Soni, M Patel (2014), Unsupervised Opinion Mining From Text Reviews Using SentiWordNet, International Journal of Computer Trends and Technology (IJCTT) V11(5), pp 234-238 F M Kundi, A Khan, S Ahmad, M Z Asghar (2014), Lexicon-Based Sentiment Analysis in the Social Web, Journal of Basic and Applied Scientific Research, 4(6), pp 238-248 G Qiu, X He, F Zhang, Y Shi, J Bu, C Chen (2010), DASA: Dissatisfaction-oriented Advertising based on Sentiment Analysis Expert Systems with Applications 37, pp 6182–6191 Kieu Thanh Binh, Pham Bao Son (2010), Sentiment Analysis for Vietnamese, In: 2010 Second International Conference on Knowledge and Systems Engineering, pp 152–157 Vu Tien Thanh, Pham Huyen Trang, Luu Cong To, Ha Quang Thuy (2011), A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese In Semantic Methods for Knowledge Management and Communication (SCI 381), pp 23-33 10 Vu Xuan Son, P Seong-Bae (2014), Construction of Vietnamese SentiWordNet by using Vietnamese Dictionary, The 40th Conference of the Korea Information Processing Society, pp 745-748, South Korea 11 P Haseena Rahmath (2014), Opinion Mining and Sentiment Analysis challenges and Applications, International Journal of Application or Innovation in Engineering & Management Volume 3, Issue 12 Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, (2014) Domain Specific Sentiment Dictionary for Opinion Mining of Vietnamese Text The 8th Multi-Disciplinary International Workshop on Artificial Intelligence (MIWAI 2014), pp 136-148 13 A Sadia, F Khan, F Bashir (2018), An Overview of Lexicon-Based Approach For Sentiment Analysis, International Electrical Engineering Conference, IEP Centre, Karachi, Pakistan 14 K Aung, N Myo (2017), Sentiment Analysis of Students’ Comment Using Lexicon Based Approach, Computer and Information Science (ICIS), IEEE/ACIS 16th International Conference IEEE, pp 149-154 15 B Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage data, Springer, Second Edition 16 N Mishra, C.K.Jha, PhD (2012), Classification of Opinion Mining Techniques, International Journal of Computer Applications, Volume 56 – No.13 17 Võ Tuyết Ngân, Đỗ Thanh Nghị (2015), Phân loại ý kiến Twitter, Tạp chı́ Khoa học Trường Đại học Cần Thơ, pp 32-38 18 A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A Gomez, L Kaiser (2017), Attention Is All You Need, arXiv:1706.03762v5 [cs.CL] 19 T Kim, K Wurster (2015), emoji v.0.3.4, BSD License 20 Viet Trung Tran (2016), Python Vietnamese Toolkit, MIT License 21 M Khalid, I Ashraf, A Mehmood, S Ullah, M Ahmad, G S Choi (2020), GBSVM: Sentiment Classification from Unstructured Reviews Using Ensemble Classifier, Appl Sci 10(8), 2788 28 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 EXPANDING VIETSENTIWORDNET DICTIONARY FOR TOURISM DATA DOMAIN USED A LEXICON-BASED APPROACH Le Van Hoa* School of Hospitality and Tourism – Hue University Abstract Opinion mining helps to determine the semantic orientations (positive, negative) of customers about a topic, product or service There are several different approaches to opinion mining, in which the lexicon-based approach to opinion mining is relatively popular The accuracy of the lexicon-based approach to opinion mining is highly dependent on the dictionary, in which contains opinion expressing words to specific domains One data set may give very good classification in one domain, but it performs very poor in some other domains Nowadays, VietSentiWordNet is a Vietnamese opinion dictionary that it is used relatively popular, but it lacks many opinion words for the tourism data domain This paper focuses on expanding VietSentiWordNet dictionary with enrich opinion words belong to the tourism domain In which a model for expanding VietSentiWordNet dictionary used a lexicon-based approach is proposed, and process data preprocessing consist of many functions also added to improve the efficiency of opinion classification Evaluation results show that the expansion of VietSentiWordNet dictionary classifies opinion more accurately for opinion sentences in the tourism domain Keywords: VietSentiWordNet dictionary; tourism data domain; opinion mining; lexiconbased approach; semantic orientations 29

Ngày đăng: 26/05/2021, 14:17

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan