TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Lý Thị Huyền Châu XÂY DỰNG TẬP NHÃN TỪ SO SÁNH ĐỂ PHÂN TÍCH CẢM XÚC NGƯỜI DÙNG TỪ NHỮNG BÌNH LUẬN TIẾNG VIỆT CONSTRUCTION SET LABELS OF COMPARISON SENTENCE TO SENTIMENT ANALYSIS OF THE USER FROM VIETNAMESE COMMENTS LÝ THỊ HUYỀN CHÂU TĨM TẮT: Câu so sánh đóng vai trị quan trọng việc thể cảm xúc người viết vấn đề họ quan tâm cách so sánh với đối tượng khác nhằm đưa quan điểm đánh giá đối tượng tốt không tốt Bài viết xây dựng tập nhãn để xác định câu so sánh bình luận tiếng Việt thuộc miền cụ thể (trang web bán điện thoại di động) tập nhãn từ so sánh ứng dụng để đưa kết phân tích cảm xúc người dùng dựa bình luận họ Việc xây dựng thực bước cách phân tích miền liệu cụ thể, đồng thời ứng dụng chương trình xử lý ngơn ngữ kho từ vựng phong phú Từ điển cảm xúc tiếng Việt để đưa kết phân tích với độ xác cao Hiệu phương pháp thể thơng qua chương trình ứng dụng xây dựng để đánh giá độ xác tập nhãn xác định câu so sánh bình luận tiếng Việt Từ khóa: nhãn, so sánh, cảm xúc, điểm tích cực, điểm tiêu cực ABSTRACT: Comparison sentences have important role in presenting the writer's emotions about the issues they are concerned by comparison with other objects in order to evaluate whether the object is good or bad This paper builds set labels to identify the comparison sentences in the Vietnamese comments in a specific domain (website selling mobile phones) and the collective label for comparison used to analyze the emotions of users based on their comments The construction is carried out gradually by analyzing data of a specific domain, and applying special programs to processing language and by referring to the rich vocabulary of the Vietnamese emotional dictionary in order to arrive at highly accurate results of analysis The effectiveness of this method is manifestedthrough an application program which is built to evaluate the accuracy of the collective label in determining comparison sentences of Vietnamese comments Key words: label, comparative/comparison, emotions, positive points, negative points.stu với cộng đồng web nhiều hình thức khác diễn đàn, mạng xã hội, blog Do số lượng lớn ĐẶT VẤN ĐỀ Sự gia tăng thiết bị sử dụng web cho phép người giao tiếp ThS Trường Đại học Văn Lang, Email: lythihuyenchau@vanlanguni.edu.vn 53 TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Số 02 / 2017 liệu không đồng tạo người sử dụng cộng đồng, câu bình luận người dùng nguồn tài nguyên vô lớn có ý nghĩa thực tiễn Hiện nay, doanh nghiệp sử dụng mạng xã hội trực tuyến để quảng bá kinh doanh công ty, sử dụng dịch vụ vốn có trang mạng truyền thơng xã hội có để phục vụ cho hoạt động kinh doanh họ Trong thời đại phát triển mạng xã hội, thông qua câu bình luận dạng so sánh, người dùng mạng xã hội muốn trình bày thái độ sản phẩm quan tâm, muốn tìm hiểu sản phẩm (điện tử cơng nghệ máy tính, điện thoại) thơng qua bình luận trước người sử dụng tìm hiểu Về phía doanh nghiệp, họ muốn biết đánh giá người dùng sản phẩm cơng ty từ bình luận có tính chất so sánh đó, chúng thể đánh giá người bình luận sản phẩm cơng ty dựa vào sản phẩm khác so sánh, tốt tệ gây ảnh hưởng đến tâm lý, cảm xúc nhiều người đọc khác THỰC TRẠNG NGHIÊN CỨU PHÂN TÍCH CẢM XÚC TỪ CÁC BÌNH LUẬN SO SÁNH Nhận thấy tầm quan trọng việc rút trích quan điểm từ bình luận có tính chất so sánh, nghiên cứu [10] đưa phương pháp xác định cảm xúc người dùng cách đưa người nắm giữ quan điểm, đồng thời xác định từ cảm xúc tạo nên nhiều cảm xúc câu Tuy nhiên, việc xác định người nắm giữ quan điểm không đạt kết tốt câu có nhiều người nắm giữ chủ đề Một nghiên cứu khác Jindal Liu [7, tr.244-251] cho thấy việc xác định câu so sánh hữu ích cho việc phân tích câu tài liệu Nhận thấy tầm quan trọng câu so sánh, báo đưa vấn đề việc xác định câu so sánh, phân loại câu so sánh, đưa nhãn sau tiếp cận phương pháp học giám sát để xác định câu so sánh từ tài liệu việc kết hợp phương pháp CSR (Class Sequential Rules) học máy (Machine Learning) Ngoài ra, viết [4, tr.417-422] nghiên cứu xây dựng từ điển cảm xúc dựa từ vựng tiếng Anh với trọng số điểm tích cực tiêu cực Nghiên cứu xây dựng tập từ điển từ vựng SentiWordNet làm nguồn tài nguyên công khai cho nghiên cứu khai thác quan điểm khác Một nghiên cứu khác tương tự Jindal Liu [8, tr.1331-1336] phân loại loại câu so sánh, xác định đặc điểm riêng chúng, cách xác định vị trí thực thể để đưa kết khai thác quan điểm xác Tuy nhiên, chưa xác định đối tượng khác câu so sánh thực ngôn ngữ tiếng Anh Khai phá quan điểm mức độ câu cụm câu thực [5, tr.201248] Nghiên cứu đề xuất giải pháp để giải vấn đề tồn đọng nghiên cứu trước tác giả Với kết đạt nguồn tham khảo tốt liên quan đến khai phá quan điểm 54 TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Lý Thị Huyền Châu Trong nghiên cứu [14, tr.230-235], nhóm tác giả phân tích để thực cơng việc việc khai phá quan điểm từ bình luận web khách hàng sản phẩm dịch vụ mà họ quan tâm sử dụng Kết nghiên cứu cung cấp nhìn tổng quan đưa nhiều công việc kỹ thuật đáp ứng việc khai phá quan điểm Một nghiên cứu khác, [6, tr.211-217] thực việc khai thác quan điểm từ tiểu blog internet cách rút trích tính từ thuộc lĩnh vực cụ thể, đồng thời đưa cách tiếp cận phương pháp tự động trích xuất tính từ để đưa quan điểm người dùng từ tài liệu thu thập internet Nhận thấy khai thác quan điểm nhiệm vụ việc trích xuất từ tập hợp tài liệu, nghiên cứu [2, tr.523-526] đánh giá cách tiếp cận việc sử dụng dấu ngoặc thích trích từ tin tức cung cấp công cụ thu thập tin tức Europe Media Monitor (EMM) Nghiên cứu thực liệu đặc biệt (bảng báo giá), làm đa dạng việc khám phá quan điểm người tiêu dùng Việc phân tích cảm xúc mức độ câu thực nghiên cứu [9, tr.153.153] cách xây dựng hệ thống phân tích cảm xúc dựa quy tắc cách sử dụng Framework Gate Nghiên cứu cho thấy kết phân tích cảm xúc cho vài sản phẩm liệu training liệu test đạt kết xác cao, đồng thời tạo tiền đề để khai phá vấn đề liên quan đến phân tích cảm xúc tiếng Việt Ngồi ra, [1, tr.17-23] trình bày việc xây dựng từ điển từ vựng SentiWordNet giúp người dùng phân loại cảm xúc trích xuất quan điểm Tuy nhiên, từ vựng từ điển chưa đầy đủ đáp ứng miền cụ thể Dùng liệu thu thập từ Twitter, [11, tr.538-541] nghiên cứu tiện ích tính ngôn ngữ để phát cảm xúc thông điệp Twitter Đây đánh giá nguồn tài nguyên sử dụng, thực hữu ích cho nhiều nghiên cứu sử dụng để khai phá quan điểm Nhận thấy tầm quan trọng từ khóa việc rút trích quan điểm, nghiên cứu [3, tr56-59] tập trung xác định tập từ khóa để phân loại rút trích quan điểm Nghiên cứu đưa tập từ khóa phân loại cảm xúc đánh giá tính hiệu tập từ khóa góp phần cho nghiên cứu khai phá quan điểm sau Việc rút trích kiến người dùng văn mạng xã hội nên thực [12, tr.538-547] cung cấp phương pháp phát kiến người dùng dựa ý kiến cá nhân họ trình bày mạng xã hội Twitter Đây nghiên cứu cung cấp thuật toán cho việc phát kiến chủ thể văn Phân tích cảm xúc dựa vào từ điển cảm xúc tiếng Việt thực [15, tr.136-148] Từ điển xác xây dựng dựa từ điển SentiWordNet từ cảm xúc rút trích từ trang mạng xã hội miền cụ thể Đây nghiên cứu cung cấp từ điển cảm xúc tiếng Việt với số từ vựng lớn giúp ích cho việc khai phá quan điểm Trong việc xử lý ngôn ngữ tự nhiên, nghiên cứu [16] cho chất 55 TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Số 02 / 2017 trình rút trích cảm xúc người dùng mạng xã hội q trình máy học Nghiên cứu thơng qua bình luận, tiểu blog mạng xã hội, nghiên cứu đánh giá hành vi người thể nhiều qua ngôn ngữ, cần phải ghi nhớ Qua nhiều nghiên cứu phân tích cảm xúc thấy đa số quan điểm rút trích từ bình luận tiếng Anh chưa tập trung câu so sánh nên việc xây dựng tập nhãn để xác định câu so sánh từ bình luận so sánh tiếng Việt miền cụ thể để đưa kết phân tích cảm xúc vấn đề người dùng quan tâm TÌM HIỂU PHẦN MỀM GÁN NHÃN TỪ LOẠI VÀ TỪ ĐIỂN CẢM XÚC TIẾNG VIỆT 3.1 Phần mềm gán nhãn từ loại tiếng Việt vnTagger phần mềm mã nguồn mở Lê Hồng Phương dùng để tách từ gán nhãn từ loại cho văn tiếng Việt Nghiên cứu [13, tr.12] mô tả tập nhãn dùng chương trình vnTagger bao gồm 18 nhãn từ loại Phiên sử dụng phiên 4.2.0 công bố vào tháng 4/2010 3.2 Từ điển cảm xúc tiếng Việt Sử dụng từ điển để trích xuất cảm xúc cách tiếp cận để khai thác quan điểm Trong [15], nhóm nghiên cứu dựa nguồn từ vựng tiếng Anh SentiWordNet để xây dựng Từ điển tiếng Việt với 26,186 từ cảm xúc thuộc loại tính từ, trạng từ, danh từ động từ, từ cảm xúc có trọng số điểm tích cực tiêu cực Ngoài ra, từ điển xây dựng dựa miền cụ thể bình luận thu thập từ trang web thương mại đặc biệt điện thoại di động máy tính nên phù hợp với mục đích nghiên cứu Đồng thời, từ điển xây dựng dựa SentiWordNet WordNet nên nghiên cứu dùng ngữ liệu SentiWordNet sở liệu để kiểm tra tính xác từ điển Trong [1] mô tả thành phần SentiWordNet sau: Synset: ghi, cấu tạo cột, cột phân cách dấu : - POS: từ loại từ - ID: mã đại diện cho synset - PosScore: trọng số tích cực từ - NegScore: trọng số tiêu cực từ - SynsetTerms: từ nhận định synset SynsetTerms: từ nhận định synset Một synset chứa nhiều từ, từ từ đồng nghĩa với Một từ có nhiều ngữ cảnh khác trọng số Pos(s)/Neg(s) khác, từ gán kèm theo số hiệu để phân biệt từ Hình Một vài dịng liệu Từ điển cảm xúc tiếng Việt 56 TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Lý Thị Huyền Châu Ví dụ: “Điện thoại iPhone chuẩn cơm mẹ nấu” Nghiên cứu tập trung phân tích bình luận tiếng Việt dạng so sánh nên nghiên cứu bỏ qua câu thơng thường câu bất thường, nhiên chúng thu thập để đánh giá mức độ chênh lệch câu so sánh câu thơng thường bình luận thu thập từ trang web thương mại Bảng sau cho biết danh sách loại câu so sánh mà tập trung nghiên cứu ĐỀ XUẤT PHƯƠNG PHÁP PHÂN TÍCH CẢM XÚC DỰA TRÊN TỪ ĐIỂN CẢM XÚC TIẾNG VIỆT 4.1 Xác định loại so sánh tiếng Việt Tiếng Việt giống tiếng Anh loại so sánh mô tả chi tiết [5] Các câu bình luận tiếng Việt thường thuộc ba loại câu so sánh sau, câu bình luận cịn lại thuộc dạng câu thơng thường câu bất thường: Câu so sánh nhất: câu so sánh lớn nhỏ tất đối tượng cịn lại Trong câu thường có từ như: nhất, số 1,… Ví dụ: “iPhone dịng điện thoại đẹp nhất” Câu so sánh bằng: câu so sánh tương đương số đặc điểm đối tượng Trong câu thường có từ như: nhau, giống,… Ví dụ: “iPhone Android hai dịng điện thoại cảm ứng tốt nhau” Câu so sánh hơn: câu so sánh lớn nhỏ hơn, xếp có thứ tự đối tượng Trong câu thường có từ như: hơn, thua,… Ví dụ: “iPhone chụp hình đẹp Nokia” Câu thơng thường: câu bình luận thơng thường khơng so sánh, không đưa thứ tự đối tượng Ví dụ: “Điện thoại iPhone cảm ứng tốt” Câu bất thường: bao gồm câu tiếng lóng, khơng dấu, viết theo thuật ngữ thiếu niên, theo thuật ngữ mạng xã hội,… Bảng Danh sách loại câu so sánh TT Loại câu so sánh So sánh So sánh So sánh Nhãn N H B 4.2 Xác định tập từ theo loại câu so sánh Dựa bình luận thu thập từ trang web thương mại, người nghiên cứu tự xác định câu bình luận so sánh xây dựng tập từ theo loại so sánh Kết khởi tạo có 16 từ loại xác định (trong nhãn: N: so sánh nhất, H: so sánh hơn, B: so sánh bằng) Bảng Danh sách khởi tạo từ theo loại so sánh TT 57 Nhãn N N N N N N H H H Từ thể no number số số number one thua TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG 10 11 12 13 14 15 16 B B B B B B B Số 02 / 2017 giống same cỡ y xì Đánh giá độ xác Thuật tốn với 16 từ khởi tạo thống kê cụ thể Bảng Thống kê thực 705 câu bình luận, lấy từ chủ đề ngẫu nhiên Bảng Kết thống kê độ xác thuật tốn xác định câu so sánh gán nhãn so sánh TT Chủ đề Điện thoại có camera chụp hình đẹp iPhone 6? Dùng iPhone Plus chuyển sang Note hay HTC One M9? Galaxy Note hay iPhone Plus phù hợp với việc thư ký? 88 Độ xác 89% 246 231 94% 105 100 96% Câu bình luận 98 Đúng Pin Galaxy S6 tốt iPhone 67 63 94% Galaxy S6 Edge iPhone Plus đọ khả chống rung 189 172 91% Quan sát Bảng 3, thấy với tập từ khởi tạo gồm 16 từ Bảng 2, độ xác trung bình thuật tốn xác định câu so sánh gán nhãn so sánh 92.8% Độ sai số thuật toán chủ yếu tập trung cụm từ có gắn liền với từ “như” Bảng 3, có từ “như” câu lại khơng mang ý nghĩa so sánh bằng, ví dụ: hầu như, thôi, mong thế, giá như, kiểu em, đơn cử như, là, sau, cách nhìn,… Mặt khác với từ “hơn” dẫn đến vài trường hợp sai, như: năm,… Sau q trình tính độ xác quan sát tập từ dẫn đến kết sai, người nghiên cứu nhận thấy cần bổ sung số từ vào từ khởi tạo, với lý do, tần suất xuất thường xuyên từ từ chuẩn “tiếng Việt” Hiện tại, tập từ loại so sánh bao gồm 26 từ, sau thực thi thuật toán để xác định câu so sánh gán nhãn so sánh tập từ này, kết với 1720 câu bình luận có 457 câu thuộc dạng so sánh Danh sách đầy đủ từ khởi tạo từ bổ sung sau trình phân tích thể Bảng 4.3 Các bước thực Bước 1: Thu thập tiền xử lý liệu bình luận: bước thu thập liệu bình luận tự động từ trang web thương mại (sử dụng công cụ Craw Tool Website Internet Marketing Ninjas), sau liệu 58 TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Lý Thị Huyền Châu chuẩn hóa tách câu để phù hợp với mục đích phân tích Bước 2: Xác định câu bình luận tiếng Việt dạng so sánh: bước dựa vào tập danh sách từ xác định câu so sánh để xác định gán nhãn câu so sánh Tiếp theo, sử dụng chương trình vnTagger để gán nhãn từ loại tiếng Việt, sau rút trích danh sách vị trí từ gán nhãn theo yêu cầu phân tích cực: bước kiểm tra câu bình luận có thuộc dạng câu phủ định, sau dựa vào Từ điển cảm xúc tiếng Việt danh sách từ gán nhãn để tính điểm tích cực tiêu cực Điểm tích cực tính từ động từ tính theo cơng thức: (1) pos = ∑ Pi Trong đó: pos: Điểm tích cực Pi: Điểm tích cực tính từ/động từ thứ i Điểm tiêu cực tính từ động từ tính theo cơng thức: Bảng Danh sách từ theo loại so sánh sau q trình phân tích TT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Nhãn N N N N N N N N N N N N N N N H H H B B B B B B B B Từ thể no number số số number one vô đối tuyệt vời khó vượt qua xuất sắc hồn hảo làm có đối thủ chưa có đối thủ đỉnh đỉnh ăn đứt hết thua giống same cỡ y xì ngang neg = ∑ Ni (2) Trong đó: neg: Điểm tiêu cực Ni: Điểm tiêu cực tính từ/động từ thứ i Ví dụ: “Note/N 4/M chụp/V đẹp/A hơn/R ip/N 6/M” Kết quả: Với câu trên, tính từ câu “đẹp”, với tính từ tìm Từ điển cảm xúc tiếng Việt theo công thức (1), (2), kết điểm tích cực tính từ “đẹp”: pos = 6.75, điểm tiêu cực tính từ “đẹp” neg = 0.5 Nếu câu có xuất từ phủ định vị trí xuất từ phủ định trước vị trí của tính từ/động từ điểm số tích cực tiêu cực tính từ/động từ tính theo cơng thức sau: fpos = neg fneg = pos Bước 3: Sử dụng từ điển cảm xúc tiếng Việt để tính điểm trọng số tích cực, tiêu Trong đó: 59 (3)