MACHINE LEARNING BASED ENGLISH SENTIMENT ANALYSIS

Journal of Science and Technology, Tạp chí Khoa học Công nghệ 52 (4D) (2014), 142-155 MACHINE LEARNING BASED ENGLISH SENTIMENT ANALYSIS Tran Thi Ngoc Thao1, Nguyen Ngoc Kim Lien1, Ngo Minh Vuong2,* Faculty of Information Technology, Ton Duc Thang University 19 Nguyen Huu Tho Street, District 7, Ho Chi Minh City Faculty of Information Technology, Lac Hong University 10 Huynh Van Nghe Street, Bien Hoa City, Dong Nai Province * Email: ngovuong@lhu.edu.vn Sentiment analysis or opinion mining aims to determine attitudes, judgments and opinions of customers for a product or a service This is a great system to help manufacturers or servicers know the satisfaction level of customers about their products or services From that, they can have appropriate adjustments We use a popular machine learning method, being Support Vector Machine, combine with the library in Waikato Environment for Knowledge Analysis (WEKA) to build Java web program which analyzes the sentiment of English comments belongs one in four types of woman products That are dresses, handbags, shoes and rings We have developed and test our system with a training set having 300 comments and a test set having 400 comments The experimental results of the system about precision, recall and F measures for positive comments are 89.3%, 95.0% and 92,.1%; for negative comments are 97.1.%, 78.5% and 86.8%; and for neutral comments are 76.7%, 86.2% and 81.2% Keywords: sentiment analysis, support vector machine, opinion mining, text classification Trần Thị Ngọc Thảo, Nguyễn Ngọc Kim Liên, Ngô Minh Vương PHÂN TÍCH Ý KIẾN CỦA NHẬN XÉT TIẾNG ANH DỰA TRÊN PHƯƠNG PHÁP HỌC MÁY Trần Thị Ngọc Thảo1, Nguyễn Ngọc Kim Liên1, Ngô Minh Vương2,* Khoa Công nghệ thông tin, Trường Đại học Tôn Đức Thắng 19 Nguyễn Hữu Thọ, Quận 7, TpHCM Khoa Công nghệ thông tin, Trường Đại học Lạc Hồng 10 Huỳnh Văn Nghệ, Biên Hòa, Đồng Nai * Email: ngovuong@lhu.edu.vn Đến Tịa soạn: 17/9/2014; Chấp nhận đăng: 22/12/2014 TĨM TẮT Phân tích ý kiến nhằm mục đích xác định thái độ, quan điểm người sử dụng sản phẩm dịch vụ Đây cơng trình giúp ích cho nhà sản xuất nhà cung cấp dịch vụ biết mức độ hài lòng khách hàng sản phẩm dịch vụ họ để từ có mức độ điều chỉnh thích hợp Chúng tơi sử dụng phương pháp phổ biến học máy máy vectơ hỗ trợ kết hợp với thư viện phần mềm WEKA (Waikato Environment for Knowledge Analysis) để xây dựng chương trình web Java phân tích ý kiến nhận xét tiếng Anh bốn loại sản phẩm dành cho nữ giới đầm, túi xách, giày nhẫn Chúng xây dựng kiểm thử chương trình với tập huấn luyện gồm 300 nhận xét, tập kiểm tra gồm 400 nhận xét Kết đánh giá hiệu suất hệ thống độ xác, độ đầy đủ độ F nhận xét tích cực 89,3%, 95,0% 92,1%; nhận xét tiêu cực 97,1.%, 78,5% 86,8%; nhận xét trung tính 76,7%, 86,2% 81,2% Từ khóa: Phân tích nhận xét, máy vectơ hỗ trợ, khai phá ý kiến, phân loại văn GIỚI THIỆU 1.1 Khái niệm ý kiến Ý kiến nhận xét, bình luận hay đánh giá người sản phẩm dịch vụ suy nghĩ, nhận định, tình cảm tâm lý cảm xúc người chất lượng, hình dáng, vật liệu giá sản phẩm dịch vụ Các ý kiến tích cực, tiêu cực trung lập tùy thuộc vào cảm nhận cá nhân Thông thường, đánh giá gồm phần sau:  Tiêu đề: mô tả ngắn gọn đánh giá tên sản phẩm  Loại sản phẩm: sản phẩm thuộc loại nào, ví dụ đầm túi xách  Sản phẩm: sản phẩm đánh giá Journal of Science and Technology, Tạp chí Khoa học Cơng nghệ 52 (4D) (2014), 142-155  Nội dung: ý kiến chi tiết người dùng sản phẩm  Người đánh giá: người viết ý kiến đánh giá  Mức đánh giá: thang điểm người đánh giá dành cho sản phẩm dựa mức độ hài lòng (1 sao, sao, sao, sao)  Thời gian đánh giá: ngày tháng năm mà ý kiến đánh giá viết Ngồi cịn có thêm phần viết phản hồi cho đánh giá đó, đánh giá có hữu ích hay khơng, số người cảm thấy đánh giá hữu ích Với ý kiến đánh giá, cơng trình quan tâm đến loại sản phẩm, tiêu đề nội dung ý kiến đánh giá 1.2 Các loại ý kiến Tương tự cơng trình [1], chúng tơi phân loại ý kiến thành loại ý kiến tích cực (positive), ý kiến tiêu cực (negative) ý kiến trung lập (neutral) Ý kiến tích cực (positive) ý kiến chứa thơng tin tích cực sản phẩm, phản hồi đánh giá tốt, khen ngợi sản phẩm Sản phẩm có nhiều ý kiến đánh giá tích cực người đọc cảm thấy sản phẩm tốt chất lượng Trong ý kiến tích cực thường xuất tính từ tính chất tính cực sản phẩm “beautiful” (đẹp), “pretty” (xinh), “cute” (dễ thương), “good” (tốt), “great” (tuyệt), “nice” (tốt), “well” (tốt), “comfortable” (thoải mái) từ cảm xúc tích cực người viết “love” (yêu), “like” (thích), “happy” (hạnh phúc), “glad” (vui), “pleased” (hài lòng), “excited” (phấn khởi), “expect” (mong đợi), “recommend” (đề nghị) Ý kiến tiêu cực (negative) ý kiến chứa thông tin tiêu cực sản phẩm, phản hồi đánh giá không tốt sản phẩm Sản phẩm có chất lượng thấp kiểu dáng chưa đẹp thường nhận ý kiến tiêu cực khách hàng cảm thấy khơng hài lịng Vì nhà sản xuất xem xét, ghi nhận ý kiến đánh giá để thay đổi, cải tiến sản phẩm cho tốt Trong ý kiến tiêu cực thường xuất tính từ tính chất tiêu cực sản phẩm “tight” (chật), “stiff” (cứng), “poor” (tệ), “wrong” (sai), “weird” (kỳ dị) từ cảm xúc tiêu cực người viết “hate” (ghét), “disappointed” (thất vọng), “stupid” (ngớ ngẩn), “return” (trả lại) Ý kiến trung lập (neutral) ý kiến đánh giá chung chung sản phẩm, chứa nhận định tích cực tiêu cực mức độ cân Ý kiến trung lập chứa nội dung vừa khen vừa chê sản phẩm, khơng khen khơng chê sản phẩm Các ý kiến chứa từ “ok” (tạm được), “okay” (tạm được), “alright” (ổn) thường ý kiến trung lập Ý kiến trung lập khơng phân cực CƠNG TRÌNH LIÊN QUAN 2.1 Phân tích ý kiến dự đoán bầu cử web hệ thống Crystal Cơng trình [2] trình bày hệ thống dự đốn bầu cử (Crystal) dựa ý kiến đăng trang web dự đoán bầu cử Để xây dựng hệ thống này, trước tiên phải thu thập ý kiến bầu cử qua trang web dự đoán bầu cử tạo thành tài liệu liệu gọi corpus Sau sử dụng liệu cho hệ thống phân tích ý kiến để dự đoán kết bầu cử Với tin nhắn dự đoán, Crystal xác nhận đảng mà tin nhắn dự đốn chiến thắng sau tập hợp ý kiến phân tích thành kết dự đoán bầu cử Để dự đoán kết bầu cử, cơng trình áp dụng Support Vector Machine (SVM) based supervised learning Ba bước phân tích dự đốn là: tổng qt tính chất, phân loại cách sử dụng SVM, tích hợp kết SVM Trần Thị Ngọc Thảo, Nguyễn Ngọc Kim Liên, Ngô Minh Vương Trong bước tổng quát tính chất, hệ thống khái quát mẫu từ sử dụng ý kiến dự đoán Vd: Thay sử dụng “Đảng Tự thắng”, “Đảng Dân chủ thắng”, “Đảng Bảo thủ thắng” khái quát thành “Đảng chiến thắng thắng” Trước tiên, hệ thống thay họ tên ứng viên thành tên Đảng phái trị mà ứng cử viên thuộc Sau hệ thống ngắt thông điệp thành nhiều câu Tiếp theo với câu hệ thống lặp lại số lần số Đảng phái xuất câu đó, đồng thời thay tên Đảng Đảng chiến thắng Đảng khác để tổng quát tính chất Trong bước phân loại cách sử dụng SVM, sau có mẫu (hóa trị, câu tổng quát) bước tổng quát tính chất, hệ thống phân loại câu tổng quát thành hóa trị hướng tới mục tiêu cuối xác định (hóa trị, đảng phái) thơng điệp Công việc loại phân loại nhị phân hóa trị có loại: +1 -1 Vd: Với câu tổng quát “Đảng khác không vượt qua Đảng chiến thắng”, mục tiêu hệ thống đặt Đảng chiến thắng hóa trị THẮNG Hệ thống thực mơ hình SVM việc sử dụng gói SVM light Trong bước tích hợp kết SVM, hệ thống kết hợp hóa trị câu dự đoán SVM để xác định kết luận hóa trị Đảng dự đốn thơng điệp Đối với Đảng có thơng điệp, hệ thống tính tốn tổng hóa trị câu Đảng chọn Đảng có giá trị cao Để cải thiện hiệu suất, cơng trình áp dụng kỹ thuật tổng qt mơ hình tính ngram Kết thực nghiệm cho thấy Crystal nhanh số đường sở có phương pháp tiếp cận non-generalized n-gram dự đốn bầu cử xác đến 81.68% Trong tương lai thực mơ hình ý kiến dự đoán lĩnh vực khác thị trường bất động sản, lĩnh vực mà yêu cầu nhiều khai thác, thiết kế hệ thống thu thập liệu 2.2 Phân tích ý kiến, tình cảm cách sử dụng Appraisal Groups Cơng trình [3] trình bày phương pháp để phân loại tình cảm dựa khai thác phân tích ngữ nghĩa chi tiết thái độ biểu hiện, đơn vị biểu từ riêng lẻ mà nhóm thẩm định (các nhóm từ thể thái độ cụ thể), ví dụ “very good” (rất tốt), “not extremely brilliant” (không rực rỡ) Một biểu thức thẩm định có giá trị: Người thẩm định, Vật bị thẩm định, Loại thẩm định, Định hướng (tích cực/tiêu cực) Cơng trình sử dụng kỹ thuật bán tự động để xây dựng vốn từ vựng cho giá trị thuộc tính thẩm định với điều kiện có liên quan Phương pháp chuẩn để đặc trưng cho văn vectơ đa chiều có đầu vào kỹ thuật học máy để đo tần số yếu tố văn (như từ) Phương pháp xem tốt, giúp xác định tính khác đơn vị từ vựng giá trị thuộc tính nhóm thẩm định Hiện nay, thách thức lớn cơng trình xác định xác đầy đủ biểu đánh giá liên quan bao gồm người thẩm định, vật bị thẩm định, loại thẩm định định hướng Điều phân tích mịn biểu tâm lý tài liệu Lý thuyết ngôn ngữ chẳng hạn lý thuyết thẩm định cung cấp sở tính văn bản, cải thiện kết kỹ thuật truyền thống 2.3 Các cơng trình liên quan khác Cơng trình [4] trình bày phương pháp tiếp cận theo hướng tự động phát cảm xúc ẩn, EmotiNet, dựa kiến thức thông thường EmotiNet sở kiến thức khái niệm liên quan đến giá trị tình cảm Bằng cách sử dụng tài nguyên này, phát cảm xúc tiềm ẩn có văn EmotiNet xây dựng bước sau: thiết kế ontology chứa Journal of Science and Technology, Tạp chí Khoa học Cơng nghệ 52 (4D) (2014), 142-155 định nghĩa khái niệm chính, mở rộng ontology cách sử dụng tình lưu trữ ISEAR, mở rộng ontology cách sử dụng sở kiến thức thơng thường có Cơng trình phát biểu tâm lý, cảm xúc tiềm ẩn mà khơng cần có xuất từ biểu tình cảm, khai thác phương pháp ontology Cơng trình [5] giải vấn đề cấp độ câu xây dựng hệ thống dựa quy tắc cách sử dụng Gate framework Hệ thống phân tích ý kiến chất lượng sản phẩm phân chia thành phần: từ cụm từ xác định chứa ý kiến phân loại câu tài liệu dựa ý kiến Không giống với phân loại theo loại từ chủ đề, việc phân loại nhận xét đòi hỏi hiểu biết xu hướng tình cảm viết Những khía cạnh thách thức việc phân tích ý kiến bao gồm việc xác định ý kiến, cường độ tình cảm, phức tạp câu, từ ngữ cảnh khác Cơng trình sử dụng phương pháp tách từ, gán nhãn luật Cơng trình [6] dự vào từ cụm từ để phân tích ý kiến theo mức độ nhẹ, cơng trình sử dụng cơng cụ phân loại ý kiến Stanford Parser, SentiWordNet, Coreferency Resolution Trong đó, Standford Parser sử dụng phương pháp phân tích SentiWordNet kỹ thuật phân loại chi tiết địi hỏi khả tính tốn ý kiến dựa từ Coreference Resolution cho thấy nhiều khía cạnh ngôn ngữ tự nhiên, Coreference Resolution gần không hồn hảo, hiệu xuất làm việc hạn chế Cơng trình chủ yếu dùng phương pháp phân tích ngơn ngữ tự nhiên Cơng trình [7] phân tích ý kiến cách trích xuất tình cảm ý kiến chủ đề từ tài liệu văn trực tuyến Thay phân loại tình cảm tồn chủ đề, phân tích ý kiến phát tất tài liệu tham khảo liên quan đến chủ đề cho trước xác định tình cảm loại tài liệu tham khảo sử dụng kỹ thuật phân tích ngơn ngữ tự nhiên Cơng trình bao gồm: trích xuất đặc trưng chủ đề cụ thể; trích xuất tình cảm cụm từ biểu tình cảm; liên kết chủ đề tính chất chủ đề với ý kiến Cơng trình [8] phân tích nhận xét tiếng Việt sử dụng phương pháp học máy Tuy nhiên, cơng trình tìm kiếm nhận xét rác, tức nhận xét không thực, nhận xét quảng cáo nhận xét nhầm chủ đề phân loại nhận xét thành nhận xét tích cực, tiêu cực trung tính Cơng trình [9] sử dụng giải thuật mơ hình hóa chủ đề (topic modeling) khai thác ontology để nắm bắt thơng tin tường minh tiềm ẩn sản phẩm Đồng thời công trình phát triển phương pháp phân tích xã hội để rút trích hiệu bình luận khách hàng mạng xã hội Cũng khai thác ontology, cơng trình [10], [11] [12] sử dụng thực thể có tên để mở rộng truy vấn tài liệu nhằm tăng hiệu truy hồi thông tin CƠ SỞ LÝ THUYẾT 3.1 Học máy Học máy (machine learning) [13] nhánh thuộc trí tuệ nhân tạo, sử dụng kiến thức xác suất thống kê đại số tuyến tính để nghiên cứu phát triển kỹ thuật xây dựng chương trình mà máy tính học hỏi, phân tích liệu có tạo kết cho liệu Học máy có nhiều ứng dụng thực tế phân tích ý kiến đánh giá, phân tích thị trường, phát thẻ tính dụng giả, chẩn đoán y khoa, phân loại chuỗi DNA, nhận dạng đối tượng, nhận dạng tiếng nói chữ viết, phân loại email, dịch tự động, cử động robot Một số dạng thuật toán thường dùng phân loại dựa kết đầu mong muốn loại đầu vào q trình huấn luyện máy là: học có giám sát (supervised learning), học không Trần Thị Ngọc Thảo, Nguyễn Ngọc Kim Liên, Ngô Minh Vương giám sát (unsupervised learning), học bán giám sát (semi-supervised), học tăng cường (reinforcement learning), học cách học (learning to learn)  Học có giám sát tạo hàm ánh xạ liệu đầu vào tới kết mong muốn, tức xây dựng chương trình xuất kết cho liệu đầu vào dựa vào liệu đầu vào có đầu gán nhãn từ trước Vd: phân loại (classification) hồi quy (regression)  Học khơng giám sát tập hợp, gom nhóm liệu đầu vào thành cụm đầu có đặc tính mà khơng có sẵn liệu đánh nhãn Vd: vấn đề gom cụm (clustering)  Học bán giám sát kết hợp liệu có gắn nhãn khơng gắn nhãn để tạo hàm phân loại thích hợp  Học tăng cường thực hành động dựa vào liệu ghi nhận từ kết hành động trước Vd: lập kế hoạch (planning)  Học cách học dựa vào liệu trường hợp gặp để dự đoán kết cho trường hợp chưa gặp 3.2 Support Vector Machine Support Vector Machine (SVM), giới thiệu Cortes Vapnik vào năm 1995 [14], giúp phát triển thuật toán từ số liệu thống kê kể từ thập kỉ 60, áp dụng nhiều lĩnh vực lĩnh vực sử dụng tin học, phân tích liệu sinh học, văn nhận diện hình ảnh SVM phương pháp học sử dụng cho phân loại nhị phân Mỗi mẫu liệu biểu diễn thành dạng vector ánh xạ thành điểm khơng gian Ý tưởng tìm mặt phẳng phân chia liệu không gian d thành lớp cho khoảng cách từ điểm liệu gần tới mặt phẳng xa SVM giới thiệu khái niệm việc đưa liệu vào khơng gian có chiều cao nơi mà liệu phân chia Hình mơ tả việc lựa chọn mặt phẳng làm tăng khoảng cách tối đa biên độ Có nhiều mặt phẳng phân tách điểm liệu thành miền mặt siêu phẳng tối ưu mặt phẳng có độ lề lớn Ta có tập huấn luyện D gồm n điểm: D={Xi, Yi}, với i = 1,…,n Xi thuộc Rd lớp nhãn Yi thuộc {-1, 1} Giả sử điểm D khả tách tuyến tính, ta có mặt phẳng phân tách điểm Xi thành lớp riêng biệt Ta muốn tìm mặt siêu phẳng cực đại độ lớn lề điểm Y=1 điểm Y= -1 Biểu thức thể siêu mặt phẳng: W.X+b=0 Trong đó, W vector pháp tuyến mặt phẳng, X vector đặc trưng, b hệ số tự làm mặt phẳng di chuyển tịnh tiến Hai mặt phẳng lề hai mặt phẳng hỗ trợ song song với siêu mặt phẳng phân tách qua điểm nằm gần mặt siêu phẳng phân tách Những điểm nằm hai mặt phẳng hỗ trợ gọi vector hỗ trợ Hai mặt phẳng lề có dạng: W X + b = -1 W.X+b=1 Khoảng cách lề 2/||W||, với ||W|| độ dài vector W Journal of Science and Technology, Tạp chí Khoa học Cơng nghệ 52 (4D) (2014), 142-155 Hình Chọn mặt phẳng làm tăng khoảng cách tối đa biên độ Mục tiêu tốn tìm kiếm siêu phẳng phân tách có lề lớn nhất, tức tìm W b cho cực đại khoảng cách hai mặt phẳng hỗ trợ này, đồng nghĩa với 2/||W|| lớn nhất, tương đương ||W|| nhỏ Ngồi phải đảm bảo khơng có điểm liệu nằm hai mặt phẳng này, ta thêm ràng buộc: W×Xi + b ≥ 1, với Yi = +1 W×Xi + b ≤ -1, với Yi = -1 Được viết lại thành: Y(W×Xi + b) ≥ 1, với 1≤i≤n Tóm lại cần giải tốn tối ưu: ||W|| { Yi (W∙Xi +b)≥1 Việc giải tốn tối ưu khơng đơn giản ||W|| liên quan đến bậc hai nên ta thay ||W|| với ||W|| mà không ảnh hưởng đến kết quả, toán trở thành tốn tối ưu quy hoạch tồn phương: { ||W||2 Yi (W∙Xi +b)≥1 XÂY DỰNG MƠ HÌNH 4.1 Sơ đồ dịng liệu Hình trình bày bước trình tạo tập đặc trưng cho việc học máy Tập đặc trưng tập hợp từ thể tâm lý tình cảm có tần số suất nhiều tập huấn luyện Sau có tập đặc trưng chúng tơi kết hợp tập với tập huấn luyện để tạo tập vectơ đặc trưng Tiếp theo phương pháp học máy học từ tập vectơ đặc trưng tập huấn luyện để tạo mơ hình phân loại phù hợp thể Hình Sau có mơ hình phân loại nhận xét thành Trần Thị Ngọc Thảo, Nguyễn Ngọc Kim Liên, Ngô Minh Vương loại positive (tích cực), negative (tiêu cực) neutral (trung lập), hệ thống tạo tập vectơ đặc trưng cho tập kiểm tra Tập đặc trưng phân loại mơ hình phân loại xây dựng từ tập kiểm thử Hình trình bày thứ tự kiểm tra nhận xét tích cực, tiêu cực hay trung tính Tập 300 câu nhận xét Chọn từ xuất nhiều Tập từ thể tâm lý tình cảm Chọn từ thể tâm lý tình cảm Hình Sơ đồ dịng liệu cho q trình tạo tập đặc trưng Tập huấn luyện Tập đặc trưng Tạo tập Vector đặc trưng Mơ hình phân loại Tạo mơ hình phân loại Hình Sơ đồ dịng liệu cho q trình tạo mơ hình phân loại Tập kiểm thử câu nhận xét nhập vào Tập đặc trưng Tạo tập Vector đặc trưng Mơ hình phân loại Đánh giá mơ hình Hình Sơ đồ dịng liệu cho q trình đánh giá mơ hình phân loại 4.2 Tập huấn luyện tập kiểm thử Chúng thu thập ngẫu nhiên 700 ý kiến đánh giá thuộc loại sản phẩm: giày (shoes), túi xách (handbags), nhẫn (rings), đầm (dresses) trang web thương mại điện tử tiếng Amazon.com Nội dung tập huấn luyện tập kiểu thử gồm cột: STT, loại sản phẩm, chủ đề, nhận xét, đánh giá người đánh giá máy Tiếp theo với ý kiến, gán nhãn tích cực (positive), tiêu cực (negative) trung lập (neutral) tay đưa nhãn vào cột đánh giá người tập liệu Sau đó, chia ngẫu nhiên tập liệu thành 300 ý kiến cho tập huấn luyện, 400 ý kiến tập kiểm thử 4.3 Mơ hình tạo tập đặc trưng vector chuẩn (FastVector) Chúng chọn từ đặc trưng có ảnh hưởng đến việc phân loại lưu chúng vào file Các từ đặc trưng tính từ (tính chất sản phẩm), động từ (cảm xúc người Journal of Science and Technology, Tạp chí Khoa học Cơng nghệ 52 (4D) (2014), 142-155 viết), danh từ (sự khen ngợi) Các từ đặc trưng tạo từ 300 câu nhận xét mẫu trang amazon.com gồm loại sản phẩm giới nữ: Đầm (Dresses), Túi xách (Handbags), Nhẫn (Rings), Giày (Shoes) Trong 300 câu nhận xét ta tìm từ hay xuất đánh giá Và từ từ xuất nhiều ta lại chọn từ thể tâm lý tình cảm có sức ảnh hưởng lớn nhất, có khả định nhận xét tích cực, tiêu cực, hay trung lập Vector chuẩn (FastVector) có dòng, n cột gọi n phần tử Tên n-1 phần tử giá trị (những từ thể cảm nhận người nhận xét) đọc từ tập đặc trưng Và phần tử có kiểu liệu numeric (dạng số), thể số lần suất phần tử nhận xét Phần tử cuối (thứ n) mang tên Result, dùng để lưu lại đánh giá người dùng Và phần tử cuối có kiểu liệu nominal (dạng tập hợp) gồm thuộc tính positive (tích cực), negative (tiêu cực), neutral (trung lập) Mục đích để Vector chuẩn để dùng làm đầu vào cho việc đánh giá, phân loại mô hình học máy 4.4 Mơ hình tính trọng số TF-IDF cho đặc trưng Mục đích việc xác định trọng số cho đặc trưng để tạo vector đặc trưng, nhằm phục vụ cho việc đánh giá mơ hình học máy Những vector đặc trưng có định dạng giống vector chuẩn Mỗi vector đặc trưng biểu diễn cho đánh giá Có phương pháp để tính trọng số:  Dựa vào việc đặc trưng có xuất đánh giá hay khơng Giả sử ta có tập có chứa m đặc trưng {t1, t2, t3, t4,…, tm}, với dj câu nhận xét đánh giá thứ j Gọi Wij trọng số đặc trưng thứ i đánh giá thứ j Ta có: Wij = 0, ti không thuộc dj Wij = 1, ti thuộc dj Tuy nhiên, cách xác định trọng số chưa hiệu độ xác khơng cao nên chúng tơi không chọn phương pháp  Dựa vào tần số xuất đặc trưng đánh giá Số lần xuất đặc trưng đánh giá lớn xuất câu đánh giá khác từ đặc trưng có khả định kết phân loại đánh giá Theo cơng thức tính trọng số TF-IDF cho đặc trưng câu đánh sau: tf(t, d)= f(t,d) max{f(w, d):w ϵ d} Trong công thức tính TF tf(t, d) số tf đặc trưng t đánh giá d f(t, d) tần số xuất đặc trưng t câu đánh giá d max{f(w, d):w d} tần số xuất lớn đặc trưng chứa câu đánh giá d Trong d đánh giá tập huấn luyện hay tập kiểm thử tùy vào tập xét tập idf(t, D)=log D {d ϵ D:t ϵ d}+1 Trần Thị Ngọc Thảo, Nguyễn Ngọc Kim Liên, Ngô Minh Vương Trong công thức IDF idf(t, D) số idf đặc trưng t tập liệu chứa D đánh giá D số câu đánh giá tập huấn luyện {dϵ D: t ϵ d} số đánh giá tổng số D đánh giá có chứa đặc trưng t W(t,d) = TF x IDF Trong cơng thức tính TF-IDF, W(t.d) trọng số đặc trưng t đánh giá d Và tính tích số TF với số IDF Những đặc trưng có số TFIDF cao xuất nhiều đánh giá ngược lại đặc trưng có số TF-IDF thấp xuất đánh giá xét Vì mà cách tính có độ xác cao, nên chúng tơi sử dụng phương pháp cho việc tính trọng số 4.5 Mơ hình tạo kiểu liệu Instances từ tập huấn luyện tập kiểm thử hay từ nhận xét nhập vào người dùng Instance vector chứa định dạng FastVector dùng để đại diện cho đánh giá có n phần tử với n-1 phần tử chứa số TF-IDF đặctrưng, phần tử thứ n chứa nhãn lớp positive (tích cực), negative (tiêu cực), neutral (trung lập) người đánh giá Intances tập hợp chứa nhiều instance Tùy theo người dùng chọn chức đánh giá câu nhận xét nhập vào ô text box hay chức đánh giá tập kiểm thử mà ta tạo Instances khác  Tạo instances từ tập huấn luyện hay tập kiểm thử: chúng tơi tính số TF-IDF đặc trưng câu nhận xét, sau đưa TF-IDF vô n-1 phần tử đầu Instance Phần tử cuối Instance gán nhãn lớp (do người đánh giá) vô Với tập huấn luyện chúng tơi có 300 câu đánh giá nên tương ứng tạo 300 Instance, với tập kiểm thử chúng tơi có 400 câu đánh giá nên tương ứng tạo 400 Instance Tiếp theo chúng tơi đưa Instance vào Instances để sử dụng làm đầu vào cho mô hình đánh giá học máy  Tạo instances từ câu nhận xét đánh giá: từ câu nhận xét đánh giá nhập vào text box hình giao diện ta tính số TF-IDF đặc trưng Sau đó, đưa số TF-IDF vào n-1 phần tử Instance Phần tử cuối Instance nhãn lớp positive (tích cực), negative (tiêu cực), hay neutral (trung lập) Sau đưa Instance vào Instances làm đầu vào cho mô hình đánh giá phương pháp học máy 4.6 Mơ hình đánh giá kết dựa ma trận ConfusionMatrix ConfusionMatrix tra trận có n hàng n cột Trong n số nhãn lớp Ma trận cho biết số câu đánh giá kết đánh giá câu VD: matrận ConfusionMatrix hàng cột 0 0 10 Journal of Science and Technology, Tạp chí Khoa học Công nghệ 52 (4D) (2014), 142-155 Trong đó, tổng số hàng số câu positive (tích cực) người đánh giá Tổng số hàng số câu negative (tiêu cực) người đánh giá Tổng số hàng số câu neutral (trung lập) người đánh giá Tổng số cột số câu positive (tích cực) máy đánh giá Tổng số cột số câu negative (tiêu cực) máy đánh giá Tổng số cột số câu neutral (trung lập) máy đánh giá Dựa theo ví dụ trên, hàng cột 1, số cho biết người đánh giá câu positive (tích cực) máy đánh giá câu positive (tích cực) -> máy người đánh giá giống > xác Trong hàng cột 3, số cho biết có câu người đánh giá negative (tiêu cực) máy lại đánh giá câu neutral (trung lập) -> máy người đánh giá không giống -> khơng xác Tương tự hàng cột 2, số cho biết có câu người đánh giá neutral (trung lập) máy đánh giá câu negative (tiêu cực) -> đánh giá máy người không giống -> khơng xác Như vậy, dựa vào ma trận ConfusionMatrix ta xác định kết đánh giá câu nhận xét nhập vào hay nhiều câu nhận xét tập kiểm thử 4.7 Đánh giá mô hình học máy tập kiểm thử câu nhận xét người dùng nhập vào Trước tiên, chúng tơi khởi tạo mơ hình phân loại riêng SMO cho phương pháp máy vector hỗ trợ (SVM) Sau đó, ta xây dựng việc phân loại dựa tập huấn luyện có sẵn Tiếp sau đó, ta tạo mơ hình đánh giá dựa tập huấn luyện Cuối bước đánh giá mơ hình, ta đánh giá tập kiểm thử dựa mơ hình phân loại tạo Rồi xác định kết đánh giá dựa vào ma trận ConfusionMatrix Instance (hay câu nhận xét người dùng nhập vào) với Instance (từng câu tập kiểm thử) Riêng với việc đánh giá tập kiểm thử, ta kết hợp với việc xác định xem có tổng cộng tất câu positive (tích cực), negative (tiêu cực), neutral (trung lập) từ kết đánh giá để đưa hình giao diện cho người dùng xem sử dụng để tính độ đánh giá 4.8 Mơ hình tính độ đánh giá Ta có TP số câu người đánh giá máy đánh giá giống nhau, FP số câu người đánh giá máy đánh giá không giống nhau, Precision độ xác, Recall độ đầy đủ, F-measure độ đầy đủ điều hòa Bảng cho biết số câu người máy đánh giá tích cực, tiêu cực trung lập, số câu máy đánh giá tích cực người đánh giá tiêu cực trung lập, số câu máy đánh giá tiêu cực người đánh giá tích cực trung lập, số câu máy đánh giá trung lập người đánh giá tích cực tiêu cực TP có loại là:  TPositive (số câu máy người đánh giá positive)  TNegative (số câu máy người đánh giá negative)  TNeutral (số câu máy người đánh giá neutral) Bảng Bảng thể kết phân lớp (người đánh giá) kết phân lớp đạt (máy đánh giá) 11 Trần Thị Ngọc Thảo, Nguyễn Ngọc Kim Liên, Ngô Minh Vương Kết phân lớp (Người đánh giá) Kết phân lớp đạt (Máy đánh giá) Positive Negative neutral Positive TPositive (TP) FPosNeg (FP) FPosNeu (FP) Negative FNegPos (FP) TNegative (TP) FNegNeu (FP) Neutral FNeuPos (FP) FNeuNeg (FP) TNeutral (TP) FP có loại là:  FPosNeg (số câu máy đánh giá positive người đánh giá negative)  FPosNeu (số câu máy đánh giá positive người đánh giá neutral)  FNegPos (số câu máy đánh giá negative người đánh giá positive)  FNegNeu (số câu máy đánh giá negative người đánh giá neutral)  FNeuPos (số câu máy đánh giá neutral người đánh giá positive)  FNeuNeg (số câu máy đánh giá neutral người đánh giá negative) Precision có số là:  PPos (độ xác việc phân loại câu positive)  PNeg (độ xác việc phân loại câu negative)  PNeu (độ xác việc phân loại câu neutral) Recall có số là:  RPos (độ đầy đủ việc phân loại câu positive)  RNeg (độ đầy đủ việc phân loại câu negative)  RNeu (độ đầy đủ việc phân loại câu neutral) F-measure có số là:  FmPos (độ đầy đủ điều hòa việc phân loại câu positive)  FmNeg (độ đầy đủ điều hòa việc phân loại câu negative)  FmNeu (độ đầy đủ điều hòa việc phân loại câu neutral) Cơng thức tính độ đánh giá:  Cơng thức tính Precision: Precision = số câu máy đánh giá thuộc lớp i số câu máy đánh giá thuộc lớp i  PPos = TPos / (TPos + FPosNeg + FPosNeu)  PNeg = TNeg / (TNeg + FNegPos + FNegNeu)  PNeu = TNeu / (TNeu + FNeuPos + FNeuNeg)  Cơng thức tính Recall: Recall = số câu máy đánh giá thuộc lớp i số câu người đánh giá thuộc lớp i 12 Journal of Science and Technology, Tạp chí Khoa học Công nghệ 52 (4D) (2014), 142-155  RPos = TPos / (TPos + FNegPos + FNeuPos)  RNeg = TNeg / (TNeg + FPosNeg + FNeuNeg)  RNeu = TNeu / (TNeu + FPosNeu + FNegNeu)  Công thức tính F-measure: F-measure = x Precision x Recall Precision+Recall  FmPos = * PPos * RPos / (PPos + RPos)  FmNeg = * PNeg * RNeg / (PNeg + RNeg)  FmNeu = * PNeu * RNeu / (PNeu + RNeu) 4.9 Kết thực nghiệm tập kiểm thử Bảng trình bày kết đánh giá, phân loại cho biết số câu người máy đánh giá tích cực, tiêu cực trung lập, số câu máy đánh giá tích cực người đánh giá tiêu cực trung lập, số câu máy đánh giá tiêu cực người đánh giá tích cực trung lập, số câu máy đánh giá trung lập người đánh giá tích cực tiêu cực Ngồi ra, cịn cho biết độ đo Precision tích cực, tiêu cực, trung lập, độ đo Recall tích cực, tiêu cực, trung lập, độ đo F-measure tích cực, tiêu cực, trung lập Bảng Bảng kết đánh giá hiệu suất mơ hình máy vector hỗ trợ tập kiểm thử Người đánh giá Máy đánh giá Precision Recall F-measure 15 0.893 0.95 0.921 102 0.971 0.785 0.868 27 112 0.767 0.862 0.812 Positive negative neutral positive 133 negative neutral Người đánh giá: positive: 140 câu negative: 130 câu neutral: 130 câu Máy đánh giá: positive: 149 câu negative : 105 câu neutral: 146 câu KẾT LUẬN Trong cơng trình, chúng tơi phân tích tầm quan trọng nhận xét lĩnh vực khác nhau, thành phần cấu tạo đánh giá so sánh điểm giống, khác ý kiến nhận xét tiếng Việt với ý kiến nhận xét tiếng Anh Cơng trình tập trung vào mục đích phân tích ý kiến nhận xét tiếng Anh positive (tích cực), negative (tiêu cực) hay neutral (trung lập) dựa vào phương pháp học máy Vì chúng tơi giới thiệu lý thuyết học máy phương pháp máy vector hỗ trợ (SVM) Tất ý kiến tiếng Anh dùng để làm tập huấn luyện tập kiểm thử cơng trình chúng tơi thu thập từ trang web bán hàng trực tuyến tiếng www.amazon.com 13 Trần Thị Ngọc Thảo, Nguyễn Ngọc Kim Liên, Ngô Minh Vương (Amazon) Chúng tơi đề xuất mơ hình xây dựng, nêu bước thực chi tiết, thực mô hình tiến hành thực nghiệm đánh giá kết từ chương trình ứng dụng viết web Java, có tích hợp số thư viện phần mềm mã nguồn mở weka Kết đánh giá hiệu suất đạt positive Precision 89,3 %, Recall 95,0 %, F-measure 92,1 %; negative Precision 97,1 %, Recall 78,5 %, F-measure 86,8 %; neutral Precision 76,7 %, Recall 86,2 %, F-measure 81,2 % Cơng trình cịn số hạn chế, đề xuất hướng phát triển sau:  Mở rộng tập huấn luyện cách tăng thêm ý kiến nhận xét thu thập thêm ý kiến nhiều loại sản phẩm khác để làm đa dạng hóa việc phân loại tâm lý người dùng, mở rộng việc phân loại nhiều sản phẩm  Cải thiện tập đặc trưng, mở rộng tập đặc trưng với khối từ vựng mở rộng có một vài sản phẩm riêng biệt  Cơng trình xử lý dạng câu khác với câu phủ định, câu so sánh câu điều kiện TÀI LIỆU THAM KHẢO Liu B - Chapter 11: Opinion Mining Web Data Mining, Springer (2006) 1-75 Kim S M and Hovy E - Crystal: Analyzing Predictive Opinions on the Web, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Association for Computational Linguistics (2007) 1056-1064 Whitelaw C., Garg N and Argamon S - Using Appraisal Groups for Sentiment Analysis, Proceedings of the 14th ACM international Conference on Information and Knowledge Management (2005) 625-631 Balahur A., Hermida M J and Montoyo A - Detecting Implicit Expressions of Sentiment in Text Based on Commonsense Knowledge, Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis, Association for Computational Linguistics (2011) 53-60 Kieu T B and Pham B S - Sentiment Analysis for Vietnamese Proceedings of the 2nd International Conference on Knowledge and Systems Engineering, IEEE Computer Society (2010) 152-157 O’Neil A - Sentiment Mining for Natural Language Documents, COMP3006 Prpject Report, Department of Computer Science, Australian National University (2009) 1-20 Yi J., Nasukawa T., Bunescu R and Niblack W - Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques Proceedings of the Third International Conference on Data Mining, IEEE Computer Society (2003) 427-434 Duong T H H., Dai T V., Ngo V M - Detecting Vietnamese Opinion Spam In Proceedings of Scientific Researches on the Information and Communication Technology in 2012 (ICTFIT'12), Publishers of Engineering Sciences, Vietnam (Vietnamese title: "Phát đánh giá spam cho tiếng Việt") (2012) 53-59 Lau R.Y.K., Li C and Liao S.S.Y - Social analytics: Learning fuzzy product ontologies for aspect-oriented sentiment analysis In Decision Support Systems, Elsevier (online 2014) 1-15 14 Journal of Science and Technology, Tạp chí Khoa học Cơng nghệ 52 (4D) (2014), 142-155 10 Ngo, V M., Cao, T.H Discovering Latent Concepts and Exploiting Ontological Features for Semantic Text Search In Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP-2011), pp 571-579 11 Cao, T H., Ngo, V M Semantic Search by Latent Ontological Features In International Journal of New Generation Computing, Springer-Verlag, SCI, Vol 30, No.1, pp 53-71 (2012) 12 Ngo, V M 2014 Discovering Latent Information by Spreading Activation Algorithm for Document Retrieval In International Journal of Artificial Intelligence & Applications, Vol 5, No 1, pp 23-34 (2014) 13 Flach P - Machine Learning: The Art and Science of Algorithms that Make Sense of Data Cambridge University Press (2012) 1-409 14 Cortes C and Vapnik V - Support-Vector Networks In Journal Machine Learning, ACM 20(3) (1995) 273-297 15

Định dạng
Số trang	15
Dung lượng	739,25 KB