Phân loại chủ quan là ƣớc đầu tiên cần thiết để phân tích cảm xúc. Trong phần này, cơng việc cần thực hiện là đánh giá và phân lớp dữ liệu sau khi tiền xử lý thành 02 lớp: lớp chủ quan và lớp khách quan.
Câu cĩ từ hàm chứa cảm xúc 2.2.1.
Hiện nay trên thế giới cũng nhƣ trong nƣớc, việc phân loại chủ quan chủ yếu dựa vào phƣơng pháp so khớp với bộ từ điển cảm xúc. Do đĩ, tơi lựa chọn phƣơng pháp so khớp từ với bộ từ điển cảm xúc SO-CAL.
Một câu chủ quan (cĩ cảm xúc) thƣờng cĩ từ hàm chứa cảm xúc.
Ví dụ:
- “Ngơi nhà màu xanh” là một câu khách quan vì nĩ khơng cĩ từ hàm chứa cảm xúc trong đĩ.
- “Ngơi nhà đẹp” là một câu chủ quan vì nĩ cĩ từ hàm chứa cảm xúc là từ “đẹp”.
Đây là phƣơng pháp cơ ản và đơn giản nhất để phân loại một câu là chủ quan hay khách quan. Theo đĩ, việc lựa chọn những đặc trƣng tốt nhất để đánh giá câu chủ quan là việc tơi cần nghiên cứu để cĩ đƣợc kết quả tối ƣu.
Các trƣờng hợp ngoại lệ 2.2.2.
Phƣơng pháp phân loại câu dựa vào từ hàm chứa cảm xúc là phƣơng pháp chủ đạo để phân loại câu chủ quan. Tuy nhiên, mức độ chính xác chƣa cao bởi vì cĩ những trƣờng hợp ngoại lệ là những trƣờng hợp câu cĩ từ hàm chứa cảm xúc nhƣng khơng thể hiện cảm xúc. Cụ thể, đĩ là câu nghi vấn và câu điều kiện.
Câu nghi vấn:
- Đặc trƣng cơ ản của câu nghi vấn là thƣờng cĩ những từ “gì”, “nhƣ thế nào”, “thế nào”, “vì sao”, “tại sao”, “là sao”. Những câu này dù cĩ từ hàm chứa cảm xúc nhƣng nĩ vẫn là câu khơng cĩ cảm xúc.
Ví dụ:
“Tại sao bạn lại mặc bộ đồ thiếu tinh tế đến vậy?” là một câu nghi vấn và khơng cĩ xảm xúc. Mặc dù trong câu cĩ từ hàm chứa cảm xúc “tinh tế” nhƣng thực tế câu này khơng hề cĩ cảm xúc. Đĩ chỉ là một nghi vấn mà ngƣời nĩi yêu cầu ngƣời nghe trả lời.
Câu điều kiện:
- Đặc trƣng của câu điều kiện là thƣờng cĩ những từ: “nếu…thì…”, “giá nhƣ… thì …”,… Ở cả hai trƣờng hợp thì câu đều khơng chứa cảm xúc mặc dù chúng chứa từ cảm xúc.
Ví dụ:
“Nếu ngày mai trời mưa thì tơi sẽ rất buồn.”. Trong câu cĩ từ “rất uồn” cĩ giá trị SO là (-2)*(1+0.2) = (-2.4) nhƣng câu trên chƣa chắc diễn ra trong thực tế mà chỉ là suy đốn của ngƣời nĩi. Cĩ thể ngày mai trời mƣa nhƣng ngƣời nĩi chƣa chắc chắn uồn. Nên câu sẽ khơng cĩ cảm xúc.
“Giá như con học giỏi thì mẹ sẽ cho con đi chơi.”. Trong câu cĩ từ “giỏi” cĩ giá trị SO là (+3) nhƣng sự việc trên đã khơng diễn ra. Vì vậy câu trên sẽ khơng cĩ cảm xúc.
Ngồi những trƣờng hợp bên trên, tơi nhận thấy một câu cĩ chứa cảm xúc nếu đĩ là một câu dài. Thơng thƣờng, những câu ngắn chỉ là những danh từ (ngƣời, vật, địa điểm,…), động từ hoặc trạng từ và các câu này thƣờng khơng hàm chứa cảm xúc. Khi ngƣời nĩi đã cĩ thể hiện một câu dài thì hầu hết sẽ đặt yếu tố cảm xúc trong đĩ. Tuy nhiên, việc đánh giá một câu nhƣ thế nào là đủ dài và mang yếu tố cảm xúc thì cần thời gian thực nghiệm hơn và cĩ các nghiên cứu riêng về vấn đề này. Trong phạm vi luận văn, tơi lựa chọn giá trị 5 đơn vị từ để làm mốc cho một câu dài và ngắn.
2.3. PHƢƠNG PHÁP PHÂN LOẠI CẢM XÚC
Sau khi xác định đƣợc câu cĩ cảm xúc, tơi tiếp tục dựa vào bộ từ điển cảm xúc SO-CAL tiếng Việt và các đặc trƣng đƣợc rút trích dựa vào những đặc điểm câu văn của tiếng Việt để tính tốn giá trị cảm xúc của câu. Dựa vào giá trị này để phân loại câu cĩ cảm xúc thành câu cĩ cảm xúc tích cực và câu cĩ cảm xúc tiêu cực.
Giá trị cảm xúc của câu phụ thuộc vào từ hàm chứa cảm xúc 2.3.1.
Từ hàm chứa cảm xúc (sentiment word) là thành phần cĩ ảnh hƣởng lớn nhất đến giá trị cảm xúc của câu. Hiểu đơn giản, từ hàm chứa cảm xúc là từ chứa cảm xúc và thƣờng đƣợc sử dụng để thể hiện cảm xúc tiêu cực hoặc tích cực. Chẳng hạn các từ “tốt”, “tuyệt vời”, “đẹp” là những từ chứa cảm xúc tích cực và “xấu xí”, “kinh khủng”, “tệ hại” là những từ chứa cảm xúc tiêu cực. Ngồi những từ riêng lẻ, cịn cĩ cụm từ chứa cảm xúc nhƣ “khơng thể tin đƣợc”, “nhƣ một giấc mơ”,… Một danh sách các từ và cụm từ nhƣ vậy đƣợc gọi là từ điển cảm xúc.
Cách đơn giản nhất để tính giá trị cảm xúc của một câu là tính tổng giá trị cảm xúc của các từ hàm chứa cảm xúc trong câu đĩ.
Ví dụ:
- “Anh ấy thơng minh và đẹp trai”. Từ “thơng minh” cĩ giá trị SO là (+4) và “đẹp trai” cĩ giá trị SO là (+4) nên tổng giá trị SO của câu là (+8).
- “Chiếc áo này hợp thời trang”. Câu trên chỉ cĩ một cụm từ mang cảm xúc là “hợp thời trang” nên tổng giá trị SO của câu cũng ằng giá trị SO của từ này là (+2).
Mặc dù từ điển cảm xúc là thành phần quan trọng trong quá trình tính tốn giá trị cảm xúc của câu nhƣng chỉ sử dụng nĩ thơi là chƣa đủ. Cảm xúc con ngƣời rất phức tạp. Cĩ nhiều trƣờng hợp mà chỉ sử dụng từ điển cảm xúc khơng
thể đánh giá chính xác giá trị cảm xúc trong câu. Một số trƣờng hợp cụ thể: - Từ mang giá trị cảm xúc chịu ảnh hƣởng của từ tăng cƣờng. Ví dụ nhƣ,
“đẹp”, “hơi đẹp”, “rất đẹp” và “đẹp nhất” nếu chỉ dựa vào từ điển cảm xúc thì những từ, cụm từ trên sẽ cĩ giá trị SO nhƣ nhau. Nhƣng trên thực tế lại khơng nhƣ vậy. Tất cả chúng đều mang cảm xúc tích cực nhƣng đƣợc xếp theo giá trị cảm xúc tăng dần lần lƣợt là “hơi đẹp”, “đẹp”, “rất đẹp”, “đẹp nhất”.
- Dễ nhầm lẫn giữa tích cực và tiêu cực. Một số từ cĩ khả năng làm đổi cực của từ hay cụm từ cảm xúc nhƣ “khơng”, “khơng đƣợc”, “khơng phải”, “khơng bao giờ”,… Ví dụ: từ “tốt” mang cảm xúc tích cực thì “khơng tốt” mang cảm xúc tiêu cực.
Để giải quyết những vấn đề nêu trên cần đi sâu phân tích tiếp tục các đặc điểm khác của câu. Mỗi đặc điểm sẽ dần dần giải quyết từng vấn đề cụ thể.
Giá trị cảm xúc của câu phụ thuộc vào từ tăng cƣờng 2.3.2.
Từ tăng cƣờng (intensifier) đƣợc chia thành hai loại là làm tăng mức độ ngữ nghĩa (amplifiers) và làm giảm mức độ ngữ nghĩa (downtoners) [5]. Năm 2006, một số nhà nghiên cứu xử lý ngơn ngữ tự nhiên (Kennedy và Inkpen; Polanyi và Zaenen) đã sử dụng từ tăng cƣờng để đơn giản sự tăng và giảm giá trị cảm xúc. Trong SO-CAL cũng ổ sung từ điển từ tăng cƣờng. Những từ chịu ảnh hƣởng bởi các từ tăng cƣờng sẽ cĩ giá trị cảm xúc thay đổi tuỳ thuộc vào giá trị tăng hay giảm mức độ ngữ nghĩa của từ tăng cƣờng đĩ.
Ví dụ:
- Từ “mệt mỏi” mang giá trị SO (-3). Nhƣng nếu phía trƣớc nĩ cĩ từ tăng cƣờng “hơi” (-0.5) thì giá trị SO của “hơi mệt mỏi” là: (-3)*(1- 0.5) = (-1.5).
- Từ “đẹp” mang giá trị SO là (+4) thì “rất đẹp” cĩ giá trị SO là: (+4)*(1+0.2) = (+4.8)
- Từ “giỏi” mang giá trị SO là (+3) thì “giỏi nhất” cĩ giá trị SO là: (+3)*(1+1) = (+6)
Giá trị cảm xúc của câu phụ thuộc vào từ phủ định 2.3.3.
Tƣơng tự nhƣ việc tăng cƣờng giá trị cảm xúc khi từ hàm chứa cảm xúc chịu ảnh hƣởng của từ nằm trong từ điển từ tăng cƣờng thì việc từ cảm xúc chịu ảnh hƣởng của những từ phủ định cũng làm thay đổi giá trị cảm xúc của từ hàm chứa cảm xúc đĩ. Lúc nĩi hoặc viết, chúng ta thƣờng dùng các từ phủ định bao gồm: “khơng”, “khơng đƣợc”, “khơng phải”,… để thể hiện một mức độ cảm xúc đối nghịch so với từ hàm chứa cảm xúc theo sau từ phủ định đĩ.
Do đĩ, đối với các từ cảm xúc mà đằng trƣớc cĩ từ phủ định thì giá trị cảm xúc từ đĩ sẽ đƣợc đảo ngƣợc cực hay dễ hiểu hơn là đổi dấu giá trị cảm xúc của từ.
Ví dụ:
- Từ “tốt” cĩ giá trị SO là (+3) thì “khơng tốt” cĩ giá trị SO là (-3). - Từ “bịa đặt” cĩ giá trị SO là (-2) thì “khơng bịa đặt” cĩ giá trị SO là
(+2).
Giá trị cảm xúc của câu phụ thuộc vào từ khiếm khuyết 2.3.4.
Những từ khiếm khuyết bao gồm: “nên”, “phải” và “cĩ thể”. Những câu cĩ chứa từ khiếm khuyết thƣờng thể hiện mức độ cảm xúc giảm nhẹ hơn so với những câu tƣơng tự nhƣng khơng chứa từ khiếm khuyết.
Rõ ràng ta cĩ thể dễ dàng nhận thấy câu: “Bạn cĩ thể làm tốt” thì đối tƣợng đƣợc nĩi đến ở đây thực sự chƣa làm tốt nhất khả năng của mình, và ý nghĩa cảm xúc sẽ giảm hơn so với câu: “Bạn làm tốt”. Dĩ đĩ, việc lựa chọn một mức độ giảm nhẹ cảm xúc trong câu cĩ từ khiếm khuyết là thực tế cần quan tâm, tuy nhiên giá trị giảm nhẹ đĩ là ao nhiêu là thích hợp thì cần thời gian để khảo sát và nghiên cứu thêm. Trong đề tài này, giá trị giảm nhẹ mà tơi lựa chọn là 50%. Theo đĩ, những câu cĩ chứa từ khiếm khuyết thì giá trị cảm
xúc của câu giảm 50% so với giá trị cảm xúc của tất cả các từ mang nghĩa cảm xúc trong câu.
Dƣới đây là một số ví dụ cụ thể về việc tính tốn giá trị cảm xúc trong câu cĩ từ khiếm khuyết:
- Câu “Bạn cĩ thể làm tốt hơn.”. Cụm từ “tốt hơn” cĩ giá trị SO là (+2) nhƣng trong câu cĩ từ khiếm khuyết “cĩ thể” nên giá trị SO của “tốt hơn” giảm xuống cịn (+1).
- Câu “Chúng ta phải thật mạnh mẽ.”. Cụm từ “thật mạnh mẽ” cĩ giá trị SO là (+2)*(1 + 0.3) = (+2.6) nhƣng trong câu cĩ từ khiếm khuyết “phải” nên giá trị SO của “thật mạnh mẽ” sẽ cịn (+1.3).
Giá trị cảm xúc của câu cĩ xu hƣớng tích cực 2.3.5.
Phân loại cảm xúc dựa vào từ điển cảm xúc thƣờng cho thấy một xu hƣớng tích cực (Kennedy and Inkpen, 2006) [14]. Trên thực tế thì con ngƣời cĩ xu hƣớng sử dụng từ ngữ tích cực nhiều hơn. Để cân bằng giữa tích cực và tiêu cực cĩ rất nhiều cách. Trong đĩ, việc tăng giá trị cảm xúc của từ mang hàm ý tiêu cực đƣợc cho là cĩ hiệu quả hơn cả. Tơi đã thử nghiệm nhiều mức độ gia tăng giá trị cảm xúc của từ mang hàm ý tiêu cực và kết quả trả về khi tăng 50% giá trị cảm xúc của từ tiêu cực là tốt nhất.
Ví dụ: Câu “Hơm nay giá vàng tăng và giá đơ la giảm”. Từ “giảm” cĩ giá trị SO là (-2) sẽ đƣợc tăng 50% giá trị thành (-2)*(1+0.5) = (-3).
Vì vậy, trong phạm vi đề tài tơi lựa chọn phƣơng pháp tăng 50% giá trị cảm xúc của từ tiêu cực để xây dựng trong chƣơng trình thử nghiệm.
2.4. PHƢƠNG PHÁP PHÂN LỚP SUPPORT VECTOR MACHINE (SVM)
Support Vector Machines (SVM) là một khái niệm trong thống kế và khoa học máy tính cho một tập hợp các phƣơng pháp học máy cĩ giám sát liên quan đến nhau để phân loại và phân tích hồi quy. Nĩ là một cơng cụ mạnh mẽ cho các bài tốn phân lớp phi tuyến tính đƣợc Corters và Vapnik
giới thiệu vào năm 1995 để giải quyết vấn đề nhận dạng mẫu hai lớp sử dụng nguyên lý cực tiểu hố rủi ro cấu trúc (Structural Risk Minimization – SRM)
Các ƣớc chính của phƣơng pháp SVM:
- Tiền xử lý dữ liệu: thực hiện biến đổi dữ liệu phù hợp cho quá trình tính tốn.
- Chọn hàm hạt nhân: lựa chọn hàm hạt nhân phù hợp tƣơng ứng cho từng bài tốn cụ thể.
- Thực hiện kiểm tra để xác định các tham số cho ứng dụng. Điều này cũng quyết định đến tính chính xác của phƣơng pháp.
- Sử dụng các tham số cho việc huấn luyện các tập mẫu: trong quá trình huấn luyện sẽ sử dụng thuật tốn tối ƣu hĩa khoảng cách giữa các siêu phẳng trong quá trình phân lớp, xác định hàm phân lớp bằng cách ánh xạ chúng vào khơng gian đặc trƣng ằng các hàm hạt nhân .
- Kiểm thử dữ liệu test.
SVM cĩ rất nhiều ứng dụng thiết thực giúp giải quyết các vấn đề trong thực tế nhƣ:
- Chuẩn đốn virus máy tính. - Lọc thƣ hoặc tin rác.
- Nhận diện khuơn mặt, giọng nĩi, chữ viết tay, biển số xe. - Phân loại gien.
- Phân loại văn ản.
Ý tƣởng 2.4.1.
Ý tu ởng chính của thuạ t tốn này là cho tru ớc mọ t tạ p huấn luyẹ n đu ợc iểu diễn trong khơng gian vector trong đĩ mỗi tài liẹ u là mọ t điểm, phu o ng pháp này tìm ra mọ t mạ t phẳng h quyết định tốt nhất cĩ thể chia các điểm trên khơng gian này thành hai lớp riêng iẹ t tu o ng ứng lớp + và lớp -. Chất lu ợng của siêu mạ t phẳng này đu ợc quyết định ởi khoảng cách (gọi là iên) của
điểm dữ liẹ u gần nhất của mỗi lớp đến mạ t phẳng này. Khoảng cách iên càng lớn thì mạ t phẳng quyết định càng tốt đồng thời viẹ c phân loại càng chính xác. Mục đích thuạ t tốn SVM tìm ra đu ợc khoảng cách iên lớn nhất để tạo kết quả phân lớp tốt.
Các điểm gần h nhất là các Support Vector. Xem dữ liệu đầu vào nhƣ hai tập vector n chiều, một SVM sẽ xây dựng một mặt phẳng riêng biệt trong khơng gian đĩ sao cho nĩ tối đa hĩa iên lề giữa hai tập dữ liệu. Để tính lề, hai siêu phẳng song song đƣợc xây dựng, mỗi cái nằm ở 1 phía của siêu phẳng phân biệt và chúng đƣợc đẩy về phía hai tập dữ liệu.
Sau quá trình huấn luyẹ n nếu hiẹ u suất tổng quát hố của ọ phân lớp cao thì thuạ t tốn huấn luyẹ n đu ợc đánh giá là tốt. Hiẹ u suất tổng quát hố phụ thuọ c vào hai tham số là sai số huấn luyẹ n hay và na ng lực của máy học. Trong đĩ sai số huấn luyẹ n là tỷ lẹ lỗi phân lớp trên tạ p dữ liẹ u huấn luyẹ n. Cịn na ng lực của máy học đu ợc xác định ằng kích thu ớc Vapnik- Chervonenkis (kích thu ớc VC). Kích thu ớc VC là mọ t khái niẹ m quan trọng đối với mọ t họ hàm phân tách (hay là tạ p phân lớp). Đại lu ợng này đu ợc xác định ằng số điểm cực đại mà họ hàm cĩ thể phân tách hồn tồn trong khơng
Hình 2-1 Siêu phẳng h phân chia dữ liẹu huấn luyẹn thành 2 lớp “+” và “-” với khoảng cách biên lớn nhất
gian đối tu ợng. Mọ t tạ p phân lớp tốt là tạ p phân lớp cĩ na ng lực thấp nhất (cĩ nghĩa là đo n giản nhất) và đảm ảo sai số huấn luyẹ n nhỏ.
Cơ sở lý thuyết 2.4.2.
Xét ài tốn phân lớp đo n giản nhất – phân lớp hai lớp với tạ p dữ liẹ u mẫu:
x yi, i |i1, 2,..., ;n xiRm
Trong đĩ mẫu là các vector đối tu ợng đu ợc phân lớp thành các mẫu du o ng và mẫu âm nhu trong hình 3.1:
- Các mẫu du o ng là các mẫu xi thuọ c lĩnh vực quan tâm và đu ợc gán nhãn yi 1
- Các mẫu âm là các mẫu xi khơng thuọ c lĩnh vực quan tâm và đu ợc gán 1
i
y
Thực chất phu o ng pháp này là mọ t ài tốn tối u u, mục tiêu là tìm ra mọ t khơng gian H và siêu mạ t phẳng quyết định h trên H sao cho sai số phân lớp là thấp nhất.
Trong tru ờng hợp này, tạ p phân lớp SVM là mạ t siêu phẳng phân tách các mẫu du o ng khỏi các mẫu âm với đọ chênh lẹ ch cực đại, trong đĩ đọ chênh lẹ ch – cịn gọi là Lề (margin) xác định ằng khoảng cách giữa các mẫu du o ng và các mẫu âm gần mạ t siêu phẳng nhất (hình 1). Mạ t siêu phẳng này đu ợc gọi là mạ t siêu phẳng lề tối u u.
Các mạ t siêu phẳng trong khơng gian đối tu ợng cĩ phu o ng trình là: 1 1 2 2 ... n n 0
Cw x w x w x Tu o ng đu o ng với cơng thức
1 0 n i i i C w x Với: 1 2 ... n
ww w w là bọ hẹ số siêu phẳng hay là vector trọng số,
đọ đến mạ t siêu phẳng thay đổi.