Bảng 3 .2 Bảng mơ tả chi tiết các kí hiệu từ loại
Bảng 3.6 Thơng số TFIDF của những từ thuộc câu s2
Câu ‘The dream is horrible.’
Từ C T TF D DF IDF TFIDF
dream 1 2 0,5 2 2 1 0.5
horrible 1 2 0,5 2 1 2 1
Suy ra, vector_tfidf(s2) = (TFIDF(„dream‟, s2), TFIDF(„horrible‟, s2) vector_tfidf(s2) = (0.5, 1)
Trong Bảng 3.5 và Bảng 3.6, cột Từ là cột chỉ từ thuộc câu đang xét và
thuộc tập TA.
3.3.5. Xác định nhãn về tính chủ quan (sự tồn tại cảm nghĩ)
Các đánh dấu đƣợc mơ tả trong mục 3.2.1 là các đánh dấu ở mức cụm từ (expression-level annotations), thấp hơn so với mức câu. Để xác định tính chủ quan của một câu, ta xác định tất cả các đánh dấu nằm trong phạm vi câu đĩ. Các đánh dấu trong phạm vi một câu cĩ thể khác nhau về tính chủ quan giữa các cụm từ. Số lƣợng cụm từ đƣợc đánh dấu chủ quan cĩ thể khác nhau giữa các câu. Tuy nhiên, theo Wiebe, Wilson, Cardie (2005) thì việc xác định tính chủ quan của câu dựa trên sơ đồ đánh dấu này đƣợc thực hiện khá chính xác nếu theo định nghĩa sau.
Một câu được gọi là chủ quan (câu cĩ chứa cảm nghĩ) nếu thỏa mãn i HOẶC ii:
i. Câu chứa một đánh dấu "GATE_direct-subjective" CĨ thuộc tính intensity KHƠNG THUỘC ['low', 'neutral'] VÀ KHƠNG CĨ thuộc tính insubstantial.
ii. Câu chứa một đánh dấu "GATE_expressive-subjectivity" CĨ thuộc tính intensity KHƠNG THUỘC ['low'].
Ngược lại, câu được xem là câu khách quan.
3.3.6. Xác định nhãn về tính phân cực cảm nghĩ
Việc xác định tính phân cực cảm nghĩ của một câu là phân loại câu thuộc 1 trong 3 loại: Tích cực (POS), Tiêu cực (NEG) và Trung lập (NEU).
Tính phân cực cảm nghĩ của một câu đƣợc xác định dựa trên tập đánh dấu của câu theo luật sau [3]:
( ) { ( ) ( ) ( ) ( ) ( ) ( ) ( ) Trong đĩ:
là tập đánh dấu của tất cả các cụm từ trong phạm vi câu s.
Tham số đƣợc thiết lập giá trị 0,5 vì giả định rằng tất cả các câu đƣợc đƣa vào bộ phân lớp phân cực cảm nghĩ đều là câu chứa cảm nghĩ (chủ quan).
3.4. Tiền xử lý dữ liệu
Tiền xử lý là bƣớc xử lý đầu tiên làm tiền đề cho các bƣớc xử lý kế tiếp. Ở bƣớc này, dữ liệu từ kho MPQA2.0 đƣợc truy xuất và xử lý theo từng tập con tƣơng ứng. Kết quả của bƣớc này là các file câu/đặc trƣng/nhãn theo từng tập con. Mơ hình xử lý của bƣớc tiền xử lý đƣợc mơ tả trong Hình 3.4.
Hình 3.4. Tiền xử lý dữ liệu
Ví dụ với tập ORI, các file kết quả của tiền xử lý bao gồm: 1 file câu dùng để debug trong quá trình thực nghiệm, 14 file đặc trƣng (2 đặc trƣng SS, 10 đặc trƣng PS, 1 đặc trƣng WC, 1 đặc trƣng TFIDF), 2 file nhãn (nhãn về tính chủ quan và nhãn về tính phân cực cảm nghĩ).
Ngồi ra, kho MPQA2.0 cũng cĩ chứa một số câu trong vài file bị lỗi về mã kí tự hoặc lỗi thiếu dữ liệu. Bƣớc tiền xử lý giải quyết trƣờng hợp này bằng cách loại bỏ câu bị lỗi mã kí tự ra khỏi kho (làm bằng tay) hoặc gán giá trị mặc định (thực hiện tự động).
3.5. Chuẩn bị dữ liệu
Chuẩn bị dữ liệu là tổ chức dữ liệu dùng cho từng thực nghiệm theo định dạng của thƣ viện LibSVM (nêu trong mục 3.6.1).
Hình 3.5. Chuẩn bị dữ liệu
3.5.1. Thống kê dữ liệu sau tiền xử lý
Sau bƣớc tiền xử lý, ta thu đƣợc dữ liệu đã đƣợc tiền xử lý theo từng tập con của MPQA2.0. Các bảng thống kê Bảng 3.7, Bảng 3.8 và Bảng 3.9 dƣới đây cho cái nhìn tổng quát về dữ liệu liên quan đến bài tốn.