Bảng 3 .2 Bảng mơ tả chi tiết các kí hiệu từ loại
Bảng 3.9 Thống kê dữ liệu tập con XBANK
Tổng số câu: 1.090 100%
Số câu khách quan: 985 90%
Số khách quan tích cực: 9 1%
Số câu khách quan tiêu cực: 10 1%
Số câu khách quan trung lập: 966 98%
Số câu cảm nghĩ: 105 10%
Số câu cảm nghĩ tích cực: 22 21%
Số câu cảm nghĩ tiêu cực: 28 27%
Số câu cảm nghĩ trung lập: 55 52%
3.5.2. Các tiêu chí chuẩn bị dữ liệu
Tùy vào từng mục tiêu con của bài tốn mà cần đƣa ra các kịch bản thực nghiệm cụ thể. Các tiêu chí khi chuẩn bị dữ liệu cho thực nghiệm bao gồm: tƣơng quan số lƣợng câu của tập huấn luyện và tập đánh giá; sự độc lập về chủ đề và độc lập về tài liệu giữa tập huấn luyện và tập đánh giá; ảnh hƣởng của số lƣợng từ khĩa trong câu thuộc tập huấn luyện cĩ nhãn lên chất lƣợng phân lớp; ảnh hƣởng của tỉ lệ tập huấn luyện cĩ nhãn/khơng nhãn lên chất lƣợng phân lớp.
3.5.3. Các cách chọn dữ liệu
Theo mơ hình tổng quát (Hình 3.1), phần 2- Đánh giá Đặc trƣng/Tham
số phân lớp SVM phải tìm ra đƣợc 2 đặc trƣng và các tham số SVM tối ƣu cho
phân lớp tính chủ quan/phân cực cảm nghĩ, phần 3- Đánh giá Học cĩ giám sát/Co-training cần chứng minh tính hiệu quả của học bán giám sát so với học
cĩ giám sát trên cùng tập dữ liệu huấn luyện (cĩ nhãn)/đánh giá. Do đĩ, sẽ cĩ các thực nghiệm tƣơng ứng hai mục tiêu trên.
i. Thực nghiệm 1 (chỉ học cĩ giám sát): đánh giá đặc trƣng, tham số phân lớp SVM
Cố định tập dữ liệu huấn luyện/đánh giá, thay đổi các tham số phân lớp SVM. Thực nghiệm trên từng đặc trƣng nêu trong các mục 3.3.1 đến 3.3.3. Đặc trƣng TFIDF khơng đƣợc chọn vì với lƣợng câu huấn luyện/đánh giá lớn, thì vector đặc trƣng cĩ số chiều lớn, làm cho kích thƣớc file huấn luyện/đánh giá rất lớn.
Tập ORI đƣợc chọn làm dữ liệu huấn luyện do kích thƣớc lớn (11.111 câu), tập ULA cĩ kích thƣớc nhỏ hơn (2.292 câu) nên đƣợc chọn làm tập đánh giá. Hơn nữa 2 tập này hồn tồn độc lập nhau về chủ đề cũng nhƣ tài liệu.
Mục đích của thực nghiệm này là nhằm tìm ra 2 đặc trƣng và các tham số phân lớp SVM tốt nhất cho phân lớp tính chủ quan/tính phân cực cảm nghĩ. Hai đặc trƣng cho độ chính xác cao nhất sẽ đƣợc chọn làm 2 khung nhìn cố định, các tham số phân lớp SVM cho độ chính xác cao nhất cũng sẽ đƣợc thiết lập cho các bộ phân lớp sau này.