Tổng quát về hƣớng tiếp cận và giải quyết bài tốn

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm (Trang 35 - 36)

Bài tốn khai phá quan điểm mà đề tài này giải quyết cĩ thể đƣợc mơ tả nhƣ sau:

Cho DTrain và DTest là tập huấn luyện và tập đánh giá tƣơng ứng. Trong đĩ,

DTrain gồm hai tập con là LU. L là tập các câu cĩ nhãn về tính chủ quan, và nhãn về tính phân cực. U là tập câu chƣa đƣợc gán nhãn. DTest là tập đánh giá gồm những câu đã đƣợc gán nhãn. DTrain và DTest đƣợc lấy từ kho dữ liệu MPQA2.0.

Gọi là CSub là tập nhãn về tính chủ quan, CPol là tập nhãn về tính phân cực cảm nghĩ, các giá trị nhãn đƣợc định nghĩa nhƣ sau:

CSub = {0, 1}

0 : chỉ câu khách quan (OBJ) 1 : chỉ câu chủ quan (SBJ),

CPol = {1, 0, 2}

1 : chỉ câu cảm nghĩ tích cực (POS) 0 : chỉ câu trung lập (NEU)

2 : chỉ câu cảm nghĩ tiêu cực (NEG).

(Các giá trị nhãn được chọn như trên để tiện cho việc cài đặt và xử lý text trong ngơn ngữ Python.)

Mục tiêu của đề tài là xây dựng đƣợc hai bộ phân lớp Co-training trên nhãn CSub và nhãn CPol sao cho chất lƣợng của chúng tốt hơn so với cách tiếp cận học cĩ giám sát. Trong đĩ, bộ phân lớp trên nhãn tính chủ quan (CSub) là bộ phân lớp nhị phân, cịn bộ phân lớp trên nhãn tính phân cực cảm nghĩ (CPol) là bộ phân lớp đa lớp.

Hình 3.1. Mơ hình minh họa các bước giải quyết bài tốn

Từ kho MPQA2.0, bƣớc 1-Tiền xử lý thực hiện trích chọn ra tập câu theo tập con của MPQA2.0 (được nêu chi tiết trong mục 3.2.1). Sau đĩ thực hiện trích chọn các đặc trƣng và hai nhãn của từng tập câu. Bƣớc 2-Đánh giá Đặc trưng/Tham số phân lớp SVM thực hiện chọn lựa dữ liệu huấn luyện và đánh giá cho 2 bộ phân lớp riêng lẻ dựa trên học cĩ giám sát, huấn luyện các bộ phân lớp này, dự đốn trên tập dữ liệu đánh giá tƣơng ứng. Từ kết quả dự đốn này, chọn ra 2 đặc trƣng tốt nhất làm 2 khung nhìn cho bƣớc 3-Đánh giá Co-training. Bƣớc 3-Co-training thực hiện các cơng đoạn của quá trình phân lớp dựa trên Học cĩ giám sát/Co-training với khung nhìn và tham số phân lớp SVM đƣợc chọn tại bƣớc 2-Đánh giá Đặc trưng/Tham số phân lớp SVM. Sau khi cĩ đƣợc các kết quả từ bƣớc 2 và 3, tiến hành so sánh đánh giá 2 cách tiếp cận khai phá quan điểm trên.

Trong mơ hình tổng quát này, kết quả của các bƣớc xử lý trung gian khơng đƣợc nêu ra, mà chúng sẽ đƣợc làm rõ trong phần chi tiết xử lý của các bƣớc, sẽ đƣợc trình bày trong các mục kế tiếp. Các xử lý này đƣợc cài đặt trong mơi trƣờng Python2.7 chạy trền nền Windows. Các thƣ viện hỗ trợ đƣợc sử

dụng gồm cĩ: thƣ viện pattern2.0 của CLiPS

(http://www.clips.ua.ac.be/pages/pattern) để thực hiện các xử lý về ngơn ngữ; các bộ phân lớp đƣợc xây dựng trên phần mềm LIBSVM (http://www.csie.ntu.edu.tw/~cjlin/libsvm/).

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm (Trang 35 - 36)

Tải bản đầy đủ (PDF)

(69 trang)