Sử dụng học máy SVM cho phán quyết kế thừa

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên học máy SVM (Trang 43)

Đầu vào: Các giá trịđặc trưng của từng cặp câu văn bản – giả thuyết.

Đầu ra: Kết quả phân lớp với phương án hai phán quyết kế thừa (“Yes”, “No”).

Như chúng tôi đã trình bày ở trên, việc phán quyết kế thừa cho từng cặp văn bản – giả thuyết cũng tương tự như việc phân lớp văn bản. Vì thế, Để áp dụng được học máy SVM vào bài toán phát hiện kế thừa văn bản thì chúng tôi coi mỗi cặp văn bản nguồn - giả thuyết <T, H> tương ứng với một mẫu văn bản . Mẫu thuộc lớp dương khi <T, H> có quan hệ kế thừa, và thuộc lớp âm khi <T, H> có quan hệ không kế thừa. Tập giá trị các đặc trưng sẽ tương ứng với vector trọng số của .

Trong mô hình này, chúng tôi sử dụng ba bộ phân lớp SVM (SVM1, SVM2 và SVM3), các kết quả về từ các bộ phân lớp SVM sẽđựợc kết hợp với nhau để nâng cao độ chính xác. Ba bộ phân lớp SVM này sử dụng các dữ liệu huấn luyện và các nhóm đặc trưng khác nhau. Nhóm đặc trưng một bao gồm các độ đo như: khoảng cách Manhattan, khoảng cách Euclidean, độ tương đồng Cosin, hệ số Matching, hệ số Dice, hệ số Jaccard, hệ số Jaro. Nhóm đặc trưng thứ hai bao gồm: Khoảng cách chuNn Levenstein, chuỗi con chung dài nhất, độđo TF-IDF, tần suất xuất hiện các từ của giả thuyết trong văn bản, tần suất xuất hiện các từ của văn bản trong giả thuyết, phần trăm bigram của giả thuyết xuất hiện trong văn bản nguồn, phần trăm bigram của văn bản xuất hiện trong giả thuyết…, nhóm đặc trưng thứ ba bao gồm tất cả các đặc trưng có được. Cuối cùng, chúng tôi tiến hành so sánh và tổng hợp kết quả nhận được từ các bộ phân lớp SVM để có được kết quả cuối cùng về phán quyết kế thừa. Chúng tôi tổng hợp kết quả bằng cách sử dụng phương pháp vote (Nếu có hai hoặc nhiều hơn số kết quả trả về từ ba bộ phân lớp là “Yes” thì sẽ gán nhãn “Yes” cho cặp văn bản – giả thuyết , ngược lại, cặp văn bản – giả thuyết sẽđược gán nhãn là “No”).

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên học máy SVM (Trang 43)