Giải thuật CSR-Apriori

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định câu so sánh trong tài liệu văn bản tiếng anh 04 (Trang 42 - 44)

Dịng 2 xác định xem luật đơn nào là phổ biến (thỏa mãn minsup). Từ các luật đơn phổ biến, thực hiện sinh tập CSR1 sử dụng ngưỡng minconf. Trong các bước duyệt k tiếp theo, từ tập hạt giống của các luật phổ biến cĩ k-1 phần tử được sinh ở bước k-1, giải thuật sinh tập các luật phổ biến Ck gồm k phần tử (dịng 5).

Giải thuật sinh ứng viên CSRcandidate-gen gồm 2 bước

1. Nối: Các dãy ứng viên được sinh ra bằng ghép nối các Fk-1 với Fk-1. Dãy tuần tự s1 ghép nối với s2 nếu như dãy con được sinh bằng việc bỏ đi phần tử đầu tiên của s1 giống với dãy con được sinh bằng việc bỏ đi phần tử cuối cùng của s2. Các dãy cĩ cùng nhãn lớp mới cĩ thể ghép nối với nhau. Dãy ứng viên phải thỏa mãn độ hỗ trợ tối thiểu (minsup).

2. Cắt tỉa: Dãy ứng viên sẽ bị cắt tỉa nếu dãy con k-1 của chúng khơng thỏa mãn độ tin cậy tối thiểu (minconf).

2.4 Học phân lớp

Các CSR cho thấy một câu cĩ khả năng là câu so sánh nếu nĩ cĩ chứa các mẫu ngơn ngữ so sánh. Mơ hình phân lớp Nạve Bayesian (NB) cung cấp giải pháp tốt để giải quyết vấn đề này. Mơ hình thực hiện tính tốn các xác xuất cĩ điều kiện dựa trên việc thống kê các mẫu ngơn ngữ để quyết định phân lớp. Đây là mơ hình khá đơn giản, dễ xây dựng,

khơng sử dụng nhiều tham số ước lượng phức tạp và được sử dụng rộng rãi trong học máy. Vì vậy chúng tơi đã sử dụng Nạve Bayesian để thực nghiệm phân lớp câu so sánh về hai lớp: câu so sánh và khơng phải câu so sánh. Các đặc trưng cho bộ phân lớp sẽ là vế trái của CSR, bao gồm các thẻ từ loại và từ khĩa.

Trong phạm vi luận văn này, chúng tơi khơng đề cập đến các vấn đề về lý thuyết xác suất Bayes cũng cách thức xây dựng mơ hình phân lớp văn bản. Chi tiết xin đọc [14], [15] và [16]. Kết quả thực nghiệm sẽ được trình bày ở chương tiếp theo của luận văn.

CHƯƠNG 3 – THỰC NGHIỆM

Trong chương này, chúng tơi trình bày quá trình thực nghiệm giải quyết bài tốn “Xác định câu so sánh trong tài liệu văn bản tiếng Anh” bằng phương pháp tiếp cận đã trình bày ở chương 2.

 Đầu vào: Cho một câu tiếng Anh bất kỳ

 Đầu ra: Chương trình thực nghiệm tiến hành phân loại câu đã cho về một trong hai lớp: câu so sánh hoặc khơng phải câu so sánh.

Để thực hiện quá trình thực nghiệm này, bộ phân lớp Nạve Bayesian được chúng tơi xây dựng với tập dữ liệu huấn luyện gồm các luật tuần tự phân lớp được sinh từ văn bản theo các bước được trình bày trong chương 2. Các bước xử lý dữ liệu và ước lượng các tham số được trình bày tiếp sau đây.

3.1 Quá trình thực nghiệm

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định câu so sánh trong tài liệu văn bản tiếng anh 04 (Trang 42 - 44)

Tải bản đầy đủ (PDF)

(53 trang)