Các CSR cho thấy một câu cĩ khả năng là câu so sánh nếu nĩ cĩ chứa các mẫu ngơn ngữ so sánh. Mơ hình phân lớp Nạve Bayesian (NB) cung cấp giải pháp tốt để giải quyết vấn đề này. Mơ hình thực hiện tính tốn các xác xuất cĩ điều kiện dựa trên việc thống kê các mẫu ngơn ngữ để quyết định phân lớp. Đây là mơ hình khá đơn giản, dễ xây dựng,
khơng sử dụng nhiều tham số ước lượng phức tạp và được sử dụng rộng rãi trong học máy. Vì vậy chúng tơi đã sử dụng Nạve Bayesian để thực nghiệm phân lớp câu so sánh về hai lớp: câu so sánh và khơng phải câu so sánh. Các đặc trưng cho bộ phân lớp sẽ là vế trái của CSR, bao gồm các thẻ từ loại và từ khĩa.
Trong phạm vi luận văn này, chúng tơi khơng đề cập đến các vấn đề về lý thuyết xác suất Bayes cũng cách thức xây dựng mơ hình phân lớp văn bản. Chi tiết xin đọc [14], [15] và [16]. Kết quả thực nghiệm sẽ được trình bày ở chương tiếp theo của luận văn.
CHƯƠNG 3 – THỰC NGHIỆM
Trong chương này, chúng tơi trình bày quá trình thực nghiệm giải quyết bài tốn “Xác định câu so sánh trong tài liệu văn bản tiếng Anh” bằng phương pháp tiếp cận đã trình bày ở chương 2.
Đầu vào: Cho một câu tiếng Anh bất kỳ
Đầu ra: Chương trình thực nghiệm tiến hành phân loại câu đã cho về một trong hai lớp: câu so sánh hoặc khơng phải câu so sánh.
Để thực hiện quá trình thực nghiệm này, bộ phân lớp Nạve Bayesian được chúng tơi xây dựng với tập dữ liệu huấn luyện gồm các luật tuần tự phân lớp được sinh từ văn bản theo các bước được trình bày trong chương 2. Các bước xử lý dữ liệu và ước lượng các tham số được trình bày tiếp sau đây.