Mơ hình tốn Tiếp cận tốn phân lớp Naive Bayes: Ý tưởng chủ đạo sử dụng xác suất có điều kiện từ văn nhóm văn huấn luyện để dự đốn xác suất chủ đề văn cần phân loại Với Naïve Bayes, file văn tập hợp từ( khơng quan trọng thứ tự) Nạve Bayes không dụng phụ thuộc nhiều từ vào chủ đề, không sử dụng kết hợp từ Văn cần phân lớp gán cho lớp văn có xác suất lớn Mơ hình tốn Tiếp cận toán phân lớp Naive Bayes: Văn d’ gán vào lớp Cj có xác xuất Pr(Cj, d’) cao Phân tích tốn Cấu trúc giải toán: File Tiền xử lý Nội Dung Tách Câu Nhóm Các Câu Tách Từ Các Từ Xác Định Nhóm Phân Tích Vector Từ Đánh Trọng Số Phân tích tốn Vấn đề tách từ: Tách từ vấn đề quan trọng chương trình, định chương trình thược xác việc phân loại hay khơng nhờ kết việc tách từ tốt Từ câu Từ điển từ Kiểm tra từ điển câu Khơng Tìm kiếm từ có Danh Sách Từ Loại bỏ từ khơng có ý nghĩa, từ đồng nghĩa Phân tích tốn Vấn đề tách từ: Một số vấn đề gặp phải tách từ Tiếng Việt Tiếng Việt xếp vào loại hình đơn lập, phi hình thái, khơng biến hình hoạt động Ý nghĩa ngữ pháp nằm ngồi từ Ranh giới từ khơng xác định khoảng trắng →Khiến cho việc tách từ trở nên khó khăn Bài tốn tách từ có phương pháp tiếp cận : Tiếp cận dựa vào từ điển cố định Tiếp cận dựa vào thống kê túy Tiếp cận dựa hai phương pháp Phân tích tốn Vấn đề tách từ: Giới thiệu phương pháp so khớp tối đa: Theo pp này, ta duyệt câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển, tiếp tục cho từ tới hết câu Ưu điểm : Đơn giản, cần dựa vào từ điển Đạt độ xác tương đối Khuyết điểm: Độ xác đầy đủcủa pp phụ thuộc hoàn toàn vào từ điển Sai số th: Học sinh| học sinh| hoc, Trước| bàn là| một| ly| nước,… Phân tích tốn Vấn đề tách từ: Phương pháp giải thuật học cải biên: Đây cách tiếp cận dựa ngữ liệu đánh dấu Ta huấn luyện cho máy biết cách nhận diện ranh giới từ Tiếng Việt, ta cho máy “học” dựa ngữ liệu lớn câu tiếng Việt xác định ranh giới từ Ưu điểm : Tự rút luật, khắc phụ khuyết điểm việc xây dựng luật nhờ chuyên gia, đánh giá luật rút Khuyết điểm: Khó có tập ngữ liệu đầy đủ tiêu chí Cài đặt phức tạp Thời huấn luyện lâu Gán nhãn- Đánh trọng số Việc gán nhãn- đánh trọng số để lượng hóa từ văn bản, nhờ việc lượng hóa mà chương trình xác định văn thuộc nhóm văn → Có tính chất định đến kết phân loại văn Việc đánh trọng số có ý nghĩa quan trọng việc phân loại sau Nhưng việc đánh trọng số tồn từ văn dẫn đến vector từ phổ biến văn có chiều lớn địi hỏi máy tính mạnh, thời gian chờ đợi kết lâu →Để tăng tốc độ xử lý, làm đơn giản phép tính sau này, ta cần giảm chiều vecor số lượng vector Gán nhãn- Đánh trọng số Lựa chọn thuộc tính có tính chất quan trọng việc phân loại văn bản: Tần suất xuất từ Ta tiếp chọn phần từ ngữ liệu đủ để phân loại tốt mà giữ tốc độ xử lý đủ nhanh Các từ chọn lựa dựa tần suất cao đến thấp, không quan tâm đến ngữ nghĩa