dùng: dựa trên các quyết định thích hợp trong lý thuyết truy xuất thông tin. “Trọng số ấn định cho thuật ngữ là một liên kết của các trọng số của nó trong
52
một truy vấn ban đâu và xét đoán các tư liệu là thích hợp hay không thích hợp.
Kỹ thuật Decision trees: cây quyết định được xây dựng cho mỗi lớp sử dụng
cách tiếp cận mô tả bằng thuật toán Chickering. Cây quyết định được phát triển bằng sự phân chia đệ quy và các phần chia nhỏ được chọn dùng xác suất Bayes của mô hình cấu trúc.
Kỹ thuật Naive Bayes: các công cụ phân lớp được xây dựng dựa vào việc sử
dụng dữ liệu luyện để thiết kế xác suất của mỗi lớp cho các giá trị đặc trưng
dữ liệu của một thể hiện mới. Dùng định lý Bayes để ước tính các xác suất. Kỹ thuật mạng Bayes: được xem là phương pháp tốt cho các việc học trong mạng neuron, đặc biệt cho sự phân lớp (Sahami 1996). Cách tiếp cận neural
network đối với phân lớp dữ liệu dựa vào mạng neuron truyền thống được
dùng phổ biến trong lĩnh vực trí tuệ nhân tạo để học phép ánh xạ phi tuyến giữa các từ và các lớp cụ thể. Các cách tiếp cận đối với việc phân loại text
được ước tính bằng thuật toán Wiener. _
Kỹ thuật Boosting (dùng cây quyết định): là các kỹ thuật liên kết một số các
công: cụ học yếu (weak learner) để tạo thành một tập toàn bộ ,thuật ngữ weak learner xuất hiện từ PAC (probably approximately correct) và biểu thị thuật toán học có thể học với tỷ lệ sai số nhỏ hơn 50%. Kỹ thuật boosting
hoạt động như sau: luyện thành viên đầu tiên của tập gồm N mẫu luyện, để
luyện thành viên kế tiếp của tập toàn bộ, xác suất mà một mẫu luyện sẽ