Kỹ thuật Find Similar: là phương pháp phổ biến để- 123docz.net

dùng: dựa trên các quyết định thích hợp trong lý thuyết truy xuất thông tin. “Trọng số ấn định cho thuật ngữ là một liên kết của các trọng số của nó trong

một truy vấn ban đâu và xét đoán các tư liệu là thích hợp hay không thích hợp.

Kỹ thuật Decision trees: cây quyết định được xây dựng cho mỗi lớp sử dụng

cách tiếp cận mô tả bằng thuật toán Chickering. Cây quyết định được phát triển bằng sự phân chia đệ quy và các phần chia nhỏ được chọn dùng xác suất Bayes của mô hình cấu trúc.

Kỹ thuật Naive Bayes: các công cụ phân lớp được xây dựng dựa vào việc sử

dụng dữ liệu luyện để thiết kế xác suất của mỗi lớp cho các giá trị đặc trưng

dữ liệu của một thể hiện mới. Dùng định lý Bayes để ước tính các xác suất. Kỹ thuật mạng Bayes: được xem là phương pháp tốt cho các việc học trong mạng neuron, đặc biệt cho sự phân lớp (Sahami 1996). Cách tiếp cận neural

network đối với phân lớp dữ liệu dựa vào mạng neuron truyền thống được

dùng phổ biến trong lĩnh vực trí tuệ nhân tạo để học phép ánh xạ phi tuyến giữa các từ và các lớp cụ thể. Các cách tiếp cận đối với việc phân loại text

được ước tính bằng thuật toán Wiener. _

Kỹ thuật Boosting (dùng cây quyết định): là các kỹ thuật liên kết một số các

công: cụ học yếu (weak learner) để tạo thành một tập toàn bộ ,thuật ngữ weak learner xuất hiện từ PAC (probably approximately correct) và biểu thị thuật toán học có thể học với tỷ lệ sai số nhỏ hơn 50%. Kỹ thuật boosting

hoạt động như sau: luyện thành viên đầu tiên của tập gồm N mẫu luyện, để

luyện thành viên kế tiếp của tập toàn bộ, xác suất mà một mẫu luyện sẽ

Kỹ thuật Find Similar: là phương pháp phổ biến để mở rộng truy vấn ngườ