Phƣơng pháp k-ngƣời láng giêng gần nhất (K-Nearest Neighbor)

Một phần của tài liệu Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên Web (Trang 46 - 47)

CHƢƠNG 1 : KHAI PHÁ DỮ LIỆU

2.2. Các phƣơng pháp phân loại văn bản

2.2.2. Phƣơng pháp k-ngƣời láng giêng gần nhất (K-Nearest Neighbor)

K–Nearest Neighbor (kNN) là phƣơng pháp truyền thống khá nổi tiếng về hƣớng tiếp cận dựa trên thống kê đã đƣợc nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua. kNN đƣợc đánh giá là một trong những phƣơng pháp tốt nhất (áp dụng trên tập dữ liệu Reuters phiên bản 21450), đƣợc sử dụng từ những thời kỳ đầu của việc phân loại văn bản [1].

* Ý tƣởng

Khi cần phân loại một văn bản mới, thuật tốn sẽ tính khoảng cách (khoảng cách Euclide, Cosine, ...) của tất cả các văn bản trong tập huấn luyện đến văn bản này để tìm ra k văn bản gần nhất (gọi là k “láng giềng”), sau đĩ dùng các khoảng cách này đánh trọng số cho tất cả chủ đề. Trọng số của một chủ đề chính là tổng tất cả khoảng cách ở trên của các văn bản trong k láng giềng cĩ cùng chủ đề, chủ đề nào khơng xuất hiện trong k láng giềng sẽ cĩ trọng số bằng 0. Sau đĩ các chủ đề sẽ đƣợc sắp xếp theo mức độ trọng số giảm dần và các chủ đề cĩ trọng số cao sẽ đƣợc chọn là chủ đề của văn bản cần phân loại.

* Cơng thức chính

Trọng số của chủ đề cj đối với văn bản ⃗:

Trong đĩ:

- Y( ⃗ với:

+) y = 0: văn bản ⃗ khơng thuộc về chủ thể cj +) y = 1: văn bản ⃗ thuộc về chủ thể cj

- sim ( x , di ): độ giống nhau giữa văn bản cần phân loại x và văn bản di. Cĩ thể sử dụng độ đo cosine để tính sim (x , di)

- bj là ngƣỡng phân loại của chủ đề cj đƣợc tự động học sử dụng một tập văn bản hợp lệ đƣợc chọn ra từ tập huấn luyện.

Để chọn đƣợc tham số k tốt nhất cho việc phân loại, thuật tốn phải đƣợc chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật tốn càng ổn định và sai sĩt càng thấp. Giá trị tốt nhất đƣợc sử dụng tƣơng ứng trên hai bộ dữ liệu Reuter và Oshumed là k = 45.

Một phần của tài liệu Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên Web (Trang 46 - 47)

Tải bản đầy đủ (PDF)

(82 trang)