Giải thuật phân loại theo mô hình

Một phần của tài liệu Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn (Trang 74 - 76)

Theo 5.2.4 ta xác định được giá trị mối liên quan của tài liệu d với nút Ni

thông qua việc mô hình hóa kiến trúc cây phân loại thành mô hình không gian theo thuyết vạn vật hấp dẫn. Xác định nút nào là nút phù hợp nhất theo giải thuật sau :

Tư tưởng phân loại theo mô hình:

- Mỗi tài liệu mới đưa vào được qua các bước tiền xử lý, rút trích đặc trưng, lượng hóa đặc trưng và được coi như là một vật gồm một tập hợp các chất điểm.

- Đặt vật vào từng hành tinh trong không gian, và tính thế năng của khi đặt vật vào hành tinh đó.

- Xắp xếp các giá trị thế năng tính theo độ lớn tăng dần

- Chọn hành tinh mà tại đó vật có giá trị thế năng thấp nhất. Tương ứng với hành tinh là nút mà tại liệu d được phân loại về (theo 2.9)

Dựa trên tư tưởng phân loại, ta có giải thuật phân loại như sau:

Input: - Tài liệu phân loại d

- Không gian các hành tinh H(N1, N2, … Nn)

Output: - Hành tinh Nmincó giá trị thế năng tại đó thấp nhất (0) - Đặt d tại vị trí N0 (root)

- Tính thế năng

- Emin = ; Nmin = N0

(1) ForeachNiinH/N0

(2) Đặt d tại vị trí Ni

(3) Tính thế năng tại vị trí Ni trong H

(4) if (Emin > ) then (5) Emin = ; (6) Nmin = Ni ; (7) end if (8) End for (9) Đưa kết quả

Theo thuật toán: Với việc xét tài liệu d tại tất cả các nút thuộc H, bài toán trở thành vét cạn toàn không gian, trong đó có những nút NjtiNjti d. Để tránh trường hợp này, ta chỉ xét những nút có chứa đặc trưng ti ∈ và ti Nj. Tập các nút Nj có chứa đặc trưng ti∈ được gọi là tập nút liên quan Rd = (Ni, Nj, … Ns). Với ngưỡng ε là số đặc trưng thấp nhất của Nj tồn tại trong d ta có tập liên quan . Khi đó ta chỉ cần xét trên tập mà không cần xét trên toàn không gian. Ngưỡng ε

được xác định tùy vào từng tập dữ liệu thử nghiệm. Trong hình 5.14 mô tả ngưỡng ε

Một phần của tài liệu Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn (Trang 74 - 76)

Tải bản đầy đủ (PDF)

(85 trang)