Những phương thức phân lớp khác:

II. TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU: 1 Giới thiệu về phân lớp:

7. Những phương thức phân lớp khác:

Chứa những ví dụ huấn luyện và trì hoãn xử lý cho đến khi một thực thể mới được phân lớp.

Những cách tiếp cận thông thường:

 Tiếp cận người láng giềng gần nhất k-nearest neighbor.

 Hồi qui trọng lượng cục bộ : bằng cách xây dựng những xấp xỉ cục bộ.

 Lập luận dựa trên trường hợp : Người ta sử dụng biểu diễn kí hiệu và tri thức dựa trên suy diễn.

Giải thuật K-Nearest Neighbor:

Tất cả những thực thể tương ứng với những điểm trên không gian n-D. Người láng giềng gần nhất được định nghĩa trong biểu thức của khoảng cách Euclidean.

Hàm mục tiêu có thể được rời rạc hóa hoặc giá trị thực.

Đối với những giá trị rời rạc, k-NN trả về hầu hết giá trị thông thường giữa k ví dụ huấn luyện gần nhất với xq.

Biểu đồ Vonoroi: bề mặt quyết định được qui vào bởi 1-NN đối với một tập điển hình của những ví dụ huấn luyện.

Giải thuật k-NN đối với giá trị liên tục đối với những hàm mục tiêu giá trị liên tục. Tính toán giá trị trung bình của k láng giềng gần nhất.

Giải thuật khoảng cách trọng lượng người láng giềng gần nhất. Trọng lượng đóng góp của mỗi láng giềng theo khoảng cách của chúng đến điểm truy vấn xq, gán trọng lượng lớn hơn cho láng giềng gần hơn

Trần Thị Xuân – CH1102019 49 1 w ≡ _______ d (xq ,x i) 2

Tương tự, đối với những hàm mục tiêu giá trị thực.

Mạnh đối với dữ liệu hỗn loạn bởi trung bình k-nearest neighbor.

Trở ngại của chiều: Khoảng cách giữa những láng giềng có thể bị chi phối bởi những thuộc tính quan trọng. Để vượt qua điều này, kéo dãn trục hoặc loại trừ những thuộc tính ít quan trọng nhất.

7.2. Giải thuật Di truyền (Genetic Algorithms):

Giải thuật di truyền: dựa trên một tương tự đối với một sự tiến bộ sinh học. Mỗi luật được biểu diễn bởi một chuỗi dữ liệu bit. Một mẫu khởi tạo được tạo ra bao hàm những luật được tạo một cách ngẩu nhiên.

Dựa trên khái niệm của cái thích hợp nhất tồn tại. Những qui luật phù hợp nhất sẽ được biểu diễn bởi sự phân lớp chính xát của nó trên một tập hợp của những ví dụ huấn luyện.

Sự thích hợp của một luật được biểu diễn bởi độ chính xát sự phân lớp của nó trên tập hợp những ví dụ huấn luyện.

Kết quả được tạo ra bởi sự giao nhau và sự biến đổi.

7.3. Tiếp cận tập thô:

Tập thô được sử dụng để xấp xỉ hoặc định nghĩa “thô” những lớp tương đương. Một tập thô cho một lớp C được xấp xỉ bởi 2 tập hợp: một xấp xỉ dưới ( chắc chắn ở trong C ) và một xấp xỉ trên.

Tìm kiếm tập rút gọn của những thuộc tính (đối với đặc tính rút gọn) là NP khó nhưng ma trận phân biệt được sử dụng để thu giảm cường độ tính toán.

Logic mờ sử dụng những giá trị thực giữa 0.0 và 1.0 để biểu diễn độ của quan hệ thành viên (ví dụ như là sử dụng đồ thị thành viên mờ ).

Những giá trị thuộc tính được chuyển sang những giá trị mờ. Đối với một ví dụ mới cho trước , nhiều hơn một giá trị mờ có thể được áp dụng.

Mỗi luật có thể áp dụng có thể áp dụng đóng góp một đề cử cho thành viên theo thể loại . Thông thường , những giá trị thực đối với thể loại được tiên đoán được tổng kết.

7.5. Phân lớp bằng suy luận dựa trên trường hợp ( case-based reasoning):

Những thực thể được biểu diễn bởi sự mô tả giàu tính tượng trưng (ví dụ như hàm đồ thị) . Kết hợp nhiều trường hợp nhận được , suy luận dựa trên tri thức và vấn đề giải quyết .

Tình hình ứng dụng khai phá dữ liệu

Phương pháp phân lớp Bayesian: