Tiên đoán và phân lớp:

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN LỚP DỮ LIỆU (Trang 51)

II. TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU: 1 Giới thiệu về phân lớp:

8.Tiên đoán và phân lớp:

Tiên đoán và vấn đề tượng tự như phân loại . Việc tiên đoán được xây dựng như sau:

Đầu tiên là xây dựng mô hình. Tiếp theo là sử dụng mô hình để tiên đoán những giá trị tiếp theo. Phương pháp chính để tiên đoán là phương pháp hồi qui. Có nhiều kiểu hồi qui: hồi qui tuyến tính, hồi qui đa tuyến và hồi không tuyến tính. Tiên đoán khác với phân lớp ở chỗ: Phân lớp đề cập đến tiên đoán loại lớp dữ liệu. Tiên đoán mô hình những hàm giá trị liên tục.

Mô hình tiên đoán: Tiên đoán dữ liệu hoặc cấu trúc tổng quát những mô hình tuyến tính dựa trên cơ sở dữ liệu. Những nét chính của phương pháp bao gồm

 Tối tiểu tổng quát.

 Phân tích liên quan thuộc tính.

 Xây dựng mô hình tuyến tính tổng quát.  Tiên đoán.

Xát định những yếu tố chính ảnh hưởng đến việc tiên đoán. Phân tích liên quan dữ liệu: đánh giá tính không chắc chắn, phân tích entropy, thẩm định chuyên gia ...

Tiên đoán nhiều cấp: phân tích drill-down và roll-up.

Phân tích hồi qui và mô hình tiên đoán log-linear:

Hồi qui tuyến tính : Y = α +βX .

Hai thông số α , β xát định đường thẳng và được thiết lập bởi sử dụng dữ liệu bằng tay .

Đa hồi qui : Y = b0 + b1X1 + b2X2 .

Nhiều hàm không tuyến tính không hồi qui có thể được chuyển dạng sang những dạng ở trên .

Những mô hình log-linear : bảng nhiều chiều của khả năng kết nối được xấp xỉ bởi một sản phẩm của những bảng thứ tự thấp .

p(a,b,c,d) = αab βacχad δbcd

Hồi qui gia trọng địa phương:

Xây dựng một xấp xỉ tường minh cho f trên một vùng địa phương xung quanh một thực thể truy vấn xq.

Hồi qui tuyến tính gia trọng địa phương : hàm mục tiêu f là hàm xấp xỉ gần xq sử dụng hàm tuyến tính : f(x) = w0 + w1a1(x)+...+Wn an (x) .

Độ chính xát của phân lớp : Ước lượng tần suất lỗi :

Phân chia huấn luyện và kiểm tra : sử dụng hai tập dữ liệu độc lập,tập huấn luyện (2/3) và tập kiểm tra (1/3) . Sử dụng cho tập dữ liệu với số lượng mẫu lớn .

Thẩm định chéo : chia tập dữ liệu thành k mẫu con .Sử dụng k-1 mẫu con như là dữ liệu huấn luyện và một mẫu con như là dữ liệu kiểm tra .

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN LỚP DỮ LIỆU (Trang 51)