Giới thiệu chung về mô hình đối sánh sử dụng ở đây

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 82 - 83)

Chơng 8 Khảo nghiệm khai phá dữ liệu trong Oracle

8.4.1 Giới thiệu chung về mô hình đối sánh sử dụng ở đây

Mô hình đối sánh Darwin thực hiện việc phân lớp và dự báo nhờ suy diễn có nhớ (MBR) với thuật toán k ngời láng giềng gần nhất. Mô hình đối sánh Darwin có thể giải các bài toán phân lớp và dự báo nhiều lớp.

Trong số tất cả các mô hình Darwin, đây là mô hình sử dụng hiệu quả nhất các dữ liệu trong một tập dữ liệu. Các mô hình đối sánh Darwin rất tiện dụng trong xử lý các dữ liệu mang tính đặc thù cao. Chúng có thể phát hiện ra các mẫu dữ liệu nối cụm, nghĩa là chúng định vị đợc các “ốc đảo” riêng trong khi các mô hình khác chỉ chỉ ra đợc xu h- ớng.

Suy diễn có nhớ so sánh một bản ghi mới trực tiếp với các bản ghi đã biết xem các đặc tính của chúng có gần giống nhau không sử dụng một độ đo khoảng cách có trọng số. Hai nhân tố quan trọng là số phần tử kề bên (hàng xóm) và đặc trng của chúng. Nguời dùng có thể quyết định có bao nhiêu hàng xóm (giá trị của k) hoặc lấy giá trị ngầm định của Darwin là 2. Darwin xác định các trọng số đi kèm với mỗi biến và nh vậy xác định đợc đặc trng của hàng xóm.

8.4.2 Mô hình đối sánh Darwin làm việc nh thế nào?

Sau đây là một ví dụ đơn giản minh hoạ Mô hình đối sánh Darwin làm việc nh thế nào. Mỗi bản ghi có 4 trờng: ID (#), Tuổi, Thu nhập và Số d.

Các bản ghi trong tập dữ liệu lịch sử nh sau:

# Tuổi Thu nhập Số d . . . 1 67 480,000 20,000,000 . . . 2 23 1,800,000 4,000,000 . . . 3 52 700,000 12,000,000 . . . Bản ghi mới là: # Tuổi Thu nhập Số d . . . 4 54 650,000 18,400,000 . . .

Để tìm những ngời láng giềng gần nhất cho bản ghi thứ 4, ta so sánh giá trị trong mỗi trờng với giá trị tơng ứng của các bản ghi khác. Sau đó gộp tất cả các khác nhau để xác định một “khoảng cách” giữa hai bản ghi.

Ta thấy ngay ba bản ghi có hai chiều tơng đối gần nhau và nh vậy là “các xóm giềng gần”:

1 67 480,000 20,000,000 . . . gần nhất 4 54 650,000 18,400,000 . . . Mới

3 52 700,000 15,000,000 . . . gần nhất thứ hai

và một bản ghi có khoảng cách xa hơn và nh vậy ít thuận lợi cho dự báo: 2 23 1,800,000 4,000,000 . . .

Nhng ta cũng biết rằng không phải tất cả các trờng đều thuận tiện cho dự báo hành vi. Với các hành vi liên quan đến tuổi và thu nhập, bản ghi thứ ba là gần nhất với bản ghi thứ 4. Với các hành vi liên quan đến tiền nợ và tiền gửi thì bản ghi đầu tiên là gần nhất. Các trờng cũng không đa ra cùng một khả năng về khoảng cách. Chẳng hạn tuổi không thay đổi nhanh chóng nh thu nhập và tiền gửi. Khi đã xác định cách tính khoảng cách, Darwin tự động bù trừ để cho các khác nhau này phù hợp khi tính toán khoảng cách. Nh vậy, khoảng cách đợc tính chính là sự khác nhau về giá trị của trờng nhân với giá trị trọng số nói lên tầm quan trọng của trờng đó trong dự báo. Giá trị trọng số này đợc Darwin tự tính toán.

Các trờng không có giá trị dự báo (chẳng hạn, có nốt ruồi ở cằm không liên can đến rủi ro tín dụng) đợc lấy trọng số là 0. Các trờng có giá trị nhỏ thờng đợc lấy trọng số nhỏ và các trờng có giá trị lớn đợc lấy trọng số lớn. Công thức cho tính toán “những ngời láng giềng gần nhất” đợc tính theo công thức sau:

(Giá trị khác nhau của trờng 1 * trọng số cho trờng 1) + (Giá trị khác nhau của trờng 2 * trọng số cho trờng 2) +(Giá trị khác nhau của trờng 3 * trọng số cho trờng 3) .... và cứ thế tiếp tục...

Việc tối u (điều chỉnh) sẽ dựa trên dạy một mô hình đối sánh học Một số qui định trớc trong Darwin nh sau:

- Để xem các bản ghi mà Darwin đã chọn nh ngời láng giềng gần nhất khi làm dự báo, chọn lệnh View Neighbors.

- Nếu dữ liệu đợc chuẩn hoá nghĩa là các giá trị nằm trong khoảng 0 và 1 thì không cần có thêm điều chỉnh nào về miền giá trị nữa.

- Nếu hai bản ghi trùng nhau thì khoảng cách sẽ là 0.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 82 - 83)

Tải bản đầy đủ (DOCX)

(89 trang)
w