1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng phân lớp dữ liệu

39 2,2K 20
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 588,5 KB

Nội dung

Bài giảng phân lớp dữ liệu

Trang 2

đị nh ánh xạ f : D  C sao cho mỗi ti đượ c gán vào một lớp.

Trang 3

Phân loi tin tc thuc lĩnh v c

tài chính, thi ti t, gii trí, th

thao, …

Dự đoán khi nào sông có lũ

Chun đoán y khoa

Trang 4

 Độ chính xác chấp nhận được -> áp dụng mô hình để phân lớp các mẫu/bộ chưa xác định được nhãn lớp

Ví dụ : XD mô hình

Training Data

Mike Assistant Prof 3 no

Mary Assistant Prof 7 yes

Bill Professor 2 yes

Jim Associate Prof 7 yes

Dave Assistant Prof 6 no

Anne Associate Prof 3 no

Classification Algorithms

IF rank = ‘professor’

OR years > 6 THEN tenured = ‘yes’ Classifier

(Model)

Trang 5

Ví dụ : Sử dụng mơ hình

Classifier

Testing Data

NAME RANK YEARS TENURED

Tom Assistant Prof 2 no

Merlisa Associate Prof 7 no

George Professor 5 yes

Joseph Assistant Prof 7 yes

Unseen Data (Jeff, Professor, 4)

 Phương pháp dựa trên luật

 Phương pháp Nạve Bayes

 Phương pháp dựa trên thể hiện

 Mạng Nơron

 SVM (support vector machine)

 Tập thơ

Trang 6

NỘI DUNG

1 Giới thiệu

trên cây quy t đnh

CÂY QUYẾT ĐỊNH

6 Ưu điểm

Trang 7

 Kiểm tra các giá trị của thuộc tính và phân

chia các mẫu đệ qui

 Bưc 2 : Ta bt cây

 Xác định và loại bỏ bớt các nhánh không ổn

định hoặc cá biệt

Trang 8

VÍ DỤ 1: Dữ liệu huấn luyện

age income student credit_rating buys_computer

<=30 high no fair no

<=30 high no excellent no

31…40 high no fair yes

>40 medium no fair yes

>40 low yes fair yes

>40 low yes excellent no

31…40 low yes excellent yes

<=30 medium no fair no

<=30 low yes fair yes

>40 medium yes fair yes

<=30 medium yes excellent yes

31…40 medium no excellent yes

31…40 high yes fair yes

>40 medium no excellent no

VÍ DỤ 1 : CÂY QUYẾT ĐỊNH

age?

student? credit rating?

no yes excellent fair

<=30 >40

yes

31 40

Trang 9

 Phân chia tập mẫu dựa trên thuộc tính cho kết quả tối ưu hóa tiêu chuẩn

 Vn đ :

 Dựa trên độ đo sự đồng nhất của dữ liệu

 Đ iều kiện dừng

Trang 10

4 Cách phân chia các mẫu

 Tiêu chuẩn phân chia : tạo ra các nhóm sao cho

một lớp chiếm ưu thế trong từng nhóm

 Thuộc tính được chọn là thuộc tính cho độ đo tốt nhất, có lợi nhất cho quá trình phân lớp

 Độ đo để đánh giá chất lượng phân chia là độ

đo sự đồng nhất

 Entropy (Information Gain)

 Information Gain Ratio

 Gini Index

Trang 11

 Ci,D: tập các mẫu của D thuộc lớp Civới i = {1, …, m}

 |Ci, D|, |D| : lực lượng của tập Ci,Dvà D tương ứng

 pilà xác sut đ mt mu bt kỳ ca D thuc v lp Ci

 Thông tin kỳ vọng để phân lớp một mẫu trong D là :

) ( log )

1

i m

i

p D

VÍ DỤ 1: Dữ liệu huấn luyện

age income student credit_rating buys_computer

<=30 high no fair no

<=30 high no excellent no

31…40 high no fair yes

>40 medium no fair yes

>40 low yes fair yes

>40 low yes excellent no

31…40 low yes excellent yes

<=30 medium no fair no

<=30 low yes fair yes

>40 medium yes fair yes

<=30 medium yes excellent yes

31…40 medium no excellent yes

31…40 high yes fair yes

>40 medium no excellent no

Trang 12

CÂY QUYẾT ĐỊNH

Đ l i thông tin (Information gain) :

 Trong VD1 : 14 mẫu tin, trong đó có 9 mua máy tính

 |D| = 14; m = 2; C1 =“Mua “; C2 =“Không mua”

 |C1, D|= 9, |C2, D|=5

Thông tin kỳ vọng để phân lớp một mẫu trong D

là :

940 0 14

5 log 14

5 14

9 log 14

9 )

5 , 9

=

Info(D)

CÂY QUYẾT ĐỊNH

 Thuộc tính A có các giá trị :{a1, a2 , …,av}

 Dùng thuộc tính A để phân chia tập huấn luyện D thành v tập con {D1, D2, …, Dv}

 Thông tin cần thiết để phân chia D theo thuộc tính A :

) ( )

(

1

j v

Info

Trang 13

3 log 5

3 5

2 log 5

2 ) 3 , 2 ( = − 2 − 2 =

I

0 4

0 log 4

0 4

4 log 4

4 ) 0 , 4 ( = − 2 − 2 =

I

971 0 5

2 log 5

2 5

3 log 5

3 ) 2 , 3 ( = − 2 − 2 =

5 ) 0 , 4 ( 14

4 ) 3 , 2 ( 14

5 )

Info age

246 0 ) ( )

( )

gSuy ra :

Trang 14

151 0 ) (

029 0 ) (

246 0 ) (

Gain

student Gain

income Gain

age Gain

g Đ l i thông tin d a trên phân chia theo thuc tính “age” là ln nht nên

ta s! chia DL theo thuc tính “age”

Trang 15

low yes fair yes

medium yes excellent yes

income student credit_rating buys_computerhigh no fair yeslow yes excellent yesmedium no excellent yeshigh yes fair yes

income student credit_rating buys_computermedium no fair yeslow yes fair yeslow yes excellent nomedium yes fair yesmedium no excellent no

VÍ DỤ 1 : IG

age?

student? credit rating?

yes 31 40

Trang 16

CÂY QUYẾT ĐỊNH

Information Gain Ratio: C4.5

 Độ đo Gain có xu hướng thiên vị cho các thuộc tính có nhiều giá trị -> cần chuẩn hóa độ

|

|

|

| )

D D

D D

v j

1

2 1

) (

Chỉ mục Gini (Gini index) : CART, SLIQ, SPRINT

 Tập huấn luyện D chứa các mẫu của m lớp

 Ch mc Gini của tập D – gini(D) là :

với pi là tần suất của lớp Ci trong D

• Cho tập DL của ví dụ 1, ta có gini(D) là :

459 0 14

5 14

9 1 ) (

2 2

Trang 17

CÂY QUYẾT ĐỊNH

Chỉ mục Gini (Gini index) :

 Thuộc tính A có các giá trị :{a1, a2 , …,av}

 Dùng thuộc tính A để phân chia tập huấn luyện D

thành v tập con {D1, D2, …, Dv}

 Ch mc Gini của phân chia D theo thuộc tính

A :

) ( )

1

D gini D

D D

>40 3 2 0.48

343 0

) 2 , 3 ( 14

5 ) 0 , 4 ( 14

4 ) 3 , 2 ( 14

5 )

(

=

+ +

D

giniage

Trang 18

Câu a): GINI INDEX

g Sau khi tính độ đo chỉ mục Gini dựa trên phân chia theo thuộc tính :

Câu a): GINI INDEX

low yes fair yes

medium yes excellent yes

income student credit_rating buys_computermedium no fair yeslow yes fair yeslow yes excellent nomedium yes fair yesmedium no excellent no

Làm tương

tự

Làm tương tự

yes

Trang 19

Các điểm hình tròn : 0.5 ≤≤≤≤ sqrt(x 1 +x 2 ) ≤≤≤≤ 1

Các điểm hình tam giác:

sqrt(x 1 +x 2 ) > 0.5 or sqrt(x 1 +x 2 ) < 1

CÂY QUYẾT ĐỊNH

5 Vấn đề quá phù hợp với DL (overfitting)

Overfitting

Trang 21

CÂY QUYẾT ĐỊNH

 Kết quả : độ chính xác kém khi phân lớp cho mẫu mới

 Hai phương pháp tránh quá PHÙ HỢP DL :

nó có thể tạo ra độ đo dưới ngưỡng nào đó

 Rất khó chọn ngưỡng thích hợp

dưới lên)

 Sử dụng tập DL độc lập để kiểm tra và loại bớt

 Xác định chính xác kích thước cây kết quả như thế nào ?

 Phân chia : tập huấn luyện (2/3), tập test (1/3)

 Sử dụng đánh giá chéo ( cross-validation)

CÂY QUYẾT ĐỊNH

6 Ưu điểm :

 Dễ dàng xây dựng cây

 Phân lớp mẫu mới nhanh

 Dễ dàng diển giải cho các cây có kích thước nhỏ

 Độ chính xác chấp nhận được so với các kỹ thuật phân lớp khác trên nhiều tập DL đơn

Ví dụ : C4.5

 Dùng độ lợi thông tin

 Sắp xếp thuộc tính số tại từng nút

 Yêu cầu toàn bộ DL chứa vừa trong bộ nhớ

 Không phù hợp với các tập dữ liệu lớn

http://www.cse.unsw.edu.au/~quinlan/c4.5r8.tar.gz

Trang 23

GIỚI THIỆU

 S dng các lut IF-THEN đ phân loi

 Lut có dng : IF (Điu kin) Then Y

 Vi “Điu kin “ : k t h p các thuc tính

 T- l các mu th,a mãn điu

kin (v trái) ca lut

 Đ chính xác ca lut :

accuracy(R)

 T- l các mu th,a mãn c

đ iu kin và k t lun (2 v trái,

phi) ca lut

Tid Refund Marital

Status Taxable Income Class

Trang 24

VÍ DỤ 2

Cho tập DL huấn luyện sau :

VÍ DỤ 2

 Tp lut :

R1: (Give Birth = no) ∧(Can Fly = yes) →Birds

R2: (Give Birth = no) ∧(Live in Water = yes) →Fishes

R3: (Give Birth = yes) ∧(Blood Type = warm) →Mammals

R4: (Give Birth = no) ∧(Can Fly = no) →Reptiles

R5: (Live in Water = sometimes) →Amphibians

 S dng tp lut đ xác đnh lp cho các mu mi sau :

Name Blood Type Give Birth Can Fly Live in Water Class

lemur warm yes no no ?turtle cold no no sometimes ?dogfish shark cold yes no yes ?

Trang 25

VÍ DỤ 2

Name Blood Type Give Birth Can Fly Live in Water Class

turtle cold no no sometimes ?

dogfish shark cold yes no yes ?

 Mẫu “lemur” phủ bởi luật R3, nên được phân vào lớp

“Mammals”

 Mẫu “turtle” phủ bởi cả luật R4 và R5

 Mẫu “dogfish shark” không được phủ bởi bất kỳ luật nào.

 Cách gii quy t ?

GIỚI THIỆU

 Cách gii quy t ?

 Theo kích thưc ca lut : các lut có tp điu kin ln hơn s! có đ ưu tiên cao hơn

 Theo luật : các luật được xếp hạng theo độ đo chất lượng luật hoặc theo ý kiến chuyên gia

 Theo lp : gom các lut thuc cùng mt lp

 Nếu một mẫu được phủ bởi nhiều luật thì chọn luật có thứ hạng cao nhất

 Nếu không phủ bởi bất kỳ luật nào thì gán vào lớp mặc định

Trang 26

GIỚI THIỆU

 Xây dựng luật phân lớp :

 Phương pháp tr c ti p :

 Rút các lut tr c ti ... để phân lớp mẫu D :

) ( log )

1

i m

i

p D

VÍ DỤ 1: Dữ liệu. ..

 Dễ dàng xây dựng

 Phân lớp mẫu nhanh

 Dễ dàng diển giải cho có kích thước nhỏ

 Độ xác chấp nhận so với kỹ thuật phân lớp khác nhiều tập DL đơn

Ví... Thuộc tính chọn thuộc tính cho độ đo tốt nhất, có lợi cho q trình phân lớp< /i>

 Độ đo để đánh giá chất lượng phân chia độ

đo đồng nhất



Ngày đăng: 31/08/2012, 16:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. C. Apte and S. Weiss. Data mining with decision trees and decision rules. Future Generation Computer Systems, 13, 1997 Sách, tạp chí
Tiêu đề: Data mining with decision trees and decision rules. Future Generation Computer Systems
2. M. Kamber, L. Winstone, W. Gong, S. Cheng, and J. Han. Generalization and decision tree induction:Efficient classification in data mining. In Proc. 1997 Int. Workshop Research Issues on Data Engineering (RIDE'97), pages 111-120, Birmingham, England, April 1997 Sách, tạp chí
Tiêu đề: Generalization and decision tree induction: "Efficient classification in data mining
3. Mehmet R. Tolun, Saleh M. Abu-Soud. ILA, an inductive learning algorithm for rule extraction. ESA 14(3), 4/1998, 361-37076CÁC CÔNG VIỆC CẦN LÀM Sách, tạp chí
Tiêu đề: ILA, an inductive learning algorithm for rule extraction
1. Thực hiện bài tập nhóm chương 4 – Phần 1.Nộp bài qua Moodle trước 23h00 ngày thứ 4 – 3/9/2008 Khác
2. Chuẩn bị bài 4 : Phân lớp dữ liệuXem nội dung các bài tập nhóm thuộc bài 4 – Ph ầ n 2 Khác

HÌNH ẢNH LIÊN QUAN

Bảng con 1 - Bài giảng phân lớp dữ liệu
Bảng con 1 (Trang 32)
Bảng con 1 - Bài giảng phân lớp dữ liệu
Bảng con 1 (Trang 32)
Bảng con 2 - Bài giảng phân lớp dữ liệu
Bảng con 2 (Trang 32)
Bảng con 1 - Bài giảng phân lớp dữ liệu
Bảng con 1 (Trang 33)
Bảng con 1 - Bài giảng phân lớp dữ liệu
Bảng con 1 (Trang 33)
Bảng con 2 - Bài giảng phân lớp dữ liệu
Bảng con 2 (Trang 34)
Bảng con 2 - Bài giảng phân lớp dữ liệu
Bảng con 2 (Trang 34)
Bảng con 2 - Bài giảng phân lớp dữ liệu
Bảng con 2 (Trang 35)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w