Bài giảng phân lớp dữ liệu
Trang 2đị nh ánh xạ f : D C sao cho mỗi ti đượ c gán vào một lớp.
Trang 3Phân loi tin tc thuc lĩnh v c
tài chính, thi ti t, gii trí, th
thao, …
Dự đoán khi nào sông có lũ
Chun đoán y khoa
Trang 4Độ chính xác chấp nhận được -> áp dụng mô hình để phân lớp các mẫu/bộ chưa xác định được nhãn lớp
Ví dụ : XD mô hình
Training Data
Mike Assistant Prof 3 no
Mary Assistant Prof 7 yes
Bill Professor 2 yes
Jim Associate Prof 7 yes
Dave Assistant Prof 6 no
Anne Associate Prof 3 no
Classification Algorithms
IF rank = ‘professor’
OR years > 6 THEN tenured = ‘yes’ Classifier
(Model)
Trang 5Ví dụ : Sử dụng mơ hình
Classifier
Testing Data
NAME RANK YEARS TENURED
Tom Assistant Prof 2 no
Merlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
Unseen Data (Jeff, Professor, 4)
Phương pháp dựa trên luật
Phương pháp Nạve Bayes
Phương pháp dựa trên thể hiện
Mạng Nơron
SVM (support vector machine)
Tập thơ
Trang 6NỘI DUNG
1 Giới thiệu
trên cây quy t đnh
CÂY QUYẾT ĐỊNH
6 Ưu điểm
Trang 7Kiểm tra các giá trị của thuộc tính và phân
chia các mẫu đệ qui
Bưc 2 : Ta bt cây
Xác định và loại bỏ bớt các nhánh không ổn
định hoặc cá biệt
Trang 8VÍ DỤ 1: Dữ liệu huấn luyện
age income student credit_rating buys_computer
<=30 high no fair no
<=30 high no excellent no
31…40 high no fair yes
>40 medium no fair yes
>40 low yes fair yes
>40 low yes excellent no
31…40 low yes excellent yes
<=30 medium no fair no
<=30 low yes fair yes
>40 medium yes fair yes
<=30 medium yes excellent yes
31…40 medium no excellent yes
31…40 high yes fair yes
>40 medium no excellent no
VÍ DỤ 1 : CÂY QUYẾT ĐỊNH
age?
student? credit rating?
no yes excellent fair
<=30 >40
yes
31 40
Trang 9Phân chia tập mẫu dựa trên thuộc tính cho kết quả tối ưu hóa tiêu chuẩn
Vn đ :
Dựa trên độ đo sự đồng nhất của dữ liệu
Đ iều kiện dừng
Trang 104 Cách phân chia các mẫu
Tiêu chuẩn phân chia : tạo ra các nhóm sao cho
một lớp chiếm ưu thế trong từng nhóm
Thuộc tính được chọn là thuộc tính cho độ đo tốt nhất, có lợi nhất cho quá trình phân lớp
Độ đo để đánh giá chất lượng phân chia là độ
đo sự đồng nhất
Entropy (Information Gain)
Information Gain Ratio
Gini Index
Trang 11Ci,D: tập các mẫu của D thuộc lớp Civới i = {1, …, m}
|Ci, D|, |D| : lực lượng của tập Ci,Dvà D tương ứng
pilà xác sut đ mt mu bt kỳ ca D thuc v lp Ci
Thông tin kỳ vọng để phân lớp một mẫu trong D là :
) ( log )
1
i m
i
p D
VÍ DỤ 1: Dữ liệu huấn luyện
age income student credit_rating buys_computer
<=30 high no fair no
<=30 high no excellent no
31…40 high no fair yes
>40 medium no fair yes
>40 low yes fair yes
>40 low yes excellent no
31…40 low yes excellent yes
<=30 medium no fair no
<=30 low yes fair yes
>40 medium yes fair yes
<=30 medium yes excellent yes
31…40 medium no excellent yes
31…40 high yes fair yes
>40 medium no excellent no
Trang 12CÂY QUYẾT ĐỊNH
Đ l i thông tin (Information gain) :
Trong VD1 : 14 mẫu tin, trong đó có 9 mua máy tính
|D| = 14; m = 2; C1 =“Mua “; C2 =“Không mua”
|C1, D|= 9, |C2, D|=5
Thông tin kỳ vọng để phân lớp một mẫu trong D
là :
940 0 14
5 log 14
5 14
9 log 14
9 )
5 , 9
=
Info(D)
CÂY QUYẾT ĐỊNH
Thuộc tính A có các giá trị :{a1, a2 , …,av}
Dùng thuộc tính A để phân chia tập huấn luyện D thành v tập con {D1, D2, …, Dv}
Thông tin cần thiết để phân chia D theo thuộc tính A :
) ( )
(
1
j v
Info
Trang 133 log 5
3 5
2 log 5
2 ) 3 , 2 ( = − 2 − 2 =
I
0 4
0 log 4
0 4
4 log 4
4 ) 0 , 4 ( = − 2 − 2 =
I
971 0 5
2 log 5
2 5
3 log 5
3 ) 2 , 3 ( = − 2 − 2 =
5 ) 0 , 4 ( 14
4 ) 3 , 2 ( 14
5 )
Info age
246 0 ) ( )
( )
gSuy ra :
Trang 14151 0 ) (
029 0 ) (
246 0 ) (
Gain
student Gain
income Gain
age Gain
g Đ l i thông tin d a trên phân chia theo thuc tính “age” là ln nht nên
ta s! chia DL theo thuc tính “age”
Trang 15low yes fair yes
medium yes excellent yes
income student credit_rating buys_computerhigh no fair yeslow yes excellent yesmedium no excellent yeshigh yes fair yes
income student credit_rating buys_computermedium no fair yeslow yes fair yeslow yes excellent nomedium yes fair yesmedium no excellent no
VÍ DỤ 1 : IG
age?
student? credit rating?
yes 31 40
Trang 16CÂY QUYẾT ĐỊNH
Information Gain Ratio: C4.5
Độ đo Gain có xu hướng thiên vị cho các thuộc tính có nhiều giá trị -> cần chuẩn hóa độ
|
|
|
| )
D D
D D
v j
1
2 1
) (
Chỉ mục Gini (Gini index) : CART, SLIQ, SPRINT
Tập huấn luyện D chứa các mẫu của m lớp
Ch mc Gini của tập D – gini(D) là :
với pi là tần suất của lớp Ci trong D
• Cho tập DL của ví dụ 1, ta có gini(D) là :
459 0 14
5 14
9 1 ) (
2 2
Trang 17CÂY QUYẾT ĐỊNH
Chỉ mục Gini (Gini index) :
Thuộc tính A có các giá trị :{a1, a2 , …,av}
Dùng thuộc tính A để phân chia tập huấn luyện D
thành v tập con {D1, D2, …, Dv}
Ch mc Gini của phân chia D theo thuộc tính
A :
) ( )
1
D gini D
D D
>40 3 2 0.48
343 0
) 2 , 3 ( 14
5 ) 0 , 4 ( 14
4 ) 3 , 2 ( 14
5 )
(
=
+ +
D
giniage
Trang 18Câu a): GINI INDEX
g Sau khi tính độ đo chỉ mục Gini dựa trên phân chia theo thuộc tính :
Câu a): GINI INDEX
low yes fair yes
medium yes excellent yes
income student credit_rating buys_computermedium no fair yeslow yes fair yeslow yes excellent nomedium yes fair yesmedium no excellent no
Làm tương
tự
Làm tương tự
yes
Trang 19Các điểm hình tròn : 0.5 ≤≤≤≤ sqrt(x 1 +x 2 ) ≤≤≤≤ 1
Các điểm hình tam giác:
sqrt(x 1 +x 2 ) > 0.5 or sqrt(x 1 +x 2 ) < 1
CÂY QUYẾT ĐỊNH
5 Vấn đề quá phù hợp với DL (overfitting)
Overfitting
Trang 21CÂY QUYẾT ĐỊNH
Kết quả : độ chính xác kém khi phân lớp cho mẫu mới
Hai phương pháp tránh quá PHÙ HỢP DL :
nó có thể tạo ra độ đo dưới ngưỡng nào đó
Rất khó chọn ngưỡng thích hợp
dưới lên)
Sử dụng tập DL độc lập để kiểm tra và loại bớt
Xác định chính xác kích thước cây kết quả như thế nào ?
Phân chia : tập huấn luyện (2/3), tập test (1/3)
Sử dụng đánh giá chéo ( cross-validation)
CÂY QUYẾT ĐỊNH
6 Ưu điểm :
Dễ dàng xây dựng cây
Phân lớp mẫu mới nhanh
Dễ dàng diển giải cho các cây có kích thước nhỏ
Độ chính xác chấp nhận được so với các kỹ thuật phân lớp khác trên nhiều tập DL đơn
Ví dụ : C4.5
Dùng độ lợi thông tin
Sắp xếp thuộc tính số tại từng nút
Yêu cầu toàn bộ DL chứa vừa trong bộ nhớ
Không phù hợp với các tập dữ liệu lớn
http://www.cse.unsw.edu.au/~quinlan/c4.5r8.tar.gz
Trang 23GIỚI THIỆU
S dng các lut IF-THEN đ phân loi
Lut có dng : IF (Điu kin) Then Y
Vi “Điu kin “ : k t h p các thuc tính
T- l các mu th,a mãn điu
kin (v trái) ca lut
Đ chính xác ca lut :
accuracy(R)
T- l các mu th,a mãn c
đ iu kin và k t lun (2 v trái,
phi) ca lut
Tid Refund Marital
Status Taxable Income Class
Trang 24VÍ DỤ 2
Cho tập DL huấn luyện sau :
VÍ DỤ 2
Tp lut :
R1: (Give Birth = no) ∧ ∧ (Can Fly = yes) → → Birds
R2: (Give Birth = no) ∧ ∧ (Live in Water = yes) → → Fishes
R3: (Give Birth = yes) ∧ ∧ (Blood Type = warm) → → Mammals
R4: (Give Birth = no) ∧ ∧ (Can Fly = no) → → Reptiles
R5: (Live in Water = sometimes) → → Amphibians
S dng tp lut đ xác đnh lp cho các mu mi sau :
Name Blood Type Give Birth Can Fly Live in Water Class
lemur warm yes no no ?turtle cold no no sometimes ?dogfish shark cold yes no yes ?
Trang 25VÍ DỤ 2
Name Blood Type Give Birth Can Fly Live in Water Class
turtle cold no no sometimes ?
dogfish shark cold yes no yes ?
Mẫu “lemur” phủ bởi luật R3, nên được phân vào lớp
“Mammals”
Mẫu “turtle” phủ bởi cả luật R4 và R5
Mẫu “dogfish shark” không được phủ bởi bất kỳ luật nào.
Cách gii quy t ?
GIỚI THIỆU
Cách gii quy t ?
Theo kích thưc ca lut : các lut có tp điu kin ln hơn s! có đ ưu tiên cao hơn
Theo luật : các luật được xếp hạng theo độ đo chất lượng luật hoặc theo ý kiến chuyên gia
Theo lp : gom các lut thuc cùng mt lp
Nếu một mẫu được phủ bởi nhiều luật thì chọn luật có thứ hạng cao nhất
Nếu không phủ bởi bất kỳ luật nào thì gán vào lớp mặc định
Trang 26GIỚI THIỆU
Xây dựng luật phân lớp :
Phương pháp tr c ti p :
Rút các lut tr c ti ... để phân lớp mẫu D :
) ( log )
1
i m
i
p D
VÍ DỤ 1: Dữ liệu. ..
Dễ dàng xây dựng
Phân lớp mẫu nhanh
Dễ dàng diển giải cho có kích thước nhỏ
Độ xác chấp nhận so với kỹ thuật phân lớp khác nhiều tập DL đơn
Ví... Thuộc tính chọn thuộc tính cho độ đo tốt nhất, có lợi cho q trình phân lớp< /i>
Độ đo để đánh giá chất lượng phân chia độ
đo đồng nhất