Ti u tham s

Một phần của tài liệu Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding (Trang 46 - 50)

Cĩ hai tham s khi s d ng hàm RBF kernel là C và γ . C và γ là t t nh t hay t i u cho m i bài tốn thì ch a đ c bi t tr c, vì v y ph i tìm ki m các tham s t i u này. M c đích là nh n ra (C, γ ) t t nh t đ mà b phân l p cĩ th d đốn chính xác l p cho các m u ch a bi t. Chú ý r ng nĩ cĩ th khơng h u ích đ đ t đ c đ chính xác h c cao, ngh a là b phân l p d đốn chính xác nh ng m u d li u h c đã bi t l p tr c. Vì v y m t cách thơng th ng là chia t p m u d li u h c thành hai ph n, m t ph n đ c xem nh khơng bi t trong quá trình h c c a b phân l p. Sau đĩ, s d đốn chính xác trên ph n này cĩ th chính xác h n t ng ng v i vi c th c hi n phân l p trên d li u ch a bi t. M t phiên b n c i ti n c a th t c này là “giao hi u su t” (cross - validation).

Trong v-nhĩm cross-validation, đ u tiên chia t p m u h c thành v t p con b ng nhau. L n l t m i t p con s đ c th v i b phân l p đ c h c trên v-1 t p con cịn l i. Theo cách đĩ, m i m u trong t p các m u h c đ c d đốn m t l n, nh v y đ chính xác cros-validation là t l ph n tr m các m u d li u đ c phân l p chính xác.

M T S THU T TỐN PHÂN L P PH BI N

a) d li u h c và b phân l p quá khít b) áp d ng b phân l p quá khít trên d li u th

c) d li u h c và b phân l p t t h n d) áp d ng b phân l p t t h n trên d li u th

M T S THU T TỐN PHÂN L P PH BI N

Th t c cross-validation cĩ th ng n ng a v n đ quá kh p (overfitting). Ví d hình 2-5 minh h a bài tốn phân l p nh phân (hình tam giác và hình trịn), hình tam giác và hình trịn tơ đen là d li u h c, hình tam giác và hình trịn tr ng là d li u th . chính xác trên các m u th mà b phân l p d đốn hình 2-5 a) và b) là ch a th a mãn vì nĩ quá trên khít d li u h c. M t h ng khác, b phân l p hình 2-5 c) và d) khơng quá kh p trên d li u h c đ a ra cross-validation t t h n c ng nh đ chính xác c a các m u th cao h n.

M t l i tìm ki m (grid search) trên C và γ s d ng cross-validation

đ c dùng, v c b n các c p (C, γ) đã đ c th và m t trong s chúng đã làm cho cross-validation t i u, và c p (C, γ ) này đ c ch n l c. Chúng ta th y r ng n u C và γ là d y t ng s m là m t ph ng pháp t t đ t o ra tham s t t, ví d C=2-5, 2-3, …, 215, γ = 2-15, 2-13 ,…, 23.

Trong m t s tr ng h p ph ng pháp SVM thì b t l i và k t qu khĩ ch p nh n. Thơng th ng ph ng pháp SVM phân l p t t v i d li u khơng cĩ nhi u thu c tính, n u g p ph i d li u cĩ hàng ngàn thu c tính thì ph i ch n ra nhĩm thu c tính v i s l ng v a ph i đ áp d ng cho SVM.

THU T TỐN PHÂN L P I U CH NH S QUÁ KH P VÀ QUÁ KHÁI QUÁT

CH NG 3

THU T TỐN PHÂN L P I U CH NH S QUÁ KH P

THU T TỐN PHÂN L P I U CH NH S QUÁ KH P VÀ QUÁ KHÁI QUÁT

Một phần của tài liệu Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding (Trang 46 - 50)