Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
TR NG I H C KHOA H C T NHIÊN TPHCM KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH TRI TH C v(w NGUY N QUANG PH C - 0112193 NGHIÊN C U THU T TOÁN PHÂN L P NH PHÂN VÀ NG D NG CHO BÀI TOÁN PROTEIN FOLDING LU N V N C NHÂN TIN H C GIÁO VIÊN H NG D N Ths CHU T T BÍCH SAN Niên khóa 2001 - 2005 NH N XÉT C A GIÁO VIÊN H NG D N Tp HCM, ngày tháng n m 2005 ThS Chu T t Bích San NH N XÉT C A GIÁO VIÊN PH N BI N Tp HCM, ngày tháng n m 2005 TS Lê Hoài B c L i cám n cd Sau nhi u tháng nghiên c u th c hi n, lu n v n hoàn t t đ t đ c nh ng k t qu nh t đ nh Tr c h t, em xin đ c bày t lịng bi t n đ i v i Chu T t Bích San thày Ph m Nguy n Anh Huy nhi t tình, t n tâm h ng d n ch b o cho em th c hi n đ tài lu n v n t t nghi p Em xin chân thành cám n Khoa Công Ngh Thông Tin, Tr ng i h c Khoa H c T Nhiên Tp HCM t o u ki n cho em th c hi n đ tài t t nghi p Em xin chân thành cám n quý thày cô Khoa Công Ngh Thơng Tin t n tình gi ng d y, truy n đ t cho em nh ng ki n th c quý báu nh ng n m h c v a qua Sau cùng, em xin chân thành c m n gia đình, nh ng ng i thân b n bè giúp đ , đ ng viên em su t th i gian h c t p làm lu n v n M t l n n a, xin chân thành cám n t t c m i ng i! TpHCM, Tháng 7/2005 Sinh viên th c hi n Nguy n Quang Ph c M U Trong nh ng n m g n đây, khai thác d li u tr thành m t nh ng h ng nghiên c u l n nh t c a l nh v c khoa h c máy tính cơng ngh tri th c Khai thác d li u ng d ng thành công vào nhi u l nh v c th mơi tr ng m i, tài chính, th tr ng ch ng khoáng, y h c, thiên v n, ng, giáo d c, vi n thông sinh h c v.v Kh i l ng thông tin đ l nh v c ho t đ ng c a loài ng c x lý đ c s n sinh t t c i t ng lên đáng k , chúng đ c l u tr c s d li u t p trung hay phân tán Trong nh ng kho d li u n ch a m t kho tàng tri th c quý báu, mu n l y đ ph i có m t cơng c ph Khai thác d li u g m nhi u h áp d ng l nh v ph n l n đ c kho báu ng pháp khai thác d li u ng ti p c n Các k thu t đ c c k th a t l nh v c c s d li u, máy h c (machine learning), trí tu nhân t o (artificial intelligence), lý thuy t thông tin (information theory), xác su t th ng kê (probability & statistics), tính tốn hi u n ng cao (high performance computing), ph ng pháp tính tốn m m (soft computing methodologies) Các toán ch y u khai thác d li u khai thác chu i (text mining), khai thác web (web mining), khai thác chu i (sequence mining), khai thác lu t k t h p (association rules mining), lý thuy t t p thô (rough set theory), gom c m (clustering), phân l p (classification)… Trong phân l p m t n i dung quan tr ng c a khai thác d li u m t l nh v c nghiên c u có nhi u tri n v ng v i nhi u kh n ng ng d ng th c t Lu n v n đ t c xây d ng d a ý ng cho m t thu t toán gi m thi u s phân l p kh p (overfitting) s phân l p khái quát (overgeneralization) c a th y Ph m Nguy n Anh Huy (2005) Sau đó, áp d ng thu t tốn cho toán protein folding, m t toán khám phá c u trúc 3D c a protein C u trúc 3D c a protein đ c hình thành t c u t o chu i amino axit, cung c p nh ng manh m i quan tr ng v ch c n ng c a t ng protein Vì v y, tốn protein folding m t toán l n quan tr ng ngành sinh h c Ph n s đ c trình bày k h n n i dung lu n v n Lu n v n s bao g m ph n nh sau: Ch ng 1: Gi i thi u t ng quan v toán phân l p (classification) protein folding Ch b c đ ng s gi i thi u khái ni m v phân l p, gi i quy t m t toán phân l p trình bày v n đ kh p(overfitting) khái quát (overgeneralization) toán phân l p ng th i gi i thi u tốn protein folding Ch ng : Trình bày m t s thu t toán phân l p ph bi n hi n nh quy t đ nh (decision trees), m ng Bayesian, m ng neural thu t toán Support Vector Machine (SVM) Ch ng : Trình bày chi ti t thu t tốn phân l p k t h p gi a phân l p kh p v i phân l p khái quát c a th y Ph m Nguy n Anh Huy Ch k t qu đ ng : Áp d ng toán phân l p cho Protein folding đánh giá c, so sánh k t qu đ t đ c so v i thu t toán phân l p khác M CL C DANH SÁCH CÁC B NG i DANH SÁCH CÁC HÌNH .iii CH NG 1:T NG QUAN BÀI TOÁN PHÂN L PVÀ PROTEIN FOLDING 1.1 BÀI TOÁN PHÂN L P (CLASSIFICATION) 1.1.1 Gi i thi u 1.1.2 Các b c đ gi i quy t toán phân l p .3 1.2 OVERFITTING VÀ OVERGENERALIZATION TRONG BÀI TOÁN PHÂN L P 1.3 PROTEIN FOLDING CH NG 2: M T S THU T TOÁN PHÂN L P PH BI N 2.1 CÂY QUY T NH (DECISION TREES) .10 2.1.1 nh ngh a thu t toán t o quy t đ nh 10 2.1.2 đo Entropy 13 2.1.3 Rút trích lu t phân l p t quy t đ nh đo Entropy … 14 2.2 M NG BAYESIAN 17 2.2.1 Lý thuy t Bayes .17 2.2.2.Thu t toán phân l p Naive Bayes 18 2.2.3 M ng Bayesian 20 2.2.4.H c (hu n luy n) m ng Bayesian .22 2.3 M NG NEURAL 24 2.3.1 M ng lan truy n ti n đa t ng 24 2.3.2 Xây d ng c u trúc m ng 25 2.3.3 Lan truy n ng c……………… 26 2.4 SUPPORT VECTOR MACHINE (SVM) 31 2.4.1 Gi i thi u SVM 31 2.4.2 RBF Kernel .32 2.4.3 T i u tham s 33 CH NG 3: THU T TOÁN PHÂN L P I U CH NH S QUÁ KH P VÀ QUÁ KHÁI QUÁT 36 3.1 GI I THI U 37 3.2 M T S NH NGH A 38 3.2.1 Homogenous Clauses .38 3.2.2 M t đ c a m t Homogenous Clause .41 3.3 CHI TI T THU T TOÁN 41 3.3.1 Thu t tốn 42 3.3.2 Các thu t toán h tr 46 3.3.2.1 Thu t tốn tìm Positive Clauses 46 3.3.2.2 Thu t tốn tìm Homogenous Clauses 48 3.3.2.3 Thu t toán m r ng Homogenous Clause 50 3.3.2.4 Thu t toán gom Homogenous Clauses 53 CH NG 4: CÀI T THU T TOÁN VÀ ÁP D NG CHO BÀI TOÁN PROTEIN FOLDING 55 4.1 CÀI T THU T TOÁN 56 4.1.1 Ch ng trình Demo không gian hai chi u .56 4.1.2 Cài đ t thu t tốn khơng gian N chi u .64 4.1.2.1 Chu n b d li u 64 4.1.2.2 Giao di n ch c n ng c a ch 4.2 K T QU T ng trình 65 C 69 4.2.1 Ngu n d li u web site http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data .69 4.2.2 Ngu n d li u web site http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary .71 4.3 ÁP D NG PHÂN L P CHO BÀI TOÁN PROTEIN FOLDING 74 4.3.1 Bài toán Protein Folding 74 4.3.2 Mô t c s d li u 76 4.3.3 K t qu th c hi n 80 T NG K T .85 TÀI LI U THAM KH O .86 DANH SÁCH CÁC HÌNH Hình 1-1: B c - H c đ xây d ng mơ hình phân l p Hình 1-2: B c - Ki m tra đánh giá .5 Hình 1-3: C u trúc l p hoàn toàn xo n c (all- ) c a protein Hình 1-4: C u trúc l p hồn tồn hình s i (all- ) c a protein Hình 2-1: Minh h a quy t đ nh v i vi c phân l p t bào ung th 10 Hình 2-2: M t ví d c a m ng Bayesian 21 Hình 2-3: M ng lan truy n hai t ng 25 Hình 2-4: M t neural t ng n ho c t ng xu t 28 Hình 2-5: B phân l p q khít b phân l p t t h n 34 Hình 3-1: Minh h a đ nh ngh a Homogenous Clauses 39 Hình 3-2: Vùng A đ c thay th b ng hai Homogenous Clauses A1 A2 .40 Hình 3-3: M t t p m u h c hai chi u 43 Hình 3-4: Các Positive Clauses tìm đ c b Hình 3-5: Các Homogenous Clauses tìm đ Hình 3-6: Các Homogenous Clauses đ c 43 c cm b c 44 r ng Hình 3-7: M t ví d Positive Clauses v i hai ng b c 45 ng kho ng cách 48 Hình 3-8: Các Homogenous Clauses cho m i Positive Clauses 50 Hình 3-9: Các Homogenous Clauses sau đ c m r ng .53 ... K t qu phân l p protein c a thu t toán phân l p u ch nh tính kh p khái quát d li u 83 T NG QUAN CH NG 1: T NG QUAN BÀI TOÁN PHÂN L P VÀ PROTEIN FOLDING T NG QUAN 1.1 BÀI TOÁN PHÂN L... t qu phân l p protein vào l p all- 81 B ng 4-7: K t qu phân l p protein vào l p all- .81 B ng 4-8: K t qu phân l p protein vào l p / 82 B ng 4-9: K t qu phân l p protein vào l... 1:T NG QUAN BÀI TOÁN PHÂN L PVÀ PROTEIN FOLDING 1.1 BÀI TOÁN PHÂN L P (CLASSIFICATION) 1.1.1 Gi i thi u 1.1.2 Các b c đ gi i quy t toán phân l p .3 1.2 OVERFITTING VÀ OVERGENERALIZATION