Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

99 571 0
Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

TR NG I H C KHOA H C T NHIÊN TPHCM KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH TRI TH C v(w NGUY N QUANG PH C - 0112193 NGHIÊN C U THU T TOÁN PHÂN L P NH PHÂN VÀ NG D NG CHO BÀI TOÁN PROTEIN FOLDING LU N V N C NHÂN TIN H C GIÁO VIÊN H NG D N Ths CHU T T BÍCH SAN Niên khóa 2001 - 2005 NH N XÉT C A GIÁO VIÊN H NG D N Tp HCM, ngày tháng n m 2005 ThS Chu T t Bích San NH N XÉT C A GIÁO VIÊN PH N BI N Tp HCM, ngày tháng n m 2005 TS Lê Hoài B c L i cám n cd Sau nhi u tháng nghiên c u th c hi n, lu n v n hoàn t t đ t đ c nh ng k t qu nh t đ nh Tr c h t, em xin đ c bày t lịng bi t n đ i v i Chu T t Bích San thày Ph m Nguy n Anh Huy nhi t tình, t n tâm h ng d n ch b o cho em th c hi n đ tài lu n v n t t nghi p Em xin chân thành cám n Khoa Công Ngh Thông Tin, Tr ng i h c Khoa H c T Nhiên Tp HCM t o u ki n cho em th c hi n đ tài t t nghi p Em xin chân thành cám n quý thày cô Khoa Công Ngh Thơng Tin t n tình gi ng d y, truy n đ t cho em nh ng ki n th c quý báu nh ng n m h c v a qua Sau cùng, em xin chân thành c m n gia đình, nh ng ng i thân b n bè giúp đ , đ ng viên em su t th i gian h c t p làm lu n v n M t l n n a, xin chân thành cám n t t c m i ng i! TpHCM, Tháng 7/2005 Sinh viên th c hi n Nguy n Quang Ph c M U Trong nh ng n m g n đây, khai thác d li u tr thành m t nh ng h ng nghiên c u l n nh t c a l nh v c khoa h c máy tính cơng ngh tri th c Khai thác d li u ng d ng thành công vào nhi u l nh v c th mơi tr ng m i, tài chính, th tr ng ch ng khoáng, y h c, thiên v n, ng, giáo d c, vi n thông sinh h c v.v Kh i l ng thông tin đ l nh v c ho t đ ng c a loài ng c x lý đ c s n sinh t t c i t ng lên đáng k , chúng đ c l u tr c s d li u t p trung hay phân tán Trong nh ng kho d li u n ch a m t kho tàng tri th c quý báu, mu n l y đ ph i có m t cơng c ph Khai thác d li u g m nhi u h áp d ng l nh v ph n l n đ c kho báu ng pháp khai thác d li u ng ti p c n Các k thu t đ c c k th a t l nh v c c s d li u, máy h c (machine learning), trí tu nhân t o (artificial intelligence), lý thuy t thông tin (information theory), xác su t th ng kê (probability & statistics), tính tốn hi u n ng cao (high performance computing), ph ng pháp tính tốn m m (soft computing methodologies) Các toán ch y u khai thác d li u khai thác chu i (text mining), khai thác web (web mining), khai thác chu i (sequence mining), khai thác lu t k t h p (association rules mining), lý thuy t t p thô (rough set theory), gom c m (clustering), phân l p (classification)… Trong phân l p m t n i dung quan tr ng c a khai thác d li u m t l nh v c nghiên c u có nhi u tri n v ng v i nhi u kh n ng ng d ng th c t Lu n v n đ t c xây d ng d a ý ng cho m t thu t toán gi m thi u s phân l p kh p (overfitting) s phân l p khái quát (overgeneralization) c a th y Ph m Nguy n Anh Huy (2005) Sau đó, áp d ng thu t tốn cho toán protein folding, m t toán khám phá c u trúc 3D c a protein C u trúc 3D c a protein đ c hình thành t c u t o chu i amino axit, cung c p nh ng manh m i quan tr ng v ch c n ng c a t ng protein Vì v y, tốn protein folding m t toán l n quan tr ng ngành sinh h c Ph n s đ c trình bày k h n n i dung lu n v n Lu n v n s bao g m ph n nh sau: Ch ng 1: Gi i thi u t ng quan v toán phân l p (classification) protein folding Ch b c đ ng s gi i thi u khái ni m v phân l p, gi i quy t m t toán phân l p trình bày v n đ kh p(overfitting) khái quát (overgeneralization) toán phân l p ng th i gi i thi u tốn protein folding Ch ng : Trình bày m t s thu t toán phân l p ph bi n hi n nh quy t đ nh (decision trees), m ng Bayesian, m ng neural thu t toán Support Vector Machine (SVM) Ch ng : Trình bày chi ti t thu t tốn phân l p k t h p gi a phân l p kh p v i phân l p khái quát c a th y Ph m Nguy n Anh Huy Ch k t qu đ ng : Áp d ng toán phân l p cho Protein folding đánh giá c, so sánh k t qu đ t đ c so v i thu t toán phân l p khác M CL C DANH SÁCH CÁC B NG i DANH SÁCH CÁC HÌNH .iii CH NG 1:T NG QUAN BÀI TOÁN PHÂN L PVÀ PROTEIN FOLDING 1.1 BÀI TOÁN PHÂN L P (CLASSIFICATION) 1.1.1 Gi i thi u 1.1.2 Các b c đ gi i quy t toán phân l p .3 1.2 OVERFITTING VÀ OVERGENERALIZATION TRONG BÀI TOÁN PHÂN L P 1.3 PROTEIN FOLDING CH NG 2: M T S THU T TOÁN PHÂN L P PH BI N 2.1 CÂY QUY T NH (DECISION TREES) .10 2.1.1 nh ngh a thu t toán t o quy t đ nh 10 2.1.2 đo Entropy 13 2.1.3 Rút trích lu t phân l p t quy t đ nh đo Entropy … 14 2.2 M NG BAYESIAN 17 2.2.1 Lý thuy t Bayes .17 2.2.2.Thu t toán phân l p Naive Bayes 18 2.2.3 M ng Bayesian 20 2.2.4.H c (hu n luy n) m ng Bayesian .22 2.3 M NG NEURAL 24 2.3.1 M ng lan truy n ti n đa t ng 24 2.3.2 Xây d ng c u trúc m ng 25 2.3.3 Lan truy n ng c……………… 26 2.4 SUPPORT VECTOR MACHINE (SVM) 31 2.4.1 Gi i thi u SVM 31 2.4.2 RBF Kernel .32 2.4.3 T i u tham s 33 CH NG 3: THU T TOÁN PHÂN L P I U CH NH S QUÁ KH P VÀ QUÁ KHÁI QUÁT 36 3.1 GI I THI U 37 3.2 M T S NH NGH A 38 3.2.1 Homogenous Clauses .38 3.2.2 M t đ c a m t Homogenous Clause .41 3.3 CHI TI T THU T TOÁN 41 3.3.1 Thu t tốn 42 3.3.2 Các thu t toán h tr 46 3.3.2.1 Thu t tốn tìm Positive Clauses 46 3.3.2.2 Thu t tốn tìm Homogenous Clauses 48 3.3.2.3 Thu t toán m r ng Homogenous Clause 50 3.3.2.4 Thu t toán gom Homogenous Clauses 53 CH NG 4: CÀI T THU T TOÁN VÀ ÁP D NG CHO BÀI TOÁN PROTEIN FOLDING 55 4.1 CÀI T THU T TOÁN 56 4.1.1 Ch ng trình Demo không gian hai chi u .56 4.1.2 Cài đ t thu t tốn khơng gian N chi u .64 4.1.2.1 Chu n b d li u 64 4.1.2.2 Giao di n ch c n ng c a ch 4.2 K T QU T ng trình 65 C 69 4.2.1 Ngu n d li u web site http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data .69 4.2.2 Ngu n d li u web site http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary .71 4.3 ÁP D NG PHÂN L P CHO BÀI TOÁN PROTEIN FOLDING 74 4.3.1 Bài toán Protein Folding 74 4.3.2 Mô t c s d li u 76 4.3.3 K t qu th c hi n 80 T NG K T .85 TÀI LI U THAM KH O .86 DANH SÁCH CÁC HÌNH Hình 1-1: B c - H c đ xây d ng mơ hình phân l p Hình 1-2: B c - Ki m tra đánh giá .5 Hình 1-3: C u trúc l p hoàn toàn xo n c (all- ) c a protein Hình 1-4: C u trúc l p hồn tồn hình s i (all- ) c a protein Hình 2-1: Minh h a quy t đ nh v i vi c phân l p t bào ung th 10 Hình 2-2: M t ví d c a m ng Bayesian 21 Hình 2-3: M ng lan truy n hai t ng 25 Hình 2-4: M t neural t ng n ho c t ng xu t 28 Hình 2-5: B phân l p q khít b phân l p t t h n 34 Hình 3-1: Minh h a đ nh ngh a Homogenous Clauses 39 Hình 3-2: Vùng A đ c thay th b ng hai Homogenous Clauses A1 A2 .40 Hình 3-3: M t t p m u h c hai chi u 43 Hình 3-4: Các Positive Clauses tìm đ c b Hình 3-5: Các Homogenous Clauses tìm đ Hình 3-6: Các Homogenous Clauses đ c 43 c cm b c 44 r ng Hình 3-7: M t ví d Positive Clauses v i hai ng b c 45 ng kho ng cách 48 Hình 3-8: Các Homogenous Clauses cho m i Positive Clauses 50 Hình 3-9: Các Homogenous Clauses sau đ c m r ng .53 ... K t qu phân l p protein c a thu t toán phân l p u ch nh tính kh p khái quát d li u 83 T NG QUAN CH NG 1: T NG QUAN BÀI TOÁN PHÂN L P VÀ PROTEIN FOLDING T NG QUAN 1.1 BÀI TOÁN PHÂN L... t qu phân l p protein vào l p all- 81 B ng 4-7: K t qu phân l p protein vào l p all- .81 B ng 4-8: K t qu phân l p protein vào l p / 82 B ng 4-9: K t qu phân l p protein vào l... 1:T NG QUAN BÀI TOÁN PHÂN L PVÀ PROTEIN FOLDING 1.1 BÀI TOÁN PHÂN L P (CLASSIFICATION) 1.1.1 Gi i thi u 1.1.2 Các b c đ gi i quy t toán phân l p .3 1.2 OVERFITTING VÀ OVERGENERALIZATION

Ngày đăng: 08/12/2013, 09:48

Hình ảnh liên quan

Hình 1-1: Bc 1 -H cđ xâ yd ng mơ hình phân lp - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 1.

1: Bc 1 -H cđ xâ yd ng mơ hình phân lp Xem tại trang 17 của tài liệu.
Bc 2: Kim tra và đánh giá, bc này sd ng mơ hình phân lp đã - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

c.

2: Kim tra và đánh giá, bc này sd ng mơ hình phân lp đã Xem tại trang 18 của tài liệu.
Hình 1-3: Cu trúc lp hồn tồn xo nc (all- g) ca protein - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 1.

3: Cu trúc lp hồn tồn xo nc (all- g) ca protein Xem tại trang 21 của tài liệu.
đ c bi u di nb ng hình ch nh t, node lá đc bi u di nb ng hình ellips e. - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

c.

bi u di nb ng hình ch nh t, node lá đc bi u di nb ng hình ellips e Xem tại trang 23 của tài liệu.
Hình 2-2: Mt ví d c am ng Bayesian - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 2.

2: Mt ví d c am ng Bayesian Xem tại trang 34 của tài liệu.
hình 2-3 cĩ ha it ng cha các nv đu ra vì vy gi nĩ làm ng ha it ng, t ng t   m ng ch a hai t ng  n g i là m ng ba t ng, v.v…G i là m ng lan  truy n ti n vì trong m ng khơng cĩ tr ng s  c a m t  đn v  nào quay l i làm  - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

hình 2.

3 cĩ ha it ng cha các nv đu ra vì vy gi nĩ làm ng ha it ng, t ng t m ng ch a hai t ng n g i là m ng ba t ng, v.v…G i là m ng lan truy n ti n vì trong m ng khơng cĩ tr ng s c a m t đn v nào quay l i làm Xem tại trang 38 của tài liệu.
Hình 2-4: Mt neural tron gt ng n ho ct ng x ut - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 2.

4: Mt neural tron gt ng n ho ct ng x ut Xem tại trang 41 của tài liệu.
Hình 2-5: B phân lp quá khít và b phân lp tt hn - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 2.

5: B phân lp quá khít và b phân lp tt hn Xem tại trang 47 của tài liệu.
Ví d, hình 3-1 sau đây minh h ađ nh ngh av Homogenous Clauses, gi  s  các m u ch  cĩ hai thu c tính nên  đ c bi u di n trên m t ph ng hai  chi u X-Y - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

d.

hình 3-1 sau đây minh h ađ nh ngh av Homogenous Clauses, gi s các m u ch cĩ hai thu c tính nên đ c bi u di n trên m t ph ng hai chi u X-Y Xem tại trang 52 của tài liệu.
Hình 3-2: Vùng Ađ c thay t hb ng hai Homogenous Clauses A1 và A2 - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 3.

2: Vùng Ađ c thay t hb ng hai Homogenous Clauses A1 và A2 Xem tại trang 53 của tài liệu.
Hình 3-3: Mt tp mu hc hai chi u - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 3.

3: Mt tp mu hc hai chi u Xem tại trang 56 của tài liệu.
Hình 3-4: Các Positive Clauses tìm đ cb c1 - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 3.

4: Các Positive Clauses tìm đ cb c1 Xem tại trang 56 của tài liệu.
Hình 3-5: Các Homogenous Clauses tìm đ cb c2 - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 3.

5: Các Homogenous Clauses tìm đ cb c2 Xem tại trang 57 của tài liệu.
TH UT TỐN PHÂN LP IU CH N HS QUÁ KH PVÀ QUÁ KHÁI QUÁT - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
TH UT TỐN PHÂN LP IU CH N HS QUÁ KH PVÀ QUÁ KHÁI QUÁT Xem tại trang 57 của tài liệu.
TH UT TỐN PHÂN LP IU CH N HS QUÁ KH PVÀ QUÁ KHÁI QUÁT - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
TH UT TỐN PHÂN LP IU CH N HS QUÁ KH PVÀ QUÁ KHÁI QUÁT Xem tại trang 58 của tài liệu.
Hình 3-6: Các Homogenous Clauses đ cm r ng b c3 - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 3.

6: Các Homogenous Clauses đ cm r ng b c3 Xem tại trang 58 của tài liệu.
TH UT TỐN PHÂN LP IU CH N HS QUÁ KH PVÀ QUÁ KHÁI QUÁT - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
TH UT TỐN PHÂN LP IU CH N HS QUÁ KH PVÀ QUÁ KHÁI QUÁT Xem tại trang 61 của tài liệu.
Hình 3-9: Các Homogenous Clauses sau khi đ cm r ng - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 3.

9: Các Homogenous Clauses sau khi đ cm r ng Xem tại trang 66 của tài liệu.
Hình 4-1: Giao din ch ng trình Demo - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 4.

1: Giao din ch ng trình Demo Xem tại trang 69 của tài liệu.
Hình 4-2: Giao din ch ng trình sau khi nh pd li u - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 4.

2: Giao din ch ng trình sau khi nh pd li u Xem tại trang 73 của tài liệu.
Hình 4-3: Giao din ch ng trình sau khi tìm các Positive Clauses - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 4.

3: Giao din ch ng trình sau khi tìm các Positive Clauses Xem tại trang 74 của tài liệu.
Hình 4-4: Giao din ch ng trình sau khi tìm các Homogenous Clauses - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 4.

4: Giao din ch ng trình sau khi tìm các Homogenous Clauses Xem tại trang 75 của tài liệu.
Hình 4-5: Giao din ch ng trình sau khi mr ng Homogenous Clauses - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 4.

5: Giao din ch ng trình sau khi mr ng Homogenous Clauses Xem tại trang 76 của tài liệu.
Hình 4-6: Giao din ch ng trình phân lp ch od li uN chi u Bc 1: Training data  - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 4.

6: Giao din ch ng trình phân lp ch od li uN chi u Bc 1: Training data Xem tại trang 78 của tài liệu.
Hình 4-7: Giao din ch ng trình sau khi đã hc xong tp mu c Bc 2: Testing data  - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 4.

7: Giao din ch ng trình sau khi đã hc xong tp mu c Bc 2: Testing data Xem tại trang 80 của tài liệu.
đốn cho các mu t h. Xem hình minh ha và mt đ on đu ca file Result.TXT sau  đây:  - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

n.

cho các mu t h. Xem hình minh ha và mt đ on đu ca file Result.TXT sau đây: Xem tại trang 81 của tài liệu.
CÀ IT TH UT TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
CÀ IT TH UT TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING Xem tại trang 84 của tài liệu.
• Cu trúc bc hai do ch ui polypeptit bc mt xon hình lị xo hay hình xo n  c, gi a các vịng xo n cĩ các liên k t hydro làm cho c u trúc  protein  đc b n v ng - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

u.

trúc bc hai do ch ui polypeptit bc mt xon hình lị xo hay hình xo n c, gi a các vịng xo n cĩ các liên k t hydro làm cho c u trúc protein đc b n v ng Xem tại trang 88 của tài liệu.
Hình 4-9: Bi uđ so sánh kt qu phân lp cu trúc Protein - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Hình 4.

9: Bi uđ so sánh kt qu phân lp cu trúc Protein Xem tại trang 97 của tài liệu.
CÀ IT TH UT TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
CÀ IT TH UT TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING Xem tại trang 97 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan