1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

99 571 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Tác giả Nguyễn Quang Phúc
Người hướng dẫn ThS. Chu Thị Bích San
Trường học Trường Đại Học Khoa Học Tự Nhiên TPHCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn
Năm xuất bản 2005
Thành phố TPHCM
Định dạng
Số trang 99
Dung lượng 1,46 MB

Nội dung

Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

TR NG I H C KHOA H C T NHIÊN TPHCM KHOA CÔNG NGH THÔNG TIN B MÔN CÔNG NGH TRI TH C v(w NGUY N QUANG PH C - 0112193 NGHIÊN C U THU T TOÁN PHÂN L P NH PHÂN VÀ NG D NG CHO BÀI TOÁN PROTEIN FOLDING LU N V N C NHÂN TIN H C GIÁO VIÊN H NG D N Ths CHU T T BÍCH SAN Niên khóa 2001 - 2005 NH N XÉT C A GIÁO VIÊN H NG D N Tp HCM, ngày tháng n m 2005 ThS Chu T t Bích San NH N XÉT C A GIÁO VIÊN PH N BI N Tp HCM, ngày tháng n m 2005 TS Lê Hoài B c L i cám n cd Sau nhi u tháng nghiên c u th c hi n, lu n v n hoàn t t đ t đ c nh ng k t qu nh t đ nh Tr c h t, em xin đ c bày t lịng bi t n đ i v i Chu T t Bích San thày Ph m Nguy n Anh Huy nhi t tình, t n tâm h ng d n ch b o cho em th c hi n đ tài lu n v n t t nghi p Em xin chân thành cám n Khoa Công Ngh Thông Tin, Tr ng i h c Khoa H c T Nhiên Tp HCM t o u ki n cho em th c hi n đ tài t t nghi p Em xin chân thành cám n quý thày cô Khoa Công Ngh Thơng Tin t n tình gi ng d y, truy n đ t cho em nh ng ki n th c quý báu nh ng n m h c v a qua Sau cùng, em xin chân thành c m n gia đình, nh ng ng i thân b n bè giúp đ , đ ng viên em su t th i gian h c t p làm lu n v n M t l n n a, xin chân thành cám n t t c m i ng i! TpHCM, Tháng 7/2005 Sinh viên th c hi n Nguy n Quang Ph c M U Trong nh ng n m g n đây, khai thác d li u tr thành m t nh ng h ng nghiên c u l n nh t c a l nh v c khoa h c máy tính cơng ngh tri th c Khai thác d li u ng d ng thành công vào nhi u l nh v c th mơi tr ng m i, tài chính, th tr ng ch ng khoáng, y h c, thiên v n, ng, giáo d c, vi n thông sinh h c v.v Kh i l ng thông tin đ l nh v c ho t đ ng c a loài ng c x lý đ c s n sinh t t c i t ng lên đáng k , chúng đ c l u tr c s d li u t p trung hay phân tán Trong nh ng kho d li u n ch a m t kho tàng tri th c quý báu, mu n l y đ ph i có m t cơng c ph Khai thác d li u g m nhi u h áp d ng l nh v ph n l n đ c kho báu ng pháp khai thác d li u ng ti p c n Các k thu t đ c c k th a t l nh v c c s d li u, máy h c (machine learning), trí tu nhân t o (artificial intelligence), lý thuy t thông tin (information theory), xác su t th ng kê (probability & statistics), tính tốn hi u n ng cao (high performance computing), ph ng pháp tính tốn m m (soft computing methodologies) Các toán ch y u khai thác d li u khai thác chu i (text mining), khai thác web (web mining), khai thác chu i (sequence mining), khai thác lu t k t h p (association rules mining), lý thuy t t p thô (rough set theory), gom c m (clustering), phân l p (classification)… Trong phân l p m t n i dung quan tr ng c a khai thác d li u m t l nh v c nghiên c u có nhi u tri n v ng v i nhi u kh n ng ng d ng th c t Lu n v n đ t c xây d ng d a ý ng cho m t thu t toán gi m thi u s phân l p kh p (overfitting) s phân l p khái quát (overgeneralization) c a th y Ph m Nguy n Anh Huy (2005) Sau đó, áp d ng thu t tốn cho toán protein folding, m t toán khám phá c u trúc 3D c a protein C u trúc 3D c a protein đ c hình thành t c u t o chu i amino axit, cung c p nh ng manh m i quan tr ng v ch c n ng c a t ng protein Vì v y, tốn protein folding m t toán l n quan tr ng ngành sinh h c Ph n s đ c trình bày k h n n i dung lu n v n Lu n v n s bao g m ph n nh sau: Ch ng 1: Gi i thi u t ng quan v toán phân l p (classification) protein folding Ch b c đ ng s gi i thi u khái ni m v phân l p, gi i quy t m t toán phân l p trình bày v n đ kh p(overfitting) khái quát (overgeneralization) toán phân l p ng th i gi i thi u tốn protein folding Ch ng : Trình bày m t s thu t toán phân l p ph bi n hi n nh quy t đ nh (decision trees), m ng Bayesian, m ng neural thu t toán Support Vector Machine (SVM) Ch ng : Trình bày chi ti t thu t tốn phân l p k t h p gi a phân l p kh p v i phân l p khái quát c a th y Ph m Nguy n Anh Huy Ch k t qu đ ng : Áp d ng toán phân l p cho Protein folding đánh giá c, so sánh k t qu đ t đ c so v i thu t toán phân l p khác M CL C DANH SÁCH CÁC B NG i DANH SÁCH CÁC HÌNH .iii CH NG 1:T NG QUAN BÀI TOÁN PHÂN L PVÀ PROTEIN FOLDING 1.1 BÀI TOÁN PHÂN L P (CLASSIFICATION) 1.1.1 Gi i thi u 1.1.2 Các b c đ gi i quy t toán phân l p .3 1.2 OVERFITTING VÀ OVERGENERALIZATION TRONG BÀI TOÁN PHÂN L P 1.3 PROTEIN FOLDING CH NG 2: M T S THU T TOÁN PHÂN L P PH BI N 2.1 CÂY QUY T NH (DECISION TREES) .10 2.1.1 nh ngh a thu t toán t o quy t đ nh 10 2.1.2 đo Entropy 13 2.1.3 Rút trích lu t phân l p t quy t đ nh đo Entropy … 14 2.2 M NG BAYESIAN 17 2.2.1 Lý thuy t Bayes .17 2.2.2.Thu t toán phân l p Naive Bayes 18 2.2.3 M ng Bayesian 20 2.2.4.H c (hu n luy n) m ng Bayesian .22 2.3 M NG NEURAL 24 2.3.1 M ng lan truy n ti n đa t ng 24 2.3.2 Xây d ng c u trúc m ng 25 2.3.3 Lan truy n ng c……………… 26 2.4 SUPPORT VECTOR MACHINE (SVM) 31 2.4.1 Gi i thi u SVM 31 2.4.2 RBF Kernel .32 2.4.3 T i u tham s 33 CH NG 3: THU T TOÁN PHÂN L P I U CH NH S QUÁ KH P VÀ QUÁ KHÁI QUÁT 36 3.1 GI I THI U 37 3.2 M T S NH NGH A 38 3.2.1 Homogenous Clauses .38 3.2.2 M t đ c a m t Homogenous Clause .41 3.3 CHI TI T THU T TOÁN 41 3.3.1 Thu t tốn 42 3.3.2 Các thu t toán h tr 46 3.3.2.1 Thu t tốn tìm Positive Clauses 46 3.3.2.2 Thu t tốn tìm Homogenous Clauses 48 3.3.2.3 Thu t toán m r ng Homogenous Clause 50 3.3.2.4 Thu t toán gom Homogenous Clauses 53 CH NG 4: CÀI T THU T TOÁN VÀ ÁP D NG CHO BÀI TOÁN PROTEIN FOLDING 55 4.1 CÀI T THU T TOÁN 56 4.1.1 Ch ng trình Demo không gian hai chi u .56 4.1.2 Cài đ t thu t tốn khơng gian N chi u .64 4.1.2.1 Chu n b d li u 64 4.1.2.2 Giao di n ch c n ng c a ch 4.2 K T QU T ng trình 65 C 69 4.2.1 Ngu n d li u web site http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data .69 4.2.2 Ngu n d li u web site http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary .71 4.3 ÁP D NG PHÂN L P CHO BÀI TOÁN PROTEIN FOLDING 74 4.3.1 Bài toán Protein Folding 74 4.3.2 Mô t c s d li u 76 4.3.3 K t qu th c hi n 80 T NG K T .85 TÀI LI U THAM KH O .86 DANH SÁCH CÁC HÌNH Hình 1-1: B c - H c đ xây d ng mơ hình phân l p Hình 1-2: B c - Ki m tra đánh giá .5 Hình 1-3: C u trúc l p hoàn toàn xo n c (all- ) c a protein Hình 1-4: C u trúc l p hồn tồn hình s i (all- ) c a protein Hình 2-1: Minh h a quy t đ nh v i vi c phân l p t bào ung th 10 Hình 2-2: M t ví d c a m ng Bayesian 21 Hình 2-3: M ng lan truy n hai t ng 25 Hình 2-4: M t neural t ng n ho c t ng xu t 28 Hình 2-5: B phân l p q khít b phân l p t t h n 34 Hình 3-1: Minh h a đ nh ngh a Homogenous Clauses 39 Hình 3-2: Vùng A đ c thay th b ng hai Homogenous Clauses A1 A2 .40 Hình 3-3: M t t p m u h c hai chi u 43 Hình 3-4: Các Positive Clauses tìm đ c b Hình 3-5: Các Homogenous Clauses tìm đ Hình 3-6: Các Homogenous Clauses đ c 43 c cm b c 44 r ng Hình 3-7: M t ví d Positive Clauses v i hai ng b c 45 ng kho ng cách 48 Hình 3-8: Các Homogenous Clauses cho m i Positive Clauses 50 Hình 3-9: Các Homogenous Clauses sau đ c m r ng .53 ... K t qu phân l p protein c a thu t toán phân l p u ch nh tính kh p khái quát d li u 83 T NG QUAN CH NG 1: T NG QUAN BÀI TOÁN PHÂN L P VÀ PROTEIN FOLDING T NG QUAN 1.1 BÀI TOÁN PHÂN L... t qu phân l p protein vào l p all- 81 B ng 4-7: K t qu phân l p protein vào l p all- .81 B ng 4-8: K t qu phân l p protein vào l p / 82 B ng 4-9: K t qu phân l p protein vào l... 1:T NG QUAN BÀI TOÁN PHÂN L PVÀ PROTEIN FOLDING 1.1 BÀI TOÁN PHÂN L P (CLASSIFICATION) 1.1.1 Gi i thi u 1.1.2 Các b c đ gi i quy t toán phân l p .3 1.2 OVERFITTING VÀ OVERGENERALIZATION

Ngày đăng: 08/12/2013, 09:48

HÌNH ẢNH LIÊN QUAN

Hình 1-1: B c 1 - H c đ  xây d ng mô hình phân l p - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 1 1: B c 1 - H c đ xây d ng mô hình phân l p (Trang 17)
Hình 1-2: B c 2 - Ki m tra và  đ ánh giá - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 1 2: B c 2 - Ki m tra và đ ánh giá (Trang 18)
Hình 1-3 : C u trúc l p hoàn toàn xo n  c (all-  g ) c a protein - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 1 3 : C u trúc l p hoàn toàn xo n c (all- g ) c a protein (Trang 21)
Hình 1-4 : C u trúc l p hoàn toàn hình s i (all-  ) c a protein - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 1 4 : C u trúc l p hoàn toàn hình s i (all- ) c a protein (Trang 21)
Hình 2-1 : Minh h a cây quy t  đ nh v i vi c phân l p t  bào ung th - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 2 1 : Minh h a cây quy t đ nh v i vi c phân l p t bào ung th (Trang 23)
Hình 2-2: M t ví d  c a m ng Bayesian - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 2 2: M t ví d c a m ng Bayesian (Trang 34)
Hình 2-3 có hai t ng ch a các  đ n v   đ u ra vì v y g i nó là m ng hai t ng,  t ng t   m ng ch a hai t ng  n g i là m ng ba t ng, v.v…G i là m ng lan  truy n ti n vì trong m ng không có tr ng s  c a m t  đ n v  nào quay l i làm  đ u vào hay  đ u ra c a m - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 2 3 có hai t ng ch a các đ n v đ u ra vì v y g i nó là m ng hai t ng, t ng t m ng ch a hai t ng n g i là m ng ba t ng, v.v…G i là m ng lan truy n ti n vì trong m ng không có tr ng s c a m t đ n v nào quay l i làm đ u vào hay đ u ra c a m (Trang 38)
Hình 2-4 : M t neural trong t ng  n ho c t ng xu t - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 2 4 : M t neural trong t ng n ho c t ng xu t (Trang 41)
Hình 2-5 : B  phân l p quá khít và b  phân l p t t h n - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 2 5 : B phân l p quá khít và b phân l p t t h n (Trang 47)
Hình 3-1: Minh h a  đ nh ngh a Homogenous Clauses - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 3 1: Minh h a đ nh ngh a Homogenous Clauses (Trang 52)
Hình 3-2: Vùng A  đ c thay th  b ng hai Homogenous Clauses A1 và A2 - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 3 2: Vùng A đ c thay th b ng hai Homogenous Clauses A1 và A2 (Trang 53)
Hình 3-4 : Các Positive Clauses tìm  đ c   b c 1 - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 3 4 : Các Positive Clauses tìm đ c b c 1 (Trang 56)
Hình 3-3: M t t p m u h c hai chi u - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 3 3: M t t p m u h c hai chi u (Trang 56)
Hình 3-5: Các Homogenous Clauses tìm  đ c   b c 2 - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 3 5: Các Homogenous Clauses tìm đ c b c 2 (Trang 57)
Hình 3-6: Các Homogenous Clauses  đ c m   r ng   b c 3 - Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding
Hình 3 6: Các Homogenous Clauses đ c m r ng b c 3 (Trang 58)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w