Sau khi đã cĩ t p d li u đã đ c chu n hĩa và t ch c trên file nh đã trình bày trên, ta s s d ng t p d li u này cho ch ng trình, ch ng trình cĩ giao di n nh sau: Giá tr ng ng kho ng cách Giá tr c a h s Tên file ch a t p m u h c và t p m u th Ch n file ch a t p m u h c Ch n file ch a t p m u th chính xác ch ng trình d đốn cho t p m u th
Hình 4-6: Giao di n ch ng trình phân l p cho d li u N chi u B c 1: Training data
Click button Browse trên đ ch n file ch a t p m u h c, file này cĩ d ng *.TXT. Sau đĩ click button “Training” đ cho ch ng trình b t đ u h c trên t p m u h c, k t thúc quá trình h c ch ng trình tìm đ c các Homogenous Clauses đã đ c m r ng, m i Homogenous Clause đ c l u tr b ng m t tâm là m t m u h c và m t bán kính là m t s th c. Ch ng trình l u các Homogenous Clauses này vào m t file cĩ tên là Expanding.TXT, c u trúc file này nh sau:
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
+ C t th hai là tâm c a Homogenous Clause, nĩ là s th t c a m u h c đ c ch n làm tâm trong t p m u h c. + C t th ba là m t s th c ch kích th c c a bán kính c a Homogenous Clause, Ví d m t file Expand.TXT: 1 0 1.1706077890859463 2 1 4.532 3 2 1.1706077890859463 4 8 5.0 5 20 3.454 …
Sau khi ch ng trình h c xong, s xu t hi n dịng ch “Finished” nh hình minh h a sau đây:
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
Hình 4-7: Giao di n ch ng trình sau khi đã h c xong t p m u h c B c 2: Testing data
Sau khi ch ng trình đã h c xong trên t p m u h c, click button Browse đ ch n file ch a t p m u th , c u trúc c a file ch a t p m u th hồn tồn gi ng nh c u trúc c a file ch a t p m u h c, các m u th ph i cĩ cùng s thu c tính v i các m u đã đ c h c. Sau đĩ click button Testing đ
ki m tra và đánh giá đ chính xác c a ch ng trình. Xác đ nh đ chính xác b ng cách so sánh l p c a các m u th đã đ c ch ng trình d đốn v i l p chính xác c a các m u th . chính xác này đ c hi n th textbox Accuracy c a giao di n.
ng th i ch ng trình c ng l u m t file Result.TXT đ mơ t s so sánh l p đ c d đốn c a các m u th và l p chính xác c a chúng. C u trúc c a file này nh sau: dịng đ u tiên l u ng ng kho ng cách, giá tr h s và
đ chính xác, dịng th hai mơ t tiêu đ c a t ng c t, c t đ u tiên là s th t c a các m u th trong file ch a t p m u th , c t th hai là l p chính xác c a
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
các m u th thu c v và cu i cùng là c t th ba l u l p mà ch ng trình d
đốn cho các m u th . Xem hình minh h a và m t đo n đ u c a file Result.TXT sau đây:
Threshold 1.02 Coefficient 100 Accuracy 93.33% num trust predict
1 + + 2 + + 3 + + 4 + + 5 - - 6 + + …
Hình 4-8: Giao di n ch ng trình sau khi đã ki m tra và đánh giá xong t p m u th
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
4.2. K T QU T C
Nh ng ý t ng và chi ti t c a thu t tốn đi u ch nh s quá kh p và khái quát d li u, đã đ c trình bày trên, đ ki m tra đ chính xác c a thu t tốn ch ng trình đã ch y th m t s t p d li u cĩ uy tín và ghi nh n l i các k t qu đ t đ c. Các ngu n d li u đ c l y ch y u t 2 web site:
http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data và
http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/. Sau khi cho ch ng trình ch y v i các t p d li u trên hai ngu n này đã đ t đ c k t qu r t t t.
4.2.1 Ngu n d li u trên web site
http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data
Các t p d li u c a website này bao g m nh sau:
STT Tên t p d li u S m u S thu c tính S l p Train_1 3089 4 2 1 Test_1 4000 4 2 2 Train_2 391 20 3 Train_3 1243 21 2 3 Test_3 41 21 2
B ng 4-2: Mơ t các t p d li u trên website
http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data/
¬ T p d li u Train_1 và Test_1 cĩ đ c t Jan Conrad thu c i h c Uppsala, Th y i n. Trong hai t p d li u này các m u thu c m t trong hai l p 0.0 và 1.0, vì v y ph i chuy n l p 0.0 thành l p negative (-) và l p 1.0 thành l p positive (+), sau đĩ l u thành file Train_1.TXT và Test_1.TXT v i c u trúc nh đã trình bày trên. Cho ch ng trình h c trên t p d li u
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
Train_1 và th b ng t p d li u Test_1 thì k t qu đ t đ c là 95.63% v i ng ng kho ng cách b ng 3 và h s b ng 1000. C ng v i b d li u và ng ng kho ng cách nh ng t ng h s b ng 900000 thì đ chính xác là 95.97%.
¬ T p d li u Train_2 do Cory Spencer thu c i h c Simon Fraser, Canada cung c p, cĩ ba l p là “+1”, “+2” và “+3”. Chuy n l p “+1” thành l p positive và hai l p “+2”, “+3” thành l p negative, sau đĩ l u l i thành file Train_2.TXT v i c u trúc file nh đã trình bày trên. Dùng Train_2 làm d li u h c đ ng th i làm d li u th thì k t qu đ t đ c là 100% v i ng ng kho ng cách và h s tùy ý. Sau đĩ, đ i l i l p “+2” thành l p positive cịn l p “+1” và “+3” thành l p negative thì k t qu v n đ t 100%.
¬ T p d li u Train_3 và Test_3 ch cĩ hai l p là “-1” và “+1”, chuy n l p “+1” thành l p positive(+) và l p “-1” thành negative(-). T ng t nh trên, l u thành hai file theo đúng c u trúc qui đ nh ban đ u. Sau đĩ dùng t p Train_3 làm t p d li u h c cho ch ng trình và t p Test_3 làm t p d li u th thì k t qu đ t đ c là 100%, b t k ng ng kho ng cách và h s . B ng tĩm t t sau đây cho th y đ chính xác c a thu t tốn phân l p này.
T p d li u h c T p d li u th Ng ng kho ng cách H s chính xác Train_1 Test_1 3 900,000 95.97% Train_2 Train_2 tùy ý tùy ý 100%
Train_3 Test_3 tùy ý tùy ý 100%
B ng 4-3: K t qu phân l p các t p d li u trên website
http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data/
C ng trên các t p d li u này, Chih-Wei Hsu, Chih-Chung Chang, và Chih-Jen Lin (http://www.csie.ntu.edu.tw/~cjlin/papers/guide) s d ng thu t tốn phân l p Support Vector Machine thì k t qu đ t đ c nh sau:
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
T p d li u h c T p d li u th chính xác
Train_1 Test_1 96.9% Train_2 Train_2 85.2% Train_3 Test_3 87.8%
B ng 4-4: K t qu phân l p theo thu t tốn SVM c a Cjlin
So sánh k t qu c a ch ng trình phân l p theo thu t tốn đi u ch nh s quá kh p và quá khái quát d li u v i h th ng phân l p theo thu t tốn SVM c a Cjlin trên cùng m t s t p d li u, đ c mơ t nh sau:
75.0% 80.0% 85.0% 90.0% 95.0% 100.0% Train_1 và Test_1 Train_2 Train_3 và Test_3 chính xác c a thu t tốn SVM c a Cjlin chính xác c a thu t tốn đi u ch nh s quá kh p và quá khái quát d li u
Hình 4-9: Bi u đ so sánh k t qu
4.2.2. Ngu n d li u trên web site
http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary
Các t p d li u th hai đ c s d ng đ đánh giá thu t tốn đ c l y t website : http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/. M t s t p d li u đ c l y nh a1a, a2a, a3a, a4a, a5a, a6a, a7a, w1a, w2a, w3a, w4a, w5a và w6a. Các t p d li u này ch cĩ hai l p, sau chuy n đ i các t p d li u này đúng c u trúc nh đã trình bày trên, l n l t cho ch ng trình
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING h c m t t p d li u và l y các t p cịn l i làm d li u th thì k t qu đ t đ c nh sau: a1a T p d li u S thu c tính S m u chính xác H c a1a 119 1605 Th a2a 119 2265 91.39% a2a T p d li u S thu c tính S m u chính xác H c a2a 119 2265 Th a1a 119 1605 98,69% a3a T p d li u S thu c tính S m u chính xác H c a3a 122 3185 a4a 122 4781 90,17% a5a 122 6414 86,47% a6a 122 11220 82,17% Th a7a 122 16100 79,99% a6a T p d li u S thu c tính S m u chính xác H c a6a 122 11220 a3a 122 3185 96,14% a4a 122 4781 96,03% a5a 122 6414 95,95% Th a7a 122 16100 89,71%
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING a7a T p d li u S thu c tính S m u chính xác H c a7a 122 16100 a3a 122 3185 94,98% a4a 122 4781 94,92% a5a 122 6414 94,92% Th a6a 122 11220 96,95% w1a T p d li u S thu c tính S m u chính xác H c w1a 300 2477 w2a 300 3470 85,97% w3a 300 4912 85,40% w4a 300 7366 85,08% w5a 300 9888 84,64% Th w6a 300 17188 84,18% w2a T p d li u S thu c tính S m u chính xác H c w2a 300 3470 w1a 300 2477 85,99% w3a 300 4912 85,91% w4a 300 7366 85,43% w5a 300 9888 84,09% Th w6a 300 17188 84,38% w4a T p d li u S thu c tính S m u chính xác H c w4a 300 7366 w1a 300 2477 85,79% w2a 300 3470 86,57% w3a 300 4912 86,16% w5a 300 9888 85,41% Th w6a 300 17188 84,83%
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING w5a T p d li u S thu c tính S m u chính xác H c w5a 300 9888 w1a 300 2477 85,79% w2a 300 3470 86,57% w3a 300 4912 86,16% w4a 300 7366 86,14% Th w6a 300 17188 84,93%
B ng 4-5: K t qu c a quá trình h c và d đốn l p cho t p d li u trên website: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/ website: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/
4.3. ÁP D NG PHÂN L P CHO BÀI TỐN PROTEIN FOLDING
4.3.1. Bài tốn Protein Folding
Ngày nay, các nhà sinh v t h c đã xác đ nh đ c r ng c s v t ch t ch y u c a s s ng g m hai lo i h p ch t h u c là protein và axit nucleic. Protein là h p ph n c u t o ch y u c a ch t nguyên sinh và là thành ph n ch c n ng trong c u t o c a các enzim và hoocmon, đĩng vai trị xúc tác và
đi u hịa. Protein thu c lo i đ i phân t , cĩ kích th c và kh i l ng l n. Phân t protein l n nh t dài 0,1 micromet, kh i l ng phân t cĩ th t i 150 tri u đ n v cacbon. Protein là ch t cao phân t đ c c u t o theo nguyên t c
đa phân, mà đ n phân là axit amin. M i phân t protein g m trung bình 100 – 30000 phân t axit amin liên k t v i nhau. Các axit min liên k t v i nhau b ng liên k t peptit, t o nên chu i polypeptit. Cĩ h n hai m i lo i axit amin khác nhau, đ c đ t tên là A, C, G, T,… đã t o ra vơ s lo i protein khác nhau s l ng, thành ph n, tr t t s p x p các axit amin. Protein cĩ b n b c c u trúc c b n.
• C u trúc b c m t là th t s p x p các axit amin trong chu i polypeptit.
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
• C u trúc b c hai do chu i polypeptit b c m t xo n hình lị xo hay hình xo n c, gi a các vịng xo n cĩ các liên k t hydro làm cho c u trúc protein đ c b n v ng.
• C u trúc b c ba chu i polypeptit xo n hình lị xo u n vịng trong khơng gian, nh c u trúc b c ba mà protein th ng cĩ d ng hình c u, gi a các vịng u n c ng cĩ các liên k t hydro làm cho c u trúc protein đ c b n v ng h n.
• C u trúc b c b n g m nhi u c u trúc b c ba k t h p l i.
Hình 4-10: Các b c c u trúc khác nhau c a phân t protein a) C u trúc b c m t c) C u trúc b c ba b) C u trúc b c hai d) C u trúc b c b n
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
C u trúc c a protein đ c s d ng trong d đốn và phân l p cho protein, nên cịn đ c g i là phân l p c u trúc protein. Phân l p protein s h tr cho vi c xác đ nh ch c n ng c a protein d dàng và nhanh chĩng h n. Protein folding là bài tốn phân l p c u trúc khơng gian ba chi u c a protein. M t protein đ c x p vào m t trong b n l p c u trúc, ph thu c vào thành ph n c u trúc ph đĩ là : hồn tồn xo n c (g i là all- ), hồn tồn hình s i (g i là all- ), / , + . Trong nh ng n m g n đây cĩ r t nhi u s nghiên c u v bài tốn phân l p c u trúc protein, nh ng đ n nay nĩ v n là m t bài tốn m . Ngày nay bài tốn này đ c ti p c n b i nhi u h ng khác nhau và nĩ
đ c chia thành các nhi m v nh h n nh d đốn c u trúc b c hai, xác đ nh l p c u trúc, d đốn b m t ti p xúc…
Trong đ tài này, phân l p c u trúc protein d a vào s t ng h p các axit amin (Amino Acid Composition - ACC), ACC là m t vector 20 chi u t ng ng v i 20 lo i axit amin khác nhau, vector này ch rõ t l c a m i lo i axit amin trong s t ng h p c a 20 lo i axit amin khác nhau. S d ng h th ng phân l p đã đ c cài đ t theo thu t tốn đi u ch nh s quá kh p và quá khái quát d li u đ phân l p và d đốn cho m t s protein trong m t s t p d li u v protein. Qua đĩ đánh giá đ c thu t tốn đ ng th i cĩ th áp d ng cho vi c phân l p c u trúc protein trong th c t .
4.3.2. Mơ t c s d li u
đánh giá thu t tốn chính xác và khách quan, ph i ch ng trình đã s d ng m t s d li u ph bi n và uy tín. Vì v y, trong ph n này s s d ng c s d li u l y t website http://www.nersc.gov/~cding/protein. Trong c s d li u này g m 12 t p d li u v 6 l nh v c, m i l nh v cg m 2 t p d li u, 1 t p d li u h c và 1 t p d li u th . Sáu l nh v c đĩ là:
CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING
Amino Acids Composition (t ng h p axit amin): g m hai t p d li u, t p d li u h c cĩ 605 m u, t p d li u th cĩ 385 m u. M i m u là m t vector 22 chi u, trong đĩ 20 chi u đ u tiên t ng ng v i 20 lo i axit amin khác nhau, chi u th 21 là chi u dài c a protein và chi u cu i cùng là l p mà m u đĩ thu c v . Vì v y xem nh m i m u cĩ 21 thu c tính.
N m m c cịn l i là Predicted secondary structure (d đốn c u trúc b c hai), Polarity (kh n ng phân c c c a protein), Polarizability (tình tr ng phân c c c a protein), Hydrophobicity (tính ch ng th m n c), và Van der Waals volume. Trong đĩ m i m c cĩ m t t p d li u h c g m 605 m u và m t t p d li u th g m 385 m u. Khác v i m c Amino Acids Composition, m i m u trong n m m c này là m t vector 23 chi u. Trong 23 chi u này cĩ 20 chi u là 20 m i axit amin, m t chi u là thu c tính riêng c a t ng m c,