Giao din và các ch cn ng cach ng trình

Một phần của tài liệu Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding (Trang 78)

Sau khi đã cĩ t p d li u đã đ c chu n hĩa và t ch c trên file nh đã trình bày trên, ta s s d ng t p d li u này cho ch ng trình, ch ng trình cĩ giao di n nh sau: Giá tr ng ng kho ng cách Giá tr c a h s Tên file ch a t p m u h c và t p m u th Ch n file ch a t p m u h c Ch n file ch a t p m u th chính xác ch ng trình d đốn cho t p m u th

Hình 4-6: Giao di n ch ng trình phân l p cho d li u N chi u B c 1: Training data

Click button Browse trên đ ch n file ch a t p m u h c, file này cĩ d ng *.TXT. Sau đĩ click button “Training” đ cho ch ng trình b t đ u h c trên t p m u h c, k t thúc quá trình h c ch ng trình tìm đ c các Homogenous Clauses đã đ c m r ng, m i Homogenous Clause đ c l u tr b ng m t tâm là m t m u h c và m t bán kính là m t s th c. Ch ng trình l u các Homogenous Clauses này vào m t file cĩ tên là Expanding.TXT, c u trúc file này nh sau:

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING

+ C t th hai là tâm c a Homogenous Clause, nĩ là s th t c a m u h c đ c ch n làm tâm trong t p m u h c. + C t th ba là m t s th c ch kích th c c a bán kính c a Homogenous Clause, Ví d m t file Expand.TXT: 1 0 1.1706077890859463 2 1 4.532 3 2 1.1706077890859463 4 8 5.0 5 20 3.454 …

Sau khi ch ng trình h c xong, s xu t hi n dịng ch “Finished” nh hình minh h a sau đây:

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING

Hình 4-7: Giao di n ch ng trình sau khi đã h c xong t p m u h c B c 2: Testing data

Sau khi ch ng trình đã h c xong trên t p m u h c, click button Browse đ ch n file ch a t p m u th , c u trúc c a file ch a t p m u th hồn tồn gi ng nh c u trúc c a file ch a t p m u h c, các m u th ph i cĩ cùng s thu c tính v i các m u đã đ c h c. Sau đĩ click button Testing đ

ki m tra và đánh giá đ chính xác c a ch ng trình. Xác đ nh đ chính xác b ng cách so sánh l p c a các m u th đã đ c ch ng trình d đốn v i l p chính xác c a các m u th . chính xác này đ c hi n th textbox Accuracy c a giao di n.

ng th i ch ng trình c ng l u m t file Result.TXT đ mơ t s so sánh l p đ c d đốn c a các m u th và l p chính xác c a chúng. C u trúc c a file này nh sau: dịng đ u tiên l u ng ng kho ng cách, giá tr h s và

đ chính xác, dịng th hai mơ t tiêu đ c a t ng c t, c t đ u tiên là s th t c a các m u th trong file ch a t p m u th , c t th hai là l p chính xác c a

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING

các m u th thu c v và cu i cùng là c t th ba l u l p mà ch ng trình d

đốn cho các m u th . Xem hình minh h a và m t đo n đ u c a file Result.TXT sau đây:

Threshold 1.02 Coefficient 100 Accuracy 93.33% num trust predict

1 + + 2 + + 3 + + 4 + + 5 - - 6 + + …

Hình 4-8: Giao di n ch ng trình sau khi đã ki m tra và đánh giá xong t p m u th

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING

4.2. K T QU T C

Nh ng ý t ng và chi ti t c a thu t tốn đi u ch nh s quá kh p và khái quát d li u, đã đ c trình bày trên, đ ki m tra đ chính xác c a thu t tốn ch ng trình đã ch y th m t s t p d li u cĩ uy tín và ghi nh n l i các k t qu đ t đ c. Các ngu n d li u đ c l y ch y u t 2 web site:

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data và

http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/. Sau khi cho ch ng trình ch y v i các t p d li u trên hai ngu n này đã đ t đ c k t qu r t t t.

4.2.1 Ngu n d li u trên web site

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data

Các t p d li u c a website này bao g m nh sau:

STT Tên t p d li u S m u S thu c tính S l p Train_1 3089 4 2 1 Test_1 4000 4 2 2 Train_2 391 20 3 Train_3 1243 21 2 3 Test_3 41 21 2

B ng 4-2: Mơ t các t p d li u trên website

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data/

¬ T p d li u Train_1 và Test_1 cĩ đ c t Jan Conrad thu c i h c Uppsala, Th y i n. Trong hai t p d li u này các m u thu c m t trong hai l p 0.0 và 1.0, vì v y ph i chuy n l p 0.0 thành l p negative (-) và l p 1.0 thành l p positive (+), sau đĩ l u thành file Train_1.TXT và Test_1.TXT v i c u trúc nh đã trình bày trên. Cho ch ng trình h c trên t p d li u

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING (adsbygoogle = window.adsbygoogle || []).push({});

Train_1 và th b ng t p d li u Test_1 thì k t qu đ t đ c là 95.63% v i ng ng kho ng cách b ng 3 và h s b ng 1000. C ng v i b d li u và ng ng kho ng cách nh ng t ng h s b ng 900000 thì đ chính xác là 95.97%.

¬ T p d li u Train_2 do Cory Spencer thu c i h c Simon Fraser, Canada cung c p, cĩ ba l p là “+1”, “+2” và “+3”. Chuy n l p “+1” thành l p positive và hai l p “+2”, “+3” thành l p negative, sau đĩ l u l i thành file Train_2.TXT v i c u trúc file nh đã trình bày trên. Dùng Train_2 làm d li u h c đ ng th i làm d li u th thì k t qu đ t đ c là 100% v i ng ng kho ng cách và h s tùy ý. Sau đĩ, đ i l i l p “+2” thành l p positive cịn l p “+1” và “+3” thành l p negative thì k t qu v n đ t 100%.

¬ T p d li u Train_3 và Test_3 ch cĩ hai l p là “-1” và “+1”, chuy n l p “+1” thành l p positive(+) và l p “-1” thành negative(-). T ng t nh trên, l u thành hai file theo đúng c u trúc qui đ nh ban đ u. Sau đĩ dùng t p Train_3 làm t p d li u h c cho ch ng trình và t p Test_3 làm t p d li u th thì k t qu đ t đ c là 100%, b t k ng ng kho ng cách và h s . B ng tĩm t t sau đây cho th y đ chính xác c a thu t tốn phân l p này.

T p d li u h c T p d li u th Ng ng kho ng cách H s chính xác Train_1 Test_1 3 900,000 95.97% Train_2 Train_2 tùy ý tùy ý 100%

Train_3 Test_3 tùy ý tùy ý 100%

B ng 4-3: K t qu phân l p các t p d li u trên website

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data/

C ng trên các t p d li u này, Chih-Wei Hsu, Chih-Chung Chang, và Chih-Jen Lin (http://www.csie.ntu.edu.tw/~cjlin/papers/guide) s d ng thu t tốn phân l p Support Vector Machine thì k t qu đ t đ c nh sau:

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING

T p d li u h c T p d li u th chính xác

Train_1 Test_1 96.9% Train_2 Train_2 85.2% Train_3 Test_3 87.8%

B ng 4-4: K t qu phân l p theo thu t tốn SVM c a Cjlin

So sánh k t qu c a ch ng trình phân l p theo thu t tốn đi u ch nh s quá kh p và quá khái quát d li u v i h th ng phân l p theo thu t tốn SVM c a Cjlin trên cùng m t s t p d li u, đ c mơ t nh sau:

75.0% 80.0% 85.0% 90.0% 95.0% 100.0% Train_1 và Test_1 Train_2 Train_3 và Test_3 chính xác c a thu t tốn SVM c a Cjlin chính xác c a thu t tốn đi u ch nh s quá kh p và quá khái quát d li u

Hình 4-9: Bi u đ so sánh k t qu

4.2.2. Ngu n d li u trên web site

http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary

Các t p d li u th hai đ c s d ng đ đánh giá thu t tốn đ c l y t website : http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/. M t s t p d li u đ c l y nh a1a, a2a, a3a, a4a, a5a, a6a, a7a, w1a, w2a, w3a, w4a, w5a và w6a. Các t p d li u này ch cĩ hai l p, sau chuy n đ i các t p d li u này đúng c u trúc nh đã trình bày trên, l n l t cho ch ng trình

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING h c m t t p d li u và l y các t p cịn l i làm d li u th thì k t qu đ t đ c nh sau: a1a T p d li u S thu c tính S m u chính xác H c a1a 119 1605 Th a2a 119 2265 91.39% a2a T p d li u S thu c tính S m u chính xác H c a2a 119 2265 Th a1a 119 1605 98,69% a3a T p d li u S thu c tính S m u chính xác H c a3a 122 3185 a4a 122 4781 90,17% a5a 122 6414 86,47% a6a 122 11220 82,17% Th a7a 122 16100 79,99% a6a T p d li u S thu c tính S m u chính xác H c a6a 122 11220 a3a 122 3185 96,14% a4a 122 4781 96,03% a5a 122 6414 95,95% Th a7a 122 16100 89,71%

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING a7a T p d li u S thu c tính S m u chính xác H c a7a 122 16100 a3a 122 3185 94,98% a4a 122 4781 94,92% a5a 122 6414 94,92% Th a6a 122 11220 96,95% w1a T p d li u S thu c tính S m u chính xác H c w1a 300 2477 w2a 300 3470 85,97% w3a 300 4912 85,40% w4a 300 7366 85,08% w5a 300 9888 84,64% Th w6a 300 17188 84,18% w2a T p d li u S thu c tính S m u chính xác H c w2a 300 3470 w1a 300 2477 85,99% w3a 300 4912 85,91% w4a 300 7366 85,43% w5a 300 9888 84,09% Th w6a 300 17188 84,38% w4a T p d li u S thu c tính S m u chính xác H c w4a 300 7366 w1a 300 2477 85,79% w2a 300 3470 86,57% w3a 300 4912 86,16% w5a 300 9888 85,41% Th w6a 300 17188 84,83%

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING w5a T p d li u S thu c tính S m u chính xác H c w5a 300 9888 w1a 300 2477 85,79% w2a 300 3470 86,57% w3a 300 4912 86,16% w4a 300 7366 86,14% Th w6a 300 17188 84,93%

B ng 4-5: K t qu c a quá trình h c và d đốn l p cho t p d li u trên website: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/ website: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/

4.3. ÁP D NG PHÂN L P CHO BÀI TỐN PROTEIN FOLDING

4.3.1. Bài tốn Protein Folding

Ngày nay, các nhà sinh v t h c đã xác đ nh đ c r ng c s v t ch t ch y u c a s s ng g m hai lo i h p ch t h u c là protein và axit nucleic. Protein là h p ph n c u t o ch y u c a ch t nguyên sinh và là thành ph n ch c n ng trong c u t o c a các enzim và hoocmon, đĩng vai trị xúc tác và

đi u hịa. Protein thu c lo i đ i phân t , cĩ kích th c và kh i l ng l n. Phân t protein l n nh t dài 0,1 micromet, kh i l ng phân t cĩ th t i 150 tri u đ n v cacbon. Protein là ch t cao phân t đ c c u t o theo nguyên t c

đa phân, mà đ n phân là axit amin. M i phân t protein g m trung bình 100 – 30000 phân t axit amin liên k t v i nhau. Các axit min liên k t v i nhau b ng liên k t peptit, t o nên chu i polypeptit. Cĩ h n hai m i lo i axit amin khác nhau, đ c đ t tên là A, C, G, T,… đã t o ra vơ s lo i protein khác nhau s l ng, thành ph n, tr t t s p x p các axit amin. Protein cĩ b n b c c u trúc c b n.

• C u trúc b c m t là th t s p x p các axit amin trong chu i polypeptit.

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING

• C u trúc b c hai do chu i polypeptit b c m t xo n hình lị xo hay hình xo n c, gi a các vịng xo n cĩ các liên k t hydro làm cho c u trúc protein đ c b n v ng. (adsbygoogle = window.adsbygoogle || []).push({});

• C u trúc b c ba chu i polypeptit xo n hình lị xo u n vịng trong khơng gian, nh c u trúc b c ba mà protein th ng cĩ d ng hình c u, gi a các vịng u n c ng cĩ các liên k t hydro làm cho c u trúc protein đ c b n v ng h n.

• C u trúc b c b n g m nhi u c u trúc b c ba k t h p l i.

Hình 4-10: Các b c c u trúc khác nhau c a phân t protein a) C u trúc b c m t c) C u trúc b c ba b) C u trúc b c hai d) C u trúc b c b n

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING

C u trúc c a protein đ c s d ng trong d đốn và phân l p cho protein, nên cịn đ c g i là phân l p c u trúc protein. Phân l p protein s h tr cho vi c xác đ nh ch c n ng c a protein d dàng và nhanh chĩng h n. Protein folding là bài tốn phân l p c u trúc khơng gian ba chi u c a protein. M t protein đ c x p vào m t trong b n l p c u trúc, ph thu c vào thành ph n c u trúc ph đĩ là : hồn tồn xo n c (g i là all- ), hồn tồn hình s i (g i là all- ), / , + . Trong nh ng n m g n đây cĩ r t nhi u s nghiên c u v bài tốn phân l p c u trúc protein, nh ng đ n nay nĩ v n là m t bài tốn m . Ngày nay bài tốn này đ c ti p c n b i nhi u h ng khác nhau và nĩ

đ c chia thành các nhi m v nh h n nh d đốn c u trúc b c hai, xác đ nh l p c u trúc, d đốn b m t ti p xúc…

Trong đ tài này, phân l p c u trúc protein d a vào s t ng h p các axit amin (Amino Acid Composition - ACC), ACC là m t vector 20 chi u t ng ng v i 20 lo i axit amin khác nhau, vector này ch rõ t l c a m i lo i axit amin trong s t ng h p c a 20 lo i axit amin khác nhau. S d ng h th ng phân l p đã đ c cài đ t theo thu t tốn đi u ch nh s quá kh p và quá khái quát d li u đ phân l p và d đốn cho m t s protein trong m t s t p d li u v protein. Qua đĩ đánh giá đ c thu t tốn đ ng th i cĩ th áp d ng cho vi c phân l p c u trúc protein trong th c t .

4.3.2. Mơ t c s d li u

đánh giá thu t tốn chính xác và khách quan, ph i ch ng trình đã s d ng m t s d li u ph bi n và uy tín. Vì v y, trong ph n này s s d ng c s d li u l y t website http://www.nersc.gov/~cding/protein. Trong c s d li u này g m 12 t p d li u v 6 l nh v c, m i l nh v cg m 2 t p d li u, 1 t p d li u h c và 1 t p d li u th . Sáu l nh v c đĩ là:

CÀI T THU T TỐN VÀ ÁP D NG CHO BÀI TỐN PROTEIN FOLDING

Amino Acids Composition (t ng h p axit amin): g m hai t p d li u, t p d li u h c cĩ 605 m u, t p d li u th cĩ 385 m u. M i m u là m t vector 22 chi u, trong đĩ 20 chi u đ u tiên t ng ng v i 20 lo i axit amin khác nhau, chi u th 21 là chi u dài c a protein và chi u cu i cùng là l p mà m u đĩ thu c v . Vì v y xem nh m i m u cĩ 21 thu c tính.

N m m c cịn l i là Predicted secondary structure (d đốn c u trúc b c hai), Polarity (kh n ng phân c c c a protein), Polarizability (tình tr ng phân c c c a protein), Hydrophobicity (tính ch ng th m n c), và Van der Waals volume. Trong đĩ m i m c cĩ m t t p d li u h c g m 605 m u và m t t p d li u th g m 385 m u. Khác v i m c Amino Acids Composition, m i m u trong n m m c này là m t vector 23 chi u. Trong 23 chi u này cĩ 20 chi u là 20 m i axit amin, m t chi u là thu c tính riêng c a t ng m c,

Một phần của tài liệu Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding (Trang 78)