Tìm kiÁm motif trong các chußi gene là mát trong nhÿng bài toán quan tráng nhÃt của tin sinh hác và thuác lo¿i NP-khó.. Có nhiÃu thuÁt toán đ¤a ra đÅ giÁi quyÁt bài toán ℓ,d motif, các t
Trang 1Đ¾I HàC QUàC GIA HÀ NàI
TR£âNG Đ¾I HàC CÔNG NGHÆ
PH£¡NG PHÁP TàI £U ĐÀN KI¾N
LUÀN VN TH¾C S) NGÀNH CÔNG NGHà THÔNG TIN
Hà N ßi, năm 2016
Trang 2Đ¾I HàC QUàC GIA HÀ NàI
TR£âNG Đ¾I HàC CÔNG NGHÆ
PH£¡NG PHÁP TàI £U ĐÀN KI¾N
Chuyên ngành : H á tháng thông tin
Trang 3L âI C ÀM ¡N
Tr¤ãc tiên, tôi xin gửi låi cÁm ¢n chân thành và lòng biÁt ¢n sâu sÃc nhÃt
tãi thÅy giáo, PGS.TS Hoàng Xuân HuÃn, ng¤åi thÅy đáng kính đã tÁn tình chỉ
bÁo, h¤ãng d¿n, đáng viên và giúp đỡ tôi trong suát quá trình tìm hiÅu, nghiên
cÿu và hoàn thián luÁn vn ThÅy cũng đ¤a ra nhÿng góp ý chi tiÁt, tỉ mỉ hÁt sÿc quý báu giúp cho tôi có thÅ hoàn thành quyÅn luÁn vn này
Thÿ hai, tôi cũng xin đ¤ÿc gửi låi cÁm ¢n sâu sÃc tãi em D¤¢ng Thß Ánh TuyÁt, ng¤åi đã giúp đỡ tôi giÁi quyÁt nhÿng khúc mÃc trong quá trình viÁt ch¤¢ng trình đÅ ch¿y thāc nghiám
Thÿ ba, tôi xin gửi låi cÁm ¢n tãi các thÅy cô tr¤ång Đ¿i Hác Công Nghá
- Đ¿i Hác Quác Gia Hà Nái – nhÿng ng¤åi đã tÁn tình giúp đỡ, cổ vũ và góp ý cho tôi trong suát thåi gian tôi hác tÁp và nghiên cÿu t¿i tr¤ång
Thÿ t¤, tôi xin gửi låi cÁm ¢n tãi các b¿n hác viên cùng hác tÁp nghiên
cÿu t¿i tr¤ång Đ¿i hác Công nghá đã hß trÿ tôi rÃt nhiÃu trong quá trình hác tÁp cũng nh¤ thāc hián luÁn vn
Thÿ nm, tôi xin gửi låi cÁm ¢n tãi gia đình và b¿n bè, nhÿng ng¤åi thân yêu luôn bên c¿nh, quan tâm, đáng viên tôi giúp tôi v¤ÿt qua khó khn trong quá trình hác tÁp và thāc hián luÁn vn tát nghiáp này
Cuái cùng tôi cũng bày tß lòng biÁt ¢n và sā giúp đỡ của lãnh đ¿o tr¤ång, khoa Công nghá thông tin – Tr¤ång cao đẳng Tháng Kê c¢ quan n¢i tôi công tác đã t¿o điáu kián tát nhÃt cho tôi và thåi gian cũng nh¤ đáng viên tôi sãm hoàn thành bài luÁn vn
Hà N ội, tháng 10 năm 2016
Trang 4L âI CAM ĐOAN
Tôi xin cam đoan rằng đây là công trình nghiên cÿu của cá nhân tôi d¤ãi
sā h¤ãng d¿n giúp đỡ của PGS.TS Hoàng Xuân HuÃn Các kÁt quÁ đ¤ÿc viÁt chung vãi các tác giÁ khác đÃu đ¤ÿc sā đồng ý của tác giÁ tr¤ãc khi đ¤a vào
luÁn vn Trong toàn bá nái dung nghiên cÿu của luÁn vn, các vÃn đà đ¤ÿc trình bày đÃu là nhÿng tìm hiÅu và nghiên cÿu của chính cá nhân tôi hoặc là đ¤ÿc trích d¿n tā các nguồn tài liáu có ghi tham khÁo rõ ràng, hÿp pháp
Trong luÁn vn, tôi có tham khÁo đÁn mát sá tài liáu của mát sá tác giÁ đ¤ÿc liát kê t¿i māc tài liáu tham khÁo
Hà nái, tháng 10 nm 2016
Nguy Ån Thu Trang
Trang 5M ĀC LĀC
L äI CÀM ¡N 1
LäI CAM ĐOAN 2
DANH MĀC KÝ HIàU VÀ TĀ VIÀT TÂT 5
DANH M ĀC CÁC BÀNG 6
DANH SÁCH CÁC HÌNH V ¾ 7
M æ ĐÄU 8
Ch¤¢ng 1: TIN SINH HàC VÀ BÀI TOÁN TÌM KIÀM (l,d) MOTIF 10
1.1 Tin sinh h ác 10
1.1.1 Giãi thiáu và tin sinh hác 10
1.1.2 Khái ni ám trong sinh hác 10
1.1.2.1 DNA 10
1.1.2.2 RNA 11
1.1.2.3 Protein 12
1.1.2.4 Quá trình t ổng hÿp protein 13
1.1.2.5 M át sá bài toán trong tin sinh hác 13
1.1.3 Motif 14
1.1.3.1 Quá trình điÃu hòa gen 14
1.1.3.2 Ý ngh*a của Motif 15
1.1.3.3 BiÅu dißn Motif 16
1.2 Bài toán t ái ¤u tổ hÿp và bài toán tìm kiÁm (ℓ,d) motif 18
1.2.1 Bài toán t ái ¤u tổ hÿp 18
1.2.1.1 Gi ãi thiáu bài toán tái ¤u tổ hÿp 18
1.2.1.2 Giãi thiáu bài toán ng¤åi chào hàng 18
1.2.1.3 Các cách ti Áp cÁn giÁi quyÁt bài toán tái ¤u tổ hÿp 19
1.2.2 Phát bi Åu bài toán tìm kiÁm (ℓ,d) motif 22
CH£¡NG 2 GIâI THIàU V THUÀT TOÁN ANT COLONY OPTIMIZATION (ACO) 25
2.1 Gi ãi thiáu và thuÁt toán ACO 25
2.2 Mô hình mô phßng của thuÁt toán 25
2.2.1 Ki Án tā nhiên 25
Trang 62.2.2 Ki Án nhân t¿o (Artificial Ant) 28
2.3 Trình bày gi Ái thuÁt 29
2.3.1 Đồ thß cÃu trúc 29
2.3.2 Trình bày thu Át toán ACO c¢ bÁn 31
2.3.3 Thông tin Heuristic 33
2.3.4 Quy tÃc cÁp nhÁt vÁt mùi 33
2.3.4.1 Thu Át toán AS 33
2.3.4.2 Thu Át toán ACS 34
2.3.4.3 ThuÁt toán Max-Min 34
2.3.4.4 Thu Át toán Max- Min tr¢n 35
2.3.5 ACO k Át hÿp vãi tìm kiÁm đßa ph¤¢ng 35
2.3.6 S á l¤ÿng kiÁn 35
2.3.7 Tham s á bay h¢i 36
Ch¤¢ng 3: THUÀT TOÁN Đ XUÂT 37
3.1 Thu Át toán tái ¤u đàn kiÁn 37
3.2 Xây d āng đồ thß cÃu trúc 38
3.3 Thông tin heuristic 38
3.4 Xây d āng låi giÁi tuÅn tā 38
3.5 Quy t Ãc cÁp nhÁt mùi (pheromone update rule) 39
3.6 Tìm kiÁm đßa ph¤¢ng (local search) 40
Ch¤¢ng 4: KÀT QUÀ THĀC NGHIàM, SO SÁNH VÀ ĐÁNH GIÁ KÀT QUÀ 42
4.1 B á dÿ liáu chuẩn 42
4.2 Ti Án hành ch¿y thāc nghiám trên há điÃu hành ubuntu 42
4 3 KÁt quÁ ch¿y thāc nghiám và đánh giá 43
4.3.1 K Át quÁ thāc nghiám 43
4.3.2 So sánh và đánh giá 45
4.3.2.1 So sánh vãi MEME 45
4.3.2.2 K Át quÁ so sánh F-ACOMotif vãi Pairmotif+ và MEME trên tÁp dÿ liáu thāc 47
K ÀT LUÀN VÀ H£âNG PHÁT TRIÄN 49
TÀI LI àU THAM KHÀO 50
Trang 7DANH M ĀC KÝ HI ÆU VÀ T þ VI ¾T T ÂT
(Tái ¤u hóa đàn kiÁn)
(Bài toán ng¤åi chào hàng)
7 T£TH T ối ưu tổ hợp
Trang 8DANH M ĀC CÁC B ÀNG
B ảng 4 1: Các tham số chạy F-ACOMotif cho thực nghiệm 44
B ảng 4 2: Kết quả thực nghiệm trên cơ sở dữ liệu TRANSFAC 45
B ảng 4.3: Tham số chạy F-ACOMotif 46
B ảng 4.4: Kết quả so sánh F-ACOMotif với thuật toán MEME 46
B ảng 4.5: Kết quả so sánh F-ACOMotif với MEME và PairMotif+ 47
Bảng 4.6: So sánh độ chính xác của motif dự đoán 48
Trang 9DANH SÁCH CÁC HÌNH V Ẽ
Hình 1.1: DNA phân t ử của sự sống 10
Hình 1.2: Hình ảnh về RNA 11
Hình 1.3: C ấu trúc Protein 12
Hình 1.4: Quá trình t ổng hợp Protein [1] 13
Hình 1.5: Quá trình t ổng hợp Protein 14
Hình 1.6: Ví d ụ về Motif 15
Hình 1.7: Chu ỗi hợp nhất 16
Hình 1.8: Bi ểu diễn Motif 17
Hình 1.9: Bi ểu diễn Motif dạng sequence 17
Hình 1.10: Phương pháp heuristic cấu trúc 20
Hình 1.11: L ời giải nhận được thông qua tìm kiếm địa phương 21
Hình 1.12: Thu ật toán memetic sử dụng EC 22
Hình 1.13: Ví d ụ khoảng cách hamming 23
Hình 2.1: Th ể hiện hành vi của mỗi con kiến trong tự nhiên 26
Hình 2.2: Th ực nghiệm cây cầu đôi 27
Hình 2.3: Thí nghi ệm bổ xung 28
Hình 2.4: Đồ thị cấu trúc tổng quát cho bài toán cực trị hàm 31
Hình 2.5: Đặc tả thuật toán ACO 32
Hình 3.1: Đồ thị cấu trúc tìm motif độ dài l 38
Hình 3.2: Cách xây d ựng đường đi của kiến 39
Hình 4.1: Đồ thị so sánh độ chính xác của F-ACOMotif so với PairMotif+ và MEME 48
Trang 10M ä ĐÄU
Tin sinh hác có ÿng dāng cao trong cuác sáng, đặc biát trong l*nh vāc y – d¤ÿc Và c¢ bÁn, tin sinh hác tÁp trung vào nghiên cÿu và áp dāng các ph¤¢ng pháp cũng nh¤ các k* thuÁt trong tin hác đÅ giÁi quyÁt các bài toán trong sinh
hác phân tử Tìm kiÁm motif trong các chußi gene là mát trong nhÿng bài toán quan tráng nhÃt của tin sinh hác và thuác lo¿i NP-khó
Các thành phÅn điÃu hòa gene (gene regulatory elements) đ¤ÿc gái là các DNA motif (và sau gái là motif cho gán), chúng chÿa nhiÃu thông tin sinh hác quan tráng Vì vÁy viác nhÁn d¿ng DNA motif đang là mát trong nhÿng bài toán quan tráng nhÃt trong tin sinh hác và thuác lo¿i NP-khó Chủ yÁu, có 2 cách tiÁp cÁn đÅ tìm kiÁm motif: các ph¤¢ng pháp thāc nghiám và các ph¤¢ng pháp tính toán Vì chi phí cao và tán thåi gian nên các ph¤¢ng pháp thāc nghiám ít hiáu quÁ Ph¤¢ng pháp tính toán đang đ¤ÿc dùng ráng rãi cho dā đoán motif
Ng¤åi ta đ¤a ra nhiÃu phát biÅu cho bài toán tìm kiÁm motif, và có nhiÃu thuÁt toán nghiên cÿu và công bá giÁi quyÁt bài toán tìm kiÁm motif Trong luÁn vn này, tôi trình bày bài toán (ℓ,d) motif Có nhiÃu thuÁt toán đ¤a ra đÅ giÁi quyÁt bài toán (ℓ,d) motif, các thuÁt toán này có thÅ chia thành 2 lo¿i đó là thuÁt toán chính xác và thuÁt toán xÃp xỉ Các thuÁt toán chính xác luôn luôn tìm ra
nhÿng motif trong nhÿng chußi DNA đÅu vào nh¤ng chỉ hiáu quÁ vãi các dÿ
liáu có kích th¤ãc nhß và thāc hián mÃt nhiÃu thåi gian Các thuÁt toán xÃp xỉ có
thÅ không tìm ra đ¤ÿc tÃt cÁ các motif nh¤ng nó ch¿y hiáu quÁ vãi các dÿ liáu
lãn
LuÁn vn đà xuÃt giÁi quyÁt bài toán (ℓ,d) motif theo thuÁt toán xÃp xỉ,
bằng viác đà xuÃt thuÁt toán tái ¤u đàn kiÁn Ant colony optimization (ACO) đÅ
giÁi quyÁt bài toán (ℓ,d) motif Đây là thuÁt toán mãi và lÅn đÅu đ¤ÿc đ¤a vào
đÅ giÁi bài toán (ℓ,d) motif ThuÁt toán đ¤ÿc đặt tên là F-ACOMotif Và trong
thāc nghiám đã chỉ ra đ¤ÿc thuÁt toán F-ACOMotif tái ¤u h¢n các thuÁt toán PairMotif+ và MEME và đá chính xác khi tìm ra (ℓ,d) motif
Ngoài phÅn kÁt luÁn, cÃu trúc nái dung của luÁn vn bao gồm 4 ch¤¢ng nh¤ sau:
Ch¤¢ng 1: Trình bày s¢ l¤ÿc các khái niám và tin sinh hác, bài toán tái
¤u tổ hÿp và phát biÅu bài toán (ℓ,d) motif
Trang 11Ch¤¢ng 2: Giãi thiáu thuÁt toán Ant colony optimization (ACO) và mát vài thuÁt toán cÁp nhÁt mùi khác nhau trong ACO
Ch¤¢ng 3: Đà xuÃt thuÁt toán, đó là thuÁt toán Ant colony optimization (ACO) đÅ giÁi quyÁt bài toán (ℓ,d) motif
Ch¤¢ng 4: Фa ra kÁt quÁ thāc nghiám của luÁn vn, so sánh kÁt quÁ của thuÁt toán ACO vãi các thuÁt toán PairMotif+ và thuÁt toán MEME
Trang 12C H£¡NG 1: TIN SINH H àC VÀ BÀI TOÁN TÌM KI ¾M ( L , D ) MOTIF 1.1 Tin sinh h ác
1.1.1 Gi ái thiÇu vÁ tin sinh hác
Tin sinh hác (Bioinformatics) đ¤ÿc t¿o thành bçi cām tā <Bio= là t¤¢ng ÿng vãi <Molecular Biology= ngh*a là sinh hác phân tử còn <Informatics= thì t¤¢ng đ¤¢ng vãi <Computer science= chính là khoa hác máy tính Ngoài ra Computational biology, Computational molecular biology, Biocomputing cũng đồng ngh*a vãi <Bioinformatics= [1] VÁy Tin sinh hác là gì? Fredj Tekaia Thuác vián Pasteur đã đ¤a ra mát đßnh ngh*a và tin sinh hác nh¤ sau:
<Tin sinh hác là sử dāng toán hác, tháng kê và khoa hác máy tính đÅ giÁi quyÁt các vÃn đà và sinh hác vãi DNA, chußi axit amin và các thông tin có liên quan=
1.1.2 Khái ni Çm trong sinh hác
Mái c¢ thÅ sáng đÃu đ¤ÿc cÃu thành tā mát l¤ÿng rÃt lãn các tÁ bào Mßi
tÁ bào đÃu đ¤ÿc cÃu t¿o gồm h¿t nhân, ribôxom và nái bào H¿t nhân của tÁ bào
chÿa các nhißm sÃc thÅ đặc tr¤ng cho mßi tÁ bào đó Nhißm sÃc thÅ l¿i đ¤ÿc t¿o thành bçi các axit nucleic và protein Axit nucleic là nhÿng đ¿i phân tử có cÃu trúc đa phân, đ¢n phân của nó là các nucleotide Axit nucleic đ¤ÿc chia làm 2
lo¿i là DNA (deoxyribonucleic acid) và RNA Mát thành phÅn rÃt quan tráng khác của tÁ bào là protein, đ¤ÿc t¿o ra tā các axit amin, là các thành phÅn thiÁt
yÁu của mái c¢ quan và ho¿t đáng hóa hác liên quan đÁn toàn bá ho¿t đáng của
tÁ bào, chúng đ¤ÿc biÅu hián thành nhÿng đặc điÅm và cÃu t¿o và chÿc nng của
tÁ bào, hay chính là nhÿng tính tr¿ng của sinh vÁt Giÿa protein và DNA có quan
há chặt ch¿ vãi nhau, cā thÅ là mßi lo¿i protein đÃu đ¤ÿc xác đßnh bçi mát đo¿n trên dãy DNA gái là gen
1.1.2.1 DNA
Hình 1.1: DNA phân t ử của sā sáng
Trang 13Vào nm 1944, Oswald Avery phát hián ra DNA là mát lo¿i nguyên liáu thô chÿa gen BÃt nguồn tā phát hián này, mát vài nhóm nghiên cÿu đã tÁp trung nghiên cÿu và DNA và các thành phÅn hóa hác cÃu thành DNA là mát phân tử đ¤ÿc cÃu t¿o bçi đ¤ång, photphat và bán nitrogenous bases: adenine, cytosine, guanine và thiamine, đ¤ÿc lÅn l¤ÿt viÁt tÃt là A, C, G, và T Sau này, các nhà khoa hác quan niám rằng bán nitrogen bases này là các nucleotide là c¢ sç của
mã di truyÃn
Vào nm 1953, hai nhà sinh vÁt hác là J.Wáton và F.Crick làm viác t¿i tr¤ång đ¿i hác Cambridge đã xây dāng thành công mô hình không gian của phân tử DNA(deoxyribonucleic acid), đánh dÃu mát b¤ãc ngoặt quan tráng trong sā phát triÅn của sinh hác phân tử theo mô hình này DNA là mát đ¿i phân
tử sinh hác có cÃu trúc nh¤ mát chußi xoÃn kép gồm hai m¿ch đ¢n, mßi m¿ch đ¢n là mát chußi nucleotide Mßi nucleotide gồm nhóm phosphate, đ¤ång desoxyribose và mát trong bán thành phÅn lÅn l¤ÿt đ¤ÿc biÅu thß bçi các chÿ cái
A, C, G và T Hai m¿ch đ¢n kÁt hÿp vãi nhau nhå các liên kÁt hydro hình thành
giÿa các thành phÅn bổ sung nằm trên hai m¿ch A bổ sung cho T, C bổ sung cho G
1.1.2.2 RNA
Hình 1.2: Hình Ánh vÁ RNA
RNA (Ribonucleic Acid) là 1 lo¿i acid nucleic (nh¤ DNA), RNA cũng có
cÃu trúc đa phân mà đ¢n phân là 4 lo¿i nucleotide, tuy nhiên trong RNA nucleotide lo¿i T (pyrimidine thymine) đ¤ÿc thay thÁ bằng U (uracil) RNA tồn
t¿i ç d¿ng chußi đ¢n và đ¤ÿc phân chia làm 3 lo¿i chính dāa trên chÿc nng của
Trang 14chúng:
mRNA (RNA thông tin): là mát m¿ch sao chép nguyên tā mát m¿ch đ¢n
của DNA trong đó T đ¤ÿc thay bằng U và làm nhiám vā truyÃn đ¿t thông tin cÃu trúc protein đ¤ÿc tổng hÿp
rRNA (RNA riboxom): là thành phÅn cÃu t¿o nên riboxom
tRNA (RNA vÁn chuyÅn): có chÿc nng vÁn chuyÅn amino acid t¤¢ng ÿng đÁn n¢i tổng hÿp protein
snRNA: có chÿc nng hß trÿ viác ghép mã mRNA
gRNA: sử dāng đÅ điÃu khiÅn viác thay đổi mRNA
RNA có thÅ liên kÁt vãi mát dÁi đ¢n của mát phân tử DNA, bằng cách thay T bằng U, và các phân tử kiÅu này có vai trò quan tráng trong các quá trình
sá l¤ÿng axit amin lãn h¢n chußi đ¤ÿc gái là polypeptide) đ¤ÿc hình thành tā
20 lo¿i axit amin khác nhau lÅn l¤ÿt đ¤ÿc biÅu thß bằng 20 kí tā khác nhau trong
bÁng chÿ cái Tā < protein= dùng đÅ chỉ mát cÃu trúc phÿc t¿p trong không gian
chÿ không đ¢n thuÅn chỉ là mát trình tā axit amin Các nucleotide trong gene mã
Trang 15hóa cho protein Các protein cÅn thiÁt cho cÃu trúc, chÿc nng và điÃu chỉnh tÁ bào, mô và tổ chÿc, mßi protein có mát vai trò đặc biát
CÃu trúc protein bao gồm 4 mÿc đá tổ chÿc: CÃu trúc bÁc 1 là trình tā sÃp
xÁp các axit amin trong chußi polypeptid, cÃu trúc bÁc 2 phát sinh tā sā uán các thành phÅn của chußi polypeptid thành nhÿng cÃu trúc đÃu đặn trong không gian ( d¿ng xoÃn (alpha helix) hay lãp mßng (Beta sheets)) CÃu trúc bÁc 3 quy đßnh sā kÁt hÿp các chußi xoÃn hay lãp mßng đó thành hình d¿ng ba chiÃu trong không gian CÃu trúc bÁc 4 là sā tổ chÿc nhiÃu chußi polypeptid thành mát phân
tử protein
1.1.2.4 Quá trình t ổng hÿp protein
Tổng hÿp protein là quá trình t¿o ra protein dāa trên thông tin đ¤ÿc mã hóa trong gen ( là các đo¿n mã đặc biát của DNA có chÿc nng điÃu khiÅn cÃu trúc và ho¿t đáng của tÁ bào, là đ¢n vß chÿc nng của sā di truyÃn) gồm ba giai đo¿n chính : (1) Transcription (phiên mã) (2) Splipcing (ghép mã) (3) Translation (dßch mã) [1] có thÅ đ¤ÿc mô tÁ nh¤ hình d¤ãi:
Hình 1.4: Quá trình t ổng hÿp Protein [1]
1.1.2.5 Mßt sá bài toán trong tin sinh hác
Viác hß trÿ của công nghá thông tin trong nghiên cÿu cÃu trúc các thành
phÅn, quá trình ho¿t đáng, đặc tính và vai trò của tāng lo¿i thành phÅn cùng liên
kÁt giÿa chúng d¿n đÁn phÁi giÁi quyÁt nhiÃu bài toán hác máy phÿc t¿p, th¤ång
là các bài toán tái ¤u tổ hÿp NP-khó và có tính bÃt đßnh
Mát sá bài toán hián đang đ¤ÿc quan tâm nghiên cÿu là: So sánh tích hÿp
bá gene (comparative genome assembly), xây dāng cây phân loài (phylogenetic tree reconstruction), tìm kiÁm motif (motif finding), suy dißn haplotype, dā báo
ho¿t đáng điÃu tiÁt gene, xây dāng ma trÁn biÁn đổi axít amin, phân tích chÿc nng protein dāa trên cÃu trúc bÁc cao,&
Trang 16LuÁn vn s¿ tÁp trung nghiên cÿu <Bài toán tìm kiÁm motif sử dāng ph¤¢ng pháp tái ¤u đàn kiÁn=
1.1.3 Motif
1.1.3.1 Quá trình điÁu hòa gen
Các vß trí điÃu hòa trên DNA t¤¢ng ÿng vãi mát chußi hÿp nhÃt tā các
vùng quy đßnh của mßi gen Chúng ta gái đó nhÿng motif hoặc DNA signals Vß trí quy đßnh trên mßi DNA t¤¢ng ÿng vãi mát motif đ¤ÿc gái là instances của motif đó Xác đßnh đ¤ÿc các motif và các instance t¤¢ng ÿng của nó có ý ngh*
rÃt quan tráng, tā đó các nhà nghiên cÿu sinh hác có thÅ phát hián ra các t¤¢ng tác giÿa DNA và protein, điÃu hòa gen cũng nh¤ sā phát triÅn và t¤¢ng tác trong
Motif là nhÿng đo¿n trình tā đ¿i dián cho vùng điÃu hòa của gen
Motif có kích th¤ãc nhß, cá đßnh, lặp l¿i rÃt nhiÃu lÅn và th¤ång xuyên
Trang 17Hình 1.6: Ví d ā vÁ Motif
Khó khn trong viác tìm kiÁm motif [15]:
Các Motif không bao giå chính xác nh¤ chußi đ¤ÿc bÁo tồn Luôn có
nhÿng sā thay đổi ç mát vài base
Kích th¤ãc của Motif quá ngÃn so vãi kích th¤ãc của chußi DNA đang đ¤ÿc xem xét
Vùng điÃu hòa bao gồm Motif có thÅ ç trß trí rÃt xa so vãi vùng mã hóa
của gen khiÁn cho viác tìm kiÁm trç nên khó khn h¢n rÃt nhiÃu
Vùng điÃu hòa có thÅ nằm trên mÁnh DNA đái dián vãi vùng mã hóa trong quá trình phiên mã
1.1.3.2 Ý nghĩa của Motif
Ngoài nhÿng vùng mã hóa quan tráng, trong há gen còn có nhÿng vùng
chÿa các tín hiáu nh¤ tín hiáu khçi đÅu phiên mã, tín hiáu cÃt đÅ xác đßnh cùng intron exon &
PhÅn tử điÃu hòa (Regulatory element) đ¤ÿc chia làm 2 lo¿i: promoter và enhancer Promoter là vùng gÅn vãi exon đÅu tiên và là vß trí gÃn (binding site) cho enzim điÃu khiÅn quá trình phiên mã (Transcription factor) Enhancer, trái
l¿i, th¤ång xuÃt hián ç vß trí khá xa so vãi vùng mã hóa CÁ 2 vùng này đÃu có ý ngh*a trong viác kiÅm soát sā biÅu hián của gen
Trang 181.1.3.3 Bi Ãu diÅn Motif
1.1.3.3.1 Chu ỗi hÿp nhÃt và ma trÁn đặc tr¤ng (Consensus sequence)
Chußi hÿp nhÃt th¤ång đ¤ÿc dùng đÅ đ¿i dián cho vß trí gÃn của emzim điÃu khiÅn quá trình phiên mã (Transcription factor binding) Là chußi gÅn nh¤
khãp hoàn toàn vãi trình tā gÃn nh¤ng không chính xác hoàn toàn
Ma trÁn tÅn suÃt: thÅ hián tÅn suÃt xuÃt hián của tāng base
Ma trÁn tráng sá: tráng sá mßi bß trí base đ¤ÿc tính theo công thÿc sau :
∑
Trang 19
Hình 1.8: Bi Ãu diÅn Motif 1.1.3.3.3 Bi Ãu t¤ÿng
BiÅu t¤ÿng là cách dùng hình Ánh biÅu dißn cho Motif
Hình 1.9: Bi Ãu diÅn Motif d¿ng sequence
Trang 201.2 Bài toán t ái ¤u tổ hÿp và bài toán tìm ki¿m (ℓ,d) motif
1.2.1 Bài toán t ái ¤u tổ hÿp
1.2.1.1 Gi ái thiÇu bài toán tái ¤u tổ hÿp
Mßi bài toán tái ¤u tổ hÿp ÿng vãi bá ba , trong đó là tÁp hÿu
h¿n các tr¿ng thái (låi giÁi tiÃm nng hay ph¤¢ng án), là hàm māc tiêu xác đßnh trên và là tÁp các ràng buác Mßi ph¤¢ng án thßa mãn các ràng
buác gái là ph¤¢ng án chÃp nhÁn đ¤ÿc Māc tiêu của chúng là tìm ra ph¤¢ng
án tái ¤u hóa toàn cāc đái vãi hàm māc tiêu , nói cách khác chính là tìm ph¤¢ng án sao cho vãi mái Đái vãi bài toán này ta có 3 cách giÁi quyÁt đó là: vét c¿n, kỹ thuÁt n tham hoặc ph¤¢ng pháp tái ¤u trong l*nh vāc NP-khó
Các thuác tính của tÁp và nh¤ sau:
1) Ký hiáu là tÁp các vect¢ trên có đá dài không quá Khi đó, mßi ph¤¢ng án trong đ¤ÿc xác đßnh nhå ít nhÃt mát vect¢ trong
2) Tồn t¿i tÁp con của và ánh x¿ tā lên sao cho không
rßng vãi mái , trong đó tÁp có thÅ xây dāng đ¤ÿc tā tÁp con nào
đó của nhå thủ tāc mç ráng tuÅn tā d¤ãi đây
3) Tā ta mç ráng tuÅn tā thành nh¤ sau:
i) Ta xem là mç ráng đ¤ÿc vãi mái
ii) GiÁ sử là mç ráng đ¤ÿc và ch¤a thuác .Tā tÁp ràng
buác , xác đßnh tÁp con của , sao cho vãi mái
thì là mç ráng đ¤ÿc
iii) Áp dāng thủ tāc mç ráng tā các phÅn tử cho phép ta xây dāng đ¤ÿc mái phÅn tử của
1.2.1.2 Giái thiÇu bài toán ng¤ãi chào hàng
Bài toán ng¤åi chào hàng (Traveling Salesman Problem - TSP) là bài toán
T£TH điÅn hình, đ¤ÿc nghiên cÿu và xem nh¤ là bài toán chuẩn đÅ đánh giá vÃ
hiáu quÁ låi giÁi các bài toán T£TH
Bài toán đ¤ÿc phát biÅu nh¤ sau:
ột tập gồm thành phố (hoặc điểm tiêu thụ) độ
Trang 21dài đường đi trực tiếp từ c i đến c j là d i,j Một người chào hàng muốn tìm một hành trình ng ắn nhất từ nơi ở, đi qua mỗi thành phố đúng một lần để giới thiệu
s ản phẩm cho khách hàng, sau đó trở về thành phố xuất phát
Có thÅ thÃy đây chính là bài toán tìm chu trình Hamilton vãi đồ thß đÅy đủ
có tráng sá , vãi là tÁp các đỉnh vãi nhãn là các thành phá trong ,
là tÁp các c¿nh nái các thành phá t¤¢ng ÿng, đá dài mßi c¿nh chính là đá dài đ¤ång đi giÿa hai thành phá t¤¢ng ÿng Trong tr¤ång hÿp này, tÁp s¿ là tÁp các chu trình Hamilton trên , là đá dài của chu trình, là ràng buác đòi hßi chu trình là chu trình Hamilton (qua tÃt cÁ các đỉnh, mßi đỉnh đúng mát lÅn),
là tÁp thành phá đ¤ÿc xét, trùng vãi , tÁp là vect¢ đá dài : vãi còn là các vect¢ trong đó khác đái vãi
mái cặp
Do đó, låi giÁi tái ¤u của bài toán TSP là mát hoán vß của tÁp đỉnh sao cho hàm đá dài là nhß nhÃt, trong đó đ¤ÿc tính theo (1):
∑ (1.1)
1.2.1.3 Các cách ti ¿p cÁn giÁi quy¿t bài toán tái ¤u tổ hÿp
Nh¤ phÅn trên ta đã thÃy các bài toán T£TH có thÅ đ¤a và bài toán tìm
kiÁm trên đồ thß Vãi nhÿng bài toán cỡ nhß hoặc nhÿng bài toán đặc biát thì ta hoàn toàn có thÅ tìm låi giÁi tái ¤u nhå tìm kiÁm vét c¿n cũng nh¤ xây dāng
nhÿng låi giÁi đặc thù riêng Tuy nhiên hÅu hÁt các bài toán trong sá đó là bài toán NP-khó, nên vãi các bài toán cỡ lãn ng¤åi ta phÁi tìm låi giÁi gÅn đúng Các thuÁt toán gÅn đúng đái vãi các bài toán T£TH khó th¤ång dāa trên 2 kỹ thuÁt c¢ bÁn: heuristic cÃu trúc (construction heuristic) và tìm kiÁm đßa ph¤¢ng (local search)
1.2.1.3.1 Heuristic c Ãu trúc
Khi không thÅ tìm låi giÁi tái ¤u của bài toán vãi thåi gian đa thÿc, chúng
ta h¤ãng đÁn viác tìm låi giÁi gÅn đúng Kỹ thuÁt hay dùng trong viác tìm låi
giÁi gÅn đúng là heuristic cÃu trúc, låi giÁi của bài toán đ¤ÿc xây dāng thông qua viác mç ráng tuÅn tā Tā thành phá khçi t¿o trong tÁp , tāng b¤ãc mç
ráng không quay lui, thêm vào các thành phÅn mãi theo ph¤¢ng thÿc ng¿u nhiên hay tÃt đßnh dāa trên nhÿng quy tÃc heuristic Các quy tÃc heuristic này khác nhau tùy vào thuÁt toán cā thÅ đ¤ÿc xây dāng dāa trên toán hác kÁt hÿp vãi kinh
Trang 22nghiám Chúng ta có thÅ khái quát hóa đÅ mô phßng d¤ãi d¿ng thuÁt toán nh¤ sau:
Procedure Heuristic cÃu trúc;
Vãi ph¤¢ng pháp trên ta có thÅ áp dāng cho bài toán TSP vãi đồ thß đÅy
đủ và sử dāng quy tÃc heuristic láng giÃng gÅn nhÃt đÅ chán đỉnh thêm vào (đỉnh láng giÃng nhß nhÃt ch¤a đi qua đÅ thêm vào) ThuÁt toán kiÅu này có ¤u điÅm
là thåi gian tính toán nhanh nh¤ng l¿i không có khÁ nng cÁi tiÁn låi giÁi qua
mßi b¤ãc lặp
1.2.1.3.2 Tìm ki ¿m đßa ph¤¢ng
Kỹ thuÁt tìm kiÁm cāc bá hay còn gái là tìm kiÁm đßa ph¤¢ng, thāc hián
bằng cách bÃt đÅu tā mát ph¤¢ng án chÃp nhÁn đ¤ÿc, lặp l¿i b¤ãc cÁi tiÁn låi
giÁi nhå các thay đổi cāc bá ĐÅ thāc hián kỹ thuÁt này, ta cÅn xác đßnh đ¤ÿc
cấu trúc lân cận của mßi ph¤¢ng án (låi giÁi) đang xét, tÿc là nhÿng ph¤¢ng án
chÃp nhÁn đ¤ÿc, gÅn vãi nó nhÃt, nhå thay đổi mát sá thành phÅn Cách th¤ång dùng là lân cÁn -thay đổi, tÿc là lân cận bao gồm các ph¤¢ng án chÃp nhÁn
Trang 23Ví dā Lân cÁn 2-thay đổi của mát låi giÁi trong bài toán TSP bao gồm
tÃt cÁ các låi giÁi có thÅ nhÁn đ¤ÿc tā bằng cách đổi hai c¿nh Hình 1.11 chỉ
ra mát ví dā mát låi giÁi nhÁn đ¤ÿc bằng cách thay hai c¿nh (1,3), (2,6) bằng hai
c¿nh (2,3), (1,6)
Viác cÁi tiÁn trong các b¤ãc lặp th¤ång chán theo ph¤¢ng pháp leo đồi
dāa theo hai chiÁn l¤ÿc: ChiÁn l¤ÿc tốt nhất và chiÁn l¤ÿc tốt hơn Vãi chiÁn l¤ÿc tốt nhất, ng¤åi ta thāc hián chán låi giÁi tát nhÃt trong lân cÁn đÅ làm låi
giÁi cÁi tiÁn Tuy nhiên, khi bài toán cỡ lãn có thÅ không tìm đ¤ÿc låi giÁi tát
nhÃt do bß h¿n chÁ và thåi gian Còn vãi chiÁn l¤ÿc tốt hơn, ta chán ph¤¢ng án
đÅu tiên trong lân cÁn, cÁi thián đ¤ÿc hàm māc tiêu Nh¤ÿc điÅm của tìm kiÁm đßa ph¤¢ng là th¤ång chỉ cho cāc trß đßa ph¤¢ng
Hình 1.11: L ãi giÁi nhÁn đ¤ÿc thông qua tìm ki¿m đßa ph¤¢ng
Các kỹ thuÁt trên th¤ång đ¤ÿc kÁt hÿp, t¿o thành các há lai trong các ph¤¢ng pháp mô phßng tā nhiên dāa trên quÅn thÅ, chẳng h¿n nh¤ thuÁt toán di truyÃn (GA) hoặc tái ¤u đàn kiÁn (ACO)
1.2.1.3.3 Ph¤¢ng pháp metaheuristic
Ph¤¢ng pháp metaheuristic là mát ph¤¢ng pháp heuristic tổng quát đ¤ÿc thiÁt kÁ, đßnh h¤ãng cho các thuÁt toán cā thÅ (bao gồm cÁ heuristic cÃu trúc và tìm kiÁm đßa ph¤¢ng) Nh¤ vÁy, mát metaheuristic là mát l¤ÿc đồ thuÁt toán
tổng quát ÿng dāng cho các bài toán tái ¤u khác nhau, vãi mát chút sửa đổi cho phù hÿp vãi tāng bài toán
Trang 241.2.1.3.4 Ph¤¢ng pháp Memetic
Memetic là mát mô hình theo ph¤¢ng pháp metaheuristic Trong các thuÁt toán đ¤ÿc thiÁt kÁ theo memetic, ng¤åi ta t¿o ra nhiÃu thÁ há quÅn thÅ låi giÁi
chÃp nhÁn đ¤ÿc Trong mßi quÅn thÅ của thÁ há t¤¢ng ÿng, ta chỉ chán ra mát sá
låi giÁi (chẳng h¿n låi giÁi tát nhÃt) đÅ thāc hián tìm kiÁm đßa ph¤¢ng nhằm cÁi thián chÃt l¤ÿng Quá trình tiÁn hóa này cho ta tìm đ¤ÿc låi giÁi tát nhÃt có thÅ Hình 1.12 mô tÁ mát thuÁt toán memetic sử dāng tính toán tiÁn hóa
(Evolutionary Computing - EC):
Proedure ThuÁt toán memetic-EC;
Begin
Initialize: T¿o ra quÅn thÅ đÅu tiên;
while điÃu kián dāng ch¤a thßa mãn do
Đánh giá các cá thÅ trong quÅn thÅ;
Thāc hián tiÁn hóa quÅn thÅ nhå các toán tử cho tr¤ãc;
Chán tÁp con đÅ cÁi tiÁn nhå thủ tāc tìm kiÁm đßa ph¤¢ng;
for mßi cá thÅ trong do
Thāc hián tìm kiÁm đßa ph¤¢ng;
Hình 1.12: Thu Át toán memetic sử dāng EC
Trong ÿng dāng thāc tÁ, các thuÁt toán ACO th¤ång đ¤ÿc kÁt hÿp vãi tìm
kiÁm đßa ph¤¢ng theo mô hình memetic này
1.2.2 Phát bi Ãu bài toán tìm ki¿m (ℓ,d) motif
Tr¤ãc khi đ¤a ra bài toán, luÁn vn đ¤a ra đßnh ngh*a sau:
Đßnh ngh*a: (Hamming distance)
Trang 25Cho x và y t¤¢ng ÿng là hai xâu đá dài ℓ và n, khoÁng cách Hamming d H (x,y)
đ¤ÿc xác đßnh nh¤ sau:
a) d H (x,y) = sá vß trí khác nhau của x và y nÁu ℓ =n
b) d H (x,y) = min{dH( x,m )/ m là xâu con đá dài ℓ của y} nÁu ℓ < n
Hình 1.13: Ví dā khoÁng cách hamming
Xác đßnh đ¤ÿc các motif và các instance t¤¢ng ÿng của nó có ý ngh*a rÃt quan tráng, tā đó các nhà nghiên cÿu sinh hác có thÅ phát hián ra các t¤¢ng tác giÿa DNA và protein, điÃu hòa gen cũng nh¤ sā phát triÅn và t¤¢ng tác trong mát tÁ bào Các bài toán tìm kiÁm motif đã thu hút đ¤ÿc nhiÃu nhà nghiên cÿu
Có nhiÃu phát biÅu cho bài toán tìm kiÁm motif ĐiÅn hình có thÅ kÅ đÁn 3 bài toán tìm kiÁm motif nh¤ sau [14]: Simple Motif Search, (ℓ,d) Motif Search (Planted Motif Search) và Edited Motif Search
Trong luÁn vn này, chúng tôi s¿ tÁp trung nghiên cÿu bài toán (ℓ,d) Motif Search (LDMS) hay chính là bài toán Planted Motif Search (PMS) tā nay s¿ gái
là bài toán PMS
Bài toán PMS đ¤ÿc phát biÅu nh¤ sau:
Cho m ột tập hợp N chuỗi S ={S 1 , S 2 , ,S N }, trong đó mỗi phần tử được lấy
ra t ừ tập ∑={A, C, G, T} và hai số nguyên không âm ℓ và d, thỏa mãn 0 ≤d<ℓ<n
Bài toán (ℓ,d)-motif là tìm chuỗi m độ dài ℓ từ ∑ và một tập chuỗi con M={m 1 , m 2 , , m N } trong đó, m i tương ứng là chuỗi con của S i có cùng độ dài ℓ sao cho d
Trang 26GiÁ sử cho 2 tham sá đÅu vào ℓ = 3; và d = 1 Sau khi S đ¤ÿc kiÅm tra
bằng mát thuÁt toán tìm kiÁm (ℓ,d) – motif, ta có thÅ tìm đ¤ÿc motif m là: GAT
và GTG
Hián nay có hai ph¤¢ng pháp đÅ tìm kiÁm motif:
Bằng thāc nghiám trong sinh hác: Tán thåi gian, chi phí cao, mÃt nhiÃu công sÿc, đá chính xác cao
Bằng tính toán trong tin hác: Hoàn toàn có thÅ thāc hián đ¤ÿc trong thåi gian và chi phí thÃp nh¤ng chỉ đ¤a ra đ¤ÿc các chußi có khÁ nng là motif
Vãi h¤ãng tiÁp cÁn bằng tính toán, có hai ph¤¢ng pháp tìm kiÁm là chính xác
và gÅn đúng Các thuÁt toán chính xác luôn luôn tìm ra nhÿng motif trong nhÿng chußi DNA đÅu vào nh¤ng chỉ hiáu quÁ vãi các dÿ liáu có kích th¤ãc nhß và
thāc hián mÃt nhiÃu thåi gian Mát sá thuÁt toán chính xác phổ biÁn hián nay: PMS6, PMS5, Pampa, PMSPrune, Voting, RISSOTO, MITRA, PairMotif Các thuÁt toán xÃp xỉ có thÅ không tìm ra đ¤ÿc tÃt cÁ các motif nh¤ng nó ch¿y hiáu
quÁ vãi các dÿ liáu lãn, tiêu biÅu có: MEME, Gibbs sampler, Genetic Algorithm (GA), PairMotif+