1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận Văn Thạc Sĩ) Bài Toán Tìm Kiếm Motif Và Phương Pháp Tối Ưu Đàn Kiến

53 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Toán Tìm Kiếm Motif Và Phương Pháp Tối Ưu Đàn Kiến
Tác giả Nguyễn Thu Trang
Người hướng dẫn PGS. TS Hoàng Xuân Huấn
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2016
Thành phố Hà Nội
Định dạng
Số trang 53
Dung lượng 0,94 MB

Nội dung

Tìm kiÁm motif trong các chußi gene là mát trong nhÿng bài toán quan tráng nhÃt của tin sinh hác và thuác lo¿i NP-khó.. Có nhiÃu thuÁt toán đ¤a ra đÅ giÁi quyÁt bài toán ℓ,d motif, các t

Trang 1

Đ¾I HàC QUàC GIA HÀ NàI

TR£âNG Đ¾I HàC CÔNG NGHÆ

PH£¡NG PHÁP TàI £U ĐÀN KI¾N

LUÀN VN TH¾C S) NGÀNH CÔNG NGHà THÔNG TIN

Hà N ßi, năm 2016

Trang 2

Đ¾I HàC QUàC GIA HÀ NàI

TR£âNG Đ¾I HàC CÔNG NGHÆ

PH£¡NG PHÁP TàI £U ĐÀN KI¾N

Chuyên ngành : H á tháng thông tin

Trang 3

L âI C ÀM ¡N

Tr¤ãc tiên, tôi xin gửi låi cÁm ¢n chân thành và lòng biÁt ¢n sâu sÃc nhÃt

tãi thÅy giáo, PGS.TS Hoàng Xuân HuÃn, ng¤åi thÅy đáng kính đã tÁn tình chỉ

bÁo, h¤ãng d¿n, đáng viên và giúp đỡ tôi trong suát quá trình tìm hiÅu, nghiên

cÿu và hoàn thián luÁn vn ThÅy cũng đ¤a ra nhÿng góp ý chi tiÁt, tỉ mỉ hÁt sÿc quý báu giúp cho tôi có thÅ hoàn thành quyÅn luÁn vn này

Thÿ hai, tôi cũng xin đ¤ÿc gửi låi cÁm ¢n sâu sÃc tãi em D¤¢ng Thß Ánh TuyÁt, ng¤åi đã giúp đỡ tôi giÁi quyÁt nhÿng khúc mÃc trong quá trình viÁt ch¤¢ng trình đÅ ch¿y thāc nghiám

Thÿ ba, tôi xin gửi låi cÁm ¢n tãi các thÅy cô tr¤ång Đ¿i Hác Công Nghá

- Đ¿i Hác Quác Gia Hà Nái – nhÿng ng¤åi đã tÁn tình giúp đỡ, cổ vũ và góp ý cho tôi trong suát thåi gian tôi hác tÁp và nghiên cÿu t¿i tr¤ång

Thÿ t¤, tôi xin gửi låi cÁm ¢n tãi các b¿n hác viên cùng hác tÁp nghiên

cÿu t¿i tr¤ång Đ¿i hác Công nghá đã hß trÿ tôi rÃt nhiÃu trong quá trình hác tÁp cũng nh¤ thāc hián luÁn vn

Thÿ nm, tôi xin gửi låi cÁm ¢n tãi gia đình và b¿n bè, nhÿng ng¤åi thân yêu luôn bên c¿nh, quan tâm, đáng viên tôi giúp tôi v¤ÿt qua khó khn trong quá trình hác tÁp và thāc hián luÁn vn tát nghiáp này

Cuái cùng tôi cũng bày tß lòng biÁt ¢n và sā giúp đỡ của lãnh đ¿o tr¤ång, khoa Công nghá thông tin – Tr¤ång cao đẳng Tháng Kê c¢ quan n¢i tôi công tác đã t¿o điáu kián tát nhÃt cho tôi và thåi gian cũng nh¤ đáng viên tôi sãm hoàn thành bài luÁn vn

Hà N ội, tháng 10 năm 2016

Trang 4

L âI CAM ĐOAN

Tôi xin cam đoan rằng đây là công trình nghiên cÿu của cá nhân tôi d¤ãi

sā h¤ãng d¿n giúp đỡ của PGS.TS Hoàng Xuân HuÃn Các kÁt quÁ đ¤ÿc viÁt chung vãi các tác giÁ khác đÃu đ¤ÿc sā đồng ý của tác giÁ tr¤ãc khi đ¤a vào

luÁn vn Trong toàn bá nái dung nghiên cÿu của luÁn vn, các vÃn đà đ¤ÿc trình bày đÃu là nhÿng tìm hiÅu và nghiên cÿu của chính cá nhân tôi hoặc là đ¤ÿc trích d¿n tā các nguồn tài liáu có ghi tham khÁo rõ ràng, hÿp pháp

Trong luÁn vn, tôi có tham khÁo đÁn mát sá tài liáu của mát sá tác giÁ đ¤ÿc liát kê t¿i māc tài liáu tham khÁo

Hà nái, tháng 10 nm 2016

Nguy Ån Thu Trang

Trang 5

M ĀC LĀC

L äI CÀM ¡N 1

LäI CAM ĐOAN 2

DANH MĀC KÝ HIàU VÀ TĀ VIÀT TÂT 5

DANH M ĀC CÁC BÀNG 6

DANH SÁCH CÁC HÌNH V ¾ 7

M æ ĐÄU 8

Ch¤¢ng 1: TIN SINH HàC VÀ BÀI TOÁN TÌM KIÀM (l,d) MOTIF 10

1.1 Tin sinh h ác 10

1.1.1 Giãi thiáu và tin sinh hác 10

1.1.2 Khái ni ám trong sinh hác 10

1.1.2.1 DNA 10

1.1.2.2 RNA 11

1.1.2.3 Protein 12

1.1.2.4 Quá trình t ổng hÿp protein 13

1.1.2.5 M át sá bài toán trong tin sinh hác 13

1.1.3 Motif 14

1.1.3.1 Quá trình điÃu hòa gen 14

1.1.3.2 Ý ngh*a của Motif 15

1.1.3.3 BiÅu dißn Motif 16

1.2 Bài toán t ái ¤u tổ hÿp và bài toán tìm kiÁm (ℓ,d) motif 18

1.2.1 Bài toán t ái ¤u tổ hÿp 18

1.2.1.1 Gi ãi thiáu bài toán tái ¤u tổ hÿp 18

1.2.1.2 Giãi thiáu bài toán ng¤åi chào hàng 18

1.2.1.3 Các cách ti Áp cÁn giÁi quyÁt bài toán tái ¤u tổ hÿp 19

1.2.2 Phát bi Åu bài toán tìm kiÁm (ℓ,d) motif 22

CH£¡NG 2 GIâI THIàU V THUÀT TOÁN ANT COLONY OPTIMIZATION (ACO) 25

2.1 Gi ãi thiáu và thuÁt toán ACO 25

2.2 Mô hình mô phßng của thuÁt toán 25

2.2.1 Ki Án tā nhiên 25

Trang 6

2.2.2 Ki Án nhân t¿o (Artificial Ant) 28

2.3 Trình bày gi Ái thuÁt 29

2.3.1 Đồ thß cÃu trúc 29

2.3.2 Trình bày thu Át toán ACO c¢ bÁn 31

2.3.3 Thông tin Heuristic 33

2.3.4 Quy tÃc cÁp nhÁt vÁt mùi 33

2.3.4.1 Thu Át toán AS 33

2.3.4.2 Thu Át toán ACS 34

2.3.4.3 ThuÁt toán Max-Min 34

2.3.4.4 Thu Át toán Max- Min tr¢n 35

2.3.5 ACO k Át hÿp vãi tìm kiÁm đßa ph¤¢ng 35

2.3.6 S á l¤ÿng kiÁn 35

2.3.7 Tham s á bay h¢i 36

Ch¤¢ng 3: THUÀT TOÁN Đ XUÂT 37

3.1 Thu Át toán tái ¤u đàn kiÁn 37

3.2 Xây d āng đồ thß cÃu trúc 38

3.3 Thông tin heuristic 38

3.4 Xây d āng låi giÁi tuÅn tā 38

3.5 Quy t Ãc cÁp nhÁt mùi (pheromone update rule) 39

3.6 Tìm kiÁm đßa ph¤¢ng (local search) 40

Ch¤¢ng 4: KÀT QUÀ THĀC NGHIàM, SO SÁNH VÀ ĐÁNH GIÁ KÀT QUÀ 42

4.1 B á dÿ liáu chuẩn 42

4.2 Ti Án hành ch¿y thāc nghiám trên há điÃu hành ubuntu 42

4 3 KÁt quÁ ch¿y thāc nghiám và đánh giá 43

4.3.1 K Át quÁ thāc nghiám 43

4.3.2 So sánh và đánh giá 45

4.3.2.1 So sánh vãi MEME 45

4.3.2.2 K Át quÁ so sánh F-ACOMotif vãi Pairmotif+ và MEME trên tÁp dÿ liáu thāc 47

K ÀT LUÀN VÀ H£âNG PHÁT TRIÄN 49

TÀI LI àU THAM KHÀO 50

Trang 7

DANH M ĀC KÝ HI ÆU VÀ T þ VI ¾T T ÂT

(Tái ¤u hóa đàn kiÁn)

(Bài toán ng¤åi chào hàng)

7 T£TH T ối ưu tổ hợp

Trang 8

DANH M ĀC CÁC B ÀNG

B ảng 4 1: Các tham số chạy F-ACOMotif cho thực nghiệm 44

B ảng 4 2: Kết quả thực nghiệm trên cơ sở dữ liệu TRANSFAC 45

B ảng 4.3: Tham số chạy F-ACOMotif 46

B ảng 4.4: Kết quả so sánh F-ACOMotif với thuật toán MEME 46

B ảng 4.5: Kết quả so sánh F-ACOMotif với MEME và PairMotif+ 47

Bảng 4.6: So sánh độ chính xác của motif dự đoán 48

Trang 9

DANH SÁCH CÁC HÌNH V Ẽ

Hình 1.1: DNA phân t ử của sự sống 10

Hình 1.2: Hình ảnh về RNA 11

Hình 1.3: C ấu trúc Protein 12

Hình 1.4: Quá trình t ổng hợp Protein [1] 13

Hình 1.5: Quá trình t ổng hợp Protein 14

Hình 1.6: Ví d ụ về Motif 15

Hình 1.7: Chu ỗi hợp nhất 16

Hình 1.8: Bi ểu diễn Motif 17

Hình 1.9: Bi ểu diễn Motif dạng sequence 17

Hình 1.10: Phương pháp heuristic cấu trúc 20

Hình 1.11: L ời giải nhận được thông qua tìm kiếm địa phương 21

Hình 1.12: Thu ật toán memetic sử dụng EC 22

Hình 1.13: Ví d ụ khoảng cách hamming 23

Hình 2.1: Th ể hiện hành vi của mỗi con kiến trong tự nhiên 26

Hình 2.2: Th ực nghiệm cây cầu đôi 27

Hình 2.3: Thí nghi ệm bổ xung 28

Hình 2.4: Đồ thị cấu trúc tổng quát cho bài toán cực trị hàm 31

Hình 2.5: Đặc tả thuật toán ACO 32

Hình 3.1: Đồ thị cấu trúc tìm motif độ dài l 38

Hình 3.2: Cách xây d ựng đường đi của kiến 39

Hình 4.1: Đồ thị so sánh độ chính xác của F-ACOMotif so với PairMotif+ và MEME 48

Trang 10

M ä ĐÄU

Tin sinh hác có ÿng dāng cao trong cuác sáng, đặc biát trong l*nh vāc y – d¤ÿc Và c¢ bÁn, tin sinh hác tÁp trung vào nghiên cÿu và áp dāng các ph¤¢ng pháp cũng nh¤ các k* thuÁt trong tin hác đÅ giÁi quyÁt các bài toán trong sinh

hác phân tử Tìm kiÁm motif trong các chußi gene là mát trong nhÿng bài toán quan tráng nhÃt của tin sinh hác và thuác lo¿i NP-khó

Các thành phÅn điÃu hòa gene (gene regulatory elements) đ¤ÿc gái là các DNA motif (và sau gái là motif cho gán), chúng chÿa nhiÃu thông tin sinh hác quan tráng Vì vÁy viác nhÁn d¿ng DNA motif đang là mát trong nhÿng bài toán quan tráng nhÃt trong tin sinh hác và thuác lo¿i NP-khó Chủ yÁu, có 2 cách tiÁp cÁn đÅ tìm kiÁm motif: các ph¤¢ng pháp thāc nghiám và các ph¤¢ng pháp tính toán Vì chi phí cao và tán thåi gian nên các ph¤¢ng pháp thāc nghiám ít hiáu quÁ Ph¤¢ng pháp tính toán đang đ¤ÿc dùng ráng rãi cho dā đoán motif

Ng¤åi ta đ¤a ra nhiÃu phát biÅu cho bài toán tìm kiÁm motif, và có nhiÃu thuÁt toán nghiên cÿu và công bá giÁi quyÁt bài toán tìm kiÁm motif Trong luÁn vn này, tôi trình bày bài toán (ℓ,d) motif Có nhiÃu thuÁt toán đ¤a ra đÅ giÁi quyÁt bài toán (ℓ,d) motif, các thuÁt toán này có thÅ chia thành 2 lo¿i đó là thuÁt toán chính xác và thuÁt toán xÃp xỉ Các thuÁt toán chính xác luôn luôn tìm ra

nhÿng motif trong nhÿng chußi DNA đÅu vào nh¤ng chỉ hiáu quÁ vãi các dÿ

liáu có kích th¤ãc nhß và thāc hián mÃt nhiÃu thåi gian Các thuÁt toán xÃp xỉ có

thÅ không tìm ra đ¤ÿc tÃt cÁ các motif nh¤ng nó ch¿y hiáu quÁ vãi các dÿ liáu

lãn

LuÁn vn đà xuÃt giÁi quyÁt bài toán (ℓ,d) motif theo thuÁt toán xÃp xỉ,

bằng viác đà xuÃt thuÁt toán tái ¤u đàn kiÁn Ant colony optimization (ACO) đÅ

giÁi quyÁt bài toán (ℓ,d) motif Đây là thuÁt toán mãi và lÅn đÅu đ¤ÿc đ¤a vào

đÅ giÁi bài toán (ℓ,d) motif ThuÁt toán đ¤ÿc đặt tên là F-ACOMotif Và trong

thāc nghiám đã chỉ ra đ¤ÿc thuÁt toán F-ACOMotif tái ¤u h¢n các thuÁt toán PairMotif+ và MEME và đá chính xác khi tìm ra (ℓ,d) motif

Ngoài phÅn kÁt luÁn, cÃu trúc nái dung của luÁn vn bao gồm 4 ch¤¢ng nh¤ sau:

Ch¤¢ng 1: Trình bày s¢ l¤ÿc các khái niám và tin sinh hác, bài toán tái

¤u tổ hÿp và phát biÅu bài toán (ℓ,d) motif

Trang 11

Ch¤¢ng 2: Giãi thiáu thuÁt toán Ant colony optimization (ACO) và mát vài thuÁt toán cÁp nhÁt mùi khác nhau trong ACO

Ch¤¢ng 3: Đà xuÃt thuÁt toán, đó là thuÁt toán Ant colony optimization (ACO) đÅ giÁi quyÁt bài toán (ℓ,d) motif

Ch¤¢ng 4: Фa ra kÁt quÁ thāc nghiám của luÁn vn, so sánh kÁt quÁ của thuÁt toán ACO vãi các thuÁt toán PairMotif+ và thuÁt toán MEME

Trang 12

C H£¡NG 1: TIN SINH H àC VÀ BÀI TOÁN TÌM KI ¾M ( L , D ) MOTIF 1.1 Tin sinh h ác

1.1.1 Gi ái thiÇu vÁ tin sinh hác

Tin sinh hác (Bioinformatics) đ¤ÿc t¿o thành bçi cām tā <Bio= là t¤¢ng ÿng vãi <Molecular Biology= ngh*a là sinh hác phân tử còn <Informatics= thì t¤¢ng đ¤¢ng vãi <Computer science= chính là khoa hác máy tính Ngoài ra Computational biology, Computational molecular biology, Biocomputing cũng đồng ngh*a vãi <Bioinformatics= [1] VÁy Tin sinh hác là gì? Fredj Tekaia Thuác vián Pasteur đã đ¤a ra mát đßnh ngh*a và tin sinh hác nh¤ sau:

<Tin sinh hác là sử dāng toán hác, tháng kê và khoa hác máy tính đÅ giÁi quyÁt các vÃn đà và sinh hác vãi DNA, chußi axit amin và các thông tin có liên quan=

1.1.2 Khái ni Çm trong sinh hác

Mái c¢ thÅ sáng đÃu đ¤ÿc cÃu thành tā mát l¤ÿng rÃt lãn các tÁ bào Mßi

tÁ bào đÃu đ¤ÿc cÃu t¿o gồm h¿t nhân, ribôxom và nái bào H¿t nhân của tÁ bào

chÿa các nhißm sÃc thÅ đặc tr¤ng cho mßi tÁ bào đó Nhißm sÃc thÅ l¿i đ¤ÿc t¿o thành bçi các axit nucleic và protein Axit nucleic là nhÿng đ¿i phân tử có cÃu trúc đa phân, đ¢n phân của nó là các nucleotide Axit nucleic đ¤ÿc chia làm 2

lo¿i là DNA (deoxyribonucleic acid) và RNA Mát thành phÅn rÃt quan tráng khác của tÁ bào là protein, đ¤ÿc t¿o ra tā các axit amin, là các thành phÅn thiÁt

yÁu của mái c¢ quan và ho¿t đáng hóa hác liên quan đÁn toàn bá ho¿t đáng của

tÁ bào, chúng đ¤ÿc biÅu hián thành nhÿng đặc điÅm và cÃu t¿o và chÿc nng của

tÁ bào, hay chính là nhÿng tính tr¿ng của sinh vÁt Giÿa protein và DNA có quan

há chặt ch¿ vãi nhau, cā thÅ là mßi lo¿i protein đÃu đ¤ÿc xác đßnh bçi mát đo¿n trên dãy DNA gái là gen

1.1.2.1 DNA

Hình 1.1: DNA phân t ử của sā sáng

Trang 13

Vào nm 1944, Oswald Avery phát hián ra DNA là mát lo¿i nguyên liáu thô chÿa gen BÃt nguồn tā phát hián này, mát vài nhóm nghiên cÿu đã tÁp trung nghiên cÿu và DNA và các thành phÅn hóa hác cÃu thành DNA là mát phân tử đ¤ÿc cÃu t¿o bçi đ¤ång, photphat và bán nitrogenous bases: adenine, cytosine, guanine và thiamine, đ¤ÿc lÅn l¤ÿt viÁt tÃt là A, C, G, và T Sau này, các nhà khoa hác quan niám rằng bán nitrogen bases này là các nucleotide là c¢ sç của

mã di truyÃn

Vào nm 1953, hai nhà sinh vÁt hác là J.Wáton và F.Crick làm viác t¿i tr¤ång đ¿i hác Cambridge đã xây dāng thành công mô hình không gian của phân tử DNA(deoxyribonucleic acid), đánh dÃu mát b¤ãc ngoặt quan tráng trong sā phát triÅn của sinh hác phân tử theo mô hình này DNA là mát đ¿i phân

tử sinh hác có cÃu trúc nh¤ mát chußi xoÃn kép gồm hai m¿ch đ¢n, mßi m¿ch đ¢n là mát chußi nucleotide Mßi nucleotide gồm nhóm phosphate, đ¤ång desoxyribose và mát trong bán thành phÅn lÅn l¤ÿt đ¤ÿc biÅu thß bçi các chÿ cái

A, C, G và T Hai m¿ch đ¢n kÁt hÿp vãi nhau nhå các liên kÁt hydro hình thành

giÿa các thành phÅn bổ sung nằm trên hai m¿ch A bổ sung cho T, C bổ sung cho G

1.1.2.2 RNA

Hình 1.2: Hình Ánh vÁ RNA

RNA (Ribonucleic Acid) là 1 lo¿i acid nucleic (nh¤ DNA), RNA cũng có

cÃu trúc đa phân mà đ¢n phân là 4 lo¿i nucleotide, tuy nhiên trong RNA nucleotide lo¿i T (pyrimidine thymine) đ¤ÿc thay thÁ bằng U (uracil) RNA tồn

t¿i ç d¿ng chußi đ¢n và đ¤ÿc phân chia làm 3 lo¿i chính dāa trên chÿc nng của

Trang 14

chúng:

mRNA (RNA thông tin): là mát m¿ch sao chép nguyên tā mát m¿ch đ¢n

của DNA trong đó T đ¤ÿc thay bằng U và làm nhiám vā truyÃn đ¿t thông tin cÃu trúc protein đ¤ÿc tổng hÿp

rRNA (RNA riboxom): là thành phÅn cÃu t¿o nên riboxom

tRNA (RNA vÁn chuyÅn): có chÿc nng vÁn chuyÅn amino acid t¤¢ng ÿng đÁn n¢i tổng hÿp protein

snRNA: có chÿc nng hß trÿ viác ghép mã mRNA

gRNA: sử dāng đÅ điÃu khiÅn viác thay đổi mRNA

RNA có thÅ liên kÁt vãi mát dÁi đ¢n của mát phân tử DNA, bằng cách thay T bằng U, và các phân tử kiÅu này có vai trò quan tráng trong các quá trình

sá l¤ÿng axit amin lãn h¢n chußi đ¤ÿc gái là polypeptide) đ¤ÿc hình thành tā

20 lo¿i axit amin khác nhau lÅn l¤ÿt đ¤ÿc biÅu thß bằng 20 kí tā khác nhau trong

bÁng chÿ cái Tā < protein= dùng đÅ chỉ mát cÃu trúc phÿc t¿p trong không gian

chÿ không đ¢n thuÅn chỉ là mát trình tā axit amin Các nucleotide trong gene mã

Trang 15

hóa cho protein Các protein cÅn thiÁt cho cÃu trúc, chÿc nng và điÃu chỉnh tÁ bào, mô và tổ chÿc, mßi protein có mát vai trò đặc biát

CÃu trúc protein bao gồm 4 mÿc đá tổ chÿc: CÃu trúc bÁc 1 là trình tā sÃp

xÁp các axit amin trong chußi polypeptid, cÃu trúc bÁc 2 phát sinh tā sā uán các thành phÅn của chußi polypeptid thành nhÿng cÃu trúc đÃu đặn trong không gian ( d¿ng xoÃn (alpha helix) hay lãp mßng (Beta sheets)) CÃu trúc bÁc 3 quy đßnh sā kÁt hÿp các chußi xoÃn hay lãp mßng đó thành hình d¿ng ba chiÃu trong không gian CÃu trúc bÁc 4 là sā tổ chÿc nhiÃu chußi polypeptid thành mát phân

tử protein

1.1.2.4 Quá trình t ổng hÿp protein

Tổng hÿp protein là quá trình t¿o ra protein dāa trên thông tin đ¤ÿc mã hóa trong gen ( là các đo¿n mã đặc biát của DNA có chÿc nng điÃu khiÅn cÃu trúc và ho¿t đáng của tÁ bào, là đ¢n vß chÿc nng của sā di truyÃn) gồm ba giai đo¿n chính : (1) Transcription (phiên mã) (2) Splipcing (ghép mã) (3) Translation (dßch mã) [1] có thÅ đ¤ÿc mô tÁ nh¤ hình d¤ãi:

Hình 1.4: Quá trình t ổng hÿp Protein [1]

1.1.2.5 Mßt sá bài toán trong tin sinh hác

Viác hß trÿ của công nghá thông tin trong nghiên cÿu cÃu trúc các thành

phÅn, quá trình ho¿t đáng, đặc tính và vai trò của tāng lo¿i thành phÅn cùng liên

kÁt giÿa chúng d¿n đÁn phÁi giÁi quyÁt nhiÃu bài toán hác máy phÿc t¿p, th¤ång

là các bài toán tái ¤u tổ hÿp NP-khó và có tính bÃt đßnh

Mát sá bài toán hián đang đ¤ÿc quan tâm nghiên cÿu là: So sánh tích hÿp

bá gene (comparative genome assembly), xây dāng cây phân loài (phylogenetic tree reconstruction), tìm kiÁm motif (motif finding), suy dißn haplotype, dā báo

ho¿t đáng điÃu tiÁt gene, xây dāng ma trÁn biÁn đổi axít amin, phân tích chÿc nng protein dāa trên cÃu trúc bÁc cao,&

Trang 16

LuÁn vn s¿ tÁp trung nghiên cÿu <Bài toán tìm kiÁm motif sử dāng ph¤¢ng pháp tái ¤u đàn kiÁn=

1.1.3 Motif

1.1.3.1 Quá trình điÁu hòa gen

Các vß trí điÃu hòa trên DNA t¤¢ng ÿng vãi mát chußi hÿp nhÃt tā các

vùng quy đßnh của mßi gen Chúng ta gái đó nhÿng motif hoặc DNA signals Vß trí quy đßnh trên mßi DNA t¤¢ng ÿng vãi mát motif đ¤ÿc gái là instances của motif đó Xác đßnh đ¤ÿc các motif và các instance t¤¢ng ÿng của nó có ý ngh*

rÃt quan tráng, tā đó các nhà nghiên cÿu sinh hác có thÅ phát hián ra các t¤¢ng tác giÿa DNA và protein, điÃu hòa gen cũng nh¤ sā phát triÅn và t¤¢ng tác trong

 Motif là nhÿng đo¿n trình tā đ¿i dián cho vùng điÃu hòa của gen

 Motif có kích th¤ãc nhß, cá đßnh, lặp l¿i rÃt nhiÃu lÅn và th¤ång xuyên

Trang 17

Hình 1.6: Ví d ā vÁ Motif

Khó khn trong viác tìm kiÁm motif [15]:

 Các Motif không bao giå chính xác nh¤ chußi đ¤ÿc bÁo tồn Luôn có

nhÿng sā thay đổi ç mát vài base

 Kích th¤ãc của Motif quá ngÃn so vãi kích th¤ãc của chußi DNA đang đ¤ÿc xem xét

 Vùng điÃu hòa bao gồm Motif có thÅ ç trß trí rÃt xa so vãi vùng mã hóa

của gen khiÁn cho viác tìm kiÁm trç nên khó khn h¢n rÃt nhiÃu

Vùng điÃu hòa có thÅ nằm trên mÁnh DNA đái dián vãi vùng mã hóa trong quá trình phiên mã

1.1.3.2 Ý nghĩa của Motif

Ngoài nhÿng vùng mã hóa quan tráng, trong há gen còn có nhÿng vùng

chÿa các tín hiáu nh¤ tín hiáu khçi đÅu phiên mã, tín hiáu cÃt đÅ xác đßnh cùng intron exon &

PhÅn tử điÃu hòa (Regulatory element) đ¤ÿc chia làm 2 lo¿i: promoter và enhancer Promoter là vùng gÅn vãi exon đÅu tiên và là vß trí gÃn (binding site) cho enzim điÃu khiÅn quá trình phiên mã (Transcription factor) Enhancer, trái

l¿i, th¤ång xuÃt hián ç vß trí khá xa so vãi vùng mã hóa CÁ 2 vùng này đÃu có ý ngh*a trong viác kiÅm soát sā biÅu hián của gen

Trang 18

1.1.3.3 Bi Ãu diÅn Motif

1.1.3.3.1 Chu ỗi hÿp nhÃt và ma trÁn đặc tr¤ng (Consensus sequence)

Chußi hÿp nhÃt th¤ång đ¤ÿc dùng đÅ đ¿i dián cho vß trí gÃn của emzim điÃu khiÅn quá trình phiên mã (Transcription factor binding) Là chußi gÅn nh¤

khãp hoàn toàn vãi trình tā gÃn nh¤ng không chính xác hoàn toàn

 Ma trÁn tÅn suÃt: thÅ hián tÅn suÃt xuÃt hián của tāng base

 Ma trÁn tráng sá: tráng sá mßi bß trí base đ¤ÿc tính theo công thÿc sau :

Trang 19

Hình 1.8: Bi Ãu diÅn Motif 1.1.3.3.3 Bi Ãu t¤ÿng

BiÅu t¤ÿng là cách dùng hình Ánh biÅu dißn cho Motif

Hình 1.9: Bi Ãu diÅn Motif d¿ng sequence

Trang 20

1.2 Bài toán t ái ¤u tổ hÿp và bài toán tìm ki¿m (ℓ,d) motif

1.2.1 Bài toán t ái ¤u tổ hÿp

1.2.1.1 Gi ái thiÇu bài toán tái ¤u tổ hÿp

Mßi bài toán tái ¤u tổ hÿp ÿng vãi bá ba , trong đó là tÁp hÿu

h¿n các tr¿ng thái (låi giÁi tiÃm nng hay ph¤¢ng án), là hàm māc tiêu xác đßnh trên và là tÁp các ràng buác Mßi ph¤¢ng án thßa mãn các ràng

buác gái là ph¤¢ng án chÃp nhÁn đ¤ÿc Māc tiêu của chúng là tìm ra ph¤¢ng

án tái ¤u hóa toàn cāc đái vãi hàm māc tiêu , nói cách khác chính là tìm ph¤¢ng án sao cho vãi mái Đái vãi bài toán này ta có 3 cách giÁi quyÁt đó là: vét c¿n, kỹ thuÁt n tham hoặc ph¤¢ng pháp tái ¤u trong l*nh vāc NP-khó

Các thuác tính của tÁp và nh¤ sau:

1) Ký hiáu là tÁp các vect¢ trên có đá dài không quá Khi đó, mßi ph¤¢ng án trong đ¤ÿc xác đßnh nhå ít nhÃt mát vect¢ trong

2) Tồn t¿i tÁp con của và ánh x¿ tā lên sao cho không

rßng vãi mái , trong đó tÁp có thÅ xây dāng đ¤ÿc tā tÁp con nào

đó của nhå thủ tāc mç ráng tuÅn tā d¤ãi đây

3) Tā ta mç ráng tuÅn tā thành nh¤ sau:

i) Ta xem là mç ráng đ¤ÿc vãi mái

ii) GiÁ sử là mç ráng đ¤ÿc và ch¤a thuác .Tā tÁp ràng

buác , xác đßnh tÁp con của , sao cho vãi mái

thì là mç ráng đ¤ÿc

iii) Áp dāng thủ tāc mç ráng tā các phÅn tử cho phép ta xây dāng đ¤ÿc mái phÅn tử của

1.2.1.2 Giái thiÇu bài toán ng¤ãi chào hàng

Bài toán ng¤åi chào hàng (Traveling Salesman Problem - TSP) là bài toán

T£TH điÅn hình, đ¤ÿc nghiên cÿu và xem nh¤ là bài toán chuẩn đÅ đánh giá vÃ

hiáu quÁ låi giÁi các bài toán T£TH

Bài toán đ¤ÿc phát biÅu nh¤ sau:

ột tập gồm thành phố (hoặc điểm tiêu thụ) độ

Trang 21

dài đường đi trực tiếp từ c i đến c j là d i,j Một người chào hàng muốn tìm một hành trình ng ắn nhất từ nơi ở, đi qua mỗi thành phố đúng một lần để giới thiệu

s ản phẩm cho khách hàng, sau đó trở về thành phố xuất phát

Có thÅ thÃy đây chính là bài toán tìm chu trình Hamilton vãi đồ thß đÅy đủ

có tráng sá , vãi là tÁp các đỉnh vãi nhãn là các thành phá trong ,

là tÁp các c¿nh nái các thành phá t¤¢ng ÿng, đá dài mßi c¿nh chính là đá dài đ¤ång đi giÿa hai thành phá t¤¢ng ÿng Trong tr¤ång hÿp này, tÁp s¿ là tÁp các chu trình Hamilton trên , là đá dài của chu trình, là ràng buác đòi hßi chu trình là chu trình Hamilton (qua tÃt cÁ các đỉnh, mßi đỉnh đúng mát lÅn),

là tÁp thành phá đ¤ÿc xét, trùng vãi , tÁp là vect¢ đá dài : vãi còn là các vect¢ trong đó khác đái vãi

mái cặp

Do đó, låi giÁi tái ¤u của bài toán TSP là mát hoán vß của tÁp đỉnh sao cho hàm đá dài là nhß nhÃt, trong đó đ¤ÿc tính theo (1):

∑ (1.1)

1.2.1.3 Các cách ti ¿p cÁn giÁi quy¿t bài toán tái ¤u tổ hÿp

Nh¤ phÅn trên ta đã thÃy các bài toán T£TH có thÅ đ¤a và bài toán tìm

kiÁm trên đồ thß Vãi nhÿng bài toán cỡ nhß hoặc nhÿng bài toán đặc biát thì ta hoàn toàn có thÅ tìm låi giÁi tái ¤u nhå tìm kiÁm vét c¿n cũng nh¤ xây dāng

nhÿng låi giÁi đặc thù riêng Tuy nhiên hÅu hÁt các bài toán trong sá đó là bài toán NP-khó, nên vãi các bài toán cỡ lãn ng¤åi ta phÁi tìm låi giÁi gÅn đúng Các thuÁt toán gÅn đúng đái vãi các bài toán T£TH khó th¤ång dāa trên 2 kỹ thuÁt c¢ bÁn: heuristic cÃu trúc (construction heuristic) và tìm kiÁm đßa ph¤¢ng (local search)

1.2.1.3.1 Heuristic c Ãu trúc

Khi không thÅ tìm låi giÁi tái ¤u của bài toán vãi thåi gian đa thÿc, chúng

ta h¤ãng đÁn viác tìm låi giÁi gÅn đúng Kỹ thuÁt hay dùng trong viác tìm låi

giÁi gÅn đúng là heuristic cÃu trúc, låi giÁi của bài toán đ¤ÿc xây dāng thông qua viác mç ráng tuÅn tā Tā thành phá khçi t¿o trong tÁp , tāng b¤ãc mç

ráng không quay lui, thêm vào các thành phÅn mãi theo ph¤¢ng thÿc ng¿u nhiên hay tÃt đßnh dāa trên nhÿng quy tÃc heuristic Các quy tÃc heuristic này khác nhau tùy vào thuÁt toán cā thÅ đ¤ÿc xây dāng dāa trên toán hác kÁt hÿp vãi kinh

Trang 22

nghiám Chúng ta có thÅ khái quát hóa đÅ mô phßng d¤ãi d¿ng thuÁt toán nh¤ sau:

Procedure Heuristic cÃu trúc;

Vãi ph¤¢ng pháp trên ta có thÅ áp dāng cho bài toán TSP vãi đồ thß đÅy

đủ và sử dāng quy tÃc heuristic láng giÃng gÅn nhÃt đÅ chán đỉnh thêm vào (đỉnh láng giÃng nhß nhÃt ch¤a đi qua đÅ thêm vào) ThuÁt toán kiÅu này có ¤u điÅm

là thåi gian tính toán nhanh nh¤ng l¿i không có khÁ nng cÁi tiÁn låi giÁi qua

mßi b¤ãc lặp

1.2.1.3.2 Tìm ki ¿m đßa ph¤¢ng

Kỹ thuÁt tìm kiÁm cāc bá hay còn gái là tìm kiÁm đßa ph¤¢ng, thāc hián

bằng cách bÃt đÅu tā mát ph¤¢ng án chÃp nhÁn đ¤ÿc, lặp l¿i b¤ãc cÁi tiÁn låi

giÁi nhå các thay đổi cāc bá ĐÅ thāc hián kỹ thuÁt này, ta cÅn xác đßnh đ¤ÿc

cấu trúc lân cận của mßi ph¤¢ng án (låi giÁi) đang xét, tÿc là nhÿng ph¤¢ng án

chÃp nhÁn đ¤ÿc, gÅn vãi nó nhÃt, nhå thay đổi mát sá thành phÅn Cách th¤ång dùng là lân cÁn -thay đổi, tÿc là lân cận bao gồm các ph¤¢ng án chÃp nhÁn

Trang 23

Ví dā Lân cÁn 2-thay đổi của mát låi giÁi trong bài toán TSP bao gồm

tÃt cÁ các låi giÁi có thÅ nhÁn đ¤ÿc tā bằng cách đổi hai c¿nh Hình 1.11 chỉ

ra mát ví dā mát låi giÁi nhÁn đ¤ÿc bằng cách thay hai c¿nh (1,3), (2,6) bằng hai

c¿nh (2,3), (1,6)

Viác cÁi tiÁn trong các b¤ãc lặp th¤ång chán theo ph¤¢ng pháp leo đồi

dāa theo hai chiÁn l¤ÿc: ChiÁn l¤ÿc tốt nhất và chiÁn l¤ÿc tốt hơn Vãi chiÁn l¤ÿc tốt nhất, ng¤åi ta thāc hián chán låi giÁi tát nhÃt trong lân cÁn đÅ làm låi

giÁi cÁi tiÁn Tuy nhiên, khi bài toán cỡ lãn có thÅ không tìm đ¤ÿc låi giÁi tát

nhÃt do bß h¿n chÁ và thåi gian Còn vãi chiÁn l¤ÿc tốt hơn, ta chán ph¤¢ng án

đÅu tiên trong lân cÁn, cÁi thián đ¤ÿc hàm māc tiêu Nh¤ÿc điÅm của tìm kiÁm đßa ph¤¢ng là th¤ång chỉ cho cāc trß đßa ph¤¢ng

Hình 1.11: L ãi giÁi nhÁn đ¤ÿc thông qua tìm ki¿m đßa ph¤¢ng

Các kỹ thuÁt trên th¤ång đ¤ÿc kÁt hÿp, t¿o thành các há lai trong các ph¤¢ng pháp mô phßng tā nhiên dāa trên quÅn thÅ, chẳng h¿n nh¤ thuÁt toán di truyÃn (GA) hoặc tái ¤u đàn kiÁn (ACO)

1.2.1.3.3 Ph¤¢ng pháp metaheuristic

Ph¤¢ng pháp metaheuristic là mát ph¤¢ng pháp heuristic tổng quát đ¤ÿc thiÁt kÁ, đßnh h¤ãng cho các thuÁt toán cā thÅ (bao gồm cÁ heuristic cÃu trúc và tìm kiÁm đßa ph¤¢ng) Nh¤ vÁy, mát metaheuristic là mát l¤ÿc đồ thuÁt toán

tổng quát ÿng dāng cho các bài toán tái ¤u khác nhau, vãi mát chút sửa đổi cho phù hÿp vãi tāng bài toán

Trang 24

1.2.1.3.4 Ph¤¢ng pháp Memetic

Memetic là mát mô hình theo ph¤¢ng pháp metaheuristic Trong các thuÁt toán đ¤ÿc thiÁt kÁ theo memetic, ng¤åi ta t¿o ra nhiÃu thÁ há quÅn thÅ låi giÁi

chÃp nhÁn đ¤ÿc Trong mßi quÅn thÅ của thÁ há t¤¢ng ÿng, ta chỉ chán ra mát sá

låi giÁi (chẳng h¿n låi giÁi tát nhÃt) đÅ thāc hián tìm kiÁm đßa ph¤¢ng nhằm cÁi thián chÃt l¤ÿng Quá trình tiÁn hóa này cho ta tìm đ¤ÿc låi giÁi tát nhÃt có thÅ Hình 1.12 mô tÁ mát thuÁt toán memetic sử dāng tính toán tiÁn hóa

(Evolutionary Computing - EC):

Proedure ThuÁt toán memetic-EC;

Begin

Initialize: T¿o ra quÅn thÅ đÅu tiên;

while điÃu kián dāng ch¤a thßa mãn do

Đánh giá các cá thÅ trong quÅn thÅ;

Thāc hián tiÁn hóa quÅn thÅ nhå các toán tử cho tr¤ãc;

Chán tÁp con đÅ cÁi tiÁn nhå thủ tāc tìm kiÁm đßa ph¤¢ng;

for mßi cá thÅ trong do

Thāc hián tìm kiÁm đßa ph¤¢ng;

Hình 1.12: Thu Át toán memetic sử dāng EC

Trong ÿng dāng thāc tÁ, các thuÁt toán ACO th¤ång đ¤ÿc kÁt hÿp vãi tìm

kiÁm đßa ph¤¢ng theo mô hình memetic này

1.2.2 Phát bi Ãu bài toán tìm ki¿m (ℓ,d) motif

Tr¤ãc khi đ¤a ra bài toán, luÁn vn đ¤a ra đßnh ngh*a sau:

Đßnh ngh*a: (Hamming distance)

Trang 25

Cho x và y t¤¢ng ÿng là hai xâu đá dài ℓ và n, khoÁng cách Hamming d H (x,y)

đ¤ÿc xác đßnh nh¤ sau:

a) d H (x,y) = sá vß trí khác nhau của x và y nÁu ℓ =n

b) d H (x,y) = min{dH( x,m )/ m là xâu con đá dài ℓ của y} nÁu ℓ < n

Hình 1.13: Ví dā khoÁng cách hamming

Xác đßnh đ¤ÿc các motif và các instance t¤¢ng ÿng của nó có ý ngh*a rÃt quan tráng, tā đó các nhà nghiên cÿu sinh hác có thÅ phát hián ra các t¤¢ng tác giÿa DNA và protein, điÃu hòa gen cũng nh¤ sā phát triÅn và t¤¢ng tác trong mát tÁ bào Các bài toán tìm kiÁm motif đã thu hút đ¤ÿc nhiÃu nhà nghiên cÿu

Có nhiÃu phát biÅu cho bài toán tìm kiÁm motif ĐiÅn hình có thÅ kÅ đÁn 3 bài toán tìm kiÁm motif nh¤ sau [14]: Simple Motif Search, (ℓ,d) Motif Search (Planted Motif Search) và Edited Motif Search

Trong luÁn vn này, chúng tôi s¿ tÁp trung nghiên cÿu bài toán (ℓ,d) Motif Search (LDMS) hay chính là bài toán Planted Motif Search (PMS) tā nay s¿ gái

là bài toán PMS

Bài toán PMS đ¤ÿc phát biÅu nh¤ sau:

Cho m ột tập hợp N chuỗi S ={S 1 , S 2 , ,S N }, trong đó mỗi phần tử được lấy

ra t ừ tập ∑={A, C, G, T} và hai số nguyên không âm ℓ và d, thỏa mãn 0 ≤d<ℓ<n

Bài toán (ℓ,d)-motif là tìm chuỗi m độ dài ℓ từ ∑ và một tập chuỗi con M={m 1 , m 2 , , m N } trong đó, m i tương ứng là chuỗi con của S i có cùng độ dài ℓ sao cho d

Trang 26

GiÁ sử cho 2 tham sá đÅu vào ℓ = 3; và d = 1 Sau khi S đ¤ÿc kiÅm tra

bằng mát thuÁt toán tìm kiÁm (ℓ,d) – motif, ta có thÅ tìm đ¤ÿc motif m là: GAT

và GTG

Hián nay có hai ph¤¢ng pháp đÅ tìm kiÁm motif:

 Bằng thāc nghiám trong sinh hác: Tán thåi gian, chi phí cao, mÃt nhiÃu công sÿc, đá chính xác cao

 Bằng tính toán trong tin hác: Hoàn toàn có thÅ thāc hián đ¤ÿc trong thåi gian và chi phí thÃp nh¤ng chỉ đ¤a ra đ¤ÿc các chußi có khÁ nng là motif

Vãi h¤ãng tiÁp cÁn bằng tính toán, có hai ph¤¢ng pháp tìm kiÁm là chính xác

và gÅn đúng Các thuÁt toán chính xác luôn luôn tìm ra nhÿng motif trong nhÿng chußi DNA đÅu vào nh¤ng chỉ hiáu quÁ vãi các dÿ liáu có kích th¤ãc nhß và

thāc hián mÃt nhiÃu thåi gian Mát sá thuÁt toán chính xác phổ biÁn hián nay: PMS6, PMS5, Pampa, PMSPrune, Voting, RISSOTO, MITRA, PairMotif Các thuÁt toán xÃp xỉ có thÅ không tìm ra đ¤ÿc tÃt cÁ các motif nh¤ng nó ch¿y hiáu

quÁ vãi các dÿ liáu lãn, tiêu biÅu có: MEME, Gibbs sampler, Genetic Algorithm (GA), PairMotif+

Ngày đăng: 25/11/2024, 08:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN