BÀI GIẢNG Tin Sinh Học Đại học Nha Trang

BẢN CHUẨN Mr. Chung _______________ Giáo trình, bài giảng TIN SINH HỌC Tin sinh học là một môn học khá mới mẻ đối với Việt Nam. Các giáo trình về tin sinh học bằng tiếng Việt còn rất ít. Chính vì vậy, giáo trình được biên soạn nhằm cung cấp cho sinh viên và bạn đọc những kiến thức về lĩnh vực công nghệ sinh học như cách phân tích trình tự DNA, các cơ sở dữ liệu công nghệ sinh học lớn trên thế giới, hướng dẫn thiết kế bản đồ enzyme giới hạn và thiết kế mồi. Giới thiệu các phần mềm và website dùng trong nghiên cứu đa dạng sinh học, khả năng ứng dụng của kỹ thuật trong quản lý môi trường và chẩn đoán y học. Ngoài ra, tác giả đã giới thiệu một số phần mềm miễn phí, thông dụng như: SeqVerter, DNAClub, Clusta X, DNA club, FastPCR, Primer3, PyMol, SeqVerter v.v…

Trang 1

BÀI GIẢNG ĐIỆN TỬ

ỨNG DỤNG TIN HỌC TRONG SINH HỌC

(Informatics applycation in biology)

Người soạn: Lê Phương Chung

Bộ môn CNSH – Viện CNSH & MT

Trang 2

Mở đầu

Giới thiệu về tin học và ứng dụng tin

học trong sinh học

“The two technologies that will

shape the next century are biotechnology and information

technology” Bill Gates

Trang 3

Sự ra đời của tin sinh học

 Buổi bình minh của trình tự: Trình tự Protein, trình tự axitnucleic

 Sự xuất hiện của các thông tin về cấu trúc, chức năng vàtrình tự của protein, DNA dẫn tới nhu cầu quản lý, so sánh

và dự đoán cấu trúc và chức năng của sinh vật

 Sự phát triển của các ngành khoa học khác đặc biệt làcông nghệ thông tin, máy tính

3

Trang 4

Tin sinh học (Bioinformatic) có thể hiểu là mộtngành khoa học phân tích và dự đoán đặc tính của đốitượng sinh học, trên cơ sở tích hợp năng lực hoạt động hữu

cơ của 3 lĩnh vực khoa học công nghệ:

- khoa học sinh học

- năng lực quản trị và xử lý số liệu của máy tính

- tổ chức quản lý khai thác dữ liệu thông tin trên quy môtoàn cầu

Bio (Sinh học) + informatics (Khoa học tính toán) = Bioinformatics (Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp

của khoa học tính toán)

Các từ đồng nghĩa: Computational biology,

Computational molecular biology, Biocomputing

Trang 5

5

Trang 9

Vai trò của Tin sinh học

 Tập hợp, lưu trữ, sắp xếp, truy xuất và chia sẻ cơ sở

Trang 10

Xu hướng phát triển của Tin sinh học

Quản lý cơ sở dữ liệu

Phân tích, biên dịch dữ liệu

Phát triển các thuật toán

Các cấu trúc cơ sở dữ liệu

Thiết kế các giao diện và hiển thị

10

Trang 11

Tài liệu tham khảo

nội

2) Arthur M L (2002) Introduction to Bioinformatics, Published in the United

States by Oxford University Press Inc., New York

3) Baxevanis,A D and Francis Ouellette, B.F (2001) Bioinformatics a

Practical guide to the Analysis of Genes and Protein, John Wiley & Sons,

INC.

4) Bryan B (2001) Bioinformatics Computing, Pretice Hall Pub

5) David W.M (2003) Bioinformatics: Sequence and Genome Analysis, Cold

Spring Harbor Press, New York.

6) Shui Q.Y (2008)Bioinformatics: A Practical Approach, CRC Press, Taylor

& Francis Group.

Trang 12

3, Bioinformatics: Tools and Applications

4, Bioinformatics Research and Application - ISBRA 2011

5, Essential Bioinformatics

6, Intelligent Bioinformatics: The Application of ArtificialIntelligence Techniques to Bioinformatics Problems

Trang 13

Giới thiệu về Internet

• Internet là mạng máy tính toàn cầu để liên kết các tổchức, trung tâm, viện nghiên cứu, trường học

• Để máy tính hoạt động hiệu quả thì chúng phải cùngchia sẻ một phương tiện truyền thông được gọi chung làTCP/IP

13

Trang 14

TCP/IP (Transmission

Control Protocol/

Internet Protocol) gọi là

giao thức truyền dữ liệu/

giao thức Internet.

Giao thức này cho phép các

máy tính trên mạng trao

đổi dữ liệu với nhau một

Trang 15

Mỗi máy tính trên

internet được đặt

một tên duy nhất đó

là địa chỉ IP

15

Trang 16

Kết cấu mạng Internet

Các kiểu mạng:

• Mạng cục bộ LAN (Local Area Network)

• Mạng vùng trung tâm MAN (Metropolitan Area Network)

• Mạng diện rộng WAN (Wide Area Network)

 Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng vài km,

ngoại trừ trường hợp máy tính đơn kết nối trực tiếp vớiinternet, tất cả các máy tính có nối mạng đều nối vàomạng LAN Mạng LAN được dùng cho một toà nhà,trường học, thư viện, bệnh viện…

16

Trang 18

 Công nghệ LAN mới nhất hiện nay là mạng không dây sử

dụng tia hồng ngoại hay sóng vô tuyến (Wireless Fidelity)

thay cho cáp để truyền tín hiệu mạng

18

Trang 19

 Mạng vùng trung tâm MAN

LAN là dùng chung một thiết

bị truyền trong mạng nên

cho phép nhiều máy tính kết

nối vào cùng một sợi dây,

mạng MAN sử dụng các kết

nối điểm đến điểm (point to

point) với chỉ một máy tính

tại cuối mỗi liên kết Các

máy tính tại cuối mỗi liên

kết của MAN cũng có thể kết

nối với các mạng LAN, MAN

và WAN

19

Trang 20

 Mạng diện rộng WAN

Phạm vi của mạng có thể là một

quốc gia hay thậm chí cả lục địa.

Cũng giống như đa số MAN, mạng

WAN dùng các kết nối vật lý điểm

đến điểm nhưng dùng cáp xoắn.

Công nghệ WAN thường có nguồn

gốc từ các hệ thống xây dựng để

phục vụ cho các công ty điện thoại.

20

Trang 21

Truy cập, tìm kiếm dữ liệu thông tin qua internet

21

Trang 22

Luật lệ, đạo đức và các quy định hoạt động của Internet

• Không được truy cập (Access) bất hợp pháp vào những hệ thống đòi hỏi phải có Username và Password.

• Không phá hoại và gây rối loạn hệ thống lưu thông trên Internet (gieo rắc, phát tán virus).

• Không lãng phí nguồn tài nguyên (không download những tập tin quá lớn mà chẳng để làm gì, đặc biệt trong giờ cao điểm.

• Không xoá tập tin của người khác.

• Không xâm phạm, phát tán những thông tin có tính chất riêng tư của người khác.

• Không truy cập, phát tán những thông tin phản động….

22

Trang 23

Một số thuật ngữ tin sinh thường gặp trên internet

Accession

Hairpin Restriction enzyme BLAST (Basic Local

Alignment Search Tool)

Trang 24

Vấn đề 1

Cơ sở dữ liệu công nghệ sinh học

24

Trang 25

Đặc điểm cơ sở dữ liệu công nghệ sinh học

-Nguồn cơ sở dữ liệu vô cùng đa dạng, phong phú, gia tăng mạnh mẽ theo thời gian

- Chiếm khối lượng lớn nhất và đa dạng nhất là các kết quả nghiên cứu trên các đối tượng sinh học

- Các dữ liệu này được biểu diễn dưới dạng số hay ký

tự trong các tệp dữ liệu đơn lẻ hay dưới dạng các thuật toán hoàn chỉnh để cất giữ hoặc trao đổi

- Về cấu trúc, dữ liệu này gồm mảng dữ liệu sơ cấp và

dữ liệu thứ cấp

25

Trang 26

- Dữ liệu thông tin thông thường: sách, báo, tạp chí…

- Dữ liệu về phân loại học

- Dữ liệu về cấu trúc và đặc tính của nucleotide và

genom

 Mỗi cơ sở dữ liệu có thể định hướng tập trung vào các mảng thông tin riêng Song phải đảm bảo tiêu chí:

dễ dàng truy cập, quản lý và khai thác cho người khác

dữ liệu, nhằm hỗ trợ và giúp họ tìm được thông tin mong muôn!

26

Trang 27

National Center for Biotechnology Information

27

Trang 32

Sử dụng các dữ liệu ADN và Protein để làm gì?

 Đối với trình tự nucleotit:

 So sánh một đoạn ADN bất kỳ với các dữ liệu trong ngân hànggen có thể chúng ta xác định được đoạn ADN đó của sinh vậtnào

 Biết được trình tự sắp xếp các nucleotit của một đoạn ADN cóthể suy ra trình tự các axit amin tương ứng trên mạchpolypeptide nếu đoạn ADN đó mã hóa

 Xác định đột biến, sự sai khác về trình tự nucleotit trong cùngmột sản phẩm gen (isozyme, allozyme…) có ý nghĩa trongnghiên cứu tiến hóa và ứng dụng thực tiễn

32

Trang 33

 Về mặt phân loại sinh học, đối với một số gen có tính bảo thủcao, mang tính đặc thù loài, chẳng hạn các gen mã hóa choARN ribosome (rRNA) Dựa vào những trình tự ADN của cácgen này ở những loài sinh vật khác nhau mà người ta có thể sosánh chúng trên cơ sở xác định mức độ sai khác về trình tựnucleotit từ đó mô phỏng mối quan hệ loài, dưới loài

33

Trang 34

 Biết được trình tự của một gen (chẳng hạn gen ung thư hay sự

có mặt của các virus nguy hiểm chẳng hạn H5N1, bệnh virusđốm trắng ở tôm…) người ta có thể phát hiện sớm bằng kỹthuật PCR, lai ADN để ngăn chặn, điều trị

 Thiết kế những cặp mồi (primer) để nhân bản các đoạn nàycho những mục đích nghiên cứu khác nhau như : Nghiên cứu

sự có mặt của gen đó trong các sinh vật khác nhau

34

Trang 35

 Từ trình tự nucleotit của một phân tử ADN có thể biết được bản

đồ các vị trí nhận biết của các enzym cắt hạn chế Điều này đặcbiệt có ý nghĩa trong kỹ nghệ ADN tái tổ hợp

 Một trong những phương pháp trị liệu gen (gene therapy) dựa trêntrình tự ribonucleotit trên phân tử mRNA để tổng hợp sợi bổ sungnhằm ngăn chặn sự hoạt động của các gen đó

35

Trang 36

 Một trong những ứng dụng quan trọng đó là chuyển gen để tạo

ra các sinh vật mới mang những đặc tính mong muốn hoặc cóthể chuyển gen vào các tế bào vi khuẩn, nấm men… để sảnxuất sản phẩm gen theo con đường tái tổ hợp (protein, enzym,vaccine và các hợp chất có hoạt tính sinh học)

 Từ trình tự axit amin của phân tử protein, có thể suy diễn ratrình tự nucleotit của gen mã hóa

36

Trang 37

Một số giới thiệu về cơ sở dữ liệu của NCBI

a CSDL tài liệu (Literature Database)

b CSDL Protein (Protein Databases) 3D Domains

c CSDL Nucleotide (Nucleotide databases)

d Cơ sở dữ liệu cấu trúc (Structure Databases)

e Cơ sở dữ liệu hệ thống học (Taxonomy Databases)

f Cơ sở dữ liệu genom (genome database)

g Cơ sở dữ liệu hóa học

37

Trang 44

EMBL ( http://www.embl.org/ )

European Molecular Biology Laboratory

44

Trang 49

Tài nguyên NCBI DDBJ

Trang 50

Tài nguyên NCBI DDBJ

ClustalW

50

Trang 51

51

Trang 54

Phân loài trên NCBI

54

Trang 55

DDBJ có khả năng xây dựng cây phần loài trực tuyến, để đánh giá mức độ tương đồng, gần gũi giữa các loài với nhau.

55

Trang 56

Trình tự DNA NCBI

56

Trang 59

Kết quả tìm kiếm Streptomyces coelicolor DDBJ

59

Trang 62

Trình tự protein NCBI

62

Trang 68

Kết quả hiển thị graphic

68

Trang 70

Cách lưu dữ liệu NCBI

70

Trang 73

73

Trang 76

Cấu trúc protein NCBI

76

Trang 79

79

Trang 83

SO SÁNH 2 CƠ SỞ DỮ LIỆU

NCBI - EMBL

83

Trang 84

NCBI EMBL

1 CSDL tài liệu (Literature Database)

2 CSDL Nucleotide (Nucleotide Databases)

3 CSDL protein (Protein Databases)

4 CSDL cấu trúc (Structure Databases)

5 CSDL hệ thống học (Taxonomy Databases)

6 CSDL genom (Genome database)

(Proteomic Databases)

8 CSDL hóa học và kỹ thuật sinh học

(Chemical & bioassays database)

Trang 85

Bookshelf: Một bộ sưu tập sách y sinh học cóthể tìm kiếm trực tiếp hoặc từ các dữ liệu khác đượcliên kết trong cơ sở dữ liệu NCBI, có một phần ởPubMed

NCBI

85

Trang 86

86

Trang 87

PubMed: Chứa phần tóm tắt của hơn 22 triệu

tài liệu trích dẫn trong lĩnh vực sinh y học và cáctạp chí về khoa học đời sống Trích dẫn có thểbao gồm các liên kết đến nội dung toàn văn từPubMed Central và các trang web nhà xuất bản

NCBI

87

Trang 88

88

Trang 89

89

Trang 91

91

Trang 92

Chứa các trình tự protein và chương trình so sánh trình tự, tính toán kết quả bằng BLAST

NCBI

92

Trang 93

93

Trang 94

94

Trang 95

Cấu trúc 3D của các phân tử protein có nguồn gốc từ Ngân hàng dữ liệu Protein, cũng như các công cụ trực quan để phân tích so sánh.

NCBI

95

Trang 96

96

Trang 97

Taxonomy NCBI

97

Trang 98

• Chứa hệ thống phân loại và danh pháp củacác vi sinh vật

• Khoảng 10% các loài sinh vật được mô tả

NCBI

98

Trang 99

99

Trang 100

100

Trang 101

101

Trang 102

Cung cấp thông tin về bộ gen bao gồm cả trình tự, bản đồ, nhiễm sắc thể và chú thích của tất cả các loài sinh vật

NCBI

102

Trang 103

103

Trang 104

104

Trang 105

Cơ sở dữ liệu của hệ thống sinh học (BioSystem)

cung cấp đầy đủ cho người dùng về hệ thống sinh học và thành phần gen, protein, và các phân tử nhỏ, cũng như các tài liệu được

mô tả trong hệ thống sinh học và các dữ liệu khác có liên quan

105

Trang 106

Chứa tất cả các thông tin về một hóa chất (tên, cấu trúc, các ý kiến và liên kết đến trang web …)

106

Trang 107

107

Trang 109

NCBI

Trang 110

 Lưu trữ thông tin liên quan đến các gen biến dị với quy mô lớn

 Lưu trữ phát hiện ra sự thay đổi của dbVar

 Biến dị được xác định với thông tin kiểu hình.

CSDL CỦA BIẾN DỊ

CẤU TRÚC GEN

110

NCBI

Trang 111

Ngoài 3 cơ sở dữ liệu lớn trên, còn rất nhiều cơ sở dữ

liệu rất hữu ích và quan trọng

http://bips.u-strasbg.fr/EMBOSS/

111

Trang 112

112

Trang 113

Vấn đề

TÌM KIẾM VÀ TRUY XUẤT

DỮ LIỆU SINH HỌC

113

Trang 114

Mục tiêu

Tìm kiếm được những dữ liệu khác nhau như sách báo, tạp chí, trình tự DNA, RNA, Protein … trên các cơ sở dữ liệu

Trang 115

Tìm kiếm tài liệu tham khảo

Tìm kiếm tài liệu tham khảo chính là bước đầu tiên vôcùng quan trọng trong việc thiết kế các thí nghiệm, các đề tài, dự

án nghiên cứu

Để có thể tìm kiếm được tài liệu tham khảo hữu ích, đángtin cậy và đúng với yêu cầu của đề tài hoặc dự án, cần lựa chọnđúng cơ sở dữ liệu hoặc tài nguyên tìm kiếm

Trang 116

Google là công cụ tìm kiếm mạnh, nhanh và hiệu quả!Tuy nhiên, tính chọn lọc và chất lượng thông tin không cao!

Trang 117

Có rất nhiều trang web để có thể tìm kiếm tài liệu thamkhảo như:

-www.sciencedirect.com

Trang 118

118www.nature.com

Trang 119

119

Trang 122

Tìm kiếm trình tự DNA

 Giải trình tự sinh học bằng Phương pháp Sanger

122 Tìm kiếm trình tự sinh học

Trang 123

-Tên tác giả giải trình tự

2.Công cụ tìm kiếm: Nucleotide, gene, DNA…

3 Lọc trình tự

123 Tìm kiếm trình tự sinh học

Trang 124

Tìm kiếm trình tự sinh học qua NCBI

124

Click

Trang 125

Tìm kiếm trình tự DNA

125

Trang 126

Tìm kiếm trình tự qua mã số truy cập

Trang 127

TÌM KIẾM TRÌNH TỰ SINH HỌC QUA MÃ SỐ TRUY CẬP

127

Trang 128

Kết quả tìm trình tự DNA qua mã số truy cập

128

Trang 129

Tìm kiếm trình tự qua tên gene

129

Trang 131

Cách lấy trình tự theo định dang FASTA

131

Trang 132

Định dạng FASTA

 Nhiều phần mềm tin sinh học cần dữ liệu trình tự gene hoặc protein theo kiểu định

dạng FASTA như ví dụ minh hoạ dưới đây:

>tên trình tự

gattctcacttggtctgctgcaaggacgcggaccattaaaactgttcatggcccttgtggcgttctcgtttcctaacaatcccaccaacagcagggatactaaaaagatggggaacgatcaaaaaatcaaaagctatcaatgtcttgagagggttcaggaaagagattggaaggatgctgaacatcttgaacaggagacgcaggacagcaggcgtgattgttatgttgattccacagcgatggcgttccatttaaccacacgcaatgg

132

Trang 133

Thẻ giới hạn phạm vi tìm kiếm DNA

 [ALL] : Tất cả các trường tìm kiếm

 [ACCN]: Mã số truy cập của trình tự - Accession number

 [GI] : Số gi

 [AUTH] : Tên tác giả giải trình tự- author name

 [PDAT] : Ngày trình tự được chỉnh sửa hay ngày trình tự

được cập nhật (update) – publication date

 [ORGN] : Sinh vật chứa trình tự đó - organism

 [TITL] :Định nghĩa trình tự trong mẫu tin – title

 [SLEN] :Chiều dài của trình tự - Sequence length

 [GENE] : Tên gene



133

Trang 134

Tìm kiếm trình tự protein

134

Trang 135

Tìm kiếm trình tự qua tên sinh vật

135

Trang 136

Định dạng trình tự dạng FASTA

136

Trang 138

Thẻ giới hạn phạm vi tìm kiếm trình tự protein

 [ALL] : Tất cả các trường tìm kiếm

 [ACCN] : Mã số truy cập của trình tự - Accession number

 [GI] : Số gi

 [AUTH] :Tên tác giả giải trình tự- author name

 [PDAT] : Ngày trình tự được chỉnh sửa hay ngày trình tự được

cập nhật (update) – publication date

 [ORGN] : Sinh vật chứa trình tự đó - organism

 [TITL] : Định nghĩa trình tự trong mẫu tin – title

 [SLEN] : Chiều dài của trình tự - Sequence length

 [PROT] : Tên protein – Protein name

 [MOLWT] : Trọng lượng phân tử protein

138

Trang 140

- Genbank được xây dựng và duytrì ở phòng thí nghiệm quốc giaLos Alamos (LALN).

- Năm 1990, NCBI được giao nhiệm

vụ này

Trang 141

• Năm 1993 đến 1996 thực hiện quét các dữ liệu và trình

tự để đưa thông tin vào Genbank

• Hiện nay, NCBI nhận và xử lý khoảng 20.000 trình tự

trực tiếp mỗi tháng, ngoài ra có khoảng 200.000 bản đệtrình được xử lý tự động

Trang 142

 Cơ sở dữ liệu trình tự Genbank là một bộ sưu tậpcông khai,bao gồm tất cả các trình tự nucleotide

và trình tự dịch mã protein của chúng

Hiện nay có xấp xỉ

126.551.501.141 base trong 135.440.924 trình tự

Trang 143

Gửi trình tự lên NCBI

Trang 144

2015 Informatics applycation in biology

1 4 4

ĐĂNG KÝ TRÌNH TỰ TRÊN CƠ SỞ DỮ LIỆU

BẰNG PHẦN MỀM SEQUIN

Trang 145

1 4 5

Trang 146

1 4 6

Trang 147

1 4 7

Trang 148

148

Trang 149

 Thiết kế Primers (primers design)

 Tìm kiếm bản đồ enzyme cắt giới hạn

 Đoán nhận gene (predicting genes)

 Xác định khung đọc mở DNA (ORF)

Vấn đề PHÂN TÍCH TRÌNH TỰ SINH HỌC

149

Trang 150

Thiết kế mồi (Primer design)

Phản ứng PCR

Các vi sinh vật, động vật

Thu nhận mẫu PCR là một kỹ thuật để

khuếch đại một mẫu DNAmong muốn khuếch đại

Qui trình phản ứng PCR

150

Trang 152

Thiết kế mồi (Primers design)

 Mồi là những đoạn nucleotide ngắn, bắt cặp bổ sung với đầu 5' hay đầu 3' của mạch DNA khuôn mẫu Mồi được thiết kế dựa vào 2 vùng trình tự đã được biết, nằm ở hai đầu của đoạn gen cần khuếch đại.

Mồi (primers) là gì?

152

Trang 154

Tính chuyên biệt

 Chỉ có duy nhất một vị trí bắt cặp của primer trên khuôn DNA.

 Primer càng dài thì nó càng thể hiện tính duy nhất và nhiệt độ nóng chảy, nhiệt độ bắt cặp càng cao Tuy nhiên mồi cũng không nên quá dài để dễ vào khuôn Thông thường, chiều dài của primer 17-28 base.

 Thành phần (G+C) trung bình khoảng từ 50-60% sẽ cho ta nhiệt độ lai thích hợp

Trang 155

1 Nhiệt độ nóng chảy:

Tm (melting temp): Nhiệt độ nóng

chảy của mồi, là nhiệt độ tại đó ½ số

DNA sợi kép tách thành sợi đơn,

thường nhiệt độ nóng chảy của mồi

thích hợp là từ 55-650C

2 Nhiệt độ bắt cặp:

Ta (annealing temp): Là nhiệt độ

của đoạn mồi bắt cặp với DNA

khuôn Có nhiều cách tính Ta:

155

Tính ổn định nhiệt độ của primers

Ta = 0.3 x Tm(mồi) + 0.7 Tm (sản phẩm) – 14.9

Ta = Tm (mồi) - 40C

Định dạng
Số trang	269
Dung lượng	11,6 MB