BẢN CHUẨN Mr. Chung _______________ Giáo trình, bài giảng TIN SINH HỌC Tin sinh học là một môn học khá mới mẻ đối với Việt Nam. Các giáo trình về tin sinh học bằng tiếng Việt còn rất ít. Chính vì vậy, giáo trình được biên soạn nhằm cung cấp cho sinh viên và bạn đọc những kiến thức về lĩnh vực công nghệ sinh học như cách phân tích trình tự DNA, các cơ sở dữ liệu công nghệ sinh học lớn trên thế giới, hướng dẫn thiết kế bản đồ enzyme giới hạn và thiết kế mồi. Giới thiệu các phần mềm và website dùng trong nghiên cứu đa dạng sinh học, khả năng ứng dụng của kỹ thuật trong quản lý môi trường và chẩn đoán y học. Ngoài ra, tác giả đã giới thiệu một số phần mềm miễn phí, thông dụng như: SeqVerter, DNAClub, Clusta X, DNA club, FastPCR, Primer3, PyMol, SeqVerter v.v…
Trang 1BÀI GIẢNG ĐIỆN TỬ
ỨNG DỤNG TIN HỌC TRONG SINH HỌC
(Informatics applycation in biology)
Người soạn: Lê Phương Chung
Bộ môn CNSH – Viện CNSH & MT
Trang 2Mở đầu
Giới thiệu về tin học và ứng dụng tin
học trong sinh học
“The two technologies that will
shape the next century are biotechnology and information
technology” Bill Gates
Trang 3Sự ra đời của tin sinh học
Buổi bình minh của trình tự: Trình tự Protein, trình tự axitnucleic
Sự xuất hiện của các thông tin về cấu trúc, chức năng vàtrình tự của protein, DNA dẫn tới nhu cầu quản lý, so sánh
và dự đoán cấu trúc và chức năng của sinh vật
Sự phát triển của các ngành khoa học khác đặc biệt làcông nghệ thông tin, máy tính
3
Trang 4Tin sinh học (Bioinformatic) có thể hiểu là mộtngành khoa học phân tích và dự đoán đặc tính của đốitượng sinh học, trên cơ sở tích hợp năng lực hoạt động hữu
cơ của 3 lĩnh vực khoa học công nghệ:
- khoa học sinh học
- năng lực quản trị và xử lý số liệu của máy tính
- tổ chức quản lý khai thác dữ liệu thông tin trên quy môtoàn cầu
Bio (Sinh học) + informatics (Khoa học tính toán) = Bioinformatics (Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp
của khoa học tính toán)
Các từ đồng nghĩa: Computational biology,
Computational molecular biology, Biocomputing
Trang 55
Trang 9Vai trò của Tin sinh học
Tập hợp, lưu trữ, sắp xếp, truy xuất và chia sẻ cơ sở
Trang 10Xu hướng phát triển của Tin sinh học
Quản lý cơ sở dữ liệu
Phân tích, biên dịch dữ liệu
Phát triển các thuật toán
Các cấu trúc cơ sở dữ liệu
Thiết kế các giao diện và hiển thị
10
Trang 11Tài liệu tham khảo
nội
2) Arthur M L (2002) Introduction to Bioinformatics, Published in the United
States by Oxford University Press Inc., New York
3) Baxevanis,A D and Francis Ouellette, B.F (2001) Bioinformatics a
Practical guide to the Analysis of Genes and Protein, John Wiley & Sons,
INC.
4) Bryan B (2001) Bioinformatics Computing, Pretice Hall Pub
5) David W.M (2003) Bioinformatics: Sequence and Genome Analysis, Cold
Spring Harbor Press, New York.
6) Shui Q.Y (2008)Bioinformatics: A Practical Approach, CRC Press, Taylor
& Francis Group.
Trang 123, Bioinformatics: Tools and Applications
4, Bioinformatics Research and Application - ISBRA 2011
5, Essential Bioinformatics
6, Intelligent Bioinformatics: The Application of ArtificialIntelligence Techniques to Bioinformatics Problems
Trang 13Giới thiệu về Internet
• Internet là mạng máy tính toàn cầu để liên kết các tổchức, trung tâm, viện nghiên cứu, trường học
• Để máy tính hoạt động hiệu quả thì chúng phải cùngchia sẻ một phương tiện truyền thông được gọi chung làTCP/IP
13
Trang 14TCP/IP (Transmission
Control Protocol/
Internet Protocol) gọi là
giao thức truyền dữ liệu/
giao thức Internet.
Giao thức này cho phép các
máy tính trên mạng trao
đổi dữ liệu với nhau một
Trang 15Mỗi máy tính trên
internet được đặt
một tên duy nhất đó
là địa chỉ IP
15
Trang 16Kết cấu mạng Internet
Các kiểu mạng:
• Mạng cục bộ LAN (Local Area Network)
• Mạng vùng trung tâm MAN (Metropolitan Area Network)
• Mạng diện rộng WAN (Wide Area Network)
Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng vài km,
ngoại trừ trường hợp máy tính đơn kết nối trực tiếp vớiinternet, tất cả các máy tính có nối mạng đều nối vàomạng LAN Mạng LAN được dùng cho một toà nhà,trường học, thư viện, bệnh viện…
16
Trang 18 Công nghệ LAN mới nhất hiện nay là mạng không dây sử
dụng tia hồng ngoại hay sóng vô tuyến (Wireless Fidelity)
thay cho cáp để truyền tín hiệu mạng
18
Trang 19 Mạng vùng trung tâm MAN
LAN là dùng chung một thiết
bị truyền trong mạng nên
cho phép nhiều máy tính kết
nối vào cùng một sợi dây,
mạng MAN sử dụng các kết
nối điểm đến điểm (point to
point) với chỉ một máy tính
tại cuối mỗi liên kết Các
máy tính tại cuối mỗi liên
kết của MAN cũng có thể kết
nối với các mạng LAN, MAN
và WAN
19
Trang 20 Mạng diện rộng WAN
Phạm vi của mạng có thể là một
quốc gia hay thậm chí cả lục địa.
Cũng giống như đa số MAN, mạng
WAN dùng các kết nối vật lý điểm
đến điểm nhưng dùng cáp xoắn.
Công nghệ WAN thường có nguồn
gốc từ các hệ thống xây dựng để
phục vụ cho các công ty điện thoại.
20
Trang 21Truy cập, tìm kiếm dữ liệu thông tin qua internet
21
Trang 22Luật lệ, đạo đức và các quy định hoạt động của Internet
• Không được truy cập (Access) bất hợp pháp vào những hệ thống đòi hỏi phải có Username và Password.
• Không phá hoại và gây rối loạn hệ thống lưu thông trên Internet (gieo rắc, phát tán virus).
• Không lãng phí nguồn tài nguyên (không download những tập tin quá lớn mà chẳng để làm gì, đặc biệt trong giờ cao điểm.
• Không xoá tập tin của người khác.
• Không xâm phạm, phát tán những thông tin có tính chất riêng tư của người khác.
• Không truy cập, phát tán những thông tin phản động….
22
Trang 23Một số thuật ngữ tin sinh thường gặp trên internet
Accession
Hairpin Restriction enzyme BLAST (Basic Local
Alignment Search Tool)
Trang 24Vấn đề 1
Cơ sở dữ liệu công nghệ sinh học
24
Trang 25Đặc điểm cơ sở dữ liệu công nghệ sinh học
-Nguồn cơ sở dữ liệu vô cùng đa dạng, phong phú, gia tăng mạnh mẽ theo thời gian
- Chiếm khối lượng lớn nhất và đa dạng nhất là các kết quả nghiên cứu trên các đối tượng sinh học
- Các dữ liệu này được biểu diễn dưới dạng số hay ký
tự trong các tệp dữ liệu đơn lẻ hay dưới dạng các thuật toán hoàn chỉnh để cất giữ hoặc trao đổi
- Về cấu trúc, dữ liệu này gồm mảng dữ liệu sơ cấp và
dữ liệu thứ cấp
25
Trang 26- Dữ liệu thông tin thông thường: sách, báo, tạp chí…
- Dữ liệu về phân loại học
- Dữ liệu về cấu trúc và đặc tính của nucleotide và
genom
Mỗi cơ sở dữ liệu có thể định hướng tập trung vào các mảng thông tin riêng Song phải đảm bảo tiêu chí:
dễ dàng truy cập, quản lý và khai thác cho người khác
dữ liệu, nhằm hỗ trợ và giúp họ tìm được thông tin mong muôn!
26
Trang 27National Center for Biotechnology Information
27
Trang 32Sử dụng các dữ liệu ADN và Protein để làm gì?
Đối với trình tự nucleotit:
So sánh một đoạn ADN bất kỳ với các dữ liệu trong ngân hànggen có thể chúng ta xác định được đoạn ADN đó của sinh vậtnào
Biết được trình tự sắp xếp các nucleotit của một đoạn ADN cóthể suy ra trình tự các axit amin tương ứng trên mạchpolypeptide nếu đoạn ADN đó mã hóa
Xác định đột biến, sự sai khác về trình tự nucleotit trong cùngmột sản phẩm gen (isozyme, allozyme…) có ý nghĩa trongnghiên cứu tiến hóa và ứng dụng thực tiễn
32
Trang 33 Về mặt phân loại sinh học, đối với một số gen có tính bảo thủcao, mang tính đặc thù loài, chẳng hạn các gen mã hóa choARN ribosome (rRNA) Dựa vào những trình tự ADN của cácgen này ở những loài sinh vật khác nhau mà người ta có thể sosánh chúng trên cơ sở xác định mức độ sai khác về trình tựnucleotit từ đó mô phỏng mối quan hệ loài, dưới loài
33
Trang 34 Biết được trình tự của một gen (chẳng hạn gen ung thư hay sự
có mặt của các virus nguy hiểm chẳng hạn H5N1, bệnh virusđốm trắng ở tôm…) người ta có thể phát hiện sớm bằng kỹthuật PCR, lai ADN để ngăn chặn, điều trị
Thiết kế những cặp mồi (primer) để nhân bản các đoạn nàycho những mục đích nghiên cứu khác nhau như : Nghiên cứu
sự có mặt của gen đó trong các sinh vật khác nhau
34
Trang 35 Từ trình tự nucleotit của một phân tử ADN có thể biết được bản
đồ các vị trí nhận biết của các enzym cắt hạn chế Điều này đặcbiệt có ý nghĩa trong kỹ nghệ ADN tái tổ hợp
Một trong những phương pháp trị liệu gen (gene therapy) dựa trêntrình tự ribonucleotit trên phân tử mRNA để tổng hợp sợi bổ sungnhằm ngăn chặn sự hoạt động của các gen đó
35
Trang 36 Một trong những ứng dụng quan trọng đó là chuyển gen để tạo
ra các sinh vật mới mang những đặc tính mong muốn hoặc cóthể chuyển gen vào các tế bào vi khuẩn, nấm men… để sảnxuất sản phẩm gen theo con đường tái tổ hợp (protein, enzym,vaccine và các hợp chất có hoạt tính sinh học)
Từ trình tự axit amin của phân tử protein, có thể suy diễn ratrình tự nucleotit của gen mã hóa
36
Trang 37Một số giới thiệu về cơ sở dữ liệu của NCBI
a CSDL tài liệu (Literature Database)
b CSDL Protein (Protein Databases) 3D Domains
c CSDL Nucleotide (Nucleotide databases)
d Cơ sở dữ liệu cấu trúc (Structure Databases)
e Cơ sở dữ liệu hệ thống học (Taxonomy Databases)
f Cơ sở dữ liệu genom (genome database)
g Cơ sở dữ liệu hóa học
37
Trang 44EMBL ( http://www.embl.org/ )
European Molecular Biology Laboratory
44
Trang 49Tài nguyên NCBI DDBJ
Trang 50Tài nguyên NCBI DDBJ
ClustalW
50
Trang 5151
Trang 54Phân loài trên NCBI
54
Trang 55DDBJ có khả năng xây dựng cây phần loài trực tuyến, để đánh giá mức độ tương đồng, gần gũi giữa các loài với nhau.
55
Trang 56Trình tự DNA NCBI
56
Trang 59Kết quả tìm kiếm Streptomyces coelicolor DDBJ
59
Trang 62Trình tự protein NCBI
62
Trang 68Kết quả hiển thị graphic
68
Trang 70Cách lưu dữ liệu NCBI
70
Trang 7373
Trang 76Cấu trúc protein NCBI
76
Trang 7979
Trang 83SO SÁNH 2 CƠ SỞ DỮ LIỆU
NCBI - EMBL
83
Trang 84NCBI EMBL
1 CSDL tài liệu (Literature Database)
2 CSDL Nucleotide (Nucleotide Databases)
3 CSDL protein (Protein Databases)
4 CSDL cấu trúc (Structure Databases)
5 CSDL hệ thống học (Taxonomy Databases)
6 CSDL genom (Genome database)
(Proteomic Databases)
8 CSDL hóa học và kỹ thuật sinh học
(Chemical & bioassays database)
Trang 85Bookshelf: Một bộ sưu tập sách y sinh học cóthể tìm kiếm trực tiếp hoặc từ các dữ liệu khác đượcliên kết trong cơ sở dữ liệu NCBI, có một phần ởPubMed
NCBI
85
Trang 8686
Trang 87PubMed: Chứa phần tóm tắt của hơn 22 triệu
tài liệu trích dẫn trong lĩnh vực sinh y học và cáctạp chí về khoa học đời sống Trích dẫn có thểbao gồm các liên kết đến nội dung toàn văn từPubMed Central và các trang web nhà xuất bản
NCBI
87
Trang 8888
Trang 8989
Trang 9191
Trang 92Chứa các trình tự protein và chương trình so sánh trình tự, tính toán kết quả bằng BLAST
NCBI
92
Trang 9393
Trang 9494
Trang 95Cấu trúc 3D của các phân tử protein có nguồn gốc từ Ngân hàng dữ liệu Protein, cũng như các công cụ trực quan để phân tích so sánh.
NCBI
95
Trang 9696
Trang 97Taxonomy NCBI
97
Trang 98• Chứa hệ thống phân loại và danh pháp củacác vi sinh vật
• Khoảng 10% các loài sinh vật được mô tả
NCBI
98
Trang 9999
Trang 100100
Trang 101101
Trang 102Cung cấp thông tin về bộ gen bao gồm cả trình tự, bản đồ, nhiễm sắc thể và chú thích của tất cả các loài sinh vật
NCBI
102
Trang 103103
Trang 104104
Trang 105Cơ sở dữ liệu của hệ thống sinh học (BioSystem)
cung cấp đầy đủ cho người dùng về hệ thống sinh học và thành phần gen, protein, và các phân tử nhỏ, cũng như các tài liệu được
mô tả trong hệ thống sinh học và các dữ liệu khác có liên quan
105
Trang 106Chứa tất cả các thông tin về một hóa chất (tên, cấu trúc, các ý kiến và liên kết đến trang web …)
106
Trang 107107
Trang 109NCBI
Trang 110 Lưu trữ thông tin liên quan đến các gen biến dị với quy mô lớn
Lưu trữ phát hiện ra sự thay đổi của dbVar
Biến dị được xác định với thông tin kiểu hình.
CSDL CỦA BIẾN DỊ
CẤU TRÚC GEN
110
NCBI
Trang 111Ngoài 3 cơ sở dữ liệu lớn trên, còn rất nhiều cơ sở dữ
liệu rất hữu ích và quan trọng
http://bips.u-strasbg.fr/EMBOSS/
111
Trang 112112
Trang 113Vấn đề
TÌM KIẾM VÀ TRUY XUẤT
DỮ LIỆU SINH HỌC
113
Trang 114Mục tiêu
Tìm kiếm được những dữ liệu khác nhau như sách báo, tạp chí, trình tự DNA, RNA, Protein … trên các cơ sở dữ liệu
Trang 115Tìm kiếm tài liệu tham khảo
Tìm kiếm tài liệu tham khảo chính là bước đầu tiên vôcùng quan trọng trong việc thiết kế các thí nghiệm, các đề tài, dự
án nghiên cứu
Để có thể tìm kiếm được tài liệu tham khảo hữu ích, đángtin cậy và đúng với yêu cầu của đề tài hoặc dự án, cần lựa chọnđúng cơ sở dữ liệu hoặc tài nguyên tìm kiếm
Trang 116Google là công cụ tìm kiếm mạnh, nhanh và hiệu quả!Tuy nhiên, tính chọn lọc và chất lượng thông tin không cao!
Trang 117Có rất nhiều trang web để có thể tìm kiếm tài liệu thamkhảo như:
-www.sciencedirect.com
Trang 118118www.nature.com
Trang 119119
Trang 122Tìm kiếm trình tự DNA
Giải trình tự sinh học bằng Phương pháp Sanger
122 Tìm kiếm trình tự sinh học
Trang 123-Tên tác giả giải trình tự
2.Công cụ tìm kiếm: Nucleotide, gene, DNA…
3 Lọc trình tự
123 Tìm kiếm trình tự sinh học
Trang 124Tìm kiếm trình tự sinh học qua NCBI
124
Click
Trang 125Tìm kiếm trình tự DNA
125
Trang 126Tìm kiếm trình tự qua mã số truy cập
Trang 127TÌM KIẾM TRÌNH TỰ SINH HỌC QUA MÃ SỐ TRUY CẬP
127
Trang 128Kết quả tìm trình tự DNA qua mã số truy cập
128
Trang 129Tìm kiếm trình tự qua tên gene
129
Trang 131Cách lấy trình tự theo định dang FASTA
131
Trang 132Định dạng FASTA
Nhiều phần mềm tin sinh học cần dữ liệu trình tự gene hoặc protein theo kiểu định
dạng FASTA như ví dụ minh hoạ dưới đây:
>tên trình tự
gattctcacttggtctgctgcaaggacgcggaccattaaaactgttcatggcccttgtggcgttctcgtttcctaacaatcccaccaacagcagggatactaaaaagatggggaacgatcaaaaaatcaaaagctatcaatgtcttgagagggttcaggaaagagattggaaggatgctgaacatcttgaacaggagacgcaggacagcaggcgtgattgttatgttgattccacagcgatggcgttccatttaaccacacgcaatgg
132
Trang 133Thẻ giới hạn phạm vi tìm kiếm DNA
[ALL] : Tất cả các trường tìm kiếm
[ACCN]: Mã số truy cập của trình tự - Accession number
[GI] : Số gi
[AUTH] : Tên tác giả giải trình tự- author name
[PDAT] : Ngày trình tự được chỉnh sửa hay ngày trình tự
được cập nhật (update) – publication date
[ORGN] : Sinh vật chứa trình tự đó - organism
[TITL] :Định nghĩa trình tự trong mẫu tin – title
[SLEN] :Chiều dài của trình tự - Sequence length
[GENE] : Tên gene
133
Trang 134Tìm kiếm trình tự protein
134
Trang 135Tìm kiếm trình tự qua tên sinh vật
135
Trang 136Định dạng trình tự dạng FASTA
136
Trang 138Thẻ giới hạn phạm vi tìm kiếm trình tự protein
[ALL] : Tất cả các trường tìm kiếm
[ACCN] : Mã số truy cập của trình tự - Accession number
[GI] : Số gi
[AUTH] :Tên tác giả giải trình tự- author name
[PDAT] : Ngày trình tự được chỉnh sửa hay ngày trình tự được
cập nhật (update) – publication date
[ORGN] : Sinh vật chứa trình tự đó - organism
[TITL] : Định nghĩa trình tự trong mẫu tin – title
[SLEN] : Chiều dài của trình tự - Sequence length
[PROT] : Tên protein – Protein name
[MOLWT] : Trọng lượng phân tử protein
138
Trang 140- Genbank được xây dựng và duytrì ở phòng thí nghiệm quốc giaLos Alamos (LALN).
- Năm 1990, NCBI được giao nhiệm
vụ này
Trang 141• Năm 1993 đến 1996 thực hiện quét các dữ liệu và trình
tự để đưa thông tin vào Genbank
• Hiện nay, NCBI nhận và xử lý khoảng 20.000 trình tự
trực tiếp mỗi tháng, ngoài ra có khoảng 200.000 bản đệtrình được xử lý tự động
Trang 142 Cơ sở dữ liệu trình tự Genbank là một bộ sưu tậpcông khai,bao gồm tất cả các trình tự nucleotide
và trình tự dịch mã protein của chúng
Hiện nay có xấp xỉ
126.551.501.141 base trong 135.440.924 trình tự
Trang 143Gửi trình tự lên NCBI
Trang 1442015 Informatics applycation in biology
1 4 4
ĐĂNG KÝ TRÌNH TỰ TRÊN CƠ SỞ DỮ LIỆU
BẰNG PHẦN MỀM SEQUIN
Trang 1452015 Informatics applycation in biology
1 4 5
Trang 1462015 Informatics applycation in biology
1 4 6
Trang 1472015 Informatics applycation in biology
1 4 7
Trang 148148
Trang 149 Thiết kế Primers (primers design)
Tìm kiếm bản đồ enzyme cắt giới hạn
Đoán nhận gene (predicting genes)
Xác định khung đọc mở DNA (ORF)
Vấn đề PHÂN TÍCH TRÌNH TỰ SINH HỌC
149
Trang 150Thiết kế mồi (Primer design)
Phản ứng PCR
Các vi sinh vật, động vật
Thu nhận mẫu PCR là một kỹ thuật để
khuếch đại một mẫu DNAmong muốn khuếch đại
Qui trình phản ứng PCR
150
Trang 152Thiết kế mồi (Primers design)
Mồi là những đoạn nucleotide ngắn, bắt cặp bổ sung với đầu 5' hay đầu 3' của mạch DNA khuôn mẫu Mồi được thiết kế dựa vào 2 vùng trình tự đã được biết, nằm ở hai đầu của đoạn gen cần khuếch đại.
Mồi (primers) là gì?
152
Trang 154Tính chuyên biệt
Chỉ có duy nhất một vị trí bắt cặp của primer trên khuôn DNA.
Primer càng dài thì nó càng thể hiện tính duy nhất và nhiệt độ nóng chảy, nhiệt độ bắt cặp càng cao Tuy nhiên mồi cũng không nên quá dài để dễ vào khuôn Thông thường, chiều dài của primer 17-28 base.
Thành phần (G+C) trung bình khoảng từ 50-60% sẽ cho ta nhiệt độ lai thích hợp
Trang 1551 Nhiệt độ nóng chảy:
Tm (melting temp): Nhiệt độ nóng
chảy của mồi, là nhiệt độ tại đó ½ số
DNA sợi kép tách thành sợi đơn,
thường nhiệt độ nóng chảy của mồi
thích hợp là từ 55-650C
2 Nhiệt độ bắt cặp:
Ta (annealing temp): Là nhiệt độ
của đoạn mồi bắt cặp với DNA
khuôn Có nhiều cách tính Ta:
155
Tính ổn định nhiệt độ của primers
Ta = 0.3 x Tm(mồi) + 0.7 Tm (sản phẩm) – 14.9
Ta = Tm (mồi) - 40C