Bài giảng Tin sinh học: Chương 1 - ThS. Nguyễn Thành Luân
Trang 1• Trình độ: Cho sinh viên năm thứ 3 đại học
• Phân bố thời gian: 30 tiết
─ Lý thuyết: 12 tiết
─ Tiểu luận, bài kiểm tra tại lớp: 4 tiết
─ Thực hành, thí nghiệm: 14 tiết
─ Tự học : 60 tiết
Trang 22
Nội dung học phần
1 Chương 1: Giới thiệu chung về tin sinh học
2 Chương 2: Cơ sở dữ liệu tin sinh học (Bioinformatic
5 Chương 5.Giải mã trình tự toàn bộ bộ gen
6 Chương 6 Ứng dụng các tiện ích của tin sinh học trong
nghiên cứu khoa học
7 Thực hành thao tác trong tin sinh học
8 Báo cáo tiểu luận
Mục tiêu môn học tin sinh học
• Mục tiêu chính:
Khám phá những lĩnh vực mới trong sinh học
Mở ra triển vọng có tính chất toàn cầu về NC
Thống nhất hóa các nguyên tắc, thành tựu của
khoa học trong sinh học
Số hóa các cơ sở dữ liệu (database) cũng như xây
dựng cách quản lý CNSH bằng tin học
Xây dựng và phát triển các chương trình ứng
dụng trong CNSH nhằm giải quyết vấn đề trong
nghiên cứu VD: cây phát sinh loài, đột biến gen…
Trang 33
Mục tiêu của môn học
Sau khi học xong học phần này, sinh viên có
khả năng:
─ Trình bày các nguyên tắc cơ bản trong phân
tích DNA, phân tích Protein, thiết kế các mồi
oligonucleotide,…
─ Tìm kiếm các bài báo, công trình nghiên
cứu & tìm kiếm các trình tự DNA, Protein
─ Xử lý và Phân tích DNA, Protein & thiết kế
các oligomer lai phân tử, các primer để khuyếch
đại DNA
─ Tìm kiếm các bản đồ của các RE trên DNA
& đăng ký trình tự gene vào ngân hàng gene thế
giới
Tiêu chí đánh giá môn học
• Bài tập lớn (Tiểu luận): 30%
Trang 44
Tài liệu tham khảo
• Tiếng Việt
Nguyễn Thị Lang, Bùi Chí Bửu (2008) ‘Giáo trình Tin
sinh học–Bioinformatics’, Nhà xuất bản nông nghiệp, TP Hồ
Baxevanis, A.D and Ouellette, B.F.F (2005)
Bioinformatics: A Practical Guide to the Analysis of Genes
and Proteins, 3 rd edition Wiley New York
Waterman, M.S (1995) Introduction to Computational
Biology: Sequences, Maps and Genomes CRC Press
Mount, D.W (2002) Bioinformatics: Sequence and
Genome, Cold Spring Harbour Press, New York
Yêu cầu chung cho môn học
Tự chia nhóm và nộp cho lớp trưởng tổng
hợp (<=5 người/nhóm) Ai không có
nhóm = không có điểm báo cáo tiểu
luận (Nộp DS vào tuần 2)
Mỗi nhóm tự trang bị ít nhất 1 laptop +
USB 3G kết nối mạng + 1 USB
Kiểm tra thông qua các bài báo cáo cá
nhân sau mỗi buổi học (lý thuyết hoặc
thực hành)
Trang 5Lịch sử & khái niệm tin sinh học
Vì sao phải cần nghiên cứu tin sinh học?
Các lĩnh vực nghiên cứu ứng dụng của
Trang 66
Lịch sử Tin sinh học
• Khởi nguồn từ nhu cầu
cơ bản trong việc tìm
kiếm cũng như nâng cao
các phương pháp tìm
kiếm trong máy tính về
di truyền học
• Làm hữu ích hơn cho sự
tiến bộ của di truyền học
và các kỹ thuật di truyền
cũng như sinh học phân
tử
Lịch sử Tin sinh học
• Sau sự phát kiến cấu trúc phân tử DNA của
Watson-Crick (1953) ngày càng nhiều
nhu cầu quản lý dữ liệu sinh học & CNSH
ở các công ty & các nhà khoa học về
SHPT
• Chuyển hướng nghiên cứu từ in vitro in
vivo in situ in silico Hình thành
ngành tin sinh học
Trang 7Tin sinh học giống như ngành học được biết
đến từ thập niên 1960 trước khi được công
bố tên gọi
Năm 1965, được gọi tên là “sự tiến hóa
phân tử” (molecular evolution)
Ứng dụng đầu tiên là chương trình so sánh
trình tự xác định trình tự gốc của virus cảm
cúm
Thuật ngữ Tin sinh học lần đầu tiên được
công nhận toàn thế giới vào năm 1991
Trang 88
Lịch sử phát triển Tin sinh học
•1994-2004: Số lượng gia tăng đột biến do việc khám phá kỹ thuật PCR
•2000-2008: gia tăng do việc khởi đầu dự án giải mã toàn bộ bộ gen các loài
và người
Trang 99
Lịch sử phát triển của Tin sinh học
Trang 1010
TIN SINH HỌC LÀ GÌ??
TIN SINH HỌC LÀ GÌ??
Trang 1111
Khái niệm tin sinh học
Tin sinh học (bioinformatics) là môn học được
cơ bản hợp nhất hóa từ tổ hợp các môn sinh
học, khoa học máy tính và các kỹ thuật trong
công nghệ thông tin
Theo Frank Tekaia, “Tin sinh học là những
phương pháp dựa trên các thuật toán, thống kê
và máy tính để hướng đến việc giải quyết các
vấn đề sinh học sử dụng các chuỗi DNA và
amino acid cùng những thông tin liên quan
đến sinh học”
Bioinformatics là gì?
22
Trang 1212
What is Bioinformatics
Tin sinh học là gì?
Khái niệm tin sinh học
Là phương pháp xác định:
Khả năng phân biệt giữa trình tự của gen
này và trình tự của những gen khác
So sánh các trình tự giữa các loài có
quan hệ huyết thống nhờ các dữ liệu có
sẵn
Tìm kiếm các hợp phần của gen thông
qua các cơ sở dữ liệu trên thế giới
Trang 1313
Tin sinh học là 1 dạng bảng chữ cái sinh
học phân tử (molecular alphabet)
Hầu hết các đại phân tử sinh học là polymer, được sắp xếp thứ
tự từ những phân tử đơn giản hơn được gọi là monomer
Tin sinh học là 1 dạng sắp xếp nhiều chữ cái thành 1 từ có
nghĩa
Nhu cầu tìm hiểu sự khác nhau
giữa các loài có chung nguồn gốc
Trang 1414
Sắp xếp các trình tự và giải
mã trình tự cần biết thông qua các website và phần mềm tin học
VÌ SAO PHẢI NGHIÊN CỨU
TIN SINH HỌC?
Trang 1515
VÌ SAO PHẢI NGHIÊN CỨU
TIN SINH HỌC?
“Tôi mơ ước rằng một ngày nào đó trên mỗi bàn giấy ở
mọi nơi trên thế giới đều có một máy vi tính cá nhân (PC)”
Tin sinh học là xu hướng tất
yếu của sự phát triển CNSH
“The two technologies that will shape the next century
are biotechnology and information technology”
– Bill Gates –
“The two technologies that will have the greatest
impact on each other in the new millennium are
biotechnology and information technology”
– Martina McGloughlin -
Trang 1616
Vai trò ngày càng lớn của CNTT
Nguồn: ABC News, Australia 2010
Tầm quan trọng của tin sinh
học trong nghiên cứu khoa học
Khởi đầu sự nghiên cứu tiến hóa hay
nghiên cứu trong hệ genome
Duy trì và lưu giữ các dữ kiện và số liệu
thông tin trong công nghệ genome bao
gồm thông tin về trình tự DNA, protein
của tất cả sinh vật trên thế giới
Là công cụ giúp cho phân tích và tập hợp
thống nhất các số liệu về sinh học
Trang 1818
Internet
Cơ sở dữ liệu sinh học NCBI
120 quốc gia
Anh đã giải mã 30% bản đồ gene
Mỹ, Pháp, Đức, Nhật Bản, Trung Quốc Các vi sinh vật khác: vi khuẩn, Virus…
Tin sinh học xây dựng, bổ sung, tổ chức quản lý khai khác
cơ sở dữ liệu (database - cơ sở dữ liệu) đa dạng, toàn diện
trên quy mô toàn cầu về công nghệ sinh học
Chuyển trình
tự Gene
Primary public domain
bioinformatics servers
Trang 1919
Các lĩnh vực nghiên cứu ứng
dụng Tin sinh học
Các lĩnh vực nghiên cứu ứng
dụng của tin sinh học
Nghiên cứu chuỗi trình tự DNA và protein
Bộ gene người, động vật, thực vật, côn trùng,
VSV
Sự tiến hóa sinh học
Đa dạng sinh học di truyền
Chức năng của gene & protein
So sánh các gene & protein
Dự đoán cấu trúc protein
Phân tích kết quả thí nghiệm
Bệnh di truyền
Định danh loài
Trang 2020
Các ứng dụng của Tin sinh học
BẮT ĐẦU THÍ NGHIỆM
PHẦN MỀM
XÁC ĐỊNH LẠI
TỐI ƢU HÓA
THÔNG SỐ MÁY TÍNH
TIẾN HÀNH THÍ NGHIỆM
TỪ CÁC THÔNG
SỐ NÀY
TEA-BREAK
Trang 2121
Sinh học máy tính
(Computational Biology)
Ngành học của việc ứng dụng các kỹ
thuật tin học cho sinh học cổ điển
Chủ yếu tập trung vào các quá trình tiến
hóa, mật độ phân bố và nguyên lý sinh
họchơn là cấp độ tế bào và sinh học phân
tử
Thuật ngữ có thể dùng thay thế cho
thuật ngữ Tin sinh học
PHÂN TÍCH CƠ SỞ DỮ
LIỆU
42
Phần mềm sinh học
1 Sản phẩm nghiên cứu từ nông nghiệp
2 Sản phẩm nghiên cứu từ thực phẩm
3 Sản phẩm từ môi trường vv…
Các kỹ thuật sinh học khi làm thí nghiệm
Trang 2222
Tin y học (Medical Informatics)
Ngành học và ứng
dụng của các kỹ thuật
tin học để cải thiện các
y học dữ liệu giao tiếp,
hiểu sâu và quản lý dữ
Trang 2323
(Genomics)
Phân tích và so sánh toàn bộ genome của 1 loài hoặc nhiều
loài với nhau
1 genome là 1 bộ của tất cả các gen có trong 1 cơ thể
Kỹ thuật gen đã tồn tại trước khi bất kỳ bộ gen nào được
sắp xếp hoàn toàn nhưng trong 1 thời kỳ hoang sơ, nguyên
thủy
Genomics là môn học nghiên cứu đánh giá các
chức năng và phương pháp phân lập so sánh giữa
các genome Phương pháp nghiên cứu thường dựa
vào khảo sát các đột biến nhằm định danh các bộ,
họ, loài
Trang 2424
Các lĩnh vực chính trong
genomics
Structural genomics (Gen cấu trúc)
Functional genomics (Gen chức năng)
Comparative genomics (Gen so sánh)
Genomics hiện đang là tâm điểm của
sinh học
Gen cấu trúc
Tìm hiểu thành phần & cấu trúc bộ gen
Bản đồ di truyền (linking map)
Không có độ phân giải cao
Không thực sự chính xác khi so sánh
Bản đồ vật lý (physical map)
Dựa trên sự phân tích trực tiếp DNA và khoảng
cách giữ các gen theo base (bp), Kilobase (Kb) và
Megabase (Mb)
Giúp cung cấp thông tin về vị trí các gen, DNA
marker và sự phân mảnh NST
Trang 2525
Gen chức năng
(Functional genomics)
• Mục tiêu chỉ định, nhận diện tổ chức
gene và nhận ra chức năng của chúng
– Dự đoán chức năng gen từ trình tự
– Dò tìm chức năng theo hướng đồng dạng
– Dò tìm chức năng dựa trên so sánh vùng
• Gene học chức năng (functional genomics) có
thể được định nghĩa nôm na như việc dùng tri
thức tiêu biểu về hệ gene để tìm hiểu về gene, về
các chức năng sản xuất và sự tương tác của
chúng, và quan trọng hơn là vì sao điều này làm
cho các sinh vật hoạt động
Gene functions (Chức năng gene)
Protein abundance in a cell
(Sự dư thừa protein trong tế bào)
Gene regulation and networks
(Điều khiển gene và mạng gene)
Trang 2626
Gene chức năng
– Dường như có một hệ hạn chế các genes (a limited universe of
genes) và proteins tương ứng của chúng Từ quan điểm chức năng,
rất nhiều trong chúng có trong phần lớn hoặc toàn bộ hệ các genes
– Sự dƣ thừa protein (protein abundance) có thể phụ thuộc vào
nhiều yếu tố như liệu gene tương ứng có được biểu hiện (expressed)
(i.e., được sao chép tích cực) hay không, được thể hiện nhanh và
mạnh thế nào, được nối ghép, dịch chuyển, và thay đổi nhanh thế
nào, v.v…
– Thể hiện gene (gene expression) là quá trình qua đó thông tin mã
hóa trong một gene được truyền vào cấu trúc đang có trong tế bào và
điều khiển tế bào (hoặc proteins hoặc RNAs)
– Một câu hỏi quan trọng và lý thú khác trong sinh học là sự biểu hiện
gene được “bật” và “tắt” thế nào, tức là các genes được điều chỉnh
Trang 2727
Tin sinh học trong so sánh trình tự
(Sequence Alignment)
• Là ngành học nghiên cứu các phương pháp
so sánh chuỗi trình tự protein hay DNA với
chuỗi trình tự khác nhằm tìm ra:
– Sự tương đồng giữa 2 chuỗi
– So sánh 1 gen và sản phẩm của nó
– Tìm ra cầu nối disulfide hay các vị trí xúc tác
– Tìm primer hay các đoạn gen đột biến trên gene
– Tìm ra các đoạn lặp lại trên chuỗi trình tự
Tin sinh học trong nghiên cứu các quan
hệ tiến hóa (Phylogenetic analysis)
Trang 2828
Các công cụ, kỹ năng cần
thiết cho tin sinh học
Là một lĩnh vực khá đặc biệt trong công nghệ
sinh học và sinh học hiện đại, Tin-Sinh học
cũng cần có những công cụ riêng phục vụ
cho nhu cầu và sự phát triển của nó Những
công cụ cơ bản có thể bao gồm:
Máy tính (Computer) và hệ thống máy tính
Các thuật toán (Algorithms)
Các công cụ (tools) và phần mềm (software)
Internet
Thông tin Tin sinh học trên Internet
Hầu hết các thông tin CSDL của Tin sinh
học cũng giống như khoa học máy tính
đều phải thông qua Internet
– Các cơ sở DL trực tuyến:
– NCBI (The National Centre for
Biotechnology Information)
– EMBL (European Bioinformatics Institute)
– TIGR (The Institute for Genomic
Research)…
• Các dự án về giải mã bộ gene người
(Human genome project-HGP)
Trang 2929
trên thế giới
• Là những nơi chứa 1 lượng lớn các thông
tin về sinh học như các báo cáo khoa học,
cấu trúc chuỗi DNA, genome, protein,
– CIB –DDBJ (DNA Data Bank of Japan)
– TIGR (The Institute for Genomic Research)
– ExPASy (Expert Protein Analysis System)
Ngân hàng dữ liệu protein quốc tế
• Nơi cung cấp các kết quả nghiên cứu
protein và các dữ liệu cấu trúc sinh học
phân tử gồm 4 phòng nghiên cứu lớn
– PDP-RCSB (Mỹ) www.rcsb.org/pdb
– EMBL-EBI (Châu Âu) www.ebi.ac.uk/msd
– PDBj (Nhật Bản) www.PDBj.org
– BMRB (Mỹ) www.bmrb.wisc.edu
Trang 3030
KẾT LUẬN
• Tin sinh học cơ bản là nơi tìm kiếm các
kỹ thuật và phương pháp di truyền và sinh
học phân tử mà trong đó máy tính có thể
hữu ích cho các phương pháp di truyền kỹ
thuật cao
• Các ứng dụng của tin sinh học trong
nghiên cứu khoa học và thực tiễn
• Các ngân hàng dữ liệu trên thế giới
Challenges in Bioinformatics
• Tin sinh học đòi hỏi:
– Truy nhập vào được nhiều nguồn phân tán (Access
to multiple distributed resources)
– Cần thông tin được cập nhật (Needs information to
– Monolithic App vs Components
– Các phần mềm chuyển tải được (Portable software)
Trang 3131
Challenges in Bioinformatics
Bùng nổ thông tin
• Cần phân tích được nhanh, tự động để xử lý được
lượng thông tin lớn
• Cần tích hợp được nhiều kiểu thông tin khác nhau
(sequences, literature, annotations, protein levels,
RNA levels etc…)
• Cần các phần mềm “thông minh hơn” để nhận biết
được các quan hệ quan trọng trong các tập dữ liệu rất
lớn
Thiếu các “nhà tin sinh học” (“bioinformaticians”)
• Phần mềm cần dễ truy nhập, dễ dùng và dễ hiểu hơn
• Nhà sinh học cần học phần mềm, thấy hạn chế của
chúng, và cách giải thích kết quả của chúng
Con đường tin sinh học
“It’s not the strongest, nor the most
intelligent, but the species most
adaptable to change has the best
chance of survival”
- Darwin -
Trang 3232
KIẾN THỨC CẦN NHỚ
Các định nghĩa về tin sinh học, các ứng
dụng tin sinh học trong CNSH
Lịch sử tin sinh học bắt nguồn từ khi nào?
Thế nào là hệ gen học (genomics)? Các hệ
gen học cơ bản trong nghiên cứu?
Các công cụ và kỹ năng cần thiết cho tin
sinh học?
Nêu các lĩnh vực ứng dụng của tin sinh
học?
KẾT THÚC CHƯƠNG I
Trang 3333
TEA-BREAK