Tổng quan về Tin sinh học Nội dung l Sơ lược về Sinh học phân tử SHPT l Giới thiệu về Tin sinh học l Giới thiệu các bài toán trong SHPT l Bài toán gióng cặp chuỗi l Bài toán gióng đa chu
Trang 1BÀI GIẢNG TIN SINH HỌC
GV Ngô Công Thắng
Bộ môn Công nghệ phần mềm
Website: fita.hua.edu.vn/ncthang
Mục đích môn học
l Nắm được các kiến thức cơ bản về Tin
sinh học.
l Có khả năng khai thác và sử dụng các
công cụ trực tuyến, các phần mềm hỗ trợ
trong việc phân tích và xử lý các thông tin
sinh học.
l Có khả năng xây dựng các phần mềm
đơn giản giải quyết một số bài toán Tin
sinh học
sinh học
Nội dung môn học
l 45 tiết = 20 LT + 25 TH
l Tổng quan về Tin sinh học
l Cơ sở dữ liệu sinh học và các công cụ trực
trực tuyến tuyến
l Lập trình Perl
Tài liệu học tập
l Bài giảng Tin sinh học
l Nguyễn Văn Cách, Tin sinh học, Nxb Khoa học Kỹ thuật, 2005
l Hồ Huỳnh Thùy Dương, Sinh học phân tử, Nxb Giáo dục, 2000
l Trần Linh Thước, Thực tập Bioinformatics, Đại học quốc gia Thành phố HCM, 2004.
l Nguyễn Hải Thanh, ứng dụng Tin học trong ngành Nông nghiệp, Nxb Khoa học Kỹ thuật, 2005.
l Bernard R Glick, Jack J Pasternak, Molecular Biotechnology, 1999
l Andreas D Baxevanis, BIOINFORMATICS: A Practical Guide to the Analysis of Genes and Proteins, USA, 2002.
l David W Mount, BIOINFORMATICS: Sequencer and genome analysis, Cold Spring Harbor Laboratory Press, 2002.
l Các tài liệu trên mạng Internet: Các tài liệu trên mạng Internet: www www.bioinformatics.org bioinformatics.org; ; www.bioperl.org www.bioperl.org
Trang 2Phương pháp học
l Nghe giảng trên lớp
l Nghiên cứu chuyên đề theo nhóm, báo cáo kết quả nghiên cứu trong các buổi học
l Thực hành sử dụng một số phần mềm trong Tin sinh học và lập trình bằng ngôn ngữ Perl.
Trang 3BÀI GIẢNG TIN SINH HỌC
Chương 1 Tổng quan về Tin sinh học
Nội dung
l Sơ lược về Sinh học phân tử (SHPT)
l Giới thiệu về Tin sinh học
l Giới thiệu các bài toán trong SHPT
l Bài toán gióng cặp chuỗi
l Bài toán gióng đa chuỗi
l Bài toán xây dựng cây phát sinh chủng loài
l Xây dựng chương trình
Nội dung
l Sơ lược về Sinh học phân tử (SHPT)
l Giới thiệu về Tin sinh học
l Giới thiệu các bài toán trong SHPT
l Bài toán gióng cặp chuỗi
l Bài toán gióng đa chuỗi
l Bài toán xây dựng cây phát sinh chủng loài
l Xây dựng chương trình
Sinh học phân tử
l Tế bào là đơn vị cấu tạo nên tất cả các cơ quan trong cơ thể sinh vật Mỗi tế bào là một hệ thống phức tạp, bao gồm nhiều thành phần khác nhau được bao bọc bởi một lớp màng tế bào.
l Trong tế bào có các tiểu phân tử (nucleotide, amino acid…) và đại phân tử (DNA, RNA, Protein…)
Trang 4DNA (d
DNA (deoxyribonucleic acid eoxyribonucleic acid))
l DNA được tạo thành bởi
chuỗi các nucleotide: A, C,
G và T (A
G và T (A Adenine, C Adenine, C
Cytosine, G
Cytosine, G Guanin, T Guanin, T
Thymine).
l DNA tồn tại ở dạng xoắn
kép (double
kép (double helix), bao helix), bao
gồm hai chuỗi nucleotide
đơn Dạng xoắn kép được
tạo thành bởi liên kết giữa
các cặp A
các cặp A T, G T, G C C.
T-T-G-A-C-T-A-T-C-C-A-G-A-T-C A-A-C-T-G-A-T-A-G-G-T-C-T-A-G
RNA (ribonucleic acid)
l RNA cũng được tạo thành bởi các
nucleotide, nhưng khác với DNA, T
(Thymine) được thay bởi U (Uracil) RNA
không tồn tại ở dạng xoắn kép.
l RNA có nhiều chức năng trong tế bào,
như mRNA và tRNA là các kiểu chức
năng khác nhau của RNA, cần thiết trong
sự tổng hợp protein.
Protein
l Protein được tạo thành từ một hay nhiều dãy amino acid theo một thứ tự đặc biệt
Có 20 loại amino acid Một số loại protein chính là:
l Protein cấu trúc (structural protein): góp phần tạo nên cấu trúc của cơ thể
l Enzyme: là chất xúc tác cho các phản ứng hoá sinh trong cơ thể.
l Protein màng (transmembrane protein): là chìa khóa của sự duy trì môi trường tế bào, điều hòa dung tích tế bào.
Protein
l Một chuỗi protein thực chất là một chuỗi amino acid nối kết với nhau thành một mạch dài nhờ các liên kết peptit Hình dáng thực tế của protein phụ thuộc vào trình tự các amino acid trong nó.
Trang 5Biểu diễn dữ liệu sinh học phân tử
trên máy tính
l Một dây DNA (trong chuỗi xoắn kép) là chuỗi ký tự
được tạo thành bởi các ký tự A
được tạo thành bởi các ký tự A T T G G C, RNA là C, RNA là
chuỗi ký tự được tạo thành từ các ký tự A
chuỗi ký tự được tạo thành từ các ký tự A U U G G C, C,
còn protein là chuỗi ký tự được tạo thành bởi 20 ký
tự biểu diễn 20 loại amino acid.
l Với việc biểu diễn như trên, việc xử lý các chuỗi
sinh học được đưa về bài toán xử lý xâu ký tự.
Ví d DNA:
CCTTCATTGACCTCAACTACATGGTCTACATGTTCCAGTATGATTCCACCGC
Ví d protein:
MDPELAKCLFFEGATVVILNMPKGTEFGIDYNSWEVGPKFRGVKMIPPGIHFLH
Bảng mã DNA, RNA và protein
B∀ng mã 1 và 3 ký t∃ dùng cho protein B∀ng mã 1 ký t∃ dùng cho DNA/RNA
Nội dung
l Sơ lược về Sinh học phân tử (SHPT)
l Gi i thi u v Tin sinh h c
l Giới thiệu các bài toán trong SHPT
l Bài toán gióng cặp chuỗi
l Bài toán gióng đa chuỗi
l Bài toán xây dựng cây phát sinh chủng loài
l Xây dựng chương trình
Tin sinh học (Bioinformatics)
l Bio Bio: Molecular Biology : Molecular Biology
l Informatics Informatics: Computer Science : Computer Science
l Bioinformatics Bioinformatics: Giải quyết các bài toán : Giải quyết các bài toán sinh học bằng các phương pháp của tin học.
l Các tên gọi khác Các tên gọi khác: Computational biology, : Computational biology, Computational molecular biology,
Biocomputing.
Trang 6Tin sinh học (tiếp)
l Tin sinh học (bioinformatics) là khoa học ứng
dụng, sử dụng các phương pháp của khoa học
máy tính và công nghệ thông tin trong việc quản
lý, phân tích các dữ liệu sinh học.
l Tin sinh học là một giao ngành giữa hai ngành
tin học và sinh học với mục đích khám phá
những thông tin còn ẩn giấu sau khối lượng dữ
liệu sinh học khổng lồ mà các nhà sinh học đã
thu thập được, tiến tới hiểu rõ hơn các quy luật
vận động của cơ thể sống.
Nội dung
l Sơ lược về Sinh học phân tử (SHPT)
l Giới thiệu về Tin sinh học
l Giới thiệu các bài toán trong SHPT
l Bài toán gióng cặp chuỗi
l Bài toán gióng đa chuỗi
l Bài toán xây dựng cây phát sinh chủng loài
l Xây dựng chương trình
Các bài toán trong tin sinh học
l Lớp bài toán phân tích trình tự: bài toán khớp chuỗi hay gióng chuỗi (sequence alignment), tìm kiếm trình tự trong cơ sở dữ liệu (sequence database searching)…
l Lớp bài toán phân tích cấu trúc: bài toán so sánh cấu trúc protein (protein structure comparison), phân lớp cấu trúc protein (protein structure classification), dự đoán cấu trúc protein (protein structure prediction)…
l Lớp bài toán phân tích chức năng: dự đoán vị trí protein trong tế bào (protein subcellular
localization prediction), dự đoán tương tác protein (protein interaction prediction), dự đoán chức năng protein…
Một số nguồn CSDL tin sinh học
trên Internet
l EMBL (European Molecular Biology Laboratory): Đây
là nguồn cơ sở dữ liệu chuỗi nucleotide đặt tại Viện sinh học Châu Âu, Hinxton, Anh.
Website: http://www.ebi.ac.uk/embl/
l GenBank GenBank: Đây là nguồn CSDL chuỗi đặt tại : Đây là nguồn CSDL chuỗi đặt tại National Center for Biotechnology information (NCBI), Bethesda, Mỹ.
Website: http://www.ncbi.nlm.nih.gov/Genbank
Trang 7ột số nguồn CSDL tin sinh học
Một số nguồn CSDL tin sinh học
trên Internet
l DDBJ DDBJ (DNA Data Bank of Japan): Đây là (DNA Data Bank of Japan): Đây là
ngân hàng chuỗi DNA đặt tại CIB,
Mishima, Nhật Bản.
Website: http://www.ddbj.nig.ac.jp
l UniRef UniRef (UniProt Non (UniProt Non redundant redundant
REFerence): Đặt tại EBI, Anh Website:
http://www.ebi.ac.uk/uniref/index.html
l SWISS SWISS PROT PROT: Đặt tại Viện tin sinh học : Đặt tại Viện tin sinh học
Thụy sỹ Website: http://us.expasy.org
Một số dạng file dữ liệu chuỗi sinh học
l D ng ALN ClustalW Dạng ALN ClustalW: Dạng ALN có nguồn gốc từ chương : Dạng ALN có nguồn gốc từ chương
trình khớp chuỗi ClustalW File dữ liệu bắt đầu với từ
“CLUSTAL”, sau đó là các thông tin về kiểu chương trình
clustal đã tạo ra file dữ liệu này Tiếp theo là các chuỗi đa
khớp, được tổ chức theo các khối 60 ký tự Mỗi khối có thể
có nhiều dòng, bắt đầu mỗi dòng là tên chuỗi, tiếp theo là
các ký tự của chuỗi và cuối dòng là tổng số ký tự của chuỗi
tính đến cuối dòng đó.
Một số dạng file dữ liệu chuỗi sinh học
l Dạng FASTA Dạng FASTA: Các file chuỗi định dạng theo : Các file chuỗi định dạng theo FASTA có thể chứa nhiều chuỗi khác nhau Cấu trúc file fasta như sau:
l Mỗi chuỗi bắt đầu bằng một dòng tiêu đề, theo sau là các dòng dữ liệu của chuỗi Dòng tiêu đề bắt đầu bằng một dấu lớn hơn (“>”), sau đó đến tên của chuỗi và các thông tin về chuỗi.
l Các dòng trống và các khoảng trống hay các ký tự gap trong tệp FASTA được bỏ qua
Một số dạng file dữ liệu chuỗi sinh học
l GenBank GenBank: Một file dữ liệu chuỗi GenBank có thể : Một file dữ liệu chuỗi GenBank có thể chứa một hay nhiều chuỗi Mỗi chuỗi trong file dữ liệu dạng này gồm có nhiều dòng có kiểu khác nhau Các dòng chứa ký tự của chuỗi nằm giữa dòng chứa từ “ORIGIN” và dòng chứa hai dấu gạch chéo //.
Trang 8Nội dung
l Sơ lược về Sinh học phân tử (SHPT)
l Giới thiệu về Tin sinh học
l Giới thiệu các bài toán trong SHPT
l Bài toán gióng c p chu i
l Bài toán gióng đa chuỗi
l Bài toán xây dựng cây phát sinh chủng loài
l Xây dựng chương trình
Bài toán gióng cặp chuỗi
l Cho hai chuỗi sinh học S1, S2 Gióng cặp chuỗi
này được thực hiện bằng cách chèn thêm vào
hai chuỗi S1 và S2 các dấu cách (ký hiệu là
hai chuỗi S1 và S2 các dấu cách (ký hiệu là− −) tại ) tại
các vị trí bất kỳ với số lượng không hạn chế để
tạo ra hai chuỗi S1’, S2’ tương ứng, sau đó đặt
một chuỗi trên chuỗi kia sao cho mỗi ký tự của
chuỗi này gióng thẳng với một ký tự của chuỗi
kia và cặp ký tự gióng không đồng thời là dấu
cách.
l Chuỗi sinh học ban đầu không có dấu cách và
nếu loại bỏ dấu khỏi khỏi S1’ và S2’ ta sẽ có S1
và S2 ban đầu.
Bài toán gióng cặp chuỗi
l Mỗi phương án gióng cặp chuỗi sẽ được cho điểm dựa vào mức độ giống nhau giữa hai chuỗi đã được gióng.
l Phương pháp cho điểm tuyến tính (linear additive scoring scheme): Mỗi một cặp ký tự giống nhau được tính 2 điểm, cặp không giống nhau tính 0 điểm, còn cặp
có ít nhất một ký tự là dấu cách sẽ được
có ít nhất một ký tự là dấu cách sẽ được 1 điểm Cộng 1 điểm Cộng dồn điểm của tất cả các cặp ký tự của hai chuỗi sẽ được điểm cho phương án gióng chuỗi.
l Phương án gióng cặp chuỗi cho điểm cao là phương án tốt Phương án tối ưu là phương án mà không còn phương án nào khác có điểm cao hơn Điểm số cho phương án tối ưu này được gọi là mức độ tương đồng giữa hai chuỗi (similarity).
Một số phương pháp gióng cặp chuỗi
l Phương pháp sử dụng ma trận điểm (dot matrix)
l Phương pháp quy hoạch động
l Phương pháp BLAST
Trang 9Phương pháp sử dụng ma trận điểm
Giải thuật gióng cặp chuỗi Needleman
Giải thuật gióng cặp chuỗi Needleman Wunsch Wunsch
l Giải thuật Needleman Giải thuật Needleman Wunsch là giải thuật Wunsch là giải thuật
gióng cặp chuỗi toàn bộ dựa trên quy hoạch
động để tính điểm cho quá trình gióng chuỗi.
l Để tính điểm cho các cặp ký tự khi gióng chuỗi
theo giải thuật Needleman
theo giải thuật Needleman Wunsch người ta Wunsch người ta
dùng ma trận thay thế, đối với các chuỗi protein
người hay dùng ma trận thay thế PAM250 hoặc
BLOSUM62.
l Phương pháp quy hoạch động đảm bảo về mặt
toán học sẽ tìm được phương án gióng cặp
chuỗi tối ưu ứng với một cơ chế tính điểm cụ
thể Tuy nhiên phương pháp này có số bước
tính toán lớn, khoảng bình phương chiều dài
chuỗi.
Giải thuật gióng cặp chuỗi Needleman Giải thuật gióng cặp chuỗi Needleman Wunsch Wunsch
l Giải thuật Needleman Giải thuật Needleman Wunsch gồm 3 Wunsch gồm 3 bước:
l B1: Khởi tạo ma trận đánh giá từ hai chuỗi chuỗi.
l B2: Tính toán, điền giá trị cho ma trận đánh giá.
l B3: Sử dụng kỹ thuật quay lui để tìm ra kết quả.
Bước khởi tạo của giải thuật Needleman Bước khởi tạo của giải thuật Needleman Wunsch Wunsch
S(0,0) = 0
S(3,0) = 0
Trang 10Khôi phục lại đường đi trong giải thuật
Needleman Needleman Wunsch Wunsch
Giải thuật gióng cặp chuỗi Smith
Giải thuật gióng cặp chuỗi Smith Waterman Waterman
l Giải thuật Smith Giải thuật Smith Waterman là giải thuật gióng Waterman là giải thuật gióng
cặp chuỗi cục bộ dựa trên quy hoạch động để
tính điểm cho quá trình gióng chuỗi.
l Giải thuật này giúp nhận ra những miền tương
đồng giữa hai chuỗi tìm kiếm cho gióng chuỗi
cục bộ tối ưu hơn Giải thuật xây dựng trên ý
tưởng so sánh tìm ra những đoạn hay những
miền của hai chuỗi mà có độ tương đồng cao
nhất, để từ đó đánh giá mức độ tương đồng
giữa hai chuỗi.
Giải thuật gióng cặp chuỗi Smith Giải thuật gióng cặp chuỗi Smith Waterman Waterman
l Quá trình gióng chuỗi được thực hiện bởi việc gióng chuỗi từng cặp trong 2 chuỗi.
l Khi đó điểm cho gióng chuỗi từng cặp ký
tự phụ thuộc vào: hai ký tự là giống nhau (matches), hai ký tự không giống nhau (mismatches) và điểm cho việc thêm/bớt khoảng trống (gap penalty) Kết quả của gióng cặp cục bộ là tìm ra được những đoạn trong 2 chuỗi có độ tương đồng cao nhất.
Nội dung
l Sơ lược về Sinh học phân tử (SHPT)
l Giới thiệu về Tin sinh học
l Giới thiệu các bài toán trong SHPT
l Bài toán gióng cặp chuỗi
l Bài toán gióng a chu i
l Bài toán xây dựng cây phát sinh chủng loài
l Xây dựng chương trình
Trang 11Bài toán gióng đa chuỗi
l Gióng đa chuỗi (Multiple Sequence Alignment,
MSA) là phương pháp so sánh nhiều chuỗi,
được thực hiện bằng cách chèn thêm các dấu
cách vào các chuỗi để thu được các chuỗi có
cùng chiều dài sao cho khi gióng theo từng cột
thì mỗi ký tự trong một chuỗi gióng thẳng với
một ký tự hoặc dấu cách trong các chuỗi khác
và không có cột nào có toàn dấu cách Một
phương án gióng đa chuỗi được gọi là tối ưu
nếu có số ký tự giống nhau hoặc tương tự nhau
trên từng cột ký tự là lớn nhất.
l Bài toán gióng đa chuỗi là bài toán đi tìm
phương án gióng tối ưu cho nhiều chuỗi.
Bài toán gióng đa chuỗi
l Ví dụ: Giả sử có 5 chuỗi S1 = AAGAAA,
S2 = ATAATG, S3 = CTGGG, S4 =
CCAGTT và S5 = CCGG Khi đó, một
phương án gióng 5 chuỗi này như sau:
Ý nghĩa của bài toán gióng đa chuỗi
l Bài toán gióng đa chuỗi có ý nghĩa rất to lớn trong Tin sinh học Giả sử có một tập hợp gồm nhiều chuỗi đại diện cho những loài sinh vật, nhìn vào tập hợp loài nào đó có thể đặt câu hỏi liệu tổ tiên của chúng có quan hệ với nhau không? Giữa chúng có mối quan hệ gì? Để trả lời những câu hỏi đó ta phải xét đến quá trình tiến hoá của những loài vật.
l Mặt khác kết quả gióng đa chuỗi cho phép ta xây dựng được cây phát sinh chủng loài, xây dựng cây tiến hoá, từ đó đánh giá được mối quan hệ giữa các loài.
Một số giải thuật giải bài toán gióng đa chuỗi
l Giải thuật Quy hoạch động
l Giải thuật Heristics Star Alignment
l Giải thuật Clustalw
Trang 12Giải thuật Quy hoạch động cho bài toán
gióng đa chuỗi
l Ví dụ có 3 chuỗi S1, S2, S3 Khi đó có thể tính điểm khi
gióng chuỗi tại vị trí i,j,k của 3 chuỗi S1, S2, S3 bằng
cách xây dựng một khối lập phương trong không gian ba
chiều với mỗi trục là một chuỗi Quá trình gióng chuỗi
toàn bộ xảy ra từ “nguồn” và “đích” như hình dưới đây:
Nguồn
Đích
Giải thuật Heristics Star Alignment
l Heristics Star Alignment (HSA) là giải
thuật dựa trên ý tưởng tính toán tất cả
những cặp pairwise alignment rồi từ đó
tìm ra một chuỗi trung tâm (center of star),
chuỗi này có mức độ tương đồng cao nhất
so với các chuỗi còn lại Sau khi tìm được
chuỗi trung tâm, thực hiện gióng cặp dần
dần và kết hợp chúng lại ta thu được
gióng đa chuỗi.
Giải thuật Clustalw
l Giải thuật clustalw là phương pháp cải tiến cho gióng đa chuỗi Phương pháp này đang được
sử dụng rộng rãi cho gióng đa chuỗi và xây dựng cây phát sinh loài (Phylogennetic tree) bởi
vì phương pháp này giải quyết về độ phức tạp tính toán mà những phương pháp khác chưa giải quyết được, đồng thời giải quyết được bài toán gióng đa chuỗi
toán gióng đa chuỗi – – xây dựng cây phát sinh xây dựng cây phát sinh loài và đánh giá được mức độ tương đồng giữa các chuỗi.
l Phương pháp này xây dựng gióng đa chuỗi bắt đầu với việc xác định một gióng cặp có mối quan hệ tương đồng lớn nhất Sau đó xây dựng gióng đa chuỗi tương tự như HSA
Các bước của giải thuật Clustalw
l Bước 1: Thực hiện gióng cặp chuỗi giữa tất cả các chuỗi
và xác định mức độ tương đồng giữa mỗi cặp Từ đó xây dựng ma trận khoảng cách “distance” tương đồng giữa các chuỗi.
l Bước 2: Từ ma trận khoảng cách xây dựng cây chỉ dẫn (guide tree) thể hiện mối quan hệ tương đồng giữa các chuỗi Sử dụng phương thức neighbor
chuỗi Sử dụng phương thức neighbor– –joining (quan hệ joining (quan hệ hàng xóm).
l Bước 3: Xây dựng gióng đa chuỗi (MSA) Căn cứ vào cây chỉ dẫn (guide tree) thu được trong bước 2 ta xác định được những nhánh có cặp chuỗi tương đồng lớn nhất để thực hiện gióng cặp, sau đó kết hợp những gióng cặp đó lại (tương tự giải thuật HSA) ta thu được kết quả gióng đa chuỗi.