1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Bài giảng tin sinh học

14 552 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 708,6 KB

Nội dung

Tổng quan về Tin sinh học Nội dung l Sơ lược về Sinh học phân tử SHPT l Giới thiệu về Tin sinh học l Giới thiệu các bài toán trong SHPT l Bài toán gióng cặp chuỗi l Bài toán gióng đa chu

Trang 1

BÀI GIẢNG TIN SINH HỌC

GV Ngô Công Thắng

Bộ môn Công nghệ phần mềm

Website: fita.hua.edu.vn/ncthang

Mục đích môn học

l Nắm được các kiến thức cơ bản về Tin

sinh học.

l Có khả năng khai thác và sử dụng các

công cụ trực tuyến, các phần mềm hỗ trợ

trong việc phân tích và xử lý các thông tin

sinh học.

l Có khả năng xây dựng các phần mềm

đơn giản giải quyết một số bài toán Tin

sinh học

sinh học

Nội dung môn học

l 45 tiết = 20 LT + 25 TH

l Tổng quan về Tin sinh học

l Cơ sở dữ liệu sinh học và các công cụ trực

trực tuyến tuyến

l Lập trình Perl

Tài liệu học tập

l Bài giảng Tin sinh học

l Nguyễn Văn Cách, Tin sinh học, Nxb Khoa học Kỹ thuật, 2005

l Hồ Huỳnh Thùy Dương, Sinh học phân tử, Nxb Giáo dục, 2000

l Trần Linh Thước, Thực tập Bioinformatics, Đại học quốc gia Thành phố HCM, 2004.

l Nguyễn Hải Thanh, ứng dụng Tin học trong ngành Nông nghiệp, Nxb Khoa học Kỹ thuật, 2005.

l Bernard R Glick, Jack J Pasternak, Molecular Biotechnology, 1999

l Andreas D Baxevanis, BIOINFORMATICS: A Practical Guide to the Analysis of Genes and Proteins, USA, 2002.

l David W Mount, BIOINFORMATICS: Sequencer and genome analysis, Cold Spring Harbor Laboratory Press, 2002.

l Các tài liệu trên mạng Internet: Các tài liệu trên mạng Internet: www www.bioinformatics.org bioinformatics.org; ; www.bioperl.org www.bioperl.org

Trang 2

Phương pháp học

l Nghe giảng trên lớp

l Nghiên cứu chuyên đề theo nhóm, báo cáo kết quả nghiên cứu trong các buổi học

l Thực hành sử dụng một số phần mềm trong Tin sinh học và lập trình bằng ngôn ngữ Perl.

Trang 3

BÀI GIẢNG TIN SINH HỌC

Chương 1 Tổng quan về Tin sinh học

Nội dung

l Sơ lược về Sinh học phân tử (SHPT)

l Giới thiệu về Tin sinh học

l Giới thiệu các bài toán trong SHPT

l Bài toán gióng cặp chuỗi

l Bài toán gióng đa chuỗi

l Bài toán xây dựng cây phát sinh chủng loài

l Xây dựng chương trình

Nội dung

l Sơ lược về Sinh học phân tử (SHPT)

l Giới thiệu về Tin sinh học

l Giới thiệu các bài toán trong SHPT

l Bài toán gióng cặp chuỗi

l Bài toán gióng đa chuỗi

l Bài toán xây dựng cây phát sinh chủng loài

l Xây dựng chương trình

Sinh học phân tử

l Tế bào là đơn vị cấu tạo nên tất cả các cơ quan trong cơ thể sinh vật Mỗi tế bào là một hệ thống phức tạp, bao gồm nhiều thành phần khác nhau được bao bọc bởi một lớp màng tế bào.

l Trong tế bào có các tiểu phân tử (nucleotide, amino acid…) và đại phân tử (DNA, RNA, Protein…)

Trang 4

DNA (d

DNA (deoxyribonucleic acid eoxyribonucleic acid))

l DNA được tạo thành bởi

chuỗi các nucleotide: A, C,

G và T (A

G và T (A Adenine, C Adenine, C

Cytosine, G

Cytosine, G Guanin, T Guanin, T

Thymine).

l DNA tồn tại ở dạng xoắn

kép (double

kép (double helix), bao helix), bao

gồm hai chuỗi nucleotide

đơn Dạng xoắn kép được

tạo thành bởi liên kết giữa

các cặp A

các cặp A T, G T, G C C.

T-T-G-A-C-T-A-T-C-C-A-G-A-T-C A-A-C-T-G-A-T-A-G-G-T-C-T-A-G

RNA (ribonucleic acid)

l RNA cũng được tạo thành bởi các

nucleotide, nhưng khác với DNA, T

(Thymine) được thay bởi U (Uracil) RNA

không tồn tại ở dạng xoắn kép.

l RNA có nhiều chức năng trong tế bào,

như mRNA và tRNA là các kiểu chức

năng khác nhau của RNA, cần thiết trong

sự tổng hợp protein.

Protein

l Protein được tạo thành từ một hay nhiều dãy amino acid theo một thứ tự đặc biệt

Có 20 loại amino acid Một số loại protein chính là:

l Protein cấu trúc (structural protein): góp phần tạo nên cấu trúc của cơ thể

l Enzyme: là chất xúc tác cho các phản ứng hoá sinh trong cơ thể.

l Protein màng (transmembrane protein): là chìa khóa của sự duy trì môi trường tế bào, điều hòa dung tích tế bào.

Protein

l Một chuỗi protein thực chất là một chuỗi amino acid nối kết với nhau thành một mạch dài nhờ các liên kết peptit Hình dáng thực tế của protein phụ thuộc vào trình tự các amino acid trong nó.

Trang 5

Biểu diễn dữ liệu sinh học phân tử

trên máy tính

l Một dây DNA (trong chuỗi xoắn kép) là chuỗi ký tự

được tạo thành bởi các ký tự A

được tạo thành bởi các ký tự A T T G G C, RNA là C, RNA là

chuỗi ký tự được tạo thành từ các ký tự A

chuỗi ký tự được tạo thành từ các ký tự A U U G G C, C,

còn protein là chuỗi ký tự được tạo thành bởi 20 ký

tự biểu diễn 20 loại amino acid.

l Với việc biểu diễn như trên, việc xử lý các chuỗi

sinh học được đưa về bài toán xử lý xâu ký tự.

Ví d DNA:

CCTTCATTGACCTCAACTACATGGTCTACATGTTCCAGTATGATTCCACCGC

Ví d protein:

MDPELAKCLFFEGATVVILNMPKGTEFGIDYNSWEVGPKFRGVKMIPPGIHFLH

Bảng mã DNA, RNA và protein

B∀ng mã 1 và 3 ký t∃ dùng cho protein B∀ng mã 1 ký t∃ dùng cho DNA/RNA

Nội dung

l Sơ lược về Sinh học phân tử (SHPT)

l Gi i thi u v Tin sinh h c

l Giới thiệu các bài toán trong SHPT

l Bài toán gióng cặp chuỗi

l Bài toán gióng đa chuỗi

l Bài toán xây dựng cây phát sinh chủng loài

l Xây dựng chương trình

Tin sinh học (Bioinformatics)

l Bio Bio: Molecular Biology : Molecular Biology

l Informatics Informatics: Computer Science : Computer Science

l Bioinformatics Bioinformatics: Giải quyết các bài toán : Giải quyết các bài toán sinh học bằng các phương pháp của tin học.

l Các tên gọi khác Các tên gọi khác: Computational biology, : Computational biology, Computational molecular biology,

Biocomputing.

Trang 6

Tin sinh học (tiếp)

l Tin sinh học (bioinformatics) là khoa học ứng

dụng, sử dụng các phương pháp của khoa học

máy tính và công nghệ thông tin trong việc quản

lý, phân tích các dữ liệu sinh học.

l Tin sinh học là một giao ngành giữa hai ngành

tin học và sinh học với mục đích khám phá

những thông tin còn ẩn giấu sau khối lượng dữ

liệu sinh học khổng lồ mà các nhà sinh học đã

thu thập được, tiến tới hiểu rõ hơn các quy luật

vận động của cơ thể sống.

Nội dung

l Sơ lược về Sinh học phân tử (SHPT)

l Giới thiệu về Tin sinh học

l Giới thiệu các bài toán trong SHPT

l Bài toán gióng cặp chuỗi

l Bài toán gióng đa chuỗi

l Bài toán xây dựng cây phát sinh chủng loài

l Xây dựng chương trình

Các bài toán trong tin sinh học

l Lớp bài toán phân tích trình tự: bài toán khớp chuỗi hay gióng chuỗi (sequence alignment), tìm kiếm trình tự trong cơ sở dữ liệu (sequence database searching)…

l Lớp bài toán phân tích cấu trúc: bài toán so sánh cấu trúc protein (protein structure comparison), phân lớp cấu trúc protein (protein structure classification), dự đoán cấu trúc protein (protein structure prediction)…

l Lớp bài toán phân tích chức năng: dự đoán vị trí protein trong tế bào (protein subcellular

localization prediction), dự đoán tương tác protein (protein interaction prediction), dự đoán chức năng protein…

Một số nguồn CSDL tin sinh học

trên Internet

l EMBL (European Molecular Biology Laboratory): Đây

là nguồn cơ sở dữ liệu chuỗi nucleotide đặt tại Viện sinh học Châu Âu, Hinxton, Anh.

Website: http://www.ebi.ac.uk/embl/

l GenBank GenBank: Đây là nguồn CSDL chuỗi đặt tại : Đây là nguồn CSDL chuỗi đặt tại National Center for Biotechnology information (NCBI), Bethesda, Mỹ.

Website: http://www.ncbi.nlm.nih.gov/Genbank

Trang 7

ột số nguồn CSDL tin sinh học

Một số nguồn CSDL tin sinh học

trên Internet

l DDBJ DDBJ (DNA Data Bank of Japan): Đây là (DNA Data Bank of Japan): Đây là

ngân hàng chuỗi DNA đặt tại CIB,

Mishima, Nhật Bản.

Website: http://www.ddbj.nig.ac.jp

l UniRef UniRef (UniProt Non (UniProt Non redundant redundant

REFerence): Đặt tại EBI, Anh Website:

http://www.ebi.ac.uk/uniref/index.html

l SWISS SWISS PROT PROT: Đặt tại Viện tin sinh học : Đặt tại Viện tin sinh học

Thụy sỹ Website: http://us.expasy.org

Một số dạng file dữ liệu chuỗi sinh học

l D ng ALN ClustalW Dạng ALN ClustalW: Dạng ALN có nguồn gốc từ chương : Dạng ALN có nguồn gốc từ chương

trình khớp chuỗi ClustalW File dữ liệu bắt đầu với từ

“CLUSTAL”, sau đó là các thông tin về kiểu chương trình

clustal đã tạo ra file dữ liệu này Tiếp theo là các chuỗi đa

khớp, được tổ chức theo các khối 60 ký tự Mỗi khối có thể

có nhiều dòng, bắt đầu mỗi dòng là tên chuỗi, tiếp theo là

các ký tự của chuỗi và cuối dòng là tổng số ký tự của chuỗi

tính đến cuối dòng đó.

Một số dạng file dữ liệu chuỗi sinh học

l Dạng FASTA Dạng FASTA: Các file chuỗi định dạng theo : Các file chuỗi định dạng theo FASTA có thể chứa nhiều chuỗi khác nhau Cấu trúc file fasta như sau:

l Mỗi chuỗi bắt đầu bằng một dòng tiêu đề, theo sau là các dòng dữ liệu của chuỗi Dòng tiêu đề bắt đầu bằng một dấu lớn hơn (“>”), sau đó đến tên của chuỗi và các thông tin về chuỗi.

l Các dòng trống và các khoảng trống hay các ký tự gap trong tệp FASTA được bỏ qua

Một số dạng file dữ liệu chuỗi sinh học

l GenBank GenBank: Một file dữ liệu chuỗi GenBank có thể : Một file dữ liệu chuỗi GenBank có thể chứa một hay nhiều chuỗi Mỗi chuỗi trong file dữ liệu dạng này gồm có nhiều dòng có kiểu khác nhau Các dòng chứa ký tự của chuỗi nằm giữa dòng chứa từ “ORIGIN” và dòng chứa hai dấu gạch chéo //.

Trang 8

Nội dung

l Sơ lược về Sinh học phân tử (SHPT)

l Giới thiệu về Tin sinh học

l Giới thiệu các bài toán trong SHPT

l Bài toán gióng c p chu i

l Bài toán gióng đa chuỗi

l Bài toán xây dựng cây phát sinh chủng loài

l Xây dựng chương trình

Bài toán gióng cặp chuỗi

l Cho hai chuỗi sinh học S1, S2 Gióng cặp chuỗi

này được thực hiện bằng cách chèn thêm vào

hai chuỗi S1 và S2 các dấu cách (ký hiệu là

hai chuỗi S1 và S2 các dấu cách (ký hiệu là− −) tại ) tại

các vị trí bất kỳ với số lượng không hạn chế để

tạo ra hai chuỗi S1’, S2’ tương ứng, sau đó đặt

một chuỗi trên chuỗi kia sao cho mỗi ký tự của

chuỗi này gióng thẳng với một ký tự của chuỗi

kia và cặp ký tự gióng không đồng thời là dấu

cách.

l Chuỗi sinh học ban đầu không có dấu cách và

nếu loại bỏ dấu khỏi khỏi S1’ và S2’ ta sẽ có S1

và S2 ban đầu.

Bài toán gióng cặp chuỗi

l Mỗi phương án gióng cặp chuỗi sẽ được cho điểm dựa vào mức độ giống nhau giữa hai chuỗi đã được gióng.

l Phương pháp cho điểm tuyến tính (linear additive scoring scheme): Mỗi một cặp ký tự giống nhau được tính 2 điểm, cặp không giống nhau tính 0 điểm, còn cặp

có ít nhất một ký tự là dấu cách sẽ được

có ít nhất một ký tự là dấu cách sẽ được 1 điểm Cộng 1 điểm Cộng dồn điểm của tất cả các cặp ký tự của hai chuỗi sẽ được điểm cho phương án gióng chuỗi.

l Phương án gióng cặp chuỗi cho điểm cao là phương án tốt Phương án tối ưu là phương án mà không còn phương án nào khác có điểm cao hơn Điểm số cho phương án tối ưu này được gọi là mức độ tương đồng giữa hai chuỗi (similarity).

Một số phương pháp gióng cặp chuỗi

l Phương pháp sử dụng ma trận điểm (dot matrix)

l Phương pháp quy hoạch động

l Phương pháp BLAST

Trang 9

Phương pháp sử dụng ma trận điểm

Giải thuật gióng cặp chuỗi Needleman

Giải thuật gióng cặp chuỗi Needleman Wunsch Wunsch

l Giải thuật Needleman Giải thuật Needleman Wunsch là giải thuật Wunsch là giải thuật

gióng cặp chuỗi toàn bộ dựa trên quy hoạch

động để tính điểm cho quá trình gióng chuỗi.

l Để tính điểm cho các cặp ký tự khi gióng chuỗi

theo giải thuật Needleman

theo giải thuật Needleman Wunsch người ta Wunsch người ta

dùng ma trận thay thế, đối với các chuỗi protein

người hay dùng ma trận thay thế PAM250 hoặc

BLOSUM62.

l Phương pháp quy hoạch động đảm bảo về mặt

toán học sẽ tìm được phương án gióng cặp

chuỗi tối ưu ứng với một cơ chế tính điểm cụ

thể Tuy nhiên phương pháp này có số bước

tính toán lớn, khoảng bình phương chiều dài

chuỗi.

Giải thuật gióng cặp chuỗi Needleman Giải thuật gióng cặp chuỗi Needleman Wunsch Wunsch

l Giải thuật Needleman Giải thuật Needleman Wunsch gồm 3 Wunsch gồm 3 bước:

l B1: Khởi tạo ma trận đánh giá từ hai chuỗi chuỗi.

l B2: Tính toán, điền giá trị cho ma trận đánh giá.

l B3: Sử dụng kỹ thuật quay lui để tìm ra kết quả.

Bước khởi tạo của giải thuật Needleman Bước khởi tạo của giải thuật Needleman Wunsch Wunsch

S(0,0) = 0

S(3,0) = 0

Trang 10

Khôi phục lại đường đi trong giải thuật

Needleman Needleman Wunsch Wunsch

Giải thuật gióng cặp chuỗi Smith

Giải thuật gióng cặp chuỗi Smith Waterman Waterman

l Giải thuật Smith Giải thuật Smith Waterman là giải thuật gióng Waterman là giải thuật gióng

cặp chuỗi cục bộ dựa trên quy hoạch động để

tính điểm cho quá trình gióng chuỗi.

l Giải thuật này giúp nhận ra những miền tương

đồng giữa hai chuỗi tìm kiếm cho gióng chuỗi

cục bộ tối ưu hơn Giải thuật xây dựng trên ý

tưởng so sánh tìm ra những đoạn hay những

miền của hai chuỗi mà có độ tương đồng cao

nhất, để từ đó đánh giá mức độ tương đồng

giữa hai chuỗi.

Giải thuật gióng cặp chuỗi Smith Giải thuật gióng cặp chuỗi Smith Waterman Waterman

l Quá trình gióng chuỗi được thực hiện bởi việc gióng chuỗi từng cặp trong 2 chuỗi.

l Khi đó điểm cho gióng chuỗi từng cặp ký

tự phụ thuộc vào: hai ký tự là giống nhau (matches), hai ký tự không giống nhau (mismatches) và điểm cho việc thêm/bớt khoảng trống (gap penalty) Kết quả của gióng cặp cục bộ là tìm ra được những đoạn trong 2 chuỗi có độ tương đồng cao nhất.

Nội dung

l Sơ lược về Sinh học phân tử (SHPT)

l Giới thiệu về Tin sinh học

l Giới thiệu các bài toán trong SHPT

l Bài toán gióng cặp chuỗi

l Bài toán gióng a chu i

l Bài toán xây dựng cây phát sinh chủng loài

l Xây dựng chương trình

Trang 11

Bài toán gióng đa chuỗi

l Gióng đa chuỗi (Multiple Sequence Alignment,

MSA) là phương pháp so sánh nhiều chuỗi,

được thực hiện bằng cách chèn thêm các dấu

cách vào các chuỗi để thu được các chuỗi có

cùng chiều dài sao cho khi gióng theo từng cột

thì mỗi ký tự trong một chuỗi gióng thẳng với

một ký tự hoặc dấu cách trong các chuỗi khác

và không có cột nào có toàn dấu cách Một

phương án gióng đa chuỗi được gọi là tối ưu

nếu có số ký tự giống nhau hoặc tương tự nhau

trên từng cột ký tự là lớn nhất.

l Bài toán gióng đa chuỗi là bài toán đi tìm

phương án gióng tối ưu cho nhiều chuỗi.

Bài toán gióng đa chuỗi

l Ví dụ: Giả sử có 5 chuỗi S1 = AAGAAA,

S2 = ATAATG, S3 = CTGGG, S4 =

CCAGTT và S5 = CCGG Khi đó, một

phương án gióng 5 chuỗi này như sau:

Ý nghĩa của bài toán gióng đa chuỗi

l Bài toán gióng đa chuỗi có ý nghĩa rất to lớn trong Tin sinh học Giả sử có một tập hợp gồm nhiều chuỗi đại diện cho những loài sinh vật, nhìn vào tập hợp loài nào đó có thể đặt câu hỏi liệu tổ tiên của chúng có quan hệ với nhau không? Giữa chúng có mối quan hệ gì? Để trả lời những câu hỏi đó ta phải xét đến quá trình tiến hoá của những loài vật.

l Mặt khác kết quả gióng đa chuỗi cho phép ta xây dựng được cây phát sinh chủng loài, xây dựng cây tiến hoá, từ đó đánh giá được mối quan hệ giữa các loài.

Một số giải thuật giải bài toán gióng đa chuỗi

l Giải thuật Quy hoạch động

l Giải thuật Heristics Star Alignment

l Giải thuật Clustalw

Trang 12

Giải thuật Quy hoạch động cho bài toán

gióng đa chuỗi

l Ví dụ có 3 chuỗi S1, S2, S3 Khi đó có thể tính điểm khi

gióng chuỗi tại vị trí i,j,k của 3 chuỗi S1, S2, S3 bằng

cách xây dựng một khối lập phương trong không gian ba

chiều với mỗi trục là một chuỗi Quá trình gióng chuỗi

toàn bộ xảy ra từ “nguồn” và “đích” như hình dưới đây:

Nguồn

Đích

Giải thuật Heristics Star Alignment

l Heristics Star Alignment (HSA) là giải

thuật dựa trên ý tưởng tính toán tất cả

những cặp pairwise alignment rồi từ đó

tìm ra một chuỗi trung tâm (center of star),

chuỗi này có mức độ tương đồng cao nhất

so với các chuỗi còn lại Sau khi tìm được

chuỗi trung tâm, thực hiện gióng cặp dần

dần và kết hợp chúng lại ta thu được

gióng đa chuỗi.

Giải thuật Clustalw

l Giải thuật clustalw là phương pháp cải tiến cho gióng đa chuỗi Phương pháp này đang được

sử dụng rộng rãi cho gióng đa chuỗi và xây dựng cây phát sinh loài (Phylogennetic tree) bởi

vì phương pháp này giải quyết về độ phức tạp tính toán mà những phương pháp khác chưa giải quyết được, đồng thời giải quyết được bài toán gióng đa chuỗi

toán gióng đa chuỗi – – xây dựng cây phát sinh xây dựng cây phát sinh loài và đánh giá được mức độ tương đồng giữa các chuỗi.

l Phương pháp này xây dựng gióng đa chuỗi bắt đầu với việc xác định một gióng cặp có mối quan hệ tương đồng lớn nhất Sau đó xây dựng gióng đa chuỗi tương tự như HSA

Các bước của giải thuật Clustalw

l Bước 1: Thực hiện gióng cặp chuỗi giữa tất cả các chuỗi

và xác định mức độ tương đồng giữa mỗi cặp Từ đó xây dựng ma trận khoảng cách “distance” tương đồng giữa các chuỗi.

l Bước 2: Từ ma trận khoảng cách xây dựng cây chỉ dẫn (guide tree) thể hiện mối quan hệ tương đồng giữa các chuỗi Sử dụng phương thức neighbor

chuỗi Sử dụng phương thức neighbor– –joining (quan hệ joining (quan hệ hàng xóm).

l Bước 3: Xây dựng gióng đa chuỗi (MSA) Căn cứ vào cây chỉ dẫn (guide tree) thu được trong bước 2 ta xác định được những nhánh có cặp chuỗi tương đồng lớn nhất để thực hiện gióng cặp, sau đó kết hợp những gióng cặp đó lại (tương tự giải thuật HSA) ta thu được kết quả gióng đa chuỗi.

Ngày đăng: 03/01/2016, 21:03

TỪ KHÓA LIÊN QUAN

w