Bai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdf
Trang 1điền
Trang 2CHƯƠNG I
GIỚI THIỆU VỀ TIN – SINH HỌC
(INTRODUCTION OF BIOINFORMATICS)
Trang 3TIN SINH HỌC LÀ GÌ ?
Sinh học
Tin sinh học (Bioinforma1cs)
Trang 4NHIỆM VỤ CƠ BẢN CỦA TIN SINH HỌC ?
Thứ nhất: Xây dựng, phát triển, tổ chức quản lý và khai thác cơ sơ dữ liệu sinh học một
cách đa dạng và toàn diện trênquy mô toàn cầu
Thứ hai: Xây dựng, phát triển, tổ chức quan lý và khai thác các công cụ tin sinh học
nhằm xử lý thông tin khoa học
CÁC ỨNG DỤNG CỦA TIN SINH HỌC ?
Trang 5SỰ BÙNG NỔ VỀ CƠ SỞ DỮ LIỆU (DATA EXPLOSION)
Trang 6CHI PHÍ CHO GIẢI TRÌNH TỰ HỆ GEN
Trang 7VAI TRÒ CỦA CÁC NHÀ KHOA HỌC KHÁC CHUYÊN NGÀNH TRONG LĨNH VỰC TIN SINH HỌC
2 Phát triển công cụ
* Các nhà khoa học về In sinh học
3 Cung cấp và sử dụng dữ liệu
* Các nhà khoa học về sinh học/công nghệ sinh học
Trang 8CÁC THUẬT NGỮ TIN SINH HỌC
Trang 9CÁC THUẬT NGỮ TIN SINH HỌC
Trang 10CÁC THUẬT NGỮ TIN SINH HỌC
Trang 11CÁC THUẬT NGỮ TIN SINH HỌC
Trang 12CÁC THUẬT NGỮ TIN SINH HỌC
Trang 13CHƯƠNG II
CƠ SỞ DỮ LIỆU SINH HỌC – TRA CỨU,
TẢI DỮ LIỆU QUA INTERNET
Trang 14DANH SÁCH NGUỒN TÀI NGUYÊN
Trang 15ĐẶC ĐIỂM CHUNG CỦA CÁC CƠ SỞ DỮ LIỆU SINH HỌC
+ Dữ liệu về thông In thông thường: bao gồm các loại thông In như tạp chí khoa học, các công trình khoa học đã công bố, sách, bằng sáng chế
+ Dữ liệu về trình tự: bao gồm các đặc @nh về trình tự, cấu trúc, chức năng, … Của các kiểu trình tự nucleoIde, amino acid
+ Dữ liệu bộ gen: bao gồm các đặc @nh về trình tự, cấu trúc, chức năng của của các cấu phần
+ Dữ liệu về phân loại học: bao gồm các đặc @nh về chủng loại của nhiều đối tượng sinh vật khác nhau như vi sinh vật , thực vật, động vật
Trang 16CÁC CƠ SỞ DỮ LIỆU VỀ CẤU TRÚC VÀ TRÌNH TỰ
2 UniProt: h–p://www.uniprot.org/
+ Nguồn dự liệu chuyên sâu trình tự các protein và thông In chức năng của chúng
+ Hiện có khoảng 79,180 cấu trúc cho đến tháng 2/2012
Trang 17CÁC CƠ SỞ DỮ LIỆU VỀ CẤU TRÚC VÀ TRÌNH TỰ
4 Pfam: h–p://pfam.sanger.ac.uk
+ Bộ sưu tập các họ protein, mỗi protein được thể hiện bằng phương pháp alignment nhiều trình tự
+ Khoảng 13, 672 họ protein trong cơ sở dữ liệu này cho đến tháng 11/2011
Trang 18GENOME BROWSERS
1. UCSC genome browser
h–p://genome.ucsc.edu/cgi-bin/hgGateway
Trang 19GENE EXPRESSION DATA
1. Gene expression omnibus (GEO)
h–p://www.ncbi.nlm.nih.gov/geo/
2 Array Express
h–p://www.ebi.ac.uk/aarayexpress/
Trang 20MỘT SỐ CƠ SỞ DỮ LIỆU LỚN TRÊN THẾ GIỚI
Trang 21TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET
Trang 22TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET
CHỌN CÔNG CỤ TÌM KIẾM
- Google Patent Search : tìm kiếm bằng sáng chế
- Google scholar: công cụ tìm kiếm dành cho học giả
- Google books – công cụ tìm kiếm sách
Trang 23INTERNET DATABASES TRONG VIỆC TÌM KIẾM THÔNG TIN
Trang 24CHƯƠNG III
SO SÁNH CÁC TRÌNH TỰ SINH HỌC
BẰNG CLUSTALX VÀ BLAST
Trang 25NGHIÊN CỨU SO SÁNH TRÌNH TỰ
So sánh trình tự (sắp gióng cột các trình tự): là quá trình nghiên cứu, đo lường sự giống
nhau giữa hai hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần (ký tự) củ trình tự DNA, RNA, hoặc protein để wm ra những điểm tương đồng, giống nhau giữa chúng, trên nguyên tắc là điều chỉnh sự sắp xếp sao cho giữa hai hay nhiều trình tự có được sự giống nhau tối đa
PHÂN LOẠI
1. So sánh toàn bộ (global alignment): so sánh bao phủ toàn bộ chiều dài của trình tự liên quan
Thuật toán Needleman-Wunsch sẽ Lm so sánh tốt nhất toàn bộ 2 trình tự
2 So sánh cục bộ (local alignment): so sánh một số phần của trình tự
Thuật toán Smith-Waterman sẽ Lm so sánh cục bộ tốt nhất giữa 2 trình tự
Trang 27GIỚI THIỆU CHƯƠNG TRÌNH CLUSTAL
1. Clustal W là một chương trình mã nguồn mở được phát triển bởi các nhà khoa học tại EMBL, CNRS và UCD và được công bố trên tạp chí Nucleic Acids Research năm 1994
2. Hiện nay Clustal W không còn sử dụng được nữa và đã được nâng cấp lên version ClustalW2 bao gồm Clustal Omega cho protein và MUSCLE hoặc MAFFT cho DNA
Trang 28nhiều hơn các trình tự Trong trường hợp sắp gióng 2 trình tự thì có thể sử dụng công cụ pairwise sequence alignment tools
Trang 29giống nhau nhằm chỉ ra các mối quan hệ về chức ăng, cấu trúc và Iến hoá giữa hai trình tự so sánh
Trang 30Vd: Dán vào cửa sổ trình tự mẫu đối chứng (ô trên) và mẫu đột biến (ô dưới) theo định dạng FASTA
Trang 31Nhấp vào nút Submit Kết quả gióng chuỗi được trả về để so sánh trình tự đối chứng và đột biến được đưa vào chương trình Needle Nhìn trên trình tự, các thanh dọc chỉ ra sự tương đồng giữa hai trình tự cho đến khi đến điểm chấm đầu Iên chỉ ra sự khác biệt giũa hai trình
tự này
Amino acid đầu Iên thày đổi từ leucine thành arginine ở vị trí 490 Các chuổi đột biến thay đổi là “RSLSPSQC”, sau đó trình tự đột biến chấm dứt Thông In như trình bày trong FRM (Fragment Replace ModificaIon)
Trang 32Gióng cột EMBOSS Stretcher của trình tự amino acid gen dehydrogenase Ký tự của sự khác biệt thể hiện ở màu vàng Accession number là PfLDH và PvLDH xuất hiện bên dưới vùng được đánh dấu Số truy cập là PfLDH: PlasmoDBid:PF3D7_1324900, PVLDH:PlasmoDBid: PVX_116630
Trang 34Việc sắp xếp Amblyomin-X (mã GB AAT68575.1; vị trí amino acid A22 đến C79 tương ứng với vùng Kunitz) với bikunin của con người (PDB ID 1BIK), sử dụng phương pháp ClustalW2 và EMBOSS Matcher
Trang 35A) Kết quả tìm kiếm tương tự của LALIGN so sánh coxsackie và receptor adenovirus (CAR) (P78310) với protein streptococcus M nhóm A (P02977); Và (B) kết quả tìm kiếm tương tự của LALIGN so sánh coxsackie và thụ thể adenovirus (CAR) (P78310) với myosin tim của con người (P13533)
Trang 36MUSCLE là viết tắt của MUltiple Sequence Comparison bởi Log-Expectation MUSCLE
được cho là đạt được độ chính xác trung bình tốt hơn và tốc độ tốt hơn ClustalW2 hoặc Coffee, tùy thuộc vào các lựa chọn đã chọn
Trang 37trình tự tốc độ cao
MulIple sequence alignment overview window (generated by mulIple alignment using fast Fourier transform online tool) displaying the alignment of cds encoding acIve domains of divergent toll-like receptors and Nod like receptors from various animal species
Trang 38CÁC THAO TÁC SỬ DỤNG CHƯƠNG TRÌNH VÀ PHÂN TÍCH KẾT QUẢ
Bước 1: Tạo file ở định dạng FASTA Lưu file ở định dạng txt
Trang 39chọn set of DNA/Protein/RNA tuỳ theo mục đích thí nghiệm
Trang 40tự định dạng FASTA
Trang 41noIfied by email để nhận kết quả qua email
Trang 42xuất alignment file bằng cách click vào download alignment file hoặc xem hình
phylogeneIc tree của các trình tự so sánh
Trang 43PHÂN TÍCH TÍNH TƯƠNG ĐỒNG BLAST
Định nghĩa: BLAST (Basic Local Alignment Sequence Tool) là chương trình nhằm so sánh trình
tự sinh học với cấu trúc bậc một (nucleoIde hoặc amino acid) đầu vào (input) với các trình tự trong cơ sở dữ liệu nhằm wm ra các trình tự có độ tương đồng cao nhất với trình tự đầu vào
Trang 44THAO TÁC SỬ DỤNG CHƯƠNG TRÌNH BLAST
Bước 1: Mở giao diện BLAST (h–ps://blast.ncbi.nlm.nih.gov/Blast.cgi)
Trang 46+ Định dạng FASTA: là kiểu định dạng trong đó trình tự được viết phía sau dấu “>” hoặc
“>gi[….] (chỉ kích thước trình tự lớn hơn)
+ “IdenIfiers” là kiểu định dạng trong đó trình tự đước viết như sau: ACCESSION….gi|…
Có thể dán trực Iếp trình tự (Các định dạng quy định) vào trong ô hoặc chọn choose file để up
dự liệu cần phân @ch
Trang 47
+ query subrange: cung cấp thông In về vị trí đoạn trình tự cần phân @ch bằng cách nhập hai giá trị giới hạn đầu và cuối Nếu phân @ch toàn bộ trình tự dữ liệu nhập sẽ là from 1 to length hoặc để trống
+ Cơ sở dữ liệu (choose search set)
- Human genomic plus transcript: dữ liệu trình tự bộ gen người + trình tự gen người được phiên mã
- Mouse genomic plus transcript: dự liệu trình tự bộ gen chuột + trình tự gen chuột được phiên mã
- Others: cơ sở dữ liệu khác
Trang 48Bước 5: Gửi yêu cầu xử lý (nhấn BLAST để thông In được gửi đi và đợi nhận kết quả)
Trang 50
+ Phần II: hiển thị kết quả tóm tắt dưới dạng liệt kê thông In về từng trình tự BLAST
wm được trong cơ sở dữ liệu với các giá trị score và e-value
Trang 51
+ Phần III: hiển thị kết quả so sánh chi Iết từng cặp trình tự (giữa query – trinh tự nhập vào để phân @ch @nh tương đồng và mỗi trình tự được BLASt wm được trong cơ sở
dữ liệu) Trong phần này sẽ có chỉ số tương đồng (idenIIes) và các khoảng trống (gap)giữa hai trình tự so sánh được hiển thị
Trang 52CÁCH LẤY TRÌNH TỰ DỰA TRÊN ACCESSION NUMBER CỦA GEN Bước 1: Mở giao diện NCBI (h–ps://www.ncbi.nlm.nih.gov/ )
+ All database: chọn Gene và nhập accession number và click vào Search
Trang 53Bước 1: Kết quả (click vào kết quả wm được phần màu xanh)
Trang 54Bước 2: Click vào FASTA đề lấy trình tự của gen
Trang 55Bước 3: Lấy trình tự sequence của gen đích bằng định dạng FASTA
Trang 56CHƯƠNG IV
Trang 57• Mấu (node) : điểm gặp giữa các nhánh, các node đại diện cho tổ Iên chung của taxa
• Gốc (root node): điểm xuất phát đầu Iên, chung cho tất cả các nhánh, đại diện cho tổ Iên chung của taxa
• Địa hình học (cấu trúc liên kết, Topology): cách thức phân nhánh trong cây phát sinh chủng loại
Trang 58Polytomy
Trang 60Maximizes tree likelihood given specific parameter values
Easily trapped in local
optima
Assumptions fail when evolution is rapid
Highly dependent on assumed evolution model
Good for generating
Good for very small data sets and for testing trees built using other methods
Trang 61Inferred tree Many more replicates (between 100 - 1000)
! rat ! GGAAGGGGCTTTTTA!
human ! CCTTTTAAATTTTCC!
turtle ! CCCCCTAAATTTTGG ! ! fruitfly ! CCCCCTTTTTTTTGG!
Trang 62bb/
http://phylobench.vital-it.ch/raxml-http://power.nhri.org.tw/power/
home.htm
Trang 63
• MEGA (Molecular EvoluIonary GeneIcs Analysis )
Giao diện chương trình Mega 6.0
Trang 64• Bước 1: thu thập trình tự
Trang 66
Thao tác sử dụng và phân @ch kết quả
• Bước 3: Xây dựng cây phát sinh chủng loại phân tử
Trang 67Thao tác sử dụng và phân @ch kết quả
Trang 68Thao tác sử dụng và phân @ch kết quả
• Bước 4: Hiển thị cây phát sinh chủng loài phân tử
Trang 69Các dạng hiển thị của cây phát sinh
Trang 71THANK YOU