Bai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdfBai Giang Applied Bioinformatics.pdf
Trang 1TIN SINH HỌC ỨNG DỤNG (Applied Bioinformatics)
TS Nguyễn Bảo Quốc RIBE-NLU
Nong Lam University
baoquoc@hmcuaf.edu.vn
điền
Trang 2CHƯƠNG I
GIỚI THIỆU VỀ TIN – SINH HỌC
(INTRODUCTION OF BIOINFORMATICS)
Trang 3TIN SINH HỌC LÀ GÌ ?
- Các giả thuyết - Các câu hỏi
- Các mẫu thí nghiệm - Các thí nghiệm
- Lưu trữ/phục hồi - Trực tuyến
- Các phương pháp máy @nh - Các phương pháp thống kê
* DNA * Trình tự * RNA * Biểu hiện * Protein * Cấu trúc * Metabolite * Tương tác * Phenotype
khán phá một cách nhanh chóng những nguyên lý trong sinh học
Trang 4NHIỆM VỤ CƠ BẢN CỦA TIN SINH HỌC ?
Thứ nhất: Xây dựng, phát triển, tổ chức quản lý và khai thác cơ sơ dữ liệu sinh học một
cách đa dạng và toàn diện trênquy mô toàn cầu
Thứ hai: Xây dựng, phát triển, tổ chức quan lý và khai thác các công cụ tin sinh học
nhằm xử lý thông tin khoa học
CÁC ỨNG DỤNG CỦA TIN SINH HỌC ?
• Nghiên cứu về chuỗi trình tự • Nghiên cứu về bộ gen
• Nghiên cứu về sự Iến hoá của sinh học bằng máy @nh
• Nghiên cứu @nh đa dạng di truyền
• Nghiên cứu các đột biến của tế bàp ung thư • V.v…
Trang 5SỰ BÙNG NỔ VỀ CƠ SỞ DỮ LIỆU (DATA EXPLOSION)
Trang 6CHI PHÍ CHO GIẢI TRÌNH TỰ HỆ GEN
Trang 7VAI TRÒ CỦA CÁC NHÀ KHOA HỌC KHÁC CHUYÊN NGÀNH TRONG LĨNH VỰC TIN SINH HỌC
1. Phát triển thuật toán
* Các nhà khoa học về sinh học/công nghệ sinh học
Trang 8CÁC THUẬT NGỮ TIN SINH HỌC
Trang 9CÁC THUẬT NGỮ TIN SINH HỌC - Downstream: đầu 3 của trình tự nucleoIde
- Input: dùng để chỉ trình tự đầu vào, do người sử dụng đưa vào một chương trình
Trang 10CÁC THUẬT NGỮ TIN SINH HỌC - Output : dùng để chỉ trình tự đầu ra
- Max ident (maximum iden1ty): độ tươn đồng cao nhất , được dùng để trình bày kết quả wm
- Max score (Maximum score): điểm số cao nhất trong kết quả wm trình tự tương đồng
- ORF (open reading frame): khung đọc mở, đơn vị mã được dịch cho một trình tự polypepIde - Orthology: để chỉ @nh tương đồng giữa hai hay nhiều trình tự, @nh tương đồng này có được
Trang 11CÁC THUẬT NGỮ TIN SINH HỌC
- RFLP (restric1on fragment length polymorphism): @nh đa hình chiều dài của các đoạn DNA
- Replica1on: sự tái bản DNA
- Sequence: trình tự chuỗi DNA, RNA hay protein Đơn vị đo của sequence vì thế có thể là
- SNP (single nucleo1de polymorphism): @nh đa hình của đơn nucleoIde - Similarity: @nh tương tự giữa các trình tự
- Splicing: sự loại bỏ các intron và nối các exon trong quá trình trưởng thành RNA thuộc
eukaryote
Trang 12CÁC THUẬT NGỮ TIN SINH HỌC
Trang 13CHƯƠNG II
CƠ SỞ DỮ LIỆU SINH HỌC – TRA CỨU, TẢI DỮ LIỆU QUA INTERNET
Trang 14DANH SÁCH NGUỒN TÀI NGUYÊN
Trang 15ĐẶC ĐIỂM CHUNG CỦA CÁC CƠ SỞ DỮ LIỆU SINH HỌC
+ Dữ liệu về phân loại học: bao gồm các đặc @nh về chủng loại của nhiều đối tượng sinh vật khác nhau như vi sinh vật , thực vật, động vật
Trang 16CÁC CƠ SỞ DỮ LIỆU VỀ CẤU TRÚC VÀ TRÌNH TỰ
1. Genbank: h–p://www.ncbi.nlm.nih.gov/genbank
+ Hiện có khoảng 79,180 cấu trúc cho đến tháng 2/2012
Trang 17CÁC CƠ SỞ DỮ LIỆU VỀ CẤU TRÚC VÀ TRÌNH TỰ
+ Khoảng 13, 672 họ protein trong cơ sở dữ liệu này cho đến tháng 11/2011
Trang 18GENOME BROWSERS
1. UCSC genome browser
Trang 19
GENE EXPRESSION DATA
1. Gene expression omnibus (GEO)
h–p://www.ebi.ac.uk/aarayexpress/
Trang 20MỘT SỐ CƠ SỞ DỮ LIỆU LỚN TRÊN THẾ GIỚI
1. Cơ cở dữ liệu sinh học NCBI – NaIonal Center for Biotechnology InformaIon – h–p://www.ncbi.nlm.nih.gov/
h–p://www.ddbj.nig.ac.jp/
Trang 21TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET
Trang 22TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET
CHỌN CÔNG CỤ TÌM KIẾM
- Google Patent Search : tìm kiếm bằng sáng chế - Google scholar: công cụ tìm kiếm dành cho học giả - Google books – công cụ tìm kiếm sách
Trang 23INTERNET DATABASES TRONG VIỆC TÌM KIẾM THÔNG TIN
1. Trang web của google
h–p://www.google.com
h–p://www.researchgate.net
Trang 24CHƯƠNG III
SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG CLUSTALX VÀ BLAST
Trang 25NGHIÊN CỨU SO SÁNH TRÌNH TỰ
PHÂN LOẠI
1. So sánh toàn bộ (global alignment): so sánh bao phủ toàn bộ chiều dài của trình tự liên quan
Thuật toán Smith-Waterman sẽ Lm so sánh cục bộ tốt nhất giữa 2 trình tự
Trang 27GIỚI THIỆU CHƯƠNG TRÌNH CLUSTAL
1. Clustal W là một chương trình mã nguồn mở được phát triển bởi các nhà khoa học tại EMBL, CNRS và UCD và được công bố trên tạp chí Nucleic Acids Research năm 1994 2. Hiện nay Clustal W không còn sử dụng được nữa và đã được nâng cấp lên version
ClustalW2 bao gồm Clustal Omega cho protein và MUSCLE hoặc MAFFT cho DNA
Trang 28nhiều hơn các trình tự Trong trường hợp sắp gióng 2 trình tự thì có thể sử dụng công cụ pairwise sequence alignment tools
Trang 29giống nhau nhằm chỉ ra các mối quan hệ về chức ăng, cấu trúc và Iến hoá giữa hai trình tự so sánh
Trang 30Vd: Dán vào cửa sổ trình tự mẫu đối chứng (ô trên) và mẫu đột biến (ô dưới) theo định dạng FASTA
Trang 31Nhấp vào nút Submit Kết quả gióng chuỗi được trả về để so sánh trình tự đối chứng và đột biến được đưa vào chương trình Needle Nhìn trên trình tự, các thanh dọc chỉ ra sự tương đồng giữa hai trình tự cho đến khi đến điểm chấm đầu Iên chỉ ra sự khác biệt giũa hai trình tự này
Amino acid đầu Iên thày đổi từ leucine thành arginine ở vị trí 490 Các chuổi đột biến thay đổi là “RSLSPSQC”, sau đó trình tự đột biến chấm dứt Thông In như trình bày trong FRM (Fragment Replace ModificaIon)
Trang 32Gióng cột EMBOSS Stretcher của trình tự amino acid gen dehydrogenase Ký tự của sự khác biệt thể hiện ở màu vàng Accession number là PfLDH và PvLDH xuất hiện bên dưới vùng được đánh dấu Số truy cập là PfLDH: PlasmoDBid:PF3D7_1324900, PVLDH:PlasmoDBid: PVX_116630
Trang 34Việc sắp xếp Amblyomin-X (mã GB AAT68575.1; vị trí amino acid A22 đến C79 tương ứng với vùng Kunitz) với bikunin của con người (PDB ID 1BIK), sử dụng phương pháp ClustalW2 và EMBOSS Matcher
Trang 35A) Kết quả tìm kiếm tương tự của LALIGN so sánh coxsackie và receptor adenovirus (CAR) (P78310) với protein streptococcus M nhóm A (P02977); Và (B) kết quả tìm kiếm tương tự của LALIGN so sánh coxsackie và thụ thể adenovirus (CAR) (P78310) với myosin tim của con người (P13533)
Trang 36MUSCLE là viết tắt của MUltiple Sequence Comparison bởi Log-Expectation MUSCLE
được cho là đạt được độ chính xác trung bình tốt hơn và tốc độ tốt hơn ClustalW2 hoặc Coffee, tùy thuộc vào các lựa chọn đã chọn
Trang 37MulIple sequence alignment overview window (generated by mulIple alignment using fast Fourier transform online tool) displaying the alignment of cds encoding acIve domains of divergent toll-like receptors and Nod like receptors from various animal species
Trang 38CÁC THAO TÁC SỬ DỤNG CHƯƠNG TRÌNH VÀ PHÂN TÍCH KẾT QUẢ
Bước 1: Tạo file ở định dạng FASTA Lưu file ở định dạng txt
Trang 39chọn set of DNA/Protein/RNA tuỳ theo mục đích thí nghiệm
Trang 40tự định dạng FASTA
Trang 41noIfied by email để nhận kết quả qua email
Trang 42xuất alignment file bằng cách click vào download alignment file hoặc xem hình phylogeneIc tree của các trình tự so sánh
Trang 43PHÂN TÍCH TÍNH TƯƠNG ĐỒNG BLAST
+ Score: giá trị này càng cao chứng tỏ khả năng tương tự của các bắt cặp càng cao + E-value: giá trị này càng nhỏ kết quả càng có ý nghĩa thống kê
Trang 44THAO TÁC SỬ DỤNG CHƯƠNG TRÌNH BLAST
Bước 1: Mở giao diện BLAST (h–ps://blast.ncbi.nlm.nih.gov/Blast.cgi)
Trang 47- Human genomic plus transcript: dữ liệu trình tự bộ gen người + trình tự gen người được phiên mã
- Mouse genomic plus transcript: dự liệu trình tự bộ gen chuột + trình tự gen chuột được phiên mã
- Others: cơ sở dữ liệu khác
Trang 48Bước 5: Gửi yêu cầu xử lý (nhấn BLAST để thông In được gửi đi và đợi nhận kết quả)
Trang 49Màu đỏ, hồng: vùng mức độ bắt cặp tốt;
Xanh lục và xanh dương: vùng mức độ bắt cặp trung bình; Màu đen: vùng mức độ bắt cặp kém
Trang 50+ Phần II: hiển thị kết quả tóm tắt dưới dạng liệt kê thông In về từng trình tự BLAST wm được trong cơ sở dữ liệu với các giá trị score và e-value
Trang 51+ Phần III: hiển thị kết quả so sánh chi Iết từng cặp trình tự (giữa query – trinh tự nhập vào để phân @ch @nh tương đồng và mỗi trình tự được BLASt wm được trong cơ sở dữ liệu) Trong phần này sẽ có chỉ số tương đồng (idenIIes) và các khoảng trống (gap)giữa hai trình tự so sánh được hiển thị
Trang 52CÁCH LẤY TRÌNH TỰ DỰA TRÊN ACCESSION NUMBER CỦA GEN Bước 1: Mở giao diện NCBI (h–ps://www.ncbi.nlm.nih.gov/ )
+ All database: chọn Gene và nhập accession number và click vào Search
Trang 53Bước 1: Kết quả (click vào kết quả wm được phần màu xanh)
Trang 54Bước 2: Click vào FASTA đề lấy trình tự của gen
Trang 55Bước 3: Lấy trình tự sequence của gen đích bằng định dạng FASTA
Trang 56CHƯƠNG IV
Trang 57• Địa hình học (cấu trúc liên kết, Topology): cách thức phân nhánh trong cây phát sinh chủng loại
Trang 58Polytomy
Trang 59evoluIonary path
Trang 60Distance Maximum parsimony
Minimizes total distance
Maximizes tree likelihood given specific parameter values
Easily trapped in local optima
Assumptions fail when evolution is rapid
Highly dependent on assumed evolution model
Good for generating tentative tree, or choosing among multiple trees
Best option when tractable (<30 taxa, homoplasy rare)
Good for very small data sets and for testing trees built using other methods
Trang 61Inferred tree Many more replicates (between 100 - 1000)
Pseudo sample 2
Trang 62• Phylip • BioNJ
Trang 63
Giao diện chương trình Mega 6.0
Trang 64• Bước 1: thu thập trình tự
Trang 65• Save alignment à save as mega format
Trang 66• Bước 3: Xây dựng cây phát sinh chủng loại phân tử
Trang 67Thao tác sử dụng và phân @ch kết quả
Trang 68Thao tác sử dụng và phân @ch kết quả • Bước 4: Hiển thị cây phát sinh chủng loài phân tử
Trang 69Các dạng hiển thị của cây phát sinh
Trang 70EvoluIonary GeneIcs Analysis version 6.0 Mol.Biol Evol doi 10.1093/molbev/mst197
Trang 71THANK YOU