GIÁO TRÌNH THỰC TẬP BIOINFORMATIC

14 724 2
GIÁO TRÌNH THỰC TẬP BIOINFORMATIC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 GIÁO TRÌNH THỰC TẬP BIOINFORMATIC (Hệ thống website http://www.ncbi.nlm.nih.gov/ ) oOo 1. Các nội dung chính trên NCBI: 1.1. Giới thiệu NCBI Website NCBI (National Center for Biotechnology Information - http://www.ncbi.nlm.nih.gov/) là một trong những website hàng đầu về khoa học sự sống và y học. NCBI trực thuộc Thư viện Y khoa Quốc gia Hoa Kỳ (National Library of Medicine, NLM), đồng thời là một cơ quan của Các Viện Y tế Quốc gia Hoa Kỳ (National Institutes of Health, NIH). Hầu hết các phần của hệ thống NCBI là các cở sở dữ liệu (CSDL) mở cho phép truy cập miễn phí thông qua Internet. Được xây dựng nhằm mục đích cho phép người sử dụng tiếp cận với nguồn dữ liệu khổng lồ bao gồm các tài liệu, báo cáo, các nghiên cứu, trình tự và cấu trúc của các phân tử sinh học…để phục vụ nghiên cứu và học tập, NCBI được trang bị hệ thống tìm kiếm cực mạnh Entrez cho phép tìm kiếm rất nhanh kết quả từ CSDL. Hầu hết các bộ công cụ tìm kiếm, so sánh của NCBI đều dựa trên hệ thống Entrez. Hiện tại các CSDL trên NCBI không ngừng được phát triển mở rộng thêm nhờ vào sự đóng góp của cộng đồng các nhà khoa học, các học viện, các viện nghiên cứu… trên thế giới. 1.2. Trang chủ NCBI Giao diện trang chủ của NCBI được truy cập tại địa chỉ http://www.ncbi.nlm.nih.gov/ . 2 Hình 1: Giao diện trang chủ NCBI (ảnh chụp ngày 24/11/2007) Trang chủ NCBI cung cấp đường dẫn liên kết đến các nội dung chủ yếu trên NCBI. Có thể tìm hiểu các thành phần trong trang chủ NCBI tại địa chỉ http://www.ncbi.nlm.nih.gov/ hoặc từ đĩa CD đính kèm tài liệu này. Ghi chú: Có thể sử dụng tất cả các trình duyệt để truy cập vào trang http://www.ncbi.nlm.nih.gov/. Tuy nhiên chỉ sử dụng trình duyệt Internet Explorer (IE) để thể hiện đầy đủ các nội dung trang web trong CD kèm theo. Di chuyển chuột vào các thành phần trên trang để xem giải thích. Các liên kết trên CD được mô phỏng tương tự việc truy cập online NCBI kèm với giải thích nội dung các thành phần trên giao diện. Việc giải thích thành phần bằng tiếng Việt chỉ có tác dụng trên CD kèm theo. Nếu trình duyệt IE không được mặc định thì bấm chuột phải vào file NCBI HomePage chọn Open with  chọn Internet Explorer Hình 2: Sử dụng trình duyệt IE để duyệt tài liệu trên CD 3 Từ trang chủ của NCBI ta có thể truy cập đến mọi phần quan trọng của hệ thống NCBI. 1.3. Trang chính của CSDL PubMed (http://www.ncbi.nlm.nih.gov/sites/entrez?db=PubMed) Để truy cập vào trang PubMed, từ trang chủ NCBI chọn PubMed Hình 3: Giao diện trang PubMeb (ảnh chụp ngày 29/11/2007) Trang PubMed cung cấp các phương thức khác nhau cho phép tìm kiếm những tài liệu, tạp chí, báo cáo, ấn phẩm và xuất bản về khoa học sự sống và y học cần thiết từ CSDL khổng lồ của PubMed. Có thể tìm hiểu các thành phần trong trang PubMed tại địa chỉ http://www.ncbi.nlm.nih.gov/sites/entrez?db=PubMed. 1.4. Trang chính của công cụ BLAST (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi) Để truy cập vào trang BLAST, từ trang chủ NCBI chọn BLAST 4 Hình 4: Giao diện trang BLAST (ảnh chụp ngày 29/11/2007) Trang BLAST cung cấp bộ công cụ khá đơn giản nhưng mạnh mẽ cho phép người sử dụng tìm kiếm, so sánh chuỗi trình tự của các phân tử sinh học hiện có trong CSDL (gồm nucleotide, protein, ) dựa trên việc đưa vào các chuỗi trình tự được người sử dụng nhập vào dùng làm điều kiện. Bộ công cụ của BLAST bao gồm một tập hợp nhiều công cụ khác nhau cung cấp cho những mục đích tìm kiếm và so sánh khác nhau cũng như với những cấp độ người dùng khác nhau từ cơ bản (basic BLAST) đến nâng cao (Specialized BLAST). Bộ công cụ BLAST được xây dựng dựa trên nguồn cơ sở dữ liệu chuỗi trình tự khổng lồ và hệ thống tìm kiếm cực mạnh Entryz mà NCBI đang sở hữu. Có thể tìm hiểu các thành phần trong trang BLAST tại địa chỉ http://www.ncbi.nlm.nih.gov/blast/Blast.cgi hoặc từ đĩa CD đính kèm tài liệu này. Lưu ý: Công cụ BLAST sử dụng định dạng FASTA (Rapid and sensitive protein similarity searches) cho trình tự truy vấn đưa vào để dùng làm điều kiện tìm kiếm hay so sánh các chuỗi trình tự. Cấu trúc của của định dạng FASTA như sau: >Tên (hoặc ID)| (có thể thêm các mô tả khác) Chuỗi trình tự với dạng ký tự text không định dạng 5 Hình 5: Định dạng FASTA của một chuỗi protein 1.5. Trang chính của CSDL structure (CSDL cấu trúc của các phân tử sinh học) Để truy cập vào trang Structure từ trang chủ NCBI ta bấm chọn Structure hoặc tại http://www.ncbi.nlm.nih.gov/sites/entrez?db=Structure. CSDL Structure chứa đựng một lượng lớn các thông tin và công cụ hỗ trợ việc nghiên cứu cấu trúc của các chuỗi phân tử sinh học như protein. Được xây dựng bởi sự kết hợp của CSDL và hệ thống Entryz, Structure cung cấp khả năng tìm kiếm nhanh cấu trúc của các phân tử sinh học. Hình 6: Trang chính của CSDL Structure Có thể tìm hiểu các thành phần trong trang Structure tại địa chỉ http://www.ncbi.nlm.nih.gov/sites/entrez?db=Structure hoặc từ đĩa CD đính kèm tài liệu này. 1.6. Các CSDL khác Ngoài các CSDL trên, có thể tìm thấy đường link trực tiếp từ trang chủ NCBI đến các CSDL khác bao gồm: PubMed, Protein, 3D Domains, UniGene , UniSTS , SNP, Conserved Domains, Journals, PMC, NCBI Web Site, MeSH, GEO Profiles, Nucleotide, GEO Datasets, Gene, HomoloGene, CancerChromosomes, NLM Catalog, PubChem BioAssay, PubChem Compound, PubChem Substance, GENSAT, Probe, Genome 6 Project, OMIA, dbGaP, Protein Clusters, CoreNucleotide, EST, GSS, Genome, PopSet, All Databases, OMIM, Taxonomy, Books,… phục vụ cho những mục đích nghiên cứu khác nhau Có thể kiếm nội dung trực tiếp trên trang chủ hoặc bất cứ trang nào bằng cách nhập từ khóa và chọn CSDL tương ứng. Hoặc truy cập trực tiếp vào trang chính của CSDL đó bằng cách chọn CSDL từ menu thả xuống và bấm Go Hình 7: Truy cập vào các CSDL khác trên NCBI 2. Sử dụng các công cụ trên NCBI: Phần này hướng dẫn sơ lược các bước nhằm sử dụng các phần của hệ thống NCBI cho việc nghiên cứu và học tập. Bao gồm các công cụ tìm kiếm tài liệu, tìm kiếm so sánh chuỗi mã và cấu trúc của phân tử sinh học. 2.1. Tìm kiếm trong NCBI Việc tìm kiếm trong NCBI (trừ tìm kiếm bằng BLAST) hầu hết các CSDL còn lại đều thực hiện việc tìm kiếm bằng từ khóa. Từ khóa bao gồm những từ hoặc cụm từ khác nhau chỉ nội dung cần tìm, các số ID (số lưu trữ của tài liệu hoặc chuỗi mã cần tìm), các thuật toán logic (and, or, not, ), các từ khóa đặc biệt chỉ định vị trí các trường (filed) cần tìm (thí dụ [AB]  tìm trong abtract, có thể tìm hiểu thêm về các từ khóa chỉ định trường tại NCBI handbooks). Ví dụ: Câu lệnh (("drought tolerance") AND (Wilson SD[Auth])) AND (ecology[Jour]) có nghĩa tìm tất cả tài liệu có cụm “drought tolerance” tác giả là “Wilson SD” và đăng trên tạp chí “Ecology” Có thể tìm hiểu về cách thức nhập từ khóa và tìm kết quả trên trang NCBI hoặc tìm hiểu qua mô phỏng quá trình đó trên CD đính kèm (từ khóa mặc định thử nhiệm trên CD là “drought tolerance”) trong thực tế trên NCBI các từ khóa khác cũng có quá trình tìm kiếm và trả kết quả tương tự. + Mô phỏng tìm kiếm trong Entrez + Mô phỏng tìm kiếm trong PubMeb + Mô phỏng tìm kiếm trong Nucleotide + Mô phỏng tìm kiếm trong Structure + Mô phỏng tìm kiếm trong All database + Mô phỏng tìm kiếm trong Protein 2.2. Sử dụng CSDL tìm kiếm PubMed: Việc sử dụng CSDL PubMed được thực hiện như sau: 2.2.1. Cách 1: Sử dụng CSDL PubMed thông qua trang chủ NCBI 7 Bước 1: Chọn vùng chỉ định tìm kiếm là PubMed Bước 2: Nhập điều kiện (keywords – từ khóa) tìm kiếm vào vùng điều kiện và click Go. Ví dụ từ khóa cần tìm là drought tolerant Hình 8: Minh họa tìm kiếm trực tiếp từ trang chủ các tài liệu về nghiên cứu chịu hạn hiện có trên NCBI Bước 3: Duyệt kết quả tìm được, chọn cách trình bày nội dung cho trang kết quả Thể hiện mặc định của những tài liệu tìm được là nội dung tóm tắt (Summary) của tài liệu đó. Có thể thay đổi nội dung thể hiện của tài liệu hoặc số lượng tài liệu thể hiện trên 1 trang bằng cách chọn các menu thả xuống tương ứng trong vùng Display (Ghi chú: có thể tìm hiểu các thành phần của trang trình bày kết quả trên CD) Hình 9: Một phần của các kết quả tìm được từ PubMed Ngoài ra có thể tăng khả năng tìm kiếm chính xác tài liệu bằng tùy chọn Limits 2.2.2. Cách 2: Thao tác trực tiếp từ CSDL PubMed Bước 2: Từ trang chủ bấm vào liên kết đến trang PubMed Bước 3: Bấm chọn thẻ Limits Bước 4: Nhập từ khóa của nội dung cần tìm vào (Ví dụ từ khóa cần tìm là drought tolerant). 8 Hình 10: Trang cho phép giới hạn điều kiện tìm kiếm trên PubMed Bước 5: Giới hạn bớt để tìm kiếm chính xác tài liệu cần tìm + Click chọn Add Author để tìm kiếm tài liệu do một hoặc một nhóm tác giả. + Click chọn Add Journal để tìm kiếm tài liệu được đăng bởi tạp chí hay ấn phẩm. + Đánh dấu chọn vào vùng của tương ứng trên Full Text, Free Full Text, and Abstracts để tìm kiếm những tài liệu có nội dung đầy đủ (Full Text), nội dung đầy đủ và được truy cập miễn phí (Free Full Text) hoặc tóm tắt nội dung (Abstracts). Hình 11: ba vùng chọn lựa quan trọng cho phép thu hẹp kết quả tìm được + Ngoài ra còn nhiều giới hạn tìm kiếm khác cho phép thu hẹp phạm vi tìm kiếm của từ khóa bao gồm: tìm theo ngày tháng xuất bản, tìm theo lĩnh vực, tìm theo ngôn ngữ sử dụng,… Bước 6: Click OK để bắt đầu tìm kiếm. Bước 7: Chọn cách trình bày nội dung cho trang kết quả. 2.3. Sử dụng công cụ tìm kiếm Entrez 9 Công cụ tìm kiếm Entrez là cỗ máy tìm kiếm chính bao trùm toàn bộ phục vụ cho mục đích tìm kiếm thông tin trong các CSDL của hệ thống ncbi. Cách tìm kiếm thông tin bằng Entrez: Bước 1: Bấm chọn All Database từ trang chủ Bước 2: Nhập từ khóa của nội dung cần tìm vào ô tìm kiếm và bấm Go Hình 12: Kết quả thu được khi tìm kiếm với từ khóa trong trang All database Bước 3: Chọn kết quả thu được bằng cách bấm vào CSDL cần nghiên cứu 2.4. Sử dụng công cụ tìm kiếm BLAST: Trên trang BLAST có nhiều công cụ so sánh khác nhau nhằm phục vụ cho những mục đích tìm kiếm chuỗi trình tự khác nhau trong ngân hàng gen cũng như ngân hàng chuỗi trình tự. Hầu hết các công cụ trên đều hoạt động theo một số bước nhất định như sau: Bước 1: Truy cập vào trang BLAST Bước 2: Bấm chọn công cụ cần sử dụng (giao diện và nguyên tắc của các công cụ khá giống nhau chỉ khác nhau về chức năng) 10 Hình 13: Giao diện công cụ nucleotide BLAST Bước 3: Nhập vào số truy cập hoặc chuỗi trình tự vào vùng nhập liệu hoặc tải lên từ máy tính đối với những chuỗi trình tự đã chuẩn bị sẵn Bước 4: Chỉ định yêu cầu, giới hạn hoặc cách thức hoạt động cho công cụ sau đó bấm nút BLAST thực hiện quá trình tìm kiếm và so sánh Sau đó hệ thống sẽ thực hiện việc tìm kiếm, người sử dụng chờ đợi quá trình diễn ra cho đến khi kết quả được trả về. Bước 5: Nếu tìm thấy kết quả, người sử dụng cần lựa chọn cách trình bày kết quả phù hợp với mục đích sử dụng. Việc chỉ định cũng như giới hạn các điều kiện cho việc so sánh chuỗi rất hữu ích, tuy vậy trong khuôn khổ tài liệu này chúng tôi không thể mô phỏng cụ thể sự thay đổi trong kết quả Blast khi có các giới hạn và điều kiện khác nhau 2.5. Các bài tập ứng dụng tìm kiếm bằng BLAST 2.5.1. Bài tập 1: Có chuỗi trình tự như sau sử dụng BLAST để tìm kiếm và so sánh với CSDL hiện có của NCBI (đây là chuỗi dữ liệu của protein Cys2/His2 mã hóa bởi gen ZPT2-3 có vai trò quan trọng trong khả năng chống chịu khô hạn - PubMeb). 2.5.1.1. Tìm với dữ liệu là protein kết quả là protein MERHRCKLCSRSFMNGRALGGHMRSHLATLPLPLKKQKTPGNSNFQLGGGTESDSSSTR SEDENNNNNNNNNKLSSYELRDNPRKSVKALDPEFMDAGSIVVQDRESETESTQNPTRR RSKRASQRTSRQLEFEVPKKCKWVGSESAAESTPVSSVSDPSQDEEVALCLMMLSRDAW ERVEKEKSVEDTNESATELKTGLITRRPATRVAAKFKCLGCKKVFRTGRALAGHKASNK QCCHENSTSDDHVNVVGVKIFECPFCYKVFGSGQALGGHKRSHLLGLSSANNNNNNNN NNANVVASNNADRVGETTTTTTTTNTSFILDLNLPAPFEDDDEDDHI Bước 1: Truy cập vào trang Blast Bước 2: Bấm chọn so sánh protein Blast [...]... GGTCTCGGAGTGGATCGATTTGGGATTCTGTTCGAAGATTTGCGG AGGGGGGCAATGGCGACCGCGGGGAAGGTGATC Thực hiện các bước như bài tập 1 2.5.3 Bài tập 3: 12 Có các chuỗi trình tự như sau sử dụng BLAST để tìm kiếm và so sánh với CSDL hiện có của NCBI (đây là chuỗi dữ liệu của có liên quan đến tính chống chịu hạn trên cây Arabidopsis thaliana và thực vật thuộc họ Oryza sativa – PubMeb) Protein MEVEASYSYGFLPSGRHQPYAPPPPHPAEEGELWEYFPCPFCYIEVEVP... Chép chuỗi trình tự protein ở trên vào ô tìm kiếm (đồng thời xác định loại truy vấn là DNA hay protein trong ví dụ là protein) Bước 3: Chỉ định cần so sánh với CSDL gen của sinh vật nào Nếu chọn hết thì bấm Select All ( Bước 4: Bấm BLAST để thực hiện so sánh Bước 5: Trong trang kế bấm chọn vào quả Bước 6: Xem kết quả so sánh và tìm kiếm Đưa ra nhận xét ) để xem kết 2.5.2 Bài tập 2: Có các chuỗi trình tự...Bước 3: Chép chuỗi trình tự trên vào ô tìm kiếm, các tùy chọn khác để nguyên vào bấm nút BLAST để thực hiện lệnh Bước 4: Xem và nhận xét kết quả 2.5.1.2 Tìm với dữ liệu là protein kết quả là các translated nucleotide Bước 1: Truy cập vào trang Blast Bước 2: Bấm chọn tblastn Bước 3: Chép chuỗi trình tự protein trên vào ô tìm kiếm, các tùy chọn khác để nguyên vào bấm nút BLAST để thực hiện lệnh Bước... nucleotide Blast Bước 3: Chép chuỗi trình tự trên vào ô tìm kiếm, trong vùng chọn Choose Search Set bấm chọn CSDL cần so sánh là để nguyên vào bấm nút BLAST để thực hiện lệnh Các tùy chọn khác 11 Bước 4: Xem và nhận xét kết quả 2.5.1.4 Tìm với dữ liệu là translated nucleotide kết quả là protein Bước 1: Truy cập vào trang Blast Bước 2: Bấm chọn so sánh Blastx Bước 3: Chép chuỗi trình tự trên vào ô tìm kiếm... kiếm Các tùy chọn khác để nguyên vào bấm nút BLAST để thực hiện lệnh Bước 4: Xem và nhận xét kết quả 2.5.1.5 Tìm với dữ liệu là translated nucleotide kết quả là translated nucleotide Bước 1: Truy cập vào trang Blast Bước 2: Bấm chọn so sánh tBlastx Bước 3: Chép chuỗi trình tự trên vào ô tìm kiếm Các tùy chọn khác để nguyên vào bấm nút BLAST để thực hiện lệnh Bước 4: Xem và nhận xét kết quả 2.5.1.6... GAAAGGGTTTGGGAATAAGCAGAATAATGTAAAAGAGAGACATG ATAATGAGTATTATTTTTAACTTATGAACTACATATTTGCTTTAATG AACACTCGAATTGTCTGTACACCGTAGGTCTTACAAAAAGAAACC AAAAAAAGGTATGTATTTGATCATATATTTGCACTGAGTTTTCTGG 13 TCT Thực hiện các bước như bài tập 1 14 . 1 GIÁO TRÌNH THỰC TẬP BIOINFORMATIC (Hệ thống website http://www.ncbi.nlm.nih.gov/ ) oOo 1. Các nội dung. hoạt động cho công cụ sau đó bấm nút BLAST thực hiện quá trình tìm kiếm và so sánh Sau đó hệ thống sẽ thực hiện việc tìm kiếm, người sử dụng chờ đợi quá trình diễn ra cho đến khi kết quả được. GGTCTCGGAGTGGATCGATTTGGGATTCTGTTCGAAGATTTGCGG AGGGGGGCAATGGCGACCGCGGGGAAGGTGATC Thực hiện các bước như bài tập 1 2.5.3. Bài tập 3: 13 Có các chuỗi trình tự như sau sử dụng BLAST để tìm kiếm và so sánh với CSDL

Ngày đăng: 02/04/2015, 18:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan