Tài liệu này dành cho sinh viên, giáo viên khối ngành công nghệ thông tin tham khảo và có những bài học bổ ích hơn, bổ trợ cho việc tìm kiếm tài liệu, giáo án, giáo trình, bài giảng các môn học khối ngành công nghệ thông tin
Đ Đ A A Ï Ï I I H H O O Ï Ï C C Q Q U U O O Á Á C C G G I I A A T T H H A A Ø Ø N N H H P P H H O O Á Á H H O O À À C C H H Í Í M M I I N N H H T T R R Ư Ư Ơ Ơ Ø Ø N N G G Đ Đ A A Ï Ï I I H H O O Ï Ï C C K K H H O O A A H H O O Ï Ï C C T T Ư Ư Ï Ï N N H H I I E E Â Â N N K K H H O O A A S S I I N N H H H H O O Ï Ï C C (DÙNG CHO SINH VIÊN NGÀNH CÔNG NGHỆ SINH HỌC) Chủ biên: TRẦN LINH THƯỚC Thực hiện: ĐẶNG THỊ PHƯƠNG THẢO ĐỖ ANH TUẤN 10/2003 (Lưu hành nội bộ) 1 MỤC LỤC PHẦN MỞ ĐẦU 2 PHẦN I: KHAI THÁC DỮ LIỆU SINH HỌC QUA MẠNG INTERNET 10 Bài 1. Cơ sở dữ liệu sinh học trên mạng internet 11 Bài 2. Tìm kiếm thông tin trên mạng internet 13 Bài 3. Tìm kiếm các trình tự sinh học 19 Bài 4 . Tìm kiếm các trình tự tương đồng 24 Bài 5 . Phân tích trình tự DNA 28 Bài 6 . Tạo cây phát sinh loài từ trình tự DNA 32 PHẦN II: MỘT SỐ CÔNG CỤ PHẦN MỀM PHÂN TÍCH GEN 35 Bài 7 . Nhập xuất dữ liệu 37 Bài 8. Tìm trình tự DNA và khung đọc mở 40 Bài 9. Chuyển đổi trình tự DNA và amino acid 43 Bài 10. Thiết lập bản đồ enzyme cắt giới hạn 46 Bài 11. Thiết kế mồi (primer) 49 Bài 12. Vẽ bản đồ plasmid 52 Bài 13. Bài tập tổng hợp 61 PHỤ LỤC 63 2 P P H H A A À À N N M M Ô Ô Û Û Ñ Ñ A A À À U U 3 1. Bioinformatics là gì ? Bioinformatics là một ngành học còn khá mới trong lónh vực Sinh học. Vì vậy, hiện nay có khá nhiều đònh nghóa khác nhau về thuật ngữ bioinformatics. Chúng ta thử tìm hiểu một số thuật ngữ: • Bioinformatics là môn học về cách sử dụng máy tính để giải quyết những vấn đề của khoa học sự sống, chủ yếu là vấn đề cơ sở dữ liệu phong phú của bộ gen, trình tự protein Ngoài ra, nó còn giải quyết những vấn đề về kỹ thuật như mô hình cấu trúc ba chiều của phân tử và các hệ thống Sinh học (3/2001, Cancer WEB). • Bioinformatics là sự sáng lập và phát triển của tiến bộ những thông tin và kỹ thuật máy tính nhằm giải quyết những vấn đề sinh học, thường là sinh học phân tử (các lónh vực sinh học khác cũng đang ngày càng gia tăng). Như vậy, bioinformatics liên quan đến những phương pháp như lưu trữ, tìm kiếm và phân tích dữ liệu sinh học như acid nucleic (DNA/RNA) và trình tự protein; nghiên cứu cấu trúc, chức năng, con đường và những ảnh hưởng di truyền (Đại học Stanford). • Bioinformatics là một sự phối hợp giữa toán học, thống kê và kỹ thuật máy tính nhằm phân tích thông tin về sinh học, sinh hóa, sinh lý. • Bioinformatics là môn học về cấu trúc đặc trưng của thông tin sinh học và hệ thống sinh học. Nó cung cấp một loạt những hệ thống dữ liệu Sinh học (ví dụ bộ gen) kết hợp với những lý thuyết phân tích và công cụ thực hành của toán học và khoa học máy tính. Tóm lại, thuật ngữ bioinformatics có thể đònh nghóa một cách ngắn gọn là sự kết hợp giữa Công nghệ Sinh học và Công nghệ Thông tin với mục tiêu giúp hiểu biết và khám phá những nguyên lý trong Sinh học (NCBI). Bioinformatics: Môn học về cấu trúc đặc trưng của thông tin Sinh học Cấu trúc Sinh học Sinh hóa Sinh học phân tử Genomics Khoa học máy tính Thống kê Toán học 4 2. Nội dung thực tập Bioinformatics Nội dung thực tập Bioinformatics dành cho sinh viên năm thứ III, ngành Công nghệ Sinh học, bao gồm: - Giới thiệu về các cơ sở dữ liệu sinh học trên mạng Internet và cách thức khai thác các cơ sở dữ liệu này phục vụ cho nghiên cứu. - Làm quen một số công cụ phần mềm phân tích gen. Sau khi hoàn thành khóa học, sinh viên phải nắm vững một số kiến thức cơ bản về cách thức tìm kiếm và xử lý dữ liệu sinh học . Trong quá trình thực tập, hầu hết nội dung yêu cầu thực hiện truy cập thông tin trên mạng Internet (với ngôn ngữ sử dụng chủ yếu là tiếng Anh) nên có khá nhiều thuật ngữ tin học, sinh học cũng như cách thức giao tiếp vẫn giữ nguyên thuật ngữ tiếng Anh. 3. Sử dụng mạng Internet trong đợt thực tập Vì không phải tất cả mọi người đều đã có kinh nghiệm sử dụng Internet, do đó chúng ta bắt đầu với phần giới thiệu ngắn về mạng Internet. Mạng Internet là một hệ thống mạng toàn cầu có khả năng liên kết các máy tính khác nhau trên thế giới. Khi tham gia vào hệ thống mạng Internet chúng ta có thể tham khảo các tài nguyên chia sẻ trên các máy tính (nơi lưu trữ thông tin) thuộc mọi lónh vực: khoa học, văn hóa, giáo dục, thể thao, giải trí… Trong đợt thực tập này, để làm việc trên mạng Internet, chúng ta sẽ sử dụng phần mềm Microsoft Internet Explorer của hãng Microsoft (hoặc có thể dùng phần mềm Netscape với những chức năng tương tự). Yêu cầu đối với sinh viên là phải có những kiến thức cơ bản về máy tính (làm việc với máy tính trong môi trường Windows). Để vào chương trình Microsoft Internet Explorer, chúng ta thực hiện tuần tự các bước sau: • Tìm biểu tượng của Internet Explorer trên Desktop và nhấn đúp (double clicking) bằng nút chuột trái để mở cửa sổ trình duyệt Web. Hoặc nhấn phím Start chọn Programs, rồi chọn Internet Explorer. • Đòa chỉ tìm kiếm được nhập vào tại khung Address và nhấn Enter↵. Internet Explorer sẽ kết nối máy tính chúng ta với mạng vào đòa chỉ đã nhập. Biểu tượng trên góc phải màn hình thể hiện hoạt động kết nối Internet: Đang kết nối Kết nối xong hoặc bò gián đoạn 5 Mạng Internet là một mạng máy tính toàn cầu với hơn 150 triệu máy tính (tháng 1/2002) liên lạc với nhau thông thường qua giao thức TCP/IP (Transfer Control Protocol/Internet protocol). Các máy tính được nhận diện và kết nối với mạng Internet thông qua đòa chỉ internet (Internet protocol - IP) của nó có dạng dãy số gồm 4 số phân cách bởi dấu chấm (ví dụ 172.69.145.21). Bốn dòch vụ chính có thể sử dụng trên mạng là: thư điện tử (e-mail), đăng nhập từ xa (telnet), chuyển tập tin (file transfer protocol, FTP) và World Wide Web (hay còn gọi là giao thức truyền siêu văn bản - hypertext transfer protocol, HTTP). World Wide Web cho phép người sử dụng các trình duyệt đònh vò và xem thông tin từ hơn 40 triệu dòch vụ web trên toàn thế giới (tháng 3/2002). Các tài liệu siêu văn bản có thể thể chứa hình ảnh, âm thanh, văn bản text… và có thể dễ dàng liên kết với các trang siêu văn bản khác. Đòa chỉ đònh vò các tài liệu siêu văn bản là một đòa chỉ duy nhất (URL – Uniform Resource Locator) có dạng service://hostname:port/file (dòch vụ://tên máy chủ: cổng/file). Service : Tên dòch vụ đang truy cập (ftp, http, gopher, telnet, mailto) hostname : Đòa chỉ IP hoặc tên miền nơi đònh vò của thông tin port : Cổng trên máy phục vụ, mặc đònh là 80, nhưng cũng có khi là 8000 hay 8080 /file : Tên thật của tập tin trên máy tính được tham chiếu bởi máy phục vụ Ví dụ về đòa chỉ WWW: http://www.tulane.edu/~dmsander/Big_Virology/BVHomePage.html Các trang web là nơi chứa đựng thông tin thường xây dựng bằng ngôn ngữ siêu văn bản và có sử dụng các liên kết đến các trang khác. Các liên kết thường được thể hiện bằng những dòng chữ bò đổi màu chữ khi ta di chuyển đến và con trỏ biến thành dấu hiệu . Khi nhập đòa chỉ liên kết đến các vò trí trang web (web site) phải đánh dòng văn bản với đầy đủ các ký tự, có sự phân biệt giữa chữ thường và chữ hoa. Nơi nhập đòa chỉ Nội dung trang web 6 Khi sử dụng phần mềm Internet Explorer để xem (duyệt) trang web, chúng ta có thể lưu lại các đòa chỉ khi đã “ghé thăm” bằng cách sử dụng chức năng Add to favourites… trên thanh Explorer bar khi đang ở trang web “ưa thích”. Những lần truy cập sau, chúng ta chỉ cần nhấn vào tên trang web trong menu Favourites để vào trang web ưa thích mà không phải nhập lại đòa chỉ Internet. Sử dụng những nút Back hoặc Forward để trở lại hoặc tiếp tục mở lại trang web phía trước; các nút Stop và Refesh để tạm dừng truy cập hay thực hiện “làm tươi” nội dung trang web bằng cách truy cập lại đòa chỉ Internet này. 4. Một số thuật ngữ sinh – tin học thường gặp trên mạng internet Thuật ngữ Sinh học Accession Mã số truy cập trong các cơ sở dữ liệu sinh học (Genbank…) Alignment Sắp gióng cột hai hay nhiều trình tự nhằm xác đònh độ tương đồng giữa chúng. bp (base pair) cặp base. cDNA (complementary DNA) mạch đơn bổ sung cho RNA và được tồng hợp từ khuôn nhờ enzyme phiên mã ngược. Cloning Kỹ thuật tạo ra tập hợp các tế bào hoặc phân tử giống hệt nhau cùng bắt nguồn từ một tế bào hay một phân tử ban đầu. Codon Bộ ba nucleotide mã hóa cho một acid amin hay một “dấu hiệu” bắt đầu hay kết thúc dòch mã. DNA sequencing Trình tự A, T, G, C của acid deoxyribonucleic (DNA). Downstream Đầu 3’ của trình tự nucleotide. Exon Một phần của một gen gián đoạn (gen tồn tại ở eukaryote), có mặt trong phân tử RNA trưởng thành. Gene Đoạn DNA (gen) tham gia vào việc hình thành một sợi polypeptide; gen bao gồm các vùng nằm trước và sau vùng mã hóa và cả trình tự (intron) nằm giữa các phần mã hóa. gi Dãy số hiệu của mỗi trình tự quy đònh theo sắp xếp của NCBI. Hairpin Vùng xoắn kép hình thành từ sự bắt cặp bổ sung giữa hai trình tự bổ sung nằm kề nhau trên một phân tử DNA hay RNA mạch đơn (cấu trúc kẹp tóc). Intron Đoạn DNA được phiên mã nhưng bò loại bỏ trong quá trình trưởng thành của RNA, không có mặt ở phân tử RNA trưởng thành. Molecular hybridization Quá trình trong đó hai mạch acid nucleic bổ sung (A-T, G-C) bắt cặp hình thành nên mạch kép; kỹ thuật hữu hiệu để phát hiện một trình tự nucleotide chuyên biệt (lai phân tử). 7 Operon Đơn vò biểu hiện và điều hòa gen ở vi khuẩn, bao gồm các gen cấu trúc nằm cạnh nhau và các nhân tố điều hòa, các gen cấu trúc này cùng chòu những tác động điều hòa như nhau. PCR (Polymerase Chain Reaction) kỹ thuật dùng để khuếch đại nhiều bản sao của một trình tự DNA đích nhờ DNA polymerase. ORF (Open Reading Frame) khung đọc mở khi dòch mã cho ra một trình tự amino acid hoàn chỉnh. Plasmid DNA dạng vòng, nằm ngoài nhiễm sắc thể và có khả năng tự sao chép độc lập. Primer Trình tự DNA hay RNA ngắn, bắt cặp với một mạch khuôn DNA và có mang đầu 3’OH tự do giúp DNA polymerase bắt đầu tổng hợp mạch mới. Promoter Trình tự trên phân tử DNA, nơi RNA polymerase gắn vào để khởi động phiên mã. Redundancy Sự có mặt của nhiều mẩu tin dư thừa (thường là trình tự). Trong Bioinformatics, đó là sự liên quan của những trình tự giống nhau trong cùng một cơ sở dữ liệu. Restriction enzyme (RE) Enzyme nhận biết một trình tự DNA ngắn chuyên biệt và cắt mạch kép DNA. Restriction map Bản đồ vò trí nhận biết của tất cả các enzyme cắt giới hạn trên một trình tự DNA. RNA sequencing Trình tự A, U, G, C của acid ribonucleic (RNA). Splicing Sự loại bỏ các intron và nối liền các exon ở RNA trong quá trình trưởng thành sau phiên mã. Tm (Melting temperature) nhiệt độ mà ở đó một nửa số phân tử của trình tự đó bò biến tính (nhiệt độ nóng chảy của một trình tự). Transcription Sự tổng hợp RNA từ khuôn DNA. Translation Sự tổng hợp protein từ khuôn mRNA (sự dòch mã). Upstream Đầu 5’ của trình tự nucleotide. Vector Trong kỹ thuật tạo dòng (cloning), là plasmid hay phage dùng để chuyên chở một đoạn DNA lạ gắn vào đó với mục đích tạo ra một lượng bản sao lớn hay một sản phẩm protein từ đoạn DNA này. Thuật ngữ Tin học Acrobat Họ các công cụ của công ty Adobe cho phép nhà xuất bản dòch các tập tin Postscript thành Portable Document Format (PDF) và người dùng có thể xem trên trên các nền thông thường của máy. BLAST (Basic Local Alignment Search Tool) một công cụ tìm kiếm nhanh những trình tự tương đồng trong một cơ sở dữ liệu. 8 Browser Công cụ cho phép người dùng quét một danh sách tập tin hoặc tìm một mục riêng nào đó. Trong WWW (World-Wide-Web), browser được hiểu là phần mềm cho phép duyệt qua những tư liệu trên Web. Browser Một trình duyệt web (Web Browser) hỗ trợ các đồ họa, âm thanh và video. Download Tải tập tin xuống máy tính, truyền các tập tin từ một máy tính sang một máy tính khác. FAQs Những câu hỏi được yêu cầu thường xuyên (Frequently Asked Questions). FASTA Chương trình tìm kiếm trình tự tương đồng được dùng rộng rãi đầu tiên. Freeware Phần mềm sử dụng miễn phí và có thể tải về máy tính cá nhân. FTP Giao thức chuẩn dùng để gởi tập tin (File Transfer Protocol) từ một máy này đến một máy khác trên mạng TCP/IP như Internet. Gap Khoảng trống được đưa vào khi so sánh các trình tự với nhau nhằm làm tăng độ tương đồng giữa chúng. Gateway Dòch vụ dòch thông điệp giữa những giao thức khác nhau. Gopher Hệ menu phân cấp dùng để gởi tài liệu trên Internet. Homepage Trang đầu của một server World-Wide-Web hay tài liệu gốc mô tả một tổ chức (cá nhân) được cung cấp thông qua user. HTML Ngôn ngữ đánh dấu siêu văn bản (The HyperText Markup Language) dùng để mô tả các tài liệu truyền thông qua WWW. HTML cho phép một tài liệu có thể chứa các liên kết đến một tài liệu khác, cung cấp cho WWW khả năng Hypertext (và hypermedia). Internet Bất kỳ mạng nào của hệ thống mạng liên kết trên thế giới. IP address Số duy nhất gán cho một máy mạng TCP/IP. LAN (Local Area Network) mạng phủ trên một vùng đòa lý tương đối nhỏ (một văn phòng, một tầng hay một tòa nhà…). Login Thủ tục khởi nhập một liên kết với máy chủ của người sử dụng mạng (thường gồm yêu cầu về tên và mật khẩu). Netquette Những nguyên tắc xã giao chủ đạo trong truyền thông trên mạng Internet. Offline Khi không sử dụng kết nối đó nữa. Online Khi sử dụng kết nối với một máy tính khác. Query Khung nhập trình tự (hoặc những loại thuật ngữ tìm kiếm khác) Shareware Phần mềm cho phép tải và sử dụng miễn phí nhưng nếu muốn dùng tiếp thì phải trả cho tác giả một khoản tiền danh dự nhỏ. URL (Uniform Resource Locator – đònh danh tài nguyên đồng nhất) hệ thống ghi đòa chỉ được web sử dụng. WWW (World Wide Web) Phương tiện đònh vò trên Internet bằng cách sử dụng siêu liên kết. Ví dụ http://www.mcb.harvard.edu/BioLinks.html 9 5. Tài liệu tham khảo 1. Cynthia Gibas &Per Jabeck. 2001. Developing Bioinformatics Computer Skills. O’Reilly & Associates, Inc., USA. 2. Gunter Kahl. 1995. Dictionary of Gene Technology. VCH Verlagsgesell- schaft mbH, Germany. 3. Hồ Huỳnh Thùy Dương. 1998. Sinh học phân tử, NXB Giáo dục. 4. Institute of Technical Biochemistry, 2002. Bioinformatics tools for Biologists, University of Stutgartt, Germany. 5. National Center for Biotechnology Information, NCBI. 10/2001. http://www.ncbi.nlm.nih.gov/, USA. 6. Neil F., Peadar Ó G. 2001. Bioinformatics programme, 4 th Molecular Biology Workshop, HCMC, Vietnam. [...]... trình tự khung đọc mở sẽ thấy hiện lên trình tự DNA và trình tự dòch mã amino acid tương tự kết quả bên dưới Codon bắt đầu Codon kết thúc 3 Thực hành Chúng ta thực hành xác đònh khung đọc mở của trình tự gen LT Mở tập tin ORF-DNA-1310LT.txt trong thư mục “baitap” • Mở trang ORF finder từ trang chủ NCBI 29 • • • Chép trình tự DNA trong tập tin ORF-DNA-1310LT.txt (dạng tập tin văn bản text) vào hộp trình. .. Truy cập trình tự DNA và protein trong các cơ sở dữ liệu trình tự sinh học?- Phân tích trình tự sinh học bằng các chương trình trên Internet? Chúng ta sẽ download các trình tự Sinh học và phân tích chúng bằng nhiều chương trình khác nhau Các chương trình này hầu hết là những phần mềm hoặc trang web miễn phí Như vậy, sau đợt thực tập, các bạn có thể thực hiện việc tìm kiếm và phân tích thông tin sinh học... tắc Một chương trình tìm kiếm và so sánh trình tự tương đồng được nhiều người dùng nhất hiện nay có tên là BLAST (Basic Local Alignment Search Tool) Chương trình này thực hiện so sánh trình tự DNA và protein nhập vào với những trình tự trong các cơ sở dữ liệu (GenBank, EMBL…) và lựa chọn các trình tự có mức độ tương đồng từ cao đến thấp Chúng ta dùng BLASTù khi có câu hỏi đặt ra “Liệu có trình tự nào... là những trình tự DNA có codon bắt đầu và codon kết thúc dòch mã (Stop Codon) như TAA, TGA, TAG 2 Công cụ và cách thực hiện Để tìm các khung đọc mở có thể có trong một trình tự DNA, chúng ta sử dụng một chương trình có tên là ORF finder của NCBI Chương trình này sẽ tìm kiếm những khung đọc mở có thể có của trình tự nhập vào và trình tự bổ sung của nó Sau đó đưa ra bản đồ khung đọc mở với các trình tự... “ST”,…) và nhấn nút Go (hoặc nhấn Enter↵) Sau vài phút, kết quả sẽ xuất hiện một danh sách trình tự protein tương tự như trường hợp DNA Nhấn vào mã số truy cập của các mục bài để xem chi tiết trình tự protein Tên tác giả và tạp chí đăng tải Trình tự protein 3 Thực hành 3.1 Tìm trình tự DNA Chúng ta thực tập tìm kiếm trình tự gen có tên là LT • • • Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến... với trình tự của bạn không?” Chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có) với trình tự bạn yêu cầu Ngoài ra, BLAST còn cung cấp cho bạn những số liệu về tỉ tệ tương đồng, nguồn gốc các trình tự tương đồng… 2 Công cụ và cách sử dụng Để truy cập vào trang BLAST, chúng ta nhấn vào dòng BLAST trong trang chủ của NCBI Chúng ta có thể thực hiện tìm kiếm trình. .. Thực hành 3.1 Nucleotide – Nucleotide BLAST Tìm trong thư mục “baitap” tập tin chứa trình tự DNA có tên là Blast-DNA32.txt 26 Mở chương trình BLAST bằng cách nhấn vào dòng BLAST trong các trang của NCBI Mở chương trình Nucleotide BLAST bằng cách nhấn lên dòng blastn • Chép trình DNA tự trong tập tin Blast-DNA-32.txt vào khung nhập trình tự (Search) Lựa chọn chức năng blastn và nr, đặt chiều dài giới... có dạng: Chúng ta thực tập tìm kiếm trình tự protein là độc tố bền nhiệt có tên là ST (ST toxin) • Nhập dòng “ST toxin” vào khung yêu cầu, nhấn Go, và chờ kết quả 22 Thực hiện tìm hiểu chi tiết các mục bài vừa tìm kiếm được bằng cách nhấn lên các mã số mục bài (tương tự cách dùng với trình tự DNA) Câu hỏi: Có bao nhiêu mục bài liên quan đến trình tự protein yêu cầu được tìm thấy? Trình tự protein ST... trình tự đã dòch mã thành trình tự amino acid • Mở trang ORF finder từ trang chủ NCBI bằng cách nhấn vào dòng ORF finder 28 Nhập trình tự DNA vào hộp trình tự (sequence in FASTA format) hoặc mã số trình tự vào hộp GI or ACESSSION (nếu muốn dùng toàn bộ trình tự trong cơ sở dữ liệu) Lựa vò trí dòch mã (From: ooooo To: ooooo ) và kiểu mã di truyền Nhấn nút OrfFind để thực hiện chương trình • • • Đợi kết quả... gene”,…) và nhấn nút Go (hoặc nhấn Enter↵) Kết quả sẽ xuất hiện một danh sách trình tự DNA tương tự như sau: • • • Các mục bài tìm được • Nhấn vào các mục bài để xem chi tiết trình tự DNA 19 2.2 Tìm trình tự Protein Để tìm trình tự protein, cũng tương tự việc tìm kiếm trình tự DNA Việc tìm kiếm trình tự protein cũng được thực hiện trong hệ thống Genbank, EMBL và DDBJ • • • • Nhấn vào dòng Protein trong . các trình tự Sinh học và phân tích chúng bằng nhiều chương trình khác nhau. Các chương trình này hầu hết là những phần mềm hoặc trang web miễn phí. Như vậy, sau đợt thực tập, các bạn có thể thực. (ấn phẩm, cấu trúc, trình tự liên quan)? - Truy cập trình tự DNA và protein trong các cơ sở dữ liệu trình tự sinh học?- - Phân tích trình tự sinh học bằng các chương trình trên Internet?. các trình tự DNA của hàng ngàn gen thuộc hàng trăm loài khác nhau, trình tự protein có nguồn gốc từ những trình tự DNA này, trình tự bộ gen (genome) của nhiều loài (bao gồm cả bản thảo của trình