Trong Entrez chúng ta có thể nhập vào những yêu cầu tìm kiếm cơ sở dữ liệu về các bài báo thuộc lĩnh vực Y – Sinh học PubMed, trình tự nucleic acid Nucleotide, trình tự protein Protein, [r]
(1)ĐẠI HỌC QUỐC GIA THAØNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA SINH HOÏC (DUØNG CHO SINH VIEÂN NGAØNH COÂNG NGHEÄ SINH HOÏC) Chủ biên: TRẦN LINH THƯỚC Thực hiện: ĐẶNG THỊ PHƯƠNG THẢO ĐỖ ANH TUẤN 10/2003 (Löu haønh noäi boä) (2) MUÏC LUÏC PHẦN MỞ ĐẦU PHẦN I: KHAI THÁC DỮ LIỆU SINH HỌC QUA MẠNG INTERNET 10 Baøi Baøi Baøi Baøi Baøi Baøi 11 13 19 24 28 32 Cơ sở liệu sinh học trên mạng internet Tìm kieám thoâng tin treân maïng internet Tìm kiếm các trình tự sinh học Tìm kiếm các trình tự tương đồng Phân tích trình tự DNA Tạo cây phát sinh loài từ trình tự DNA PHAÀN II: MOÄT SOÁ COÂNG CUÏ PHAÀN MEÀM PHAÂN TÍCH GEN 35 Bài Nhập xuất liệu Bài Tìm trình tự DNA và khung đọc mở Bài Chuyển đổi trình tự DNA và amino acid Bài 10 Thiết lập đồ enzyme cắt giới hạn Baøi 11 Thieát keá moài (primer) Bài 12 Vẽ đồ plasmid Bài 13 Bài tập tổng hợp 37 40 43 46 49 52 61 PHUÏ LUÏC 63 (3) PHẦN MỞ ĐẦU (4) Bioinformatics laø gì ? Bioinformatics là ngành học còn khá lĩnh vực Sinh học Vì vậy, có khá nhiều định nghĩa khác thuật ngữ bioinformatics Chúng ta thử tìm hiểu số thuật ngữ: • Bioinformatics là môn học cách sử dụng máy tính để giải vấn đề khoa học sống, chủ yếu là vấn đề sở liệu phong phú gen, trình tự protein Ngoài ra, nó còn giải vấn đề kỹ thuật mô hình cấu trúc ba chiều phân tử và các hệ thống Sinh học (3/2001, Cancer WEB) • Bioinformatics là sáng lập và phát triển tiến thông tin và kỹ thuật máy tính nhằm giải vấn đề sinh học, thường là sinh học phân tử (các lĩnh vực sinh học khác ngày càng gia tăng) Như vậy, bioinformatics liên quan đến phương pháp lưu trữ, tìm kiếm và phân tích liệu sinh học acid nucleic (DNA/RNA) và trình tự protein; nghiên cứu cấu trúc, chức năng, đường và ảnh hưởng di truyền (Đại học Stanford) • Bioinformatics là phối hợp toán học, thống kê và kỹ thuật máy tính nhaèm phaân tích thoâng tin veà sinh hoïc, sinh hoùa, sinh lyù • Bioinformatics laø moân hoïc veà caáu truùc ñaëc tröng cuûa thoâng tin sinh hoïc vaø hệ thống sinh học Nó cung cấp loạt hệ thống liệu Sinh học (ví dụ gen) kết hợp với lý thuyết phân tích và công cụ thực hành toán học và khoa hoïc maùy tính Caáu truùc Sinh hoïc Sinh hoùa Sinh hoïc phân tử Khoa hoïc maùy tính Bioinformatics: Moân hoïc veà caáu truùc ñaëc tröng cuûa thoâng tin Sinh hoïc Genomics Thoáng keâ Toán học Tóm lại, thuật ngữ bioinformatics có thể định nghĩa cách ngắn gọn là kết hợp Công nghệ Sinh học và Công nghệ Thông tin với mục tiêu giúp hiểu biết và khám phá nguyên lý Sinh học (NCBI) (5) Nội dung thực tập Bioinformatics Nội dung thực tập Bioinformatics dành cho sinh viên năm thứ III, ngành Công ngheä Sinh hoïc, bao goàm: - Giới thiệu các sở liệu sinh học trên mạng Internet và cách thức khai thác các sở liệu này phục vụ cho nghiên cứu - Laøm quen moät soá coâng cuï phaàn meàm phaân tích gen Sau hoàn thành khóa học, sinh viên phải nắm vững số kiến thức cách thức tìm kiếm và xử lý liệu sinh học Trong quá trình thực tập, hầu hết nội dung yêu cầu thực truy cập thông tin trên mạng Internet (với ngôn ngữ sử dụng chủ yếu là tiếng Anh) nên có khá nhiều thuật ngữ tin học, sinh học cách thức giao tiếp giữ nguyên thuật ngữ tieáng Anh Sử dụng mạng Internet đợt thực tập Vì không phải tất người đã có kinh nghiệm sử dụng Internet, đó chúng ta bắt đầu với phần giới thiệu ngắn mạng Internet Mạng Internet là hệ thống mạng toàn cầu có khả liên kết các máy tính khác trên giới Khi tham gia vaøo heä thoáng maïng Internet chuùng ta coù theå tham khaûo caùc taøi nguyeân chia sẻ trên các máy tính (nơi lưu trữ thông tin) thuộc lĩnh vực: khoa học, văn hóa, giáo dục, thể thao, giải trí… Trong đợt thực tập này, để làm việc trên mạng Internet, chúng ta sử dụng phần mềm Microsoft Internet Explorer hãng Microsoft (hoặc có thể dùng phần mềm Netscape với chức tương tự) Yêu cầu sinh viên là phải có kiến thức máy tính (làm việc với máy tính môi trường Windows) Để vào chương trình Microsoft Internet Explorer, chúng ta thực các bước sau: • Tìm biểu tượng Internet Explorer trên Desktop và nhấn đúp (double clicking) nút chuột trái để mở cửa sổ trình duyệt Web Hoặc nhấn phím Start choïn Programs, roài choïn Internet Explorer • Địa tìm kiếm nhập vào khung Address và nhấn Enter↵ Internet Explorer kết nối máy tính chúng ta với mạng vào địa đã nhập Biểu tượng trên góc phải màn hình thể hoạt động kết nối Internet: Ñang keát noái Kết nối xong bị gián đoạn (6) Mạng Internet là mạng máy tính toàn cầu với 150 triệu máy tính (tháng 1/2002) liên lạc với thông thường qua giao thức TCP/IP (Transfer Control Protocol/Internet protocol) Các máy tính nhận diện và kết nối với mạng Internet thoâng qua ñòa chæ internet (Internet protocol - IP) cuûa noù coù daïng daõy soá goàm số phân cách dấu chấm (ví dụ 172.69.145.21) Bốn dịch vụ chính có thể sử dụng trên mạng là: thư điện tử (e-mail), đăng nhập từ xa (telnet), chuyển tập tin (file transfer protocol, FTP) và World Wide Web (hay còn gọi là giao thức truyền siêu văn - hypertext transfer protocol, HTTP) World Wide Web cho phép người sử dụng các trình duyệt định vị và xem thông tin từ 40 triệu dịch vụ web trên toàn giới (tháng 3/2002) Các tài liệu siêu văn có thể thể chứa hình ảnh, âm thanh, văn text… và có thể dễ dàng liên kết với các trang siêu văn khác Địa định vị các taøi lieäu sieâu vaên baûn laø moät ñòa chæ nhaát (URL – Uniform Resource Locator) coù daïng service://hostname:port/file (dòch vuï://teân maùy chuû: coång/file) Service hostname port /file : Teân dòch vuï ñang truy caäp (ftp, http, gopher, telnet, mailto) : Địa IP tên miền nơi định vị thông tin : Coång treân maùy phuïc vuï, maëc ñònh laø 80, nhöng cuõng coù laø 8000 hay 8080 : Tên thật tập tin trên máy tính tham chiếu máy phục vụ Ví duï veà ñòa chæ WWW: http://www.tulane.edu/~dmsander/Big_Virology/BVHomePage.html Các trang web là nơi chứa đựng thông tin thường xây dựng ngôn ngữ siêu văn và có sử dụng các liên kết đến các trang khác Các liên kết thường thể dòng chữ bị đổi màu chữ ta di chuyển đến và trỏ biến thaønh daáu hieäu Khi nhập địa liên kết đến các vị trí trang web (web site) phải đánh dòng văn với đầy đủ các ký tự, có phân biệt chữ thường và chữ hoa Nôi nhaäp ñòa chæ Noäi dung trang web (7) Khi sử dụng phần mềm Internet Explorer để xem (duyệt) trang web, chúng ta có thể lưu lại các địa đã “ghé thăm” cách sử dụng chức Add to favourites… trên Explorer bar trang web “ưa thích” Những lần truy cập sau, chúng ta cần nhấn vào tên trang web menu Favourites để vào trang web öa thích maø khoâng phaûi nhaäp laïi ñòa chæ Internet Sử dụng nút Back Forward để trở lại tiếp tục mở lại trang web phía trước; các nút Stop và Refesh để tạm dừng truy cập hay thực “làm tươi” nội dung trang web baèng caùch truy caäp laïi ñòa chæ Internet naøy Một số thuật ngữ sinh – tin học thường gặp trên mạng internet Thuật ngữ Sinh học Accession Alignment Mã số truy cập các sở liệu sinh học (Genbank…) Sắp gióng cột hai hay nhiều trình tự nhằm xác định độ tương đồng chúng bp (base pair) caëp base cDNA (complementary DNA) mạch đơn bổ sung cho RNA và tồng hợp từ khuôn nhờ enzyme phiên mã ngược Cloning Kỹ thuật tạo tập hợp các tế bào phân tử giống hệt cùng bắt nguồn từ tế bào hay phân tử ban đầu Codon Boä ba nucleotide maõ hoùa cho moät acid amin hay moät “daáu hieäu” baét đầu hay kết thúc dịch mã DNA sequencing Trình tự A, T, G, C acid deoxyribonucleic (DNA) Downstream Đầu 3’ trình tự nucleotide Exon Một phần gen gián đoạn (gen tồn eukaryote), có mặt phân tử RNA trưởng thành Gene Đoạn DNA (gen) tham gia vào việc hình thành sợi polypeptide; gen bao gồm các vùng nằm trước và sau vùng mã hóa và trình tự (intron) nằm các phần mã hóa gi Dãy số hiệu trình tự quy định theo xếp NCBI Hairpin Vùng xoắn kép hình thành từ bắt cặp bổ sung hai trình tự bổ sung nằm kề trên phân tử DNA hay RNA mạch đơn (cấu truùc keïp toùc) Intron Đoạn DNA phiên mã bị loại bỏ quá trình trưởng thành RNA, không có mặt phân tử RNA trưởng thành Molecular hybridization Quá trình đó hai mạch acid nucleic bổ sung (A-T, G-C) bắt cặp hình thành nên mạch kép; kỹ thuật hữu hiệu để phát trình tự nucleotide chuyên biệt (lai phân tử) (8) Operon Đơn vị biểu và điều hòa gen vi khuẩn, bao gồm các gen cấu truùc naèm caïnh vaø caùc nhaân toá ñieàu hoøa, caùc gen caáu truùc naøy cùng chịu tác động điều hòa PCR (Polymerase Chain Reaction) kỹ thuật dùng để khuếch đại nhiều trình tự DNA đích nhờ DNA polymerase ORF (Open Reading Frame) khung đọc mở dịch mã cho trình tự amino acid hoàn chỉnh Plasmid DNA dạng vòng, nằm ngoài nhiễm sắc thể và có khả tự chép độc lập Primer Trình tự DNA hay RNA ngắn, bắt cặp với mạch khuôn DNA và có mang đầu 3’OH tự giúp DNA polymerase bắt đầu tổng hợp mạch Promoter Trình tự trên phân tử DNA, nơi RNA polymerase gắn vào để khởi động phiên mã Redundancy Sự có mặt nhiều mẩu tin dư thừa (thường là trình tự) Trong Bioinformatics, đó là liên quan trình tự giống cùng sở liệu Restriction enzyme (RE) Enzyme nhận biết trình tự DNA ngắn chuyên biệt và cắt mạch keùp DNA Restriction map Bản đồ vị trí nhận biết tất các enzyme cắt giới hạn trên trình tự DNA RNA sequencing Trình tự A, U, G, C acid ribonucleic (RNA) Splicing Sự loại bỏ các intron và nối liền các exon RNA quá trình trưởng thành sau phiên mã Tm (Melting temperature) nhiệt độ mà đó nửa số phân tử trình tự đó bị biến tính (nhiệt độ nóng chảy trình tự) Transcription Sự tổng hợp RNA từ khuôn DNA Translation Sự tổng hợp protein từ khuôn mRNA (sự dịch mã) Upstream Đầu 5’ trình tự nucleotide Vector Trong kỹ thuật tạo dòng (cloning), là plasmid hay phage dùng để chuyên chở đoạn DNA lạ gắn vào đó với mục đích tạo lượng lớn hay sản phẩm protein từ đoạn DNA này Thuật ngữ Tin học Acrobat BLAST Hoï caùc coâng cuï cuûa coâng ty Adobe cho pheùp nhaø xuaát baûn dòch caùc tập tin Postscript thành Portable Document Format (PDF) và người dùng có thể xem trên trên các thông thường máy (Basic Local Alignment Search Tool) moät coâng cuï tìm kieám nhanh trình tự tương đồng sở liệu (9) Browser Browser Download FAQs FASTA Freeware FTP Gap Gateway Gopher Homepage HTML Internet IP address LAN Login Netquette Offline Online Query Shareware URL WWW Công cụ cho phép người dùng quét danh sách tập tin tìm mục riêng nào đó Trong WWW (World-Wide-Web), browser hiểu là phần mềm cho phép duyệt qua tư liệu trên Web Một trình duyệt web (Web Browser) hỗ trợ các đồ họa, âm và video Tải tập tin xuống máy tính, truyền các tập tin từ máy tính sang moät maùy tính khaùc Những câu hỏi yêu cầu thường xuyên (Frequently Asked Questions) Chương trình tìm kiếm trình tự tương đồng dùng rộng rãi đầu tieân Phần mềm sử dụng miễn phí và có thể tải máy tính cá nhân Giao thức chuẩn dùng để gởi tập tin (File Transfer Protocol) từ máy này đến máy khác trên mạng TCP/IP Internet Khoảng trống đưa vào so sánh các trình tự với nhằm làm tăng độ tương đồng chúng Dịch vụ dịch thông điệp giao thức khác Hệ menu phân cấp dùng để gởi tài liệu trên Internet Trang đầu server World-Wide-Web hay tài liệu gốc mô tả tổ chức (cá nhân) cung cấp thông qua user Ngôn ngữ đánh dấu siêu văn (The HyperText Markup Language) dùng để mô tả các tài liệu truyền thông qua WWW HTML cho phép tài liệu có thể chứa các liên kết đến tài liệu khaùc, cung caáp cho WWW khaû naêng Hypertext (vaø hypermedia) Bất kỳ mạng nào hệ thống mạng liên kết trên giới Soá nhaát gaùn cho moät maùy maïng TCP/IP (Local Area Network) mạng phủ trên vùng địa lý tương đối nhỏ (moät vaên phoøng, moät taàng hay moät toøa nhaø…) Thủ tục khởi nhập liên kết với máy chủ người sử dụng mạng (thường gồm yêu cầu tên và mật khẩu) Những nguyên tắc xã giao chủ đạo truyền thông trên mạng Internet Khi không sử dụng kết nối đó Khi sử dụng kết nối với máy tính khác Khung nhập trình tự (hoặc loại thuật ngữ tìm kiếm khác) Phần mềm cho phép tải và sử dụng miễn phí muốn dùng tiếp thì phải trả cho tác giả khoản tiền danh dự nhỏ (Uniform Resource Locator – định danh tài nguyên đồng nhất) hệ thống ghi địa web sử dụng (World Wide Web) Phương tiện định vị trên Internet cách sử duïng sieâu lieân keát Ví duï http://www.mcb.harvard.edu/BioLinks.html (10) Taøi lieäu tham khaûo Cynthia Gibas &Per Jabeck 2001 Developing Bioinformatics Computer Skills O’Reilly & Associates, Inc., USA Gunter Kahl 1995 Dictionary of Gene Technology VCH Verlagsgesellschaft mbH, Germany Hồ Huỳnh Thùy Dương 1998 Sinh học phân tử, NXB Giáo dục Institute of Technical Biochemistry, 2002 Bioinformatics tools for Biologists, University of Stutgartt, Germany National Center for Biotechnology Information, NCBI 10/2001 http://www.ncbi.nlm.nih.gov/, USA Neil F., Peadar OÙ G 2001 Bioinformatics programme, 4th Molecular Biology Workshop, HCMC, Vietnam (11) PHAÀN I KHAI THÁC DỮ LIỆU SINH HOÏC QUA MAÏNG INTERNET 10 (12) Baøi CƠ SỞ DỮ LIỆU SINH HỌC TRÊN MẠNG INTERNET Muïc ñích, nguyeân taéc Công việc đầu tiên chúng ta bắt tay vào công việc nghiên cứu là tập hợp và xử lý thông tin lĩnh vực nghiên cứu mình quan tâm Để làm chuyện này, ngoài cách tiếp cận truyền thống là vào thư viện, chúng ta còn có thể khai thác kho liệu thông tin phong phú trên mạng Internet (World Wide Web) Ở đây luôn có lượng lớn thông tin Sinh học đa dạng và cập nhật có thể tham khảo và sử dụng nghiên cứu Các thông tin này thuộc nhiều lĩnh vực khác như: sinh học phân tử, sinh hóa, sinh học tế bào, di truyền học… Trên giới có nhiều hệ thống các nhóm nghiên cứu sinh học hoạt động trên nhiều lĩnh vực khác Các thông tin sinh học thu thập từ hoạt động các nhóm này ngày càng nhiều, là từ Công nghệ Sinh học có bước tiến vượt bậc Từ thực tế này đã xuất nhu cầu cần quản lý, hợp tác và trao đổi thông tin sinh học với trợ giúp Công nghệ Thông tin, ngành kỹ thuật mũi nhọn thời đại công nghệ tri thức Các sở liệu sinh học trên giới đời từ đó với mục đích giúp các nhà sinh học có điều kiện quản lý, khai thác, trao đổi thông tin nghiên cứu kho liệu sinh học khổng lồ sống trên hành tinh này Khai thác và xử lý thông tin Sinh học Hiện nay, có nhiều dạng sở liệu thuộc nhiều lĩnh vực sinh học khác (dữ liệu môi trường, đa dạng sinh học, đa dạng di truyền; liệu nguồn gen: DNA, RNA; liệu protein: trình tự, cấu trúc, chức năng…) Trong đó, liệu sinh học phân tử luôn chiếm ưu đặc thù thông tin nghiên cứu lĩnh vực này Chúng ta có thể khai thác các liệu sinh học phân tử cách thông qua mạng Internet liên kết đến các máy tính chủ (server) lưu trữ các trình tự DNA hàng ngàn gen thuộc hàng trăm loài khác nhau, trình tự protein có nguồn gốc từ trình tự DNA này, trình tự gen (genome) nhiều loài (bao gồm thảo trình tự gen người), nhiều ấn phẩm điện tử (sách, báo, tạp chí…) và thông tin khác phục vụ cho mục đích nghiên cứu Ngoài ra, còn có nhiều địa giới thiệu các nhóm nghiên cứu các vấn đề sinh học chuyên ngành, các chương trình phần mềm dùng để phân tích các trình tự sinh học trên Internet Chúng ta có thể sử dụng trực tiếp trên Internet chép (download) các phần mềm miễn phí này máy tính mình Phần lớn các thông tin này sử dụng miễn phí Tuy nhiên, có số thông tin bảo vệ luật quyền và không thể sử dụng miễn phí 11 (13) Trong phần I, chúng ta làm quen với nhiều cách tìm kiếm thông tin sinh học trên mạng Internet thông qua các trang web tìm kiếm thông tin các sở liệu sinh học lớn trên giới Thông tin tìm kiếm quan tâm là các bài báo khoa học và các trình tự nucleic acid hay protein Tùy trường hợp cụ thể mà chúng ta có thể xác định đối tượng và mở rộng phạm vi tìm kiếm đến lĩnh vực khác với nguyên tắc tương tự Thoâng tin sinh hoïc treân maïng Internet coù nhieàu daïng, chuû yeáu laø caùc daïng dạng trang web (HTM, HTML), dạng tạp chí điện tử, các bài báo lưu trữ (PDF) các dạng sở liệu tr2inh tự sinh học (trình tự DNA, protein…) Để khai thác các thông tin này chúng ta cần phải biết lựa chọn sở liệu, cách thức truy cập và sử dụng công cụ tìm kiếm và xử lý thông tin này phù hợp với yêu cầu công việc Chương trình thực tập khai thác thông tin sinh học qua mạng Internet bao gồm caùc noäi dung: • • • Tìm kiếm các dạng liệu trình tự sinh học và các thông tin sinh học khác có liên quan (chủ yếu sinh học phân tử) Địa Internet để tìm kiếm các thông tin này Giải các câu hỏi làm nào để: - Truy cập thông tin có liên quan (ấn phẩm, cấu trúc, trình tự liên quan)? - Truy cập trình tự DNA và protein các sở liệu trình tự sinh học?- Phân tích trình tự sinh học các chương trình trên Internet? Chúng ta download các trình tự Sinh học và phân tích chúng nhiều chương trình khác Các chương trình này hầu hết là phần mềm trang web miễn phí Như vậy, sau đợt thực tập, các bạn có thể thực việc tìm kiếm và phaân tích thoâng tin sinh hoïc baèng baát kyø maùy tính naøo noái maïng Internet 12 (14) Baøi TÌM KIEÁM THOÂNG TIN TREÂN MAÏNG INTERNET Muïc ñích, nguyeân taéc Để tìm kiếm thông tin trên mạng Internet, chúng ta có thể sử dụng nhiều công cụ tìm kiếm khác Việc tiếp cận các thông tin thường thực cách xác định nội dung chính cần tìm kiếm, lựa chọn công cụ tìm kiếm, xác định phạm vi thực tìm kiếm và chọn lọc thông tin (loại bỏ thông tin không cần thiết) Công việc tìm kiếm thông tin trở nên nhẹ nhàng ta nắm vững số nguyên tắc giới hạn tìm kiếm và lọc thông tin Sơ đồ nguyên tắc tìm kiếm thường sử dụng là: Thoâng tin caàn tìm Xaùc ñònh từ khóa Choïn caùch tìm kieám Loïc thoâng tin KEÁT QUAÛ CAÀN TÌM Công cụ và cách sử dụng Để tìm kiếm thông tin này, thông thường chúng ta phải xác định từ hay nhóm từ khóa (keyword) mang nội dung chủ yếu hay quan trọng vấn đề quan tâm Sau đó sử dụng các công cụ tìm kiếm trên mạng để tìm đến các địa lưu trữ thông tin cần thiết thông tin liên quan Sử dụng các chức chọn lọc thông tin các công cụ để hạn chế việc tiếp nhận thông tin khoâng lieân quan Ví duï thoâng tin: “PCR for detection of Listeria monocytogenes in food samples”, trường hợp này có thể xác định các từ khóa là: PCR, monocytogenes Sau xác định từ khóa, ta thường phải xác định phạm vi tìm kiếm để lựa chọn công cụ thích hợp Nếu chúng ta cần tìm thông tin tổng hợp lĩnh vực này thì có thể bắt đầu tìm kiếm thông tin trang web Các công cụ tìm kiếm có thể là trang tìm kiếm trên mạng (AltaVista, EuroSeek, Lycos, GOTO, Yahoo…) phần mềm tìm kiếm trên mạng Internet Nhập từ khóa vào hộp yêu cầu và nhấn Enter↵ nút tìm kiếm (Go, Search…) Nguyên tắc chung việc nhập từ khóa là: - Để tìm thông tin có nhiều từ khóa ta nhập các từ khóa và phân cách các từ khoảng trắng (dùng spacebar) 13 (15) - Để tìm thông tin chứa cụm từ khóa ta thường đặt chúng dấu ngoặc kép (“”), các từ thường dùng (for, of, in, to…) có thể loại bỏ Ví dụ: PCR detection, Listeria cho kết khác với “PCR for detection of Listeria” Tuy nhiên hiệu thực tìm kiếm các trang web lớn, đa chức thường không cao (do chúng phải chia sẻ cho các chức khác bên cạnh chức tìm kiếm) Kết tìm kiếm dạng này thường quá lớn (do chức lọc thông tin không mạnh), nhiều thời gian (thường phải tải kèm hình ảnh quảng cáo), dễ bị gián đoạn (do quá tải trang chủ) Để tăng hiệu tìm kiếm, chúng ta có thể sử dụng trang tìm kiếm nhỏ gọn và chuyên nghiệp (ví dụ Google, All The Web) Các trang này thường có nhiều chức tìm kiếm chuyên biệt, khả chọn lọc thông tin mạnh (Advanced Search), tìm nhiều địa Giới hạn kết quaû xuaát hieän Nhập từ tìm kieám Giới hạn ngôn ngữ, phaïm vi tìm kieám Một giải pháp khác để tìm kiếm thông tin là sử dụng các phần mềm tìm kiếm thông tin Các phần mềm này thường sử dụng cùng lúc nhiều trang tìm kiếm trên mạng (ví dụ phần mềm WebFerret, Copernic) Cách tìm kiếm này thường cho hiệu cao, có thể tìm nhiều địa liên quan đến thông tin ta quan tâm, thông tin thường không tập trung 14 (16) Tuy nhiên, chúng ta quan tâm đến thông tin khoa học sinh học đáng tin cậy, thường là bài báo khoa học, thì việc tìm kiếm có hiệu cao ta tìm kiếm thông tin tạp chí khoa học chuyên ngành trên mạng Internet (ví dụ tạp chí Applied Environmental Microbiology), sở lieäu thoâng tin veà Sinh hoïc (NCBI, Medscape, BioMedNet…) Soá taäp xuaát baûn, trang đầu tiên baøi baùo Giới hạn phaïm vi tìm kieám vaø keát quaû theå hieän Teân taùc giaû và từ khóa tìm kieám Trong đợt thực tập này chúng ta tìm kiếm thông tin cách sử dụng sở liệu trang chủ NCBI (National Center for Biotechnology Information NCBI, USA) địa Internet là http://www.ncbi.nlm.nih.gov/ Khi truy cập vào địa chæ naøy, chuùng ta seõ nhìn thaáy moät trang chuû daïng nhö sau: 15 (17) Chúng ta thực tìm kiếm thông tin sinh học trang Entrez Trang Entrez laø moät trang web cuûa NCBI • Nhấn dòng chữ Entrez để vào trang Entrez Trong Entrez, bạn có thể tìm kiếm nhiều dạng sở liệu khác Mỗi sở liệu là liên kết biểu thị dòng văn đổi màu ta di chuyển đến Ví dụ: PubMed, Protein Khung nhaäp yeâu caàu Các sở lieäu thuoäc trang Entrez Các dòng văn đổi màu gọi là các liên kết siêu văn (hay liên kết) và thường mở trang ta nhấn vào Trong Entrez chúng ta có thể nhập vào yêu cầu tìm kiếm sở liệu các bài báo thuộc lĩnh vực Y – Sinh học (PubMed), trình tự nucleic acid (Nucleotide), trình tự protein (Protein), cấu trúc chiều (Structure), gen (Genome)… Ở đây, chúng ta sử dụng trang PubMed để tìm kieám caùc baøi baùo veà thoâng tin Y - Sinh hoïc Ví dụ chúng ta quan tâm bài báo có tựa đề “Isolation and characterization of Escherichia coli O157:H7 from retail meats in Argentina” Taùc giaû: Chinen I, Tanaro JD, Miliwebsky E, Lound LH, Chillemi G, Ledri S, Baschkier A, Scarpin M, Manfredi E, Rivas M Chúng ta có thể chọn lựa từ khóa là “O157:H7”, “Argentina” (tựa đề) và “Chinen” (tên tác giả) 16 (18) • • • Chọn sở liệu là PubMed khung Search Nhập từ khóa cần tìm kiếm vào khung yêu cầu (for oooo ) Ấn phím Go nhấn Enter↵ Kết xuất sau vài phút (hoặc lâu hơn) dạng danh sách các mục bài (entries, hits) với tên tác giả, tựa đề bài báo, tên tạp chí, năm xuất Nhấn vào dòng tên tác giả để xem chi tiết tóm tắt mục bài Tựa đề bài báo Teân taùc giaû Thay đổi kiểu thể kết cách chọn kiểu thể menu Display (Summary, Brief, Abstract, Citation, ASN.1, MEDLINE…) Để tìm chính xác các từ khóa, chúng ta có thể sử dụng toán tử Boolean (AND, OR, NOT) và dùng thẻ (tag) ngoặc vuông ([ ]) đặt sau từ khóa để giới hạn phạm vi tìm kiếm từ khóa đó Dưới đây là số thẻ thông dụng Theû [AB] [AU] [DP] [CY] [IP] [IS] [LA] [PG] [TI] [VI] Giới hạn phạm vi tìm kiếm Toùm taét - abstract Teân taùc giaû - author name Ngaøy xuaát baûn - publication date Nôi phaùt xuaát baûn taïp chí - country Soá phaùt haønh cuûa taïp chí International Standard Serial Number of Journal (ISSN) Ngôn ngữ bài báo - language Soá trang - page number Tựa đề - title word Taäp (soá) - volume 17 (19) Ví dụ: "DNA microarray"[ti] AND Curtis[au] 2002[dp] nghĩa là: tìm bài báo có chữ DNA microarray (trong tựa đề bài báo) tác giả Curtis năm 2002 Lưu ý: tìm kiếm, để tìm cụm từ (phrase) thì chúng phải đặt dấu ngoặc kép (“”) Entrez tự động hiểu có toán tử AND các từ cách khoảng trắng (không nằm dấu ngoặc kép) Ví dụ: protein SSB tương đương với protein AND SSB và khác với “protein SSB” Thực hành Sinh viên thực hành tìm bài báo có tựa đề: “Cloning and characterization of two promoters for the human Hsal gene and their transcriptional repression by the Wilms tumor suppressor gene product” Taùc giaû: Ma Y, Li D, Chai L, Luciani AM, Ford D, Morgan J, Maizel AL Ta thực chọn lựa từ khóa là “Cloning” (tựa đề) và “Ma” (tên tác giả) Chúng ta thực tìm kiếm bài bào này trên PubMed nhiều cách khác Đầu tiên thực tìm bài báo có từ “Cloning” và từ “Ma” • • Nhaäp vaøo khung for doøng “Cloning[TI] AND Ma[AU]” Nhấn phím Go nhấn Enter↵ Câu hỏi: Có bao nhiêu mục bài tìm thấy? Trả lời: Bây biết thêm thông tin bài báo trên xuất năm 2001 Câu hỏi: Phải nhập vào trình tự tìm kiếm là gì để tìm chính xác bài báo ta cần? Có bao nhiêu bài báo tìm được? Trả lời: Trong trang PubMed, thử tìm và phân biệt hai trường hợp tìm bài báo với yêu cầu là LT AND gene và “LT gene” (trong ngoặc kép) Câu hỏi: Số bài tìm cách là bao nhiêu? Có gì khác hai cách tìm này? Trả lời: 18 (20) Baøi TÌM KIẾM CÁC TRÌNH TỰ SINH HỌC Muïc ñích, nguyeân taéc Trong nghiên cứu sinh học phân tử, chúng ta thường xuyên phải làm việc trên các đối tượng là nucleic acid (DNA) và protein Đây là các dạng trình tự sinh học lưu trữ phổ biến các sở liệu sinh học Hiện nay, các thông tin này lưu trữ chủ yếu các sở liệu lớn trên giới hệ thống GenBank (NCBI, USA), EMBL (European Molecular Biology Laboratory, UK), DDBJ (DNA Database of Japan, JP) và số hệ thống sở liệu khác trên giới Thông tin các sở liệu này lớn và luôn cập nhật thường xuyên (sau 24 giờ) Ví dụ sở liệu nucleotide Genbank (NCBI) chứa trên 13 tỉ base trên 100 ngàn loài Con số này luôn tăng theo số mũ và dự tính gia tăng lên gấp đôi trung bình sau 14 tháng (10/2001) Để tìm trình tự sinh học này, chúng ta sử dụng công cụ tìm kiếm Entrez Nucleotide (tìm trình tự DNA) Entrez Protein (tìm trình tự protein) Công cụ và cách sử dụng 2.1 Tìm trình tự DNA Để tìm trình tự DNA ta sử dụng Entrez Nucleotide để tìm kiếm hệ thống sở liệu trình tự DNA Các sở liệu này bao gồm hệ thống GenBank (NCBI, USA) và liên kết với sở liệu EMBL, DDBJ và số hệ thống liệu khác trên giới Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến trang Entrez Nucleotide Nhập vào yêu cầu (thường là tên gen như: “luc gene”, “ST gene”,…) và nhấn nút Go (hoặc nhấn Enter↵) Kết xuất danh sách trình tự DNA tương tự sau: • • • Caùc muïc baøi tìm • Nhấn vào các mục bài để xem chi tiết trình tự DNA 19 (21) 2.2 Tìm trình tự Protein Để tìm trình tự protein, tương tự việc tìm kiếm trình tự DNA Việc tìm kiếm trình tự protein thực hệ thống Genbank, EMBL và DDBJ • • • • Nhấn vào dòng Protein trang Entrez để mở trang Entrez Protein Nhập vào yêu cầu (thường là tên protein như: “SSB”, “ST”,…) và nhấn nút Go (hoặc nhấn Enter↵) Sau vài phút, kết xuất danh sách trình tự protein tương tự trường hợp DNA Nhấn vào mã số truy cập các mục bài để xem chi tiết trình tự protein Teân taùc giaû vaø taïp chí ñaêng taûi Trình tự protein Thực hành 3.1 Tìm trình tự DNA Chúng ta thực tập tìm kiếm trình tự gen có tên là LT • • • Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến trang Entrez Nucleotide Nhập vào yêu cầu là ( “LT gene” và nhấn nút Go (hoặc nhấn Enter↵) Sau vài phút, kết xuất danh sách trình tự DNA Kết tìm kiếm thể số lượng các mục bài (entries, hits) có liên quan đến trình tự gen LT 20 (22) Câu hỏi: Có bao nhiêu mục bài có liên quan đến trình tự gen LT tìm thấy? Trả lời: Để thay đổi kiểu thể kết ta có thể thay đổi dạng trình bày cách chọn kiểu thể menu Display (Summary, Brief, ASN.1, FASTA, GenBank, GI list…) • Nhấn lên phần số mục bài nào, ta nhận mô tả chi tiết mục này liên quan đến trình tự DNA, trình tự protein đã dịch mã, tên tác giả và thông tin cần thiết khác (vùng promoter, peptide tín hiệu…) Dạng thể mô tả này là kiểu Genbank • Trở lại trang Entrez Nucleotide và nhập trình tự tìm kiếm là “D00102” và nhaán Go Câu hỏi: Kết có bao nhiêu mục tìm thấy? Trả lời: • Tiếp tục nhấn vào dòng D00102 để xem chi tiết mục bài này Câu hỏi: Trình tự DNA này dài bao nhiêu? Noù maõ hoùa cho gen gì? Công trình này đăng tải tạp chí nào? Taùc giaû laø ai? Trả lời: 21 (23) Cách mã hoá dùng trình tự acid nucleic: A C G T U R Y K > > > > > > > > adenosine cytidine guanine thymidine uridine G A (purine) T C (pyrimidine) G T (keto) M S W B D H V N - > > > > > > > > gap A C (amino) G C (strong) A T (weak) G T C G A T A C T G C A A G C T (any) of indeterminate length 3.2 Tìm trình tự Protein • Trở trang Entrez từ trang Entrez Nucleotide, nhấn vào dòng Protein để mở trang Entrez Protein Trang Entrez protein seõ xuaát hieän coù daïng: Chúng ta thực tập tìm kiếm trình tự protein là độc tố bền nhiệt có tên là ST (ST toxin) • Nhập dòng “ST toxin” vào khung yêu cầu, nhấn Go, và chờ kết 22 (24) Thực tìm hiểu chi tiết các mục bài vừa tìm kiếm cách nhấn lên các mã số mục bài (tương tự cách dùng với trình tự DNA) Câu hỏi: Có bao nhiêu mục bài liên quan đến trình tự protein yêu cầu tìm thaáy? Trình tự protein ST toxin chủ yếu liên quan đến loài nào? Ñaëc ñieåm cuûa protein naøy? Trả lời: Cách mã hóa dùng trình tự amino acid: A B C D E F G H I K L M N alanine aspartate or asparagine cystine aspartate glutamate phenylalanine glycine histidine isoleucine lysine leucine methionine asparagine P proline Q glutamine R arginine S serine T threonine U selenocysteine V valine W tryptophan Y tyrosine Z glutamate, glutamine X any * translation stop - gap of indeterminate length 23 (25) Baøi TÌM KIẾM CÁC TRÌNH TỰ TƯƠNG ĐỒNG Muïc ñích, nguyeân taéc Một chương trình tìm kiếm và so sánh trình tự tương đồng nhiều người duøng nhaát hieän coù teân laø BLAST (Basic Local Alignment Search Tool) Chöông trình này thực so sánh trình tự DNA và protein nhập vào với trình tự các sở liệu (GenBank, EMBL…) và lựa chọn các trình tự có mức độ tương đồng từ cao đến thấp Chúng ta dùng BLASTù có câu hỏi đặt “Liệu có trình tự nào ngân hàng liệu giống gần giống với trình tự bạn không?” Chương trình BLAST giúp chúng ta nhanh chóng tìm trình tự sinh học tương đồng (nếu có) với trình tự bạn yêu cầu Ngoài ra, BLAST còn cung cấp cho bạn số liệu tỉ tệ tương đồng, nguồn gốc các trình tự tương đồng… Công cụ và cách sử dụng Để truy cập vào trang BLAST, chúng ta nhấn vào dòng BLAST trang chủ NCBI Chúng ta có thể thực tìm kiếm trình tự tương đồng DNA (Nucleotide Nucleotide BLAST) protein (Protein – Protein BLAST) 24 (26) 2.1 Nucleotide – Nucleotide BLAST Mở chương trình BLAST cách nhấn vào dòng BLAST các trang NCBI • Mở chương trình Nucleotide BLAST cách nhấn lên dòng blastn Trang kết Nucleotide BLAST xuất dạng HTML (chúng ta có thể thay đổi dạng hiển thị menu Format) • Nhập trình tự DNA cần tìm kiếm vào khung nhập trình tự (Search) Lựa chọn chức blastn và nr (non-redundant), đặt chiều dài giới hạn vùng caàn tìm (From: ooooo To: ooooo ) Nhấn lên nút BLAST! để bắt đầu chương trình • Keát quaû seõ hieän leân trang formatting BLAST • Nhấn vào nút Format! để mở trang kết tìm kiếm và chờ đợi (có thể kéo dài vài phút lâu hơn) Kết lên trang web chứa nội dung tìm Thông thường kết không lên tức thì mà yêu cầu chúng ta chờ đợi khoảng thời gian (từ vài phút đến nhiều phút tùy vào kích thước đoạn cần tìm) Kết gồm phần đồ thị, danh sách mục bài có trình tự tương đồng với trình tự DNA nhập vào với mức độ ngày càng giảm dần Ngoài còn có danh sách các trình tự xếp theo trị số Score Sequences producing significant alignments: gi|145832|gb|M17873.1|ECOELTBP gi|1648865|emb|X83966.1|ECLT87 E.coli (from pig) heat-labil E.coli LT87 gene for heat-la 25 Score E (bits) Value 44 44 0.003 0.003 (27) Giaûi thích: gi|145832|gb|M17873.1|ECOELTBP – là mã số truy cập vào các trình tự tương đồng GenBank Nhấn vào để mô tả chi tiết mục bài này E.coli (from pig) heat-labil – Mô tả chức trình tự 44 - Tỷ số tương đồng tính toán Nucleotide BLAST 0.003 – Giá trị E là xác suất tương đồng xuất không ngẫu nhiên (giá trị này càng nhỏ càng thì mức độ tương đồng càng cao) 2.2 Protein – Protein BLAST Sử dụng tương tự chức Nucleotide BLAST • Mở trang Protein BLAST cách nhấn vào dòng blastp trang BLAST Trang protein BLAST seõ coù daïng: • Trong hộp nhập thông tin (Search), nhập vào toàn trình tự amino acid Chọn chiều dài giới hạn vùng cần tìm (From: ooooo To: ooooo ), sở lieäu laø nr (non-redundant) Nhấn vào nút Format! và đợi đến xuất kết (có thể nhiều phút lâu hơn) • Chương trình trả lời kết trang web chứa trình tự gần giống so với trình tự amino acid cần tìm (tương tự dạng Nucleotide BLAST) Thực hành 3.1 Nucleotide – Nucleotide BLAST Tìm thư mục “baitap” tập tin chứa trình tự DNA có tên là Blast-DNA32.txt 26 (28) Mở chương trình BLAST cách nhấn vào dòng BLAST các trang NCBI Mở chương trình Nucleotide BLAST cách nhấn lên dòng blastn • Chép trình DNA tự tập tin Blast-DNA-32.txt vào khung nhập trình tự (Search) Lựa chọn chức blastn và nr, đặt chiều dài giới hạn từ đến 32 muïc From vaø To • Nhấn nút BLAST! để bắt đầu chương trình Keát quaû seõ hieän leân trang formatting BLAST • • Nhấn vào nút Format! để mở trang kết tìm kiếm và chờ đợi (có thể kéo dài vài phút lâu hơn) Câu hỏi: Chiều dài đoạn DNA bắt cặp tốt với trình tự ta dò tìm là bao nhieâu? Đoạn DNA này thuộc loài nào? Tên gen mã hóa trình tự này? Trả lời: 3.2 Protein – Protein BLAST Tìm thư mục “baitap” tập tin chứa có tên là Blast-protein-72.txt chứa đoạn trình tự protein (độc tố ST) • • • • Mở trang Protein BLAST cách nhấn vào dòng blastp trang BLAST Trong hộp nhập thông tin (Search), chép trình toàn trình tự amino acid tập tin Blast-protein-72.txt vào Chọn trình tự BLAST từ đến 72, chọn sở liệu là nr Nhấn vào nút BLAST!, cửa sổ xuất Nhấn vào nút Format! để mở trang kết tìm kiếm và đợi đến xuất kết (có thể nhiều phút lâu hơn) Kết xuất tương tự dạng Nucleotide BLAST Câu hỏi: Những dạng protein họ hàng với độc tố ST? Trả lời: 27 (29) Baøi PHÂN TÍCH TRÌNH TỰ DNA Muïc ñích, nguyeân taéc Các trình tự DNA mã hóa thông tin di truyền dạng các ba nucleotide Khi có trình tự DNA, chúng ta cần phải tìm trình tự protein muốn xác định sản phẩm sau dịch mã trình tự này Tuy nhiên, các trình tự DNA, sau phiên mã, dịch mã thành protein chúng là khung đọc mở (Open Reading Frame - ORF) Các khung đọc mở phải là trình tự DNA có codon bắt đầu và codon kết thúc dịch mã (Stop Codon) TAA, TGA, TAG Công cụ và cách thực Để tìm các khung đọc mở có thể có trình tự DNA, chúng ta sử dụng moät chöông trình coù teân laø ORF finder cuûa NCBI Chöông trình naøy seõ tìm kieám khung đọc mở có thể có trình tự nhập vào và trình tự bổ sung nó Sau đó đưa đồ khung đọc mở với các trình tự đã dịch mã thành trình tự amino acid • Mở trang ORF finder từ trang chủ NCBI cách nhấn vào dòng ORF finder 28 (30) Nhập trình tự DNA vào hộp trình tự (sequence in FASTA format) mã số trình tự vào hộp GI or ACESSSION (nếu muốn dùng toàn trình tự sở liệu) Lựa vị trí dịch mã (From: ooooo To: ooooo ) và kiểu mã di truyền Nhấn nút OrfFind để thực chương trình • • • Đợi kết xuất sau vài phút (hoặc có thể lâu hơn) Kết có sáu khung dịch mã xuất Các khung đọc mở (nếu có) là có màu sậm Lựa chọn giới hạn cách thể trị số mục Redraw (50, 100, 300) Kết thể có dạng tương tự: Các khung đọc mở • Nhấn lên trình tự khung đọc mở thấy lên trình tự DNA và trình tự dịch mã amino acid tương tự kết bên Codon bắt đầu Codon keát thuùc Thực hành Chúng ta thực hành xác định khung đọc mở trình tự gen LT Mở tập tin ORF-DNA-1310LT.txt thö muïc “baitap” • Mở trang ORF finder từ trang chủ NCBI 29 (31) • • • Chép trình tự DNA tập tin ORF-DNA-1310LT.txt (dạng tập tin văn text) vào hộp trình tự (sequence in FASTA format) Lựa chọn dịch mã từ đến 1000 và mã di truyền là Bacteria code Nhấn nút OrfFind để thực chương trình Kết có sáu dịch xuất và là khung đọc mở LT (lymphotoxin) laø moät protein coù maïch polypeptide laø 205 amino acid neân caàn coù moät khung đọc mở với 618 base • Chọn thể khung đọc mở có kích thước lớn 300 nucleotide cách lựa chọn trị số 300 menu Redraw và nhấn Redraw Câu hỏi: Có bao nhiêu khung đọc mở có kích thước trên 300 nucleotide? Tìm khung đọc mở nào cho polypeptide có kích thước đúng với độc toá LT? Trả lời: 30 (32) • Nhấn lên trình tự khung đọc mở thấy lên trình tự DNA và trình tự dòch maõ amino acid Câu hỏi: Có nhận xét gì kích thước trình tự amino acid? Các vị trí codon có đánh dấu? Trả lời: 31 (33) Baøi TẠO CÂY PHÁT SINH LOAØI TỪ TRÌNH TỰ DNA Muïc ñích, nguyeân taéc Cây phát sinh loài là công cụ thể mức độ tương đồng các trình tự qua quá trình tiến hóa Chúng ta có thể tạo cây phát sinh loài từ kết so sánh các trình tự tương đồng thông qua hai phần mềm ClustalX (1.81) và TreeView (có thể download dễ dàng từ Internet) Công cụ và cách sử dụng ClustalX là phần mềm (giao diện Windows) dùng để so sánh tương đồng nhiều trình tự DNA Nó mô tả kết hệ thống các màu sắc và làm bật nét đặc trưng đoạn tương đồng TreeView là phần mềm dùng để vẽ cây phát sinh loài Phần mềm này thực đọc kết so sánh từ tập tin dạng NEXUS (NEXUS tree) các chương trình PAUP và COMPONENT NEXUS tập tin dạng PHYLIP (PHYLIP tree) cuûa caùc chöông trình fastDNAml, ClustalX vaø ClustalW • • • • Mở chương trình ClustalX trên desktop Lựa chọn chức Multiple Alignment Mode Từ menu File, chọn Load Sequences Trong hộp Open, chọn tập tin chứa các trình tự cần so sánh Nhấn nút Open Choïn Do Complete Alignment menu Alignment Xaùc ñònh vò trí cho taäp tin xuaát roài nhaán nuùt Align Kết xuất các trình tự so sánh tương đồng Các vị trí trình tự giống thể cùng màu sắc (mỗi loại nucleotide màu) và đánh dấu * Vò trí gioáng 32 (34) Ta có thể nhận xét mức độ tương đồng các trình tự thông qua tương đồng màu sắc và dạng đồ thị bên Để tạo cây phá sinh loài dạng PHYLIP chúng ta thực các bước • • • • Trong menu Trees, chọn chức Draw N-J Trees Trong hộp DRAW TREE ta chọn nút OK để lưu tập tin dạng *.ph Mở chương trình TreeView trên desktop Từ menu File, chọn Open Trong hoäp Open, choïn taäp tin *.ph vaø Files of type laø All tree files Một trang kết cây phát sinh loài xuất tương tự: Chúng ta có thể thay đổi kiểu trình bày cây phát sinh loài cách nhấn vào caùc nuùt Phylogram, Rectanglar Cladogram, Cladogram, Radial tree Thực hành • • • • Mở chương trình ClustalX trên desktop Lựa chọn chức Multiple Alignment Mode Chọn trình tự tập tin Clustax-DNA-32.txt thư mục “baitap” Nhaán nuùt Open Choïn complete alignment 33 (35) Câu hỏi: Nhận xét gì mức độ tương đồng các trình tự tập tin ClustaxDNA-32.txt? Trả lời: Nhận xét mức độ tương đồng các trình tự tương đồng màu sắc (mỗi loại nucleotide màu) và dạng đồ thị bên • • • • Trong menu Trees, chọn chức Draw N-J Trees Trong hộp DRAW TREE ta chọn nút OK để lưu tập tin dạng *.ph Mở chương trình TreeView trên desktop Từ menu File, chọn Open Trong hoäp Open, choïn taäp tin Clustax-DNA-32.ph thu muïc “baitap” vaø Files of type laø All tree files Một trang kết cây phát sinh loài xuất Câu hỏi: Nhận xét gì cấu trúc cây phát sinh loài? Trả lời: 34 (36) PHAÀN II MOÄT SOÁ COÂNG CUÏ PHAÀN MEÀM PHAÂN TÍCH GEN 35 (37) Sự phát triển nhanh chóng các nghiên cứu sinh học thập niên sau kỷ 20 đã tạo số lượng kết khổng lồ liên quan đến trình tự và chức gen, protein Do vậy, nhu cầu ứng dụng các công cụ công nghệ thông tin sinh học ngày càng gia tăng nhằm khai thác, xử lý và thống kê các liệu kể trên Có nhiều phần mềm đã xây dựng và ứng dụng sinh học nói chung và sinh học phân tử nói riêng Trong phạm vi học phần thực tập này, chúng ta cùng làm quen với phần mềm DNAclub và phần mềm Plasdraw DNAclub là phần mềm dùng cho nghiên cứu trên gen Nói cách khác, DNAclub là phần mềm hữu dụng công nghệ sinh học với các tính tìm trình tự khởi đầu dịch mã, lập đồ enzyme cắt giới hạn, thiết kế primer… (Hình II.1.) Hình II.1 DNAclub vaø giao dieän Plasdraw, là phần mềm giúp người sử dụng thiết kế, vẽ, thể plasmid (Hình III.2.) Hình II.2 Plasdraw vaø giao dieän 36 (38) Baøi NHẬP XUẤT DỮ LIỆU Muïc ñích, nguyeân taéc Dữ liệu là đối tượng phân tích, nghiên cứu người sử dụng phần mềm Vì vậy, việc đưa liệu vào phần mềm phân tích hay còn gọi nhập liệu là khâu đầu tiên và cần thiết để từ đó người sử dụng có thể thao tác, phân tích liệu đã nhaäp vaøo Dữ liệu xử lý các phần mềm dành cho sinh học phân tử DNAclub là các trình tự DNA (DNA sequence) hay trình tự amino acid protein (protein sequence) quan tâm nghiên cứu Các liệu này có thể nhập vào chương trình xử lý cách: - Chuyển nhập trực tiếp từ máy giải trình tự gen (sequencer) hay giải trình tự amino acid - Truy cập và chuyển nhập từ ngân hàng gen (GenBank) - Nhập liệu thủ công Sau nhập vào chương trình xử lý, liệu thể trên giao diện chương trình này dạng DNAseq file Aminoacidseq file Dữ liệu sau xử lý và kết xử lý lưu trữ máy hay in tùy thuộc vào nhu cầu người sử dụng Việc lưu giữ lại các kết phân tích là cần thiết cho mục đích sử dụng sau này Trong nhiều trường hợp, kết phân tích cần chuyển hình thức văn (các báo cáo) hay thư điện tử (dạng tập tin đính kèm) v.v Các thao tác in liệu giấy, chuyển liệu qua e-mail… gọi chung là thao tác xuất liệu Để thực thao tác xuất liệu, thông thường cần có các thiết bị kèm là máy in, modem… Nội dung thực hành Sinh viên thực hành nhập liệu vào chương trình DNAclub từ tập tin lưu sẵn máy và nhập liệu trực tiếp từ ngân hàng gen Lưu liệu vừa nhập vaøo thö muïc mang teân hoïc vieân Thực hành - Khởi động chương trình DNAclub cách nhắp đôi (double click) lên biểu tượng chương trình trên màn hình desktop (Hình 7.1.) 37 (39) DNAClub.lnk Hình 7.1 Biểu tượng chương trình DNAclub Cửa sổ hoạt động DNAclub mở sẵn sàng đợi lệnh (Hình 7.2.) Hình 7.2 Cửa sổ hoạt động DNAclub Để nhập liệu phân tích, kích hoạt menu File (Hình 7.3.) Tùy vào tính chất liệu sử dụng, chọn New, Open hay Import - Chọn New: người sử dụng có thể nhập trình tự từ bàn phím - Chọn Open: người sử dụng truy xuất liệu từ tập tin có sẵn - Chọn Import: DNAculb cho phép người sử dụng truy cập và sử dụng liệu từ ngân hàng gen, từ các thiết bị giải trình tự Tới đây chúng ta đã có liệu sẵn sàng để phân tích Sau phân tích liệu Để lưu hay in kết quả, kích hoạt menu File: - Chọn Save hay Save As để lưu kết - Chọn Print để in các kết Baøi taäp Mở thư mục mang tên học viên Khởi động chương trình DNA club Từ màn hình hoạt động DNAclub, hãy nhập liệu phân tích cho chương trình từ tập 38 (40) tin TDNA1 thư mục Sequence ổ đĩa hành Sau đó lưu liệu này vào thư mục vừa tạo Hình 7.3 Truy nhập liệu để phân tích gen Nhập trình tự DNA tùy ý Cho biết chiều dài trình tự vừa nhập vaø löu laïi thö muïc mang teân hoïc vieân Tìm trình tự DNA enzyme amylase ngân hàng gen sau đó nhập trình tự này vào chương trình DNAclub Cho biết chiều dài gen này 39 (41) Baøi TÌM TRÌNH TỰ DNA VAØ KHUNG ĐỌC MỞ Muïc ñích, nguyeân taéc Trong quá trình phân tích gen, nhiều trường hợp chúng ta muốn xác định trình tự DNA đã biết có diện hay không trình tự DNA lớn hay gen khổng lồ truy cập từ GenBank Ví dụ: tìm kiếm diện trình tự giống với trình tự đã biết (trình tự tương đồng); tìm diện trình tự bảo tồn (consensus) đã biết trên gen nhằm mục đích phân loại; tìm kiếm và xác định tính đặc hiệu trình tự mồi v.v Các trường hợp trên có yêu cầu chung là tìm diện trình tự đã biết (dưới dạng liệu nhập vào từ cửa sổ hoạt động chương trình) trình tự lớn Công cụ tìm kiếm xây dựng trên nguyên tắc dọc theo chuỗi liệu gốc (ở đây là liệu trình tự lớn hơn, trình tự gen), so sánh trình tự cần tìm với liệu gốc và cho người sử dụng thấy trình tự tương đồng nằm trên liệu gốc Kết tìm kiếm thể cách vị trí và trình tự đoạn đồng dạng tô màu Một trình tự DNA có thể mang thông tin mã hóa cho protein hay không Trường hợp trình tự này mã hóa cho protein thì có diện chuỗi các codon bắt đầu codon ATG và kết thúc các codon TGA, TAA hay TAG Chuỗi codon này gọi là khung đọc mở, Open Reading Frame (ORF), tức là khung dịch mã cho phép sản phẩm mRNA từ trình tự DNA tương ứng dịch mã thành protein hoàn chỉnh Trong nghiên cứu chức trình tự DNA, việc tìm khung đọc mở ORF là cần thiết Việc xác định khung đọc mở ORF giúp chúng ta biết chính xác trình tự mã hóa cho protein Chức protein này có thể xác định cách so sánh với các ORF các gen đã biết chức GenBank Trong kỹ thuật di truyền hay sinh học phân tử, việc xác định ORF là cần thiết cho việc thiết kế mồi để dòng hóa và biểu gen hay tạo đột biến có định hướng liên quan tới chức protein… Nguyên tắc tìm kiếm khung đọc mở ORF là dò tìm dọc theo trình tự DNA cụm ba liên tục để xác định tồn chuỗi ba bắt đầu boä ba ATG vaø keát thuùc baèng moät caùc boä ba TGA, TAG vaø TAA Keát quaû tìm khung đọc mở thể dạng chuỗi trình tự bôi đen trên cửa sổ hoạt động 40 (42) Nội dung thực hành Sinh viên thực tập tìm kiếm số các trình tự theo yêu cầu bài thực hành các trình tự nhập vào Tìm kiếm các khung đọc mở các trình tự cho saün Thực hành 3.1 Tìm kiếm trình tự DNA DNAclub cung cấp cho chúng ta công cụ tìm kiếm hữu hiệu Nhờ đó, ta có thể tìm trình tự DNA toàn bộ gen cách nhanh chóng và chính xaùc - Gọi DNAclub, nhập liệu phân tích Kích hoạt menu Edit, chọn Find - Nhập trình tự cần tìm vào khung đợi lệnh và chọn Find Vị trí và chiều dài trình tự cần tìm dược trình bày trên màn hình cùng với dấu hiệu chọn chuỗi trình tự dạng bôi đen (Hình 8.1.) Hình 8.1 Tìm trình tự DNA DNA gen 3.2 Tìm khung đọc mở ORF ORF - Khởi động DNAclub, nhập liệu, kích hoạt menu Edit và chọn Find - DNAclub dò tìm trên toàn gen sau đó liệt kê các trình tự khởi đầu dịch mã tìm trên màn hình (Hình 8.2.) 41 (43) Hình 8.2 Tìm khung đọc mở ORF Baøi taäp Tìm trình tự CTTCTGGACTACCAAGGTATGTTGCCCGTTTGT trình tự DNA lưu tập tin Hb108 thuộc thư mục Sequence ổ đĩa hành Hãy cho biết vị trí trình tự sau: TTTTACACAATGTGGTTA TCCTGCCTTACTCCCTTTG trên gen virus HBV Biết trình tự gen HBV lưu tập tin Hb1 thuộc thư mục Sequence Nhập trình tự gen HBV từ tập tin Hb1, tìm các ORF gen này 42 (44) Baøi CHUYỂN ĐỔI TRÌNH TỰ DNA VAØ AMINO ACID Muïc ñích, nguyeân taéc Như chúng ta đã biết, phân tử DNA có cấu trúc mạch kép song song và ngược chiều Do vậy, trình tự DNA có thể chuyển đổi trên hai hình thức, ngược chiều (reverse) và bổ sung (complement) dựa trên nguyên tắc bổ sung A - T, G - C Trong nhiều trường hợp, chúng ta có tay trình tự DNA ta lại muốn nghiên cứu trên trình tự ngược chiều trình tự DNA đã biết Đặc biệt là ứng dụng việc tạo gen antisense (gen mang mạch đối nghĩa), biểu gen này tạo mRNA có trình tự bổ sung và bắt cặp với mRNA gen gốc cách này ức chế biểu gen gốc không mong muốn Trong trường hợp này, người nghiên cứu cần chuyển đổi liệu trình tự DNA gen gốc thành trình tự ngược chiều bổ sung nó Khi đó chúng ta cần hỗ trợ chức reverse phần mềm để chuyển đổi trình tự DNA có sẵn thành trình tự ngược chieàu cuûa noù Với chức reverse, trình tự DNA đọc và trình bày theo chiều ngược lại với trình tự ban đầu: 5’- AAATTTGGGCCCAAAGGG – 3’ 5’ – GGGAAACCCGGGTTTAAA – 3’ Chức reverse and complement cho phép người sử dụng chuyển đổi trình tự cần phân tích sang thành trình tự ngược chiều và bổ sung với trình tự ban đầu 5’ – AAATTTGGGCCCAAAGGG – 3’ 5’ – CCCTTTGGGCCCAAATTT- 3’ Mặt khác, quá trình phân tích gen, người sử dụng có nhu cầu chuyển đổi, dịch mã từ các liệu DNA thành các liệu protein Nói cách khác, với số phần mềm dành cho sinh học phân tử, chúng ta có thể “dịch mã nhân tạo”, để từ đó, nghiên cứu và xác định trên protein Trước hết, bảng các codon mã hóa và acid amin tương ứng lưu chương trình Quá trình dịch mã trên máy tính tiến hành cách lập chuỗi liên tục các ba nucleotide trên trình tự khuôn; sau đó, chuyển các nhóm ký tự này thành mã ký tự qui ước cho acid amin tương ứng Kết chúng ta có trình tự protein mã hóa từ gen nghiên cứu (Hình 9.1.) 43 (45) Hình 9.1 Dịch mã đoạn gen Nội dung thực hành Sinh viên thực hành chuyển đổi trình tự DNA và dịch mã số gen cho sẵn Thực hành - Khởi động chương trình DNAclub - Nhập trình tự cần phân tích vào từ các tập tin định - Chuyển đổi trình tự DNA gọi cách kích hoạt menu Convert, choïn Reverse hay Reverse + Complement - Với mục đích dịch mã, kích hoạt menu Convert và chọn Translate 44 (46) Baøi taäp Chuyển trình tự DNA tập tin TT2 thư mục Sequence thành trình tự ngược chiều nó Lưu kết này tập tin RTT2 thuộc thư mục mang tên hoïc vieân Hày tìm trình tự ngược chiều và bổ sung với trình tự DNA tập tin TT3, thư mục Sequence ổ đĩa hành Chuyển kết tìm vào tập tin RCTT3 thuoäc thö muïc mang teân hoïc vieân Tạo tập tin Protein có nội dung là trình tự acid amin protein dịch mã từ gen Hb3 Trình tự gen này lưu giữ tập tin Hb3, thư mục Sequence cuûa oå ñóa hieän haønh 45 (47) Baøi 10 THIẾT LẬP BẢN ĐỒ ENZYME CẮT GIỚI HẠN Muïc ñích, nguyeân taéc Enzyme cắt giới hạn (Restriction enzyme) là enzyme vi khuẩn, có chức cắt DNA vị trí cắt chuyên biệt Những vị trí cắt chuyên biệt này gọi là vị trí cắt giới hạn Trong tế bào vi khuẩn, enzyme cắt giới hạn có chức bảo vệ tế bào vi khuẩn khỏi xâm nhập nhập DNA lạ chẳng hạn DNA thực khuẩn thể Trong kỹ thuật di truyền, enzyme cắt giới hạn là công cụ hữu hiệu dùng để dòng hóa gen Bản đồ enzyme cắt giới hạn là đồ các vị trí cắt giới hạn trên toàn bộ gen Trong phân tích gen, đặc biệt là kỹ thuật gen, việc thiết lập đồ enzyme cắt giới hạn là cần thiết giúp người sử dụng nắm vững các vị trí cắt giới hạn có trên gen, giúp chọn enzyme cắt giới hạn hợp lý cho mục đích sử dụng Danh sách và trình tự cắt giới hạn các enzyme cắt giới hạn thường sử dụng kỹ thuật gen liệt kê và lưu giữ phần mềm sử dụng Trên sở đó, người sử dụng kích hoạt chức thành lập đồ enzyme cắt giới hạn, phần mềm chức dò tìm trên toàn bộ gen các trình tự cắt giới hạn đã liệt kê và cuối cùng thống kê kết trên cửa sổ hoạt động chương trình (Hình 10.1.) Hình 10.1 Kiểm tra các vị trí cắt giới hạn trên gen 46 (48) Bên cạnh đó, sau tìm kiếm và liệt kê danh sách các enzyme cắt giới hạn có vị trí cắt trên trình tự DNA nghiên cứu Một số phần mềm còn cho phép thiết lập đồ cắt giới hạn gen quan tâm (Hình 10.2.) Hình 10.2 Thiết lập đồ enzyme cắt giới hạn Nội dung thực hành Sinh viên thực hành tìm vị trí cắt giới hạn số enzyme trên số trình tự DNA cho sẵn Thiết lập đồ cắt giới hạn các trình tự gen lưu giữ máy Thực hành - Khởi động chương trình DNAclub, nhập liệu vào chương trình - Kích hoạt menu Restriction map Baøi taäp Cho biết vị trí cắt các enzyme EcoRI, PstI, BstXI trên trình tự DNA lưu trữ tập tin TT5, thư mục Sequence ổ đĩa hành Hãy tạo tập tin RMap thư mục mang tên học viên với nội dung là đồ enzyme cắt giới hạn trình tự DNA lưu tập tin TT6, thư mục Sequence cuûa oå ñóa hieän haønh 47 (49) Hãy liệt kê các enzyme cắt giới hạn không thể cắt trình tự DNA 14 biết trình tự này lưu tập tin TT7, thư mục Sequence ổ đĩa hành 48 (50) Baøi 11 THIEÁT KEÁ MOÀI (PRIMER) Muïc ñích, nguyeân taéc Mồi (primer) là thành phần quan trọng không thể thiếu phản ứng PCR (polymerase reaction chain) Mồi là đoạn nucleotide ngắn, bắt cặp bổ sung với đầu 5’ hay đầu 3’ mạch DNA khuôn mẫu Mồi thiết kế dựa vào hai vùng trình tự đã biết, nằm hai đầu đoạn gen cần khuyếch đại Trong phản ứng PCR, cần có cặp mồi bao gồm mồi xuôi và mồi ngược Có nhiều tiêu chuẩn nghiêm ngặt đặt thiết kế cặp mồi chiều dài mồi, nhiệt độ nóng chảy (Tm) mồi, nhiệt độ bắt cặp… để đảm bảo phản ứng PCR thành công và thu sản phẩm khuếch đại (một số lượng lớn đoạn DNA dùng làm khuôn ban đầu) Việc tính toán phương pháp thủ công để kiểm tra các yêu cầu trên cho đoạn mồi dự định thiết kế tốn thời gian và công sức Nhờ các phần mềm thiết kế mồi công việc này trở nên dễ dàng và nhanh choùng hôn Một chương trình thiết kế mồi hoàn chỉnh đòi hỏi nhiều chức năng, công cụ tương đối phức tạp và tính lôgic cao Thông thường chương trình phải đáp ứng các tính tính nhiệt độ bắt cặp mồi, kiểm tra khả hình thành cấu trúc kẹp tóc mồi, kiểm tra bắt cặp mồi ngược và mồi xuôi… Trong phạm vi bài thực tập này, sinh viên tập làm quen với việc thiết kế mồi cho phản ứng PCR dựa vào phần mềm DNAclub (tuy phần mềm này, chức thiết kế mồi chưa phải là đã hoàn chỉnh)0 Nội dung thực hành Sinh viên bước đầu làm quen với việc thiết kế mồi cho phản ứng PCR trên phaàn meàm DNAclub Thực hành - Khởi động chương trình DNAclub - Kích hoạt menu PCR Primers - Chọn Star Primer Selection Cửa sổ PCR Parameters mở cho phép người sử dụng lựa chọn các điều kiện cần thiết cho mục đích nghiên cứu (Hình 11.1.) 49 (51) - Sau nhaäp vaøo caùc ñieàu kieän, choïn Start Selection Hình 11.1 Cửa sổ PCR Parameters Phần mềm thực công việc kiểm tra, đánh giá các cặp mồi Các cặp mồi nào có thể đáp ứng yêu cầu người sử dụng trình bày trên màn hình Dựa vào đó người sử dụng có thể chọn lựa cặp mồi thích hợp (Hình 11.2.) Hình 11.2 Keát quaû thieát keá moài 50 (52) Baøi taäp Hãy thiết kế mồi dùng cho phản ứng PCR nhằm khuyếch đại đoạn gen từ vị trí 1214 đến 3814 DNA genome B Trình tự DNA genome B lưu tập tin genome B thuoäc thö muïc sequence, oå ñóa hieän haønh Trong genome chủng vi sinh vật A, người ta đã xác định đoạn gen từ vị trí 670 đến 1638 là vùng gen có tính đặc trưng và bảo tồn cao Dựa trên sở này, người ta đề phương pháp phát nhanh chủng A phương pháp PCR thông qua việc kiểm tra diện đoạn gen có tính bảo tồn nêu trên Hãy thiết kế mồi để khuyếch đại đoạn gen nêu trên Biết trình tự genome chủng A lưu giữ tập tin genome A1 thuộc thư mục Sequence ổ đĩa hành Hãy thiết kế cặp mồi để phát nhanh chủng C phương pháp PCR Biết chủng C có trình tự bảo tồn đặc trưng nằm vùng 3158-4321 và trình tự genome chủng C lưu giữ tập tin genome C 51 (53) Baøi 12 VẼ BẢN ĐỒ PLASMID Muïc ñích, nguyeân taéc Plasmid là đoạn DNA ngắn ( có kích thước khoảng 2-5 kb), dạng vòng, nằm ngoài nhiễm sắc thể, tìm thấy lần đầu tiên vi khuẩn Sự chép plasmid không phụ thuộc chép nhiễm sắc thể vi khuẩn Mỗi vi khuẩn có thể chứa hàng trăm plasmid Plasmid có nhiều đặc tính phù hợp để làm vector dòng hóa nhö: - Có kích thước nhỏ nên dễ tách ly và thao tác - Daïng voøng giuùp cho DNA oån ñònh quaù trình taùch chieát hoùa hoïc - Sao chép độc lập với nhiễm sắc thể tế bào chủ - Soá baûn plasmid teá baøo coù theå ít hay raát nhieàu - Có chứa gen chọn lọc thường là gen kháng kháng sinh giúp cho việc chọn loïc doøng teá baøo mang gen mong muoán moät caùch nhanh choùng Với các ưu điểm kể trên, plasmid thường dùng làm vector dòng hóa và vector bieåu hieän gen Sau quaù trình thieát keá vector doøng hoùa hay vector bieåu hieän gen, thông tin các vector này thiết phải mô hình hóa để tiện cho việc lưu giữ và truyền thông tin di truyền plasmid thành lập Bản đồ plasmid (plasmid map) thiết phải chứa các thông tin vị trí các gen quan trọng, vị trí các enzyme cắt giới hạn cần thiết trên plasmid, promoter, gen chọn lọc… (Hình 12.1.) Như vậy, nhìn vào đồ plasmid chúng ta biết thông tin cần thiết tên, chiều dài plasmid, gen chọn lọc (thường là khả kháng loại kháng sinh), plasmid thuộc loại vector biểu hay có chức dòng hóa… Có nhiều phần mềm chuyên dụng có thể dùng cho việc thiết lập đồ plasmid Trong chương trình thực tập này, chúng ta cùng làm quen với việc thiết lập đồ plasmid với phần mềm Plasdraw 52 (54) Hình 12.1 Bản đồ plasmid pICAS1 Nội dung thực hành Sinh viên thực hành thiết lập đồ các plasmid với thông tin cho sẵn Thực hành - Khởi động chương trình Plasdraw cách nhắp đôi vào biểu tượng chöông trình Plasdraw treân maøn hình desktop (Hình 12.2.) Plasdraw.lnk Hình 12.2 Biểu tượng Plasdraw - Sau khởi động chương trình, màn hình hoạt động Plasdraw mở đợi lệnh - Kích hoạt menu tập tin cách nhấn vào nút File trên cửa sổ hoạt động cuûa Plasdraw (Hình 12.3) 53 (55) Hình 12.3 Cửa sổ hoạt động plasdraw - Để thiết lập đồ plasmid mới, menu File, chúng ta chọn New Tieáp theo, ñieàn teân vaø chieàu daøi plasmid vaøo khung Plasmid Parameters (Hình 12.4.) Chọn OK sau đã điền đầy đủ thông tin Cũng trên cửa sổ Plasmid Parameters người sử dụng có thể lựa chọn dạng biểu diễn plasmid là dạng thẳng cách chọn khung Linear Ngược lại, chúng ta không chọn Linear, mặc nhiên plasmid biểu diễn dạng vòng Hình 12.4 Khung Plasmid parameters Khi đã nhập đủ thông tin cần cho bước đầu thiết lập đồ plasmid mới, chúng ta thu đồ sơ plasmid (Hình 12.5.) 54 (56) - Để sửa chữa thiết kế lại đồ plasmid đã có, chúng ta nhấn vào nút Open để mở đồ plasmid có sẵn tập tin lưu trữ Hình 12.5 Dạng đồ sơ plasmid - Để nhập các vị trí enzyme cắt giới hạn, chọn menu Restriction sites, nhập tên enzyme cắt giới hạn ô Site Name Tương tự, nhập vị trí cắt giới hạn enzyme này ô Location Chọn Add site để nhập các liệu này vào đồ Nhấn OK để hoàn tất việc nhập vị trí enzyme cắt giới hạn (Hình 12.6.) - Sau nhập thông tin, tên enzyme rõ trên đồ plasmid vị trí đã định - Trường hợp cần thay đổi các vị trí hay tên enzyme cắt giới hạn đã thiết lập trên đồ Trước hết, chọn tên enzyme cần thay thay đổi Chọn Delete để xóa liệu cũ và nhập thông tin enzyme này - Để biểu diễn Multiple Cloning Site (MCS, là trình tự ngắn gồm tập hợp các vị trí cắt nhiều enzyme cắt giới hạn, giúp cho có nhiều phương án lựa chọn enzyme thiết lập vector dòng hóa hay vector biểu gen), thực các động tác sau: - Kích hoạt menu Data 55 (57) - Chọn Multiple cloning site Cửa sổ hoạt động mang tên Multiple Cloning Site mở (Hình 12.7.) Hình 12.6 Cửa sổ nhập vị trí enzyme cắt giới hạn Hình 12.7 Cửa sổ biễu diễn MCS - Tiếp theo, nhập tên các enzyme cắt giới hạn và vị trí cắt khung Site vaø khung Start/End - Nhấn Enter để nhập liệu Multiple cloning site biểu diễn trên đồ plasmid Hình 12.8 - Để biễu diễn vị trí gen trên đồ plasmid, thực các bước sau: - Kích hoạt menu Data 56 (58) - Chọn Genes Cửa sổ Genes mở cho phép người sử dụng nhập các liệu caàn thieát (Hình 12.9.) Hình 12.8 Bản đồ plasmid với Multiple cloning site Hình 12.9 Cửa sổ thông tin gen và cách thể 57 (59) - Ý nghĩa các chức trên cửa sổ là sau: Name: nhaäp teân gen Start/ End: vị trí khởi đầu và vị trí kết thúc gen trên đồ plasmid Style/Thickness: chọn kiểu dáng biểu diễn gen trên đồ - Chọn Add gene để xác nhận và chính thức nhập các thông tin gen - Nhấn OK để kết thúc việc thiết kế vị trí gen trên đồ - Để thêm (insert fragment) hay xóa (delete fragment) gen trên đồ plasmid, thực các thao tác sau: - Kích hoạt menu Data - Goïi Insert fragment hay Delete fragment - Khi các cửa sổ hoạt động mở (Hình 12.10.), nhập các liệu cần thiết vị trí thêm hay xóa, kích thước đoạn DNA cần thêm vào hay xóa - Nhấn OK để thi hành lệnh thêm hay xóa Hình 12.10 Cửa sổ hoạt động insert fragment và delete fragment - Hình 12.11 là ví dụ đồ plasmid hoàn chỉnh 58 (60) Hình 12.11 Bản đồ plasmid đã thiết kế hoàn chỉnh Baøi taäp Hãy thiết kế đồ plasmid PlasI theo thông tin sau đây: - PlasI coù chieàu daøi 10765 base pairs (bp); - Có gen kháng kháng sinh Ampiciline với chiều dài 800bp, cùng chiều kim đồng hồ (clock wise, cw); - Trình tự khởi đầu mã ColE1 ori nằm vị trí Nu thứ 3020 tới Nu thứ 3107; - Gen leu2-d có chiều dài 900bp nằm vị trí Nu thứ 5436, cw; - Multiple Cloning Site kéo dài từ Nu 8828 đến Nu 8884 với vị trí cắt giới haïn cuûa enzyme BamHI, XmaI vaø SmaI; - Lưu đồ plasmid vừa thiết kế vào tập tin PlasI thư mục mang tên hoïc vieân 59 (61) Plasmid Based-PlasI thiết kế dựa trên plasmid PlasI cách gắn thêm gen ars1 vào vị trí Nu 65 biết gen ars1 dài 1231bp Hãy thiết kế đồ Based-PlasI vaø löu taäp tin PlasII, thö muïc mang teân hoïc vieân Tạo tập tin Dummy thư mục mang tên học viên với nội dung là đồ plasmid Dummy for 1.0 coù chieàu daøi 3200bp nhö hình sau 60 (62) Baøi 13 BAØI TẬP TỔNG HỢP Khởi động chương trình DNAclub và nhập liệu từ tập tin GFP lưu giữ thư mục sequence ổ đĩa hành Cho biết liệu nói trên thuộc dạng trình tự nào, DNA hay protein Cho biết chiều dài trình tự kể trên và truy xuất trình tự sang thư mục khác mang tên học viên Tìm kiếm liệu trình tự nucleotid gen mã hóa kháng sinh bề mặt HBsAg virus HBV ngân hàng gen Nhập trình tự vào chương trình DNAclub vaø löu laïi taäp tin HBV thuoäc thö muïc mang teân hoïc vieân Gọi trình tự DNA từ tập tin DNA thư mục sequence ổ đĩa hành Cho biết số lượng và vị trí các trình tự khởi đầu dịch mã có trình tự bổ sung và ngược chiều trình tự Gọi tập tin HBV thư mục mang tên học viên Hãy cho biết trình tự mạch còn lại DNA trên theo chiều đọc 5’-3’ Gọi trình tự DNA2 từ tập tin DNA2 thư mục sequence ổ đĩa hành Cho biết trình tự protein dài mã hóa DNA2 kể trên Có thể có bao nhiêu chuỗi polypeptid mã hóa từ DNA2 Trình tự DNA3 là trình tự ngược chiều trình tự DNA2 Hãy cho biết trên trình tự có bao nhiêu vị trí cắt giới hạn cho enzyme EcoRI và vị trí các điểm cắt giới hạn đó Hãy cho biết vị trí trình tự sau: AATGATCAATGAGCG CTAGCA toàn trình tự DNA4 Biết trình tự DNA4 lưu giữ tập tin DNA4 coù thö muïc Sequence cuûa oå ñóa hieän haønh Bộ gen A đã giải mã và các liệu này lưu giữ ổ đĩa hành dạng Text file mang tên Genome A Hãy thành lập đồ enzyme cắt giới hạn gen A Lưu kết vào tập tin BANDO thư mục mang tên học viên Cho biết kết có thể thu cắt gen trên cặp enzyme cắt giới haïn EcoRI vaø PstI Nội độc tố δ vi khuẩn Bacillus thuringiensis mã hóa nhóm gen đó có gen cryA Trình tự các gen này lưu giữ tập tin Bt thuộc thư mục Sequence ổ đĩa hành Hãy cho biết chính xác trình tự gen cryA dựa vào các kiện sau : - Protein CRYA bao goàm 226 acid amin 61 (63) - Gen crysA có chứa trình tự DNA sau gctggatgtgtctgcggcgtttta 10 Gen bar Streptomyces hygroscopicus mã hóa cho enzyme phosphinothricin acetyltransferase giuùp chuyeån hoùa thuoác dieät coû phosphinothricin Trong quá trình tách chiết DNA gen Streptomyces hygrococcus người ta đã vô tình làm DNA gen thành bị đứt đúng vị trí cắt giới hạn enzyme RsaI Hãy cho biết đứt gãy trên có ảnh hưởng tớùi biểu gen bar không? Tại sao? Biết gen bar dài 459 bp và nằm trình tự DNA5 (tập tin DNA5, thư muïc sequence, oå ñóa hieän haønh) 11 Hãy thiết kế đồ plasmid Red dựa trên các thông tin sau: - Plasmid Red coù chieàu daøi 7490bp; - Red mang gen kháng kháng sinh Ampiciline với chiều dài 800bp, ngược chiều kim đồng hồ (counter clock wise, ccw); - Ori nằm trước gen kháng kháng sinh Amp và dài 100bp; - Gen yap1, ccw, chèn vào gen pgk5’(2250, 2400) và gen pgk3’(3197-3397) đầu dính enzyme XhoI và enzyme EcoRI; - Multiple Cloning Site (2074-2140) với các vị trí cắt giới hạn sau: SacI, SacII, NotI, Eco521, XbaI, SpeI, SmaI vaø SalI (2074) - Lưu đồ Red vào tập tin Red thư mục mang tên học viên 12 Người ta thiết kế plasmid Red1 cách cắt gen yap1 và chèn vào đó gen aeq với chiều dài 700bp Hãy vẽ đồ Red1 và cho biết chiều dài nó 62 (64) PHUÏ LUÏC Địa các web site dùng thực tập AEM journal (Search) BLAST searching Entrez Google search NCBI ORF finder TreeView (download) Clustalx (download) http://aem.asm.org/search.dtl http://www.ncbi.nlm.nih.gov/BLAST/ http://www.ncbi.nlm.nih.gov/Entrez/ http://www.google.com/ http://www.ncbi.nlm.nih.gov/ http://www.ncbi.nlm.nih.gov/gorf/gorf.html http://taxonomy.zoology.gla.ac.uk/rod/treeview.html http://www.cgal.icnet.uk/software/pc/clustalx181.zip Địa số web site sinh học phân tử trên giới Bioinformatics http://www.icp.ucl.ac.be/bio_links.html Biology http://directory.google.com/Top/Science/Biology/ Cell and molecular biologists www.cellbio.com/ Centre for Biochemical Technology http://www.cbt.res.in/ European Molecular Biology Laboratory (UK) http://www.ebi.ac.uk/ European Molecular Biology Organization www.embo.org/ ExPASy Molecular Biology http://www.expasy.ch/ Highwire (search) http://highwire.stanford.edu/cgi/search/ Molecular Biology Database List http://wgen.eimb.relarn.ru/databases/mbdl.htm Molecular Biology Protocols www.nwfsc.noaa.gov/protocols.html Molecular ToolBox http://www.pitt.edu/~rsup/molectoolbox.html Protein Data Bank (PDB) http://www.rcsb.org/pdb/ Protein Information Resource (PIR) http://pir.georgetown.edu/ Protocol-online http://www.protocol-online.org/ Restrictions Enzymes http://bioweb.pasteur.fr/seqanal/interfaces/tacg.html WebCutter 2.0 (R.E) http://www.firstmarket.com/cutter/cut2.html WebFerret (ñòa chæ download) http://www.ferretsoft.com/ 63 (65)