1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

TỔNG QUAN BIOINFORMATIC potx

64 352 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 3,07 MB

Nội dung

Đ Đ A A Ï Ï I I H H O O Ï Ï C C Q Q U U O O Á Á C C G G I I A A T T H H A A Ø Ø N N H H P P H H O O Á Á H H O O À À C C H H Í Í M M I I N N H H T T R R Ư Ư Ơ Ơ Ø Ø N N G G Đ Đ A A Ï Ï I I H H O O Ï Ï C C K K H H O O A A H H O O Ï Ï C C T T Ư Ư Ï Ï N N H H I I E E Â Â N N K K H H O O A A S S I I N N H H H H O O Ï Ï C C (DÙNG CHO SINH VIÊN NGÀNH CÔNG NGHỆ SINH HỌC) Chủ biên: TRẦN LINH THƯỚC Thực hiện: ĐẶNG THỊ PHƯƠNG THẢO ĐỖ ANH TUẤN 10/2003 (Lưu hành nội bộ) 1 MỤC LỤC PHẦN MỞ ĐẦU 2 PHẦN I: KHAI THÁC DỮ LIỆU SINH HỌC QUA MẠNG INTERNET 10 Bài 1 . Cơ sở dữ liệu sinh học trên mạng internet 11 Bài 2 . Tìm kiếm thông tin trên mạng internet 13 Bài 3 . Tìm kiếm các trình tự sinh học 19 Bài 4 . Tìm kiếm các trình tự tương đồng 24 Bài 5 . Phân tích trình tự DNA 28 Bài 6 . Tạo cây phát sinh loài từ trình tự DNA 32 PHẦN II: MỘT SỐ CÔNG CỤ PHẦN MỀM PHÂN TÍCH GEN 35 Bài 7 . Nhập xuất dữ liệu 37 Bài 8 . Tìm trình tự DNA và khung đọc mở 40 Bài 9 . Chuyển đổi trình tự DNA và amino acid 43 Bài 10 . Thiết lập bản đồ enzyme cắt giới hạn 46 Bài 11 . Thiết kế mồi (primer) 49 Bài 12 . Vẽ bản đồ plasmid 52 Bài 13 . Bài tập tổng hợp 61 PHỤ LỤC 63 2 P P H H A A À À N N M M Ô Ô Û Û Ñ Ñ A A À À U U 3 1. Bioinformatics là gì ? Bioinformatics là một ngành học còn khá mới trong lónh vực Sinh học. Vì vậy, hiện nay có khá nhiều đònh nghóa khác nhau về thuật ngữ bioinformatics. Chúng ta thử tìm hiểu một số thuật ngữ: • Bioinformatics là môn học về cách sử dụng máy tính để giải quyết những vấn đề của khoa học sự sống, chủ yếu là vấn đề cơ sở dữ liệu phong phú của bộ gen, trình tự protein Ngoài ra, nó còn giải quyết những vấn đề về kỹ thuật như mô hình cấu trúc ba chiều của phân tử và các hệ thống Sinh học (3/2001, Cancer WEB). • Bioinformatics là sự sáng lập và phát triển của tiến bộ những thông tin và kỹ thuật máy tính nhằm giải quyết những vấn đề sinh học, thường là sinh học phân tử (các lónh vực sinh học khác cũng đang ngày càng gia tăng). Như vậy, bioinformatics liên quan đến những phương pháp như lưu trữ, tìm kiếm và phân tích dữ liệu sinh học như acid nucleic (DNA/RNA) và trình tự protein; nghiên cứu cấu trúc, chức năng, con đường và những ảnh hưởng di truyền (Đại học Stanford). • Bioinformatics là một sự phối hợp giữa toán học, thống kê và kỹ thuật máy tính nhằm phân tích thông tin về sinh học, sinh hóa, sinh lý. • Bioinformatics là môn học về cấu trúc đặc trưng của thông tin sinh học và hệ thống sinh học. Nó cung cấp một loạt những hệ thống dữ liệu Sinh học (ví dụ bộ gen) kết hợp với những lý thuyết phân tích và công cụ thực hành của toán học và khoa học máy tính. Tóm lại, thuật ngữ bioinformatics có thể đònh nghóa một cách ngắn gọn là sự kết hợp giữa Công nghệ Sinh học và Công nghệ Thông tin với mục tiêu giúp hiểu biết và khám phá những nguyên lý trong Sinh học (NCBI). Bioinformatics: Môn học về cấu trúc đặc trưng của thông tin Sinh học Cấu trúc Sinh học Sinh hóa Sinh học phân tử Genomics Khoa học máy tính Thống kê Toán học 4 2. Nội dung thực tập Bioinformatics Nội dung thực tập Bioinformatics dành cho sinh viên năm thứ III, ngành Công nghệ Sinh học, bao gồm: - Giới thiệu về các cơ sở dữ liệu sinh học trên mạng Internet và cách thức khai thác các cơ sở dữ liệu này phục vụ cho nghiên cứu. - Làm quen một số công cụ phần mềm phân tích gen. Sau khi hoàn thành khóa học, sinh viên phải nắm vững một số kiến thức cơ bản về cách thức tìm kiếm và xử lý dữ liệu sinh học . Trong quá trình thực tập, hầu hết nội dung yêu cầu thực hiện truy cập thông tin trên mạng Internet (với ngôn ngữ sử dụng chủ yếu là tiếng Anh) nên có khá nhiều thuật ngữ tin học, sinh học cũng như cách thức giao tiếp vẫn giữ nguyên thuật ngữ tiếng Anh. 3. Sử dụng mạng Internet trong đợt thực tập Vì không phải tất cả mọi người đều đã có kinh nghiệm sử dụng Internet, do đó chúng ta bắt đầu với phần giới thiệu ngắn về mạng Internet. Mạng Internet là một hệ thống mạng toàn cầu có khả năng liên kết các máy tính khác nhau trên thế giới. Khi tham gia vào hệ thống mạng Internet chúng ta có thể tham khảo các tài nguyên chia sẻ trên các máy tính (nơi lưu trữ thông tin) thuộc mọi lónh vực: khoa học, văn hóa, giáo dục, thể thao, giải trí… Trong đợt thực tập này, để làm việc trên mạng Internet, chúng ta sẽ sử dụng phần mềm Microsoft Internet Explorer của hãng Microsoft (hoặc có thể dùng phần mềm Netscape với những chức năng tương tự). Yêu cầu đối với sinh viên là phải có những kiến thức cơ bản về máy tính (làm việc với máy tính trong môi trường Windows). Để vào chương trình Microsoft Internet Explorer, chúng ta thực hiện tuần tự các bước sau: • Tìm biểu tượng của Internet Explorer trên Desktop và nhấn đúp (double clicking) bằng nút chuột trái để mở cửa sổ trình duyệt Web. Hoặc nhấn phím Start chọn Programs, rồi chọn Internet Explorer. • Đòa chỉ tìm kiếm được nhập vào tại khung Address và nhấn Enter↵ . Internet Explorer sẽ kết nối máy tính chúng ta với mạng vào đòa chỉ đã nhập. Biểu tượng trên góc phải màn hình thể hiện hoạt động kết nối Internet: Đang kết nối Kết nối xong hoặc bò gián đoạn 5 Mạng Internet là một mạng máy tính toàn cầu với hơn 150 triệu máy tính (tháng 1/2002) liên lạc với nhau thông thường qua giao thức TCP/IP (Transfer Control Protocol/Internet protocol). Các máy tính được nhận diện và kết nối với mạng Internet thông qua đòa chỉ internet (Internet protocol - IP) của nó có dạng dãy số gồm 4 số phân cách bởi dấu chấm (ví dụ 172.69.145.21). Bốn dòch vụ chính có thể sử dụng trên mạng là: thư điện tử (e-mail), đăng nhập từ xa (telnet), chuyển tập tin (file transfer protocol, FTP) và World Wide Web (hay còn gọi là giao thức truyền siêu văn bản - hypertext transfer protocol, HTTP). World Wide Web cho phép người sử dụng các trình duyệt đònh vò và xem thông tin từ hơn 40 triệu dòch vụ web trên toàn thế giới (tháng 3/2002). Các tài liệu siêu văn bản có thể thể chứa hình ảnh, âm thanh, văn bản text… và có thể dễ dàng liên kết với các trang siêu văn bản khác. Đòa chỉ đònh vò các tài liệu siêu văn bản là một đòa chỉ duy nhất (URL – Uniform Resource Locator) có dạng service://hostname:port/file (dòch vụ://tên máy chủ: cổng/file). Service : Tên dòch vụ đang truy cập (ftp, http, gopher, telnet, mailto) hostname : Đòa chỉ IP hoặc tên miền nơi đònh vò của thông tin port : Cổng trên máy phục vụ, mặc đònh là 80, nhưng cũng có khi là 8000 hay 8080 /file : Tên thật của tập tin trên máy tính được tham chiếu bởi máy phục vụ Ví dụ về đòa chỉ WWW: http://www.tulane.edu/~dmsander/Big_Virology/BVHomePage.html Các trang web là nơi chứa đựng thông tin thường xây dựng bằng ngôn ngữ siêu văn bản và có sử dụng các liên kết đến các trang khác. Các liên kết thường được thể hiện bằng những dòng chữ bò đổi màu chữ khi ta di chuyển đến và con trỏ biến thành dấu hiệu . Khi nhập đòa chỉ liên kết đến các vò trí trang web (web site) phải đánh dòng văn bản với đầy đủ các ký tự, có sự phân biệt giữa chữ thường và chữ hoa. Nơi nhập đòa chỉ Nội dung trang web 6 Khi sử dụng phần mềm Internet Explorer để xem (duyệt) trang web, chúng ta có thể lưu lại các đòa chỉ khi đã “ghé thăm” bằng cách sử dụng chức năng Add to favourites… trên thanh Explorer bar khi đang ở trang web “ưa thích”. Những lần truy cập sau, chúng ta chỉ cần nhấn vào tên trang web trong menu Favourites để vào trang web ưa thích mà không phải nhập lại đòa chỉ Internet. Sử dụng những nút Back hoặc Forward để trở lại hoặc tiếp tục mở lại trang web phía trước; các nút Stop và Refesh để tạm dừng truy cập hay thực hiện “làm tươi” nội dung trang web bằng cách truy cập lại đòa chỉ Internet này. 4. Một số thuật ngữ sinh – tin học thường gặp trên mạng internet Thuật ngữ Sinh học Accession Mã số truy cập trong các cơ sở dữ liệu sinh học (Genbank…) Alignment Sắp gióng cột hai hay nhiều trình tự nhằm xác đònh độ tương đồng giữa chúng. bp (base pair) cặp base. cDNA (complementary DNA) mạch đơn bổ sung cho RNA và được tồng hợp từ khuôn nhờ enzyme phiên mã ngược. Cloning Kỹ thuật tạo ra tập hợp các tế bào hoặc phân tử giống hệt nhau cùng bắt nguồn từ một tế bào hay một phân tử ban đầu. Codon Bộ ba nucleotide mã hóa cho một acid amin hay một “dấu hiệu” bắt đầu hay kết thúc dòch mã. DNA sequencing Trình tự A, T, G, C của acid deoxyribonucleic (DNA). Downstream Đầu 3’ của trình tự nucleotide. Exon Một phần của một gen gián đoạn (gen tồn tại ở eukaryote), có mặt trong phân tử RNA trưởng thành. Gene Đoạn DNA (gen) tham gia vào việc hình thành một sợi polypeptide; gen bao gồm các vùng nằm trước và sau vùng mã hóa và cả trình tự (intron) nằm giữa các phần mã hóa. gi Dãy số hiệu của mỗi trình tự quy đònh theo sắp xếp của NCBI. Hairpin Vùng xoắn kép hình thành từ sự bắt cặp bổ sung giữa hai trình tự bổ sung nằm kề nhau trên một phân tử DNA hay RNA mạch đơn (cấu trúc kẹp tóc). Intron Đoạn DNA được phiên mã nhưng bò loại bỏ trong quá trình trưởng thành của RNA, không có mặt ở phân tử RNA trưởng thành. Molecular hybridization Quá trình trong đó hai mạch acid nucleic bổ sung (A-T, G-C) bắt cặp hình thành nên mạch kép; kỹ thuật hữu hiệu để phát hiện một trình tự nucleotide chuyên biệt (lai phân tử). 7 Operon Đơn vò biểu hiện và điều hòa gen ở vi khuẩn, bao gồm các gen cấu trúc nằm cạnh nhau và các nhân tố điều hòa, các gen cấu trúc này cùng chòu những tác động điều hòa như nhau. PCR (Polymerase Chain Reaction) kỹ thuật dùng để khuếch đại nhiều bản sao của một trình tự DNA đích nhờ DNA polymerase. ORF (Open Reading Frame) khung đọc mở khi dòch mã cho ra một trình tự amino acid hoàn chỉnh. Plasmid DNA dạng vòng, nằm ngoài nhiễm sắc thể và có khả năng tự sao chép độc lập. Primer Trình tự DNA hay RNA ngắn, bắt cặp với một mạch khuôn DNA và có mang đầu 3’OH tự do giúp DNA polymerase bắt đầu tổng hợp mạch mới. Promoter Trình tự trên phân tử DNA, nơi RNA polymerase gắn vào để khởi động phiên mã. Redundancy Sự có mặt của nhiều mẩu tin dư thừa (thường là trình tự). Trong Bioinformatics, đó là sự liên quan của những trình tự giống nhau trong cùng một cơ sở dữ liệu. Restriction enzyme (RE) Enzyme nhận biết một trình tự DNA ngắn chuyên biệt và cắt mạch kép DNA. Restriction map Bản đồ vò trí nhận biết của tất cả các enzyme cắt giới hạn trên một trình tự DNA. RNA sequencing Trình tự A, U, G, C của acid ribonucleic (RNA). Splicing Sự loại bỏ các intron và nối liền các exon ở RNA trong quá trình trưởng thành sau phiên mã. Tm (Melting temperature) nhiệt độ mà ở đó một nửa số phân tử của trình tự đó bò biến tính (nhiệt độ nóng chảy của một trình tự). Transcription Sự tổng hợp RNA từ khuôn DNA. Translation Sự tổng hợp protein từ khuôn mRNA (sự dòch mã). Upstream Đầu 5’ của trình tự nucleotide. Vector Trong kỹ thuật tạo dòng (cloning), là plasmid hay phage dùng để chuyên chở một đoạn DNA lạ gắn vào đó với mục đích tạo ra một lượng bản sao lớn hay một sản phẩm protein từ đoạn DNA này. Thuật ngữ Tin học Acrobat Họ các công cụ của công ty Adobe cho phép nhà xuất bản dòch các tập tin Postscript thành Portable Document Format (PDF) và người dùng có thể xem trên trên các nền thông thường của máy. BLAST (Basic Local Alignment Search Tool) một công cụ tìm kiếm nhanh những trình tự tương đồng trong một cơ sở dữ liệu. 8 Browser Công cụ cho phép người dùng quét một danh sách tập tin hoặc tìm một mục riêng nào đó. Trong WWW (World-Wide-Web), browser được hiểu là phần mềm cho phép duyệt qua những tư liệu trên Web. Browser Một trình duyệt web (Web Browser) hỗ trợ các đồ họa, âm thanh và video. Download Tải tập tin xuống máy tính, truyền các tập tin từ một máy tính sang một máy tính khác. FAQs Những câu hỏi được yêu cầu thường xuyên (Frequently Asked Questions). FASTA Chương trình tìm kiếm trình tự tương đồng được dùng rộng rãi đầu tiên. Freeware Phần mềm sử dụng miễn phí và có thể tải về máy tính cá nhân. FTP Giao thức chuẩn dùng để gởi tập tin (File Transfer Protocol) từ một máy này đến một máy khác trên mạng TCP/IP như Internet. Gap Khoảng trống được đưa vào khi so sánh các trình tự với nhau nhằm làm tăng độ tương đồng giữa chúng. Gateway Dòch vụ dòch thông điệp giữa những giao thức khác nhau. Gopher Hệ menu phân cấp dùng để gởi tài liệu trên Internet. Homepage Trang đầu của một server World-Wide-Web hay tài liệu gốc mô tả một tổ chức (cá nhân) được cung cấp thông qua user. HTML Ngôn ngữ đánh dấu siêu văn bản (The HyperText Markup Language) dùng để mô tả các tài liệu truyền thông qua WWW. HTML cho phép một tài liệu có thể chứa các liên kết đến một tài liệu khác, cung cấp cho WWW khả năng Hypertext (và hypermedia). Internet Bất kỳ mạng nào của hệ thống mạng liên kết trên thế giới. IP address Số duy nhất gán cho một máy mạng TCP/IP. LAN (Local Area Network) mạng phủ trên một vùng đòa lý tương đối nhỏ (một văn phòng, một tầng hay một tòa nhà…). Login Thủ tục khởi nhập một liên kết với máy chủ của người sử dụng mạng (thường gồm yêu cầu về tên và mật khẩu). Netquette Những nguyên tắc xã giao chủ đạo trong truyền thông trên mạng Internet. Offline Khi không sử dụng kết nối đó nữa. Online Khi sử dụng kết nối với một máy tính khác. Query Khung nhập trình tự (hoặc những loại thuật ngữ tìm kiếm khác) Shareware Phần mềm cho phép tải và sử dụng miễn phí nhưng nếu muốn dùng tiếp thì phải trả cho tác giả một khoản tiền danh dự nhỏ. URL (Uniform Resource Locator – đònh danh tài nguyên đồng nhất) hệ thống ghi đòa chỉ được web sử dụng. WWW (World Wide Web) Phương tiện đònh vò trên Internet bằng cách sử dụng siêu liên kết. Ví dụ http://www.mcb.harvard.edu/BioLinks.html 9 5. Tài liệu tham khảo 1. Cynthia Gibas &Per Jabeck. 2001. Developing Bioinformatics Computer Skills. O’Reilly & Associates, Inc., USA. 2. Gunter Kahl. 1995. Dictionary of Gene Technology. VCH Verlagsgesell- schaft mbH, Germany. 3. Hồ Huỳnh Thùy Dương. 1998. Sinh học phân tử, NXB Giáo dục. 4. Institute of Technical Biochemistry, 2002. Bioinformatics tools for Biologists, University of Stutgartt, Germany. 5. National Center for Biotechnology Information, NCBI. 10/2001. http://www.ncbi.nlm.nih.gov/, USA. 6. Neil F., Peadar Ó G. 2001. Bioinformatics programme, 4 th Molecular Biology Workshop, HCMC, Vietnam. [...]... từ hay một nhóm từ khóa (keyword) mang nội dung chủ yếu hay quan trọng nhất của vấn đề quan tâm Sau đó sử dụng các công cụ tìm kiếm trên mạng để tìm đến các đòa chỉ lưu trữ những thông tin cần thiết hoặc những thông tin liên quan Sử dụng các chức năng chọn lọc thông tin của các công cụ để hạn chế việc tiếp nhận những thông tin không liên quan Ví dụ thông tin: “PCR for detection of Listeria monocytogenes... Internet bao gồm các nội dung: Tìm kiếm các dạng dữ liệu trình tự sinh học và các thông tin sinh học khác có liên quan (chủ yếu về sinh học phân tử) Đòa chỉ Internet để tìm kiếm các thông tin này Giải quyết các câu hỏi làm thế nào để: - Truy cập thông tin có liên quan (ấn phẩm, cấu trúc, trình tự liên quan) ? - Truy cập trình tự DNA và protein trong các cơ sở dữ liệu trình tự sinh học?- Phân tích trình tự sinh... nhiều trang tìm kiếm trên mạng (ví dụ phần mềm WebFerret, Copernic) Cách tìm kiếm này thường cho hiệu quả rất cao, có thể tìm rất nhiều đòa chỉ liên quan đến thông tin ta quan tâm, nhưng thông tin thường không tập trung 14 Tuy nhiên, nếu chúng ta chỉ quan tâm đến những thông tin khoa học sinh học đáng tin cậy, thường là những bài báo khoa học, thì việc tìm kiếm sẽ có hiệu quả cao nhất khi ta tìm kiếm... (entries, hits) có liên quan đến trình tự gen LT 20 Câu hỏi: Có bao nhiêu mục bài có liên quan đến trình tự gen LT được tìm thấy? Trả lời: Để thay đổi kiểu thể hiện kết quả ta có thể thay đổi dạng trình bày bằng cách chọn kiểu thể hiện ở menu Display (Summary, Brief, ASN.1, FASTA, GenBank, GI list…) Nhấn lên phần số của bất kỳ mục bài nào, ta sẽ nhận được mô tả chi tiết của mục này liên quan đến trình tự... tìm hiểu chi tiết các mục bài vừa tìm kiếm được bằng cách nhấn lên các mã số mục bài (tương tự cách dùng với trình tự DNA) Câu hỏi: Có bao nhiêu mục bài liên quan đến trình tự protein yêu cầu được tìm thấy? Trình tự protein ST toxin chủ yếu liên quan đến loài nào? Đặc điểm của protein này? Trả lời: Cách mã hóa dùng trong trình tự amino acid: A B C D E F G H I K L M N alanine aspartate or asparagine cystine... INTERNET 10 Bài 1 CƠ SỞ DỮ LIỆU SINH HỌC TRÊN MẠNG INTERNET 1 Mục đích, nguyên tắc Công việc đầu tiên khi chúng ta bắt tay vào công việc nghiên cứu là tập hợp và xử lý thông tin về lónh vực nghiên cứu mình quan tâm Để làm được chuyện này, ngoài cách tiếp cận truyền thống là vào thư viện, chúng ta còn có thể khai thác kho dữ liệu thông tin phong phú trên mạng Internet (World Wide Web) Ở đây luôn có một lượng... nucleic acid (Nucleotide), trình tự protein (Protein), cấu trúc 3 chiều (Structure), bộ gen (Genome)… Ở đây, chúng ta sử dụng trang PubMed để tìm kiếm các bài báo về thông tin Y - Sinh học Ví dụ chúng ta quan tâm bài báo có tựa đề “Isolation and characterization of Escherichia coli O157:H7 from retail meats in Argentina” Tác giả: Chinen I, Tanaro JD, Miliwebsky E, Lound LH, Chillemi G, Ledri S, Baschkier... ta sẽ làm quen với nhiều cách tìm kiếm những thông tin sinh học trên mạng Internet thông qua các trang web tìm kiếm thông tin hoặc các cơ sở dữ liệu sinh học lớn trên thế giới Thông tin tìm kiếm được quan tâm là các bài báo khoa học và các trình tự nucleic acid hay protein Tùy từng trường hợp cụ thể mà chúng ta có thể xác đònh đối tượng và mở rộng phạm vi tìm kiếm đến những lónh vực khác với nguyên... trường hợp này có thể xác đònh các từ khóa là: PCR, monocytogenes Sau khi xác đònh được từ khóa, ta thường phải xác đònh phạm vi tìm kiếm để lựa chọn những công cụ thích hợp Nếu chúng ta cần tìm thông tin tổng hợp về lónh vực này thì có thể bắt đầu tìm kiếm thông tin ở những trang web Các công cụ tìm kiếm có thể là những trang tìm kiếm trên mạng (AltaVista, EuroSeek, Lycos, GOTO, Yahoo…) hoặc những phần . M M Ô Ô Û Û Ñ Ñ A A À À U U 3 1. Bioinformatics là gì ? Bioinformatics là một ngành học còn khá mới trong lónh vực Sinh. có khá nhiều đònh nghóa khác nhau về thuật ngữ bioinformatics. Chúng ta thử tìm hiểu một số thuật ngữ: • Bioinformatics là môn học về cách sử dụng máy

Ngày đăng: 15/03/2014, 06:20

TỪ KHÓA LIÊN QUAN

w