Chúng ta thử tìm hiểu một số thuật ngữ: • Bioinformatics là môn học về cách sử dụng máy tính để giải quyết những vấn đề của khoa học sự sống, chủ yếu là vấn đề cơ sở dữ liệu phong phú củ
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA SINH HỌC
(DÙNG CHO SINH VIÊN NGÀNH CÔNG NGHỆ SINH HỌC)
Chủ biên: TRẦN LINH THƯỚC Thực hiện: ĐẶNG THỊ PHƯƠNG THẢO
ĐỖ ANH TUẤN
10/2003 (Lưu hành nội bộ)
Trang 2MỤC LỤC
PHẦN I: KHAI THÁC DỮ LIỆU SINH HỌC QUA MẠNG INTERNET 10
Bài 1 Cơ sở dữ liệu sinh học trên mạng internet 11 Bài 2 Tìm kiếm thông tin trên mạng internet 13
Bài 4 Tìm kiếm các trình tự tương đồng 24
Bài 6 Tạo cây phát sinh loài từ trình tự DNA 32
Bài 8 Tìm trình tự DNA và khung đọc mở 40 Bài 9 Chuyển đổi trình tự DNA và amino acid 43 Bài 10 Thiết lập bản đồ enzyme cắt giới hạn 46
Trang 3PHẦN MỞ ĐẦU
Trang 41 Bioinformatics là gì ?
Bioinformatics là một ngành học còn khá mới trong lĩnh vực Sinh học Vì vậy, hiện nay có khá nhiều định nghĩa khác nhau về thuật ngữ bioinformatics Chúng ta thử tìm hiểu một số thuật ngữ:
• Bioinformatics là môn học về cách sử dụng máy tính để giải quyết những vấn đề của khoa học sự sống, chủ yếu là vấn đề cơ sở dữ liệu phong phú của bộ gen, trình tự protein Ngoài ra, nó còn giải quyết những vấn đề về kỹ thuật như mô hình cấu trúc ba chiều của phân tử và các hệ thống Sinh học (3/2001, Cancer WEB)
• Bioinformatics là sự sáng lập và phát triển của tiến bộ những thông tin và kỹ thuật máy tính nhằm giải quyết những vấn đề sinh học, thường là sinh học phân tử (các lĩnh vực sinh học khác cũng đang ngày càng gia tăng) Như vậy, bioinformatics liên quan đến những phương pháp như lưu trữ, tìm kiếm và phân tích dữ liệu sinh học như acid nucleic (DNA/RNA) và trình tự protein; nghiên cứu cấu trúc, chức năng, con đường và những ảnh hưởng di truyền (Đại học Stanford)
• Bioinformatics là một sự phối hợp giữa toán học, thống kê và kỹ thuật máy tính nhằm phân tích thông tin về sinh học, sinh hóa, sinh lý
• Bioinformatics là môn học về cấu trúc đặc trưng của thông tin sinh học và hệ thống sinh học Nó cung cấp một loạt những hệ thống dữ liệu Sinh học (ví dụ bộ gen) kết hợp với những lý thuyết phân tích và công cụ thực hành của toán học và khoa học máy tính
Tóm lại, thuật ngữ bioinformatics có thể định nghĩa một cách ngắn gọn là sự
kết hợp giữa Công nghệ Sinh học và Công nghệ Thông tin với mục tiêu giúp hiểu biết và khám phá những nguyên lý trong Sinh học (NCBI).
Bioinformatics:
Môn học về cấu trúc đặc trưng của thông tin Sinh học
Thống kê
Toán học
Trang 52 Nội dung thực tập Bioinformatics
Nội dung thực tập Bioinformatics dành cho sinh viên năm thứ III, ngành Công nghệ Sinh học, bao gồm:
- Giới thiệu về các cơ sở dữ liệu sinh học trên mạng Internet và cách thức khai thác các cơ sở dữ liệu này phục vụ cho nghiên cứu
- Làm quen một số công cụ phần mềm phân tích gen
Sau khi hoàn thành khóa học, sinh viên phải nắm vững một số kiến thức cơ bản về cách thức tìm kiếm và xử lý dữ liệu sinh học
Trong quá trình thực tập, hầu hết nội dung yêu cầu thực hiện truy cập thông tin trên mạng Internet (với ngôn ngữ sử dụng chủ yếu là tiếng Anh) nên có khá nhiều thuật ngữ tin học, sinh học cũng như cách thức giao tiếp vẫn giữ nguyên thuật ngữ tiếng Anh
3 Sử dụng mạng Internet trong đợt thực tập
Vì không phải tất cả mọi người đều đã có kinh nghiệm sử dụng Internet, do đó chúng ta bắt đầu với phần giới thiệu ngắn về mạng Internet Mạng Internet là một hệ thống mạng toàn cầu có khả năng liên kết các máy tính khác nhau trên thế giới Khi tham gia vào hệ thống mạng Internet chúng ta có thể tham khảo các tài nguyên chia sẻ trên các máy tính (nơi lưu trữ thông tin) thuộc mọi lĩnh vực: khoa học, văn hóa, giáo dục, thể thao, giải trí… Trong đợt thực tập này, để làm việc trên mạng Internet, chúng ta sẽ sử dụng phần mềm Microsoft Internet Explorer của hãng Microsoft (hoặc có thể dùng phần mềm Netscape với những chức năng tương tự)
Yêu cầu đối với sinh viên là phải có những kiến thức cơ bản về máy tính (làm việc với máy tính trong môi trường Windows) Để vào chương trình Microsoft Internet Explorer, chúng ta thực hiện tuần tự các bước sau:
• Tìm biểu tượng của Internet Explorer trên Desktop và nhấn đúp (double clicking) bằng nút chuột trái để mở cửa sổ trình duyệt Web Hoặc nhấn phím
Start chọn Programs, rồi chọn Internet Explorer
• Địa chỉ tìm kiếm được nhập vào tại khung Address và nhấn Enter↵ Internet
Explorer sẽ kết nối máy tính chúng ta với mạng vào địa chỉ đã nhập
Biểu tượng trên góc phải màn hình thể hiện hoạt động kết nối Internet:
Kết nối xong hoặc bị gián đoạn
Trang 6Mạng Internet là một mạng máy tính toàn cầu với hơn 150 triệu máy tính (tháng 1/2002) liên lạc với nhau thông thường qua giao thức TCP/IP (Transfer Control Protocol/Internet protocol) Các máy tính được nhận diện và kết nối với mạng Internet thông qua địa chỉ internet (Internet protocol - IP) của nó có dạng dãy số gồm
4 số phân cách bởi dấu chấm (ví dụ 172.69.145.21) Bốn dịch vụ chính có thể sử dụng trên mạng là: thư điện tử (e-mail), đăng nhập từ xa (telnet), chuyển tập tin (file transfer protocol, FTP) và World Wide Web (hay còn gọi là giao thức truyền siêu văn bản - hypertext transfer protocol, HTTP) World Wide Web cho phép người sử dụng các trình duyệt định vị và xem thông tin từ hơn 40 triệu dịch vụ web trên toàn thế giới (tháng 3/2002) Các tài liệu siêu văn bản có thể thể chứa hình ảnh, âm thanh, văn bản text… và có thể dễ dàng liên kết với các trang siêu văn bản khác Địa chỉ định vị các tài liệu siêu văn bản là một địa chỉ duy nhất (URL – Uniform Resource Locator) có
dạng service://hostname:port/file (dịch vụ://tên máy chủ: cổng/file)
Service : Tên dịch vụ đang truy cập (ftp, http, gopher, telnet, mailto)
hostname : Địa chỉ IP hoặc tên miền nơi định vị của thông tin
port : Cổng trên máy phục vụ, mặc định là 80, nhưng cũng có khi là 8000
hay 8080
/file : Tên thật của tập tin trên máy tính được tham chiếu bởi máy phục vụ
Ví dụ về địa chỉ WWW:
http://www.tulane.edu/~dmsander/Big_Virology/BVHomePage.html
Các trang web là nơi chứa đựng thông tin thường xây dựng bằng ngôn ngữ siêu văn bản và có sử dụng các liên kết đến các trang khác Các liên kết thường được thể hiện bằng những dòng chữ bị đổi màu chữ khi ta di chuyển đến và con trỏ biến thành dấu hiệu Khi nhập địa chỉ liên kết đến các vị trí trang web (web site) phải đánh dòng văn bản với đầy đủ các ký tự, có sự phân biệt giữa chữ thường và chữ hoa
Nơi nhập địa chỉ
Nội dung trang web
Trang 7Khi sử dụng phần mềm Internet Explorer để xem (duyệt) trang web, chúng ta
có thể lưu lại các địa chỉ khi đã “ghé thăm” bằng cách sử dụng chức năng Add to
favourites… trên thanh Explorer bar khi đang ở trang web “ưa thích” Những lần truy
cập sau, chúng ta chỉ cần nhấn vào tên trang web trong menu Favourites để vào trang
web ưa thích mà không phải nhập lại địa chỉ Internet
Sử dụng những nút Back hoặc Forward để trở lại hoặc tiếp tục mở lại trang web phía trước; các nút Stop và Refesh để tạm dừng truy cập hay thực hiện “làm tươi” nội
dung trang web bằng cách truy cập lại địa chỉ Internet này
4 Một số thuật ngữ sinh – tin học thường gặp trên mạng internet
Thuật ngữ Sinh học
Accession Mã số truy cập trong các cơ sở dữ liệu sinh học (Genbank…)
Alignment Sắp gióng cột hai hay nhiều trình tự nhằm xác định độ tương đồng
giữa chúng
bp (base pair) cặp base
cDNA (complementary DNA) mạch đơn bổ sung cho RNA và được tồng
hợp từ khuôn nhờ enzyme phiên mã ngược
Cloning Kỹ thuật tạo ra tập hợp các tế bào hoặc phân tử giống hệt nhau cùng
bắt nguồn từ một tế bào hay một phân tử ban đầu
Codon Bộ ba nucleotide mã hóa cho một acid amin hay một “dấu hiệu” bắt
đầu hay kết thúc dịch mã
DNA sequencing
Trình tự A, T, G, C của acid deoxyribonucleic (DNA)
Downstream Đầu 3’ của trình tự nucleotide
Exon Một phần của một gen gián đoạn (gen tồn tại ở eukaryote), có mặt
trong phân tử RNA trưởng thành
Gene Đoạn DNA (gen) tham gia vào việc hình thành một sợi polypeptide;
gen bao gồm các vùng nằm trước và sau vùng mã hóa và cả trình tự (intron) nằm giữa các phần mã hóa
gi Dãy số hiệu của mỗi trình tự quy định theo sắp xếp của NCBI
Hairpin Vùng xoắn kép hình thành từ sự bắt cặp bổ sung giữa hai trình tự bổ
sung nằm kề nhau trên một phân tử DNA hay RNA mạch đơn (cấu trúc kẹp tóc)
Intron Đoạn DNA được phiên mã nhưng bị loại bỏ trong quá trình trưởng
thành của RNA, không có mặt ở phân tử RNA trưởng thành
Molecular hybridization
Quá trình trong đó hai mạch acid nucleic bổ sung (A-T, G-C) bắt cặp hình thành nên mạch kép; kỹ thuật hữu hiệu để phát hiện một trình tự nucleotide chuyên biệt (lai phân tử)
Trang 8Operon Đơn vị biểu hiện và điều hòa gen ở vi khuẩn, bao gồm các gen cấu
trúc nằm cạnh nhau và các nhân tố điều hòa, các gen cấu trúc này cùng chịu những tác động điều hòa như nhau
PCR (Polymerase Chain Reaction) kỹ thuật dùng để khuếch đại nhiều bản
sao của một trình tự DNA đích nhờ DNA polymerase
ORF (Open Reading Frame) khung đọc mở khi dịch mã cho ra một trình tự
amino acid hoàn chỉnh
Plasmid DNA dạng vòng, nằm ngoài nhiễm sắc thể và có khả năng tự sao
chép độc lập
Primer Trình tự DNA hay RNA ngắn, bắt cặp với một mạch khuôn DNA và
có mang đầu 3’OH tự do giúp DNA polymerase bắt đầu tổng hợp mạch mới
Promoter Trình tự trên phân tử DNA, nơi RNA polymerase gắn vào để khởi
động phiên mã
Redundancy Sự có mặt của nhiều mẩu tin dư thừa (thường là trình tự) Trong
Bioinformatics, đó là sự liên quan của những trình tự giống nhau trong cùng một cơ sở dữ liệu
Restriction enzyme (RE)
Enzyme nhận biết một trình tự DNA ngắn chuyên biệt và cắt mạch kép DNA
Restriction map
Bản đồ vị trí nhận biết của tất cả các enzyme cắt giới hạn trên một trình tự DNA
RNA sequencing
Trình tự A, U, G, C của acid ribonucleic (RNA)
Splicing Sự loại bỏ các intron và nối liền các exon ở RNA trong quá trình
trưởng thành sau phiên mã
Tm (Melting temperature) nhiệt độ mà ở đó một nửa số phân tử của trình
tự đó bị biến tính (nhiệt độ nóng chảy của một trình tự)
Transcription Sự tổng hợp RNA từ khuôn DNA
Translation Sự tổng hợp protein từ khuôn mRNA (sự dịch mã)
Upstream Đầu 5’ của trình tự nucleotide
Vector Trong kỹ thuật tạo dòng (cloning), là plasmid hay phage dùng để
chuyên chở một đoạn DNA lạ gắn vào đó với mục đích tạo ra một lượng bản sao lớn hay một sản phẩm protein từ đoạn DNA này
Thuật ngữ Tin học
Acrobat Họ các công cụ của công ty Adobe cho phép nhà xuất bản dịch các
tập tin Postscript thành Portable Document Format (PDF) và người dùng có thể xem trên trên các nền thông thường của máy
BLAST (Basic Local Alignment Search Tool) một công cụ tìm kiếm nhanh
những trình tự tương đồng trong một cơ sở dữ liệu
Trang 9Browser Công cụ cho phép người dùng quét một danh sách tập tin hoặc tìm
một mục riêng nào đó Trong WWW (World-Wide-Web), browser được hiểu là phần mềm cho phép duyệt qua những tư liệu trên Web
Browser Một trình duyệt web (Web Browser) hỗ trợ các đồ họa, âm thanh và
video
Download Tải tập tin xuống máy tính, truyền các tập tin từ một máy tính sang
một máy tính khác
FAQs Những câu hỏi được yêu cầu thường xuyên (Frequently Asked
Questions)
FASTA Chương trình tìm kiếm trình tự tương đồng được dùng rộng rãi đầu
tiên
Freeware Phần mềm sử dụng miễn phí và có thể tải về máy tính cá nhân
FTP Giao thức chuẩn dùng để gởi tập tin (File Transfer Protocol) từ một
máy này đến một máy khác trên mạng TCP/IP như Internet
Gap Khoảng trống được đưa vào khi so sánh các trình tự với nhau nhằm
làm tăng độ tương đồng giữa chúng
Gateway Dịch vụ dịch thông điệp giữa những giao thức khác nhau
Gopher Hệ menu phân cấp dùng để gởi tài liệu trên Internet
Homepage Trang đầu của một server World-Wide-Web hay tài liệu gốc mô tả
một tổ chức (cá nhân) được cung cấp thông qua user
Language) dùng để mô tả các tài liệu truyền thông qua WWW HTML cho phép một tài liệu có thể chứa các liên kết đến một tài liệu khác, cung cấp cho WWW khả năng Hypertext (và hypermedia)
Internet Bất kỳ mạng nào của hệ thống mạng liên kết trên thế giới
IP address Số duy nhất gán cho một máy mạng TCP/IP
LAN (Local Area Network) mạng phủ trên một vùng địa lý tương đối nhỏ
(một văn phòng, một tầng hay một tòa nhà…)
Login Thủ tục khởi nhập một liên kết với máy chủ của người sử dụng mạng
(thường gồm yêu cầu về tên và mật khẩu)
Netquette Những nguyên tắc xã giao chủ đạo trong truyền thông trên mạng
Internet
Offline Khi không sử dụng kết nối đó nữa
Online Khi sử dụng kết nối với một máy tính khác
Query Khung nhập trình tự (hoặc những loại thuật ngữ tìm kiếm khác)
Shareware Phần mềm cho phép tải và sử dụng miễn phí nhưng nếu muốn dùng
tiếp thì phải trả cho tác giả một khoản tiền danh dự nhỏ
URL (Uniform Resource Locator – định danh tài nguyên đồng nhất) hệ
thống ghi địa chỉ được web sử dụng
WWW (World Wide Web) Phương tiện định vị trên Internet bằng cách sử
dụng siêu liên kết
Ví dụ http://www.mcb.harvard.edu/BioLinks.html
Trang 105 Tài liệu tham khảo
1 Cynthia Gibas &Per Jabeck 2001 Developing Bioinformatics Computer
Skills O’Reilly & Associates, Inc., USA
2 Gunter Kahl 1995 Dictionary of Gene Technology VCH
Verlagsgesell-schaft mbH, Germany
3 Hồ Huỳnh Thùy Dương 1998 Sinh học phân tử, NXB Giáo dục
4 Institute of Technical Biochemistry, 2002 Bioinformatics tools for
Biologists, University of Stutgartt, Germany
5 National Center for Biotechnology Information, NCBI 10/2001
http://www.ncbi.nlm.nih.gov/, USA
6 Neil F., Peadar Ó G 2001 Bioinformatics programme, 4th Molecular Biology Workshop, HCMC, Vietnam
Trang 11PHẦN I
KHAI THÁC DỮ LIỆU SINH HỌC QUA MẠNG INTERNET
Trang 12Bài 1
CƠ SỞ DỮ LIỆU SINH HỌC TRÊN MẠNG INTERNET
1 Mục đích, nguyên tắc
Công việc đầu tiên khi chúng ta bắt tay vào công việc nghiên cứu là tập hợp và xử lý thông tin về lĩnh vực nghiên cứu mình quan tâm Để làm được chuyện này, ngoài cách tiếp cận truyền thống là vào thư viện, chúng ta còn có thể khai thác kho dữ liệu thông tin phong phú trên mạng Internet (World Wide Web) Ở đây luôn có một lượng lớn thông tin Sinh học đa dạng và cập nhật có thể tham khảo và sử dụng trong nghiên cứu Các thông tin này thuộc nhiều lĩnh vực khác nhau như: sinh học phân tử, sinh hóa, sinh học tế bào, di truyền học…
Trên thế giới có rất nhiều hệ thống các nhóm nghiên cứu sinh học hoạt động trên nhiều lĩnh vực khác nhau Các thông tin sinh học thu thập được từ hoạt động của các nhóm này ngày càng nhiều, nhất là từ khi Công nghệ Sinh học có những bước tiến bộ vượt bậc Từ thực tế này đã xuất hiện nhu cầu cần quản lý, hợp tác và trao đổi thông tin sinh học với sự trợ giúp của Công nghệ Thông tin, ngành kỹ thuật mũi nhọn trong thời đại công nghệ tri thức Các cơ sở dữ liệu sinh học trên thế giới ra đời từ đó với mục đích giúp các nhà sinh học có điều kiện quản lý, khai thác, trao đổi thông tin nghiên cứu của kho dữ liệu sinh học khổng lồ của sự sống trên hành tinh này
2 Khai thác và xử lý thông tin Sinh học
Hiện nay, có rất nhiều dạng cơ sở dữ liệu thuộc nhiều lĩnh vực sinh học khác nhau (dữ liệu về môi trường, đa dạng sinh học, đa dạng di truyền; dữ liệu về nguồn gen: DNA, RNA; dữ liệu về protein: trình tự, cấu trúc, chức năng…) Trong đó, dữ liệu về sinh học phân tử luôn chiếm ưu thế do đặc thù thông tin trong nghiên cứu của lĩnh vực này
Chúng ta có thể khai thác các dữ liệu sinh học phân tử bằng cách thông qua mạng Internet liên kết đến các máy tính chủ (server) lưu trữ các trình tự DNA của hàng ngàn gen thuộc hàng trăm loài khác nhau, trình tự protein có nguồn gốc từ những trình tự DNA này, trình tự bộ gen (genome) của nhiều loài (bao gồm cả bản thảo của trình tự bộ gen người), rất nhiều ấn phẩm điện tử (sách, báo, tạp chí…) và những thông tin khác phục vụ cho mục đích nghiên cứu Ngoài ra, còn có nhiều địa chỉ giới thiệu các nhóm nghiên cứu về các vấn đề sinh học chuyên ngành, các chương trình phần mềm dùng để phân tích các trình tự sinh học trên Internet Chúng ta có thể sử dụng trực tiếp trên Internet hoặc chép (download) các phần mềm miễn phí này về máy tính của mình Phần lớn các thông tin này được sử dụng miễn phí Tuy nhiên, có một số thông tin được bảo vệ bằng luật bản quyền và không thể sử dụng miễn phí
Trang 13Trong phần I, chúng ta sẽ làm quen với nhiều cách tìm kiếm những thông tin sinh học trên mạng Internet thông qua các trang web tìm kiếm thông tin hoặc các cơ sở dữ liệu sinh học lớn trên thế giới Thông tin tìm kiếm được quan tâm là các bài báo khoa học và các trình tự nucleic acid hay protein Tùy từng trường hợp cụ thể mà chúng ta có thể xác định đối tượng và mở rộng phạm vi tìm kiếm đến những lĩnh vực khác với nguyên tắc tương tự
Thông tin sinh học trên mạng Internet có nhiều dạng, chủ yếu là các dạng dạng trang web (HTM, HTML), dạng tạp chí điện tử, các bài báo lưu trữ (PDF) hoặc các dạng cơ sở dữ liệu tr2inh tự sinh học (trình tự DNA, protein…) Để khai thác các thông tin này chúng ta cần phải biết lựa chọn cơ sở dữ liệu, cách thức truy cập và sử dụng công cụ tìm kiếm và xử lý những thông tin này phù hợp với yêu cầu công việc
Chương trình thực tập khai thác thông tin sinh học qua mạng Internet bao gồm các nội dung:
• Tìm kiếm các dạng dữ liệu trình tự sinh học và các thông tin sinh học khác có liên quan (chủ yếu về sinh học phân tử)
• Địa chỉ Internet để tìm kiếm các thông tin này
• Giải quyết các câu hỏi làm thế nào để:
- Truy cập thông tin có liên quan (ấn phẩm, cấu trúc, trình tự liên quan)?
- Truy cập trình tự DNA và protein trong các cơ sở dữ liệu trình tự sinh học?-
- Phân tích trình tự sinh học bằng các chương trình trên Internet?
Chúng ta sẽ download các trình tự Sinh học và phân tích chúng bằng nhiều chương trình khác nhau Các chương trình này hầu hết là những phần mềm hoặc trang web miễn phí Như vậy, sau đợt thực tập, các bạn có thể thực hiện việc tìm kiếm và phân tích thông tin sinh học bằng bất kỳ máy tính nào nối mạng Internet
Trang 14Bài 2.
TÌM KIẾM THÔNG TIN TRÊN MẠNG INTERNET
1 Mục đích, nguyên tắc
Để tìm kiếm thông tin trên mạng Internet, chúng ta có thể sử dụng nhiều công cụ tìm kiếm khác nhau Việc tiếp cận các thông tin thường được thực hiện bằng cách xác định nội dung chính cần tìm kiếm, lựa chọn công cụ tìm kiếm, xác định phạm vi thực hiện tìm kiếm và chọn lọc thông tin (loại bỏ những thông tin không cần thiết) Công việc tìm kiếm thông tin sẽ trở nên nhẹ nhàng hơn khi ta nắm vững một số nguyên tắc giới hạn tìm kiếm và lọc thông tin
Sơ đồ nguyên tắc tìm kiếm thường sử dụng là:
2 Công cụ và cách sử dụng
Để tìm kiếm những thông tin này, thông thường chúng ta phải xác định một từ hay một nhóm từ khóa (keyword) mang nội dung chủ yếu hay quan trọng nhất của vấn đề quan tâm Sau đó sử dụng các công cụ tìm kiếm trên mạng để tìm đến các địa chỉ lưu trữ những thông tin cần thiết hoặc những thông tin liên quan Sử dụng các chức năng chọn lọc thông tin của các công cụ để hạn chế việc tiếp nhận những thông
tin không liên quan Ví dụ thông tin: “PCR for detection of Listeria monocytogenes in
food samples”, trong trường hợp này có thể xác định các từ khóa là: PCR, monocytogenes
Sau khi xác định được từ khóa, ta thường phải xác định phạm vi tìm kiếm để lựa chọn những công cụ thích hợp Nếu chúng ta cần tìm thông tin tổng hợp về lĩnh vực này thì có thể bắt đầu tìm kiếm thông tin ở những trang web Các công cụ tìm kiếm có thể là những trang tìm kiếm trên mạng (AltaVista, EuroSeek, Lycos, GOTO, Yahoo…) hoặc những phần mềm tìm kiếm trên mạng Internet Nhập từ khóa vào hộp
yêu cầu và nhấn Enter↵ hoặc nút tìm kiếm (Go, Search…) Nguyên tắc chung của việc
nhập từ khóa là:
- Để tìm thông tin có nhiều từ khóa ta nhập tuần tự các từ khóa và phân cách giữa các từ bằng khoảng trắng (dùng spacebar)
Thông tin
cần tìm từ khóa Xác định tìm kiếm Chọn cách thông tinLọc KẾT QUẢ CẦN TÌM
Trang 15- Để tìm thông tin chứa một cụm từ khóa ta thường đặt chúng trong dấu ngoặc kép (“”), các từ thường dùng (for, of, in, to…) có thể được loại bỏ
Ví dụ: PCR detection, Listeria cho kết quả khác với “PCR for detection of Listeria”
Tuy nhiên hiệu quả thực hiện tìm kiếm tại các trang web lớn, đa chức năng thường không cao (do chúng phải chia sẻ cho các chức năng khác bên cạnh chức năng tìm kiếm) Kết quả tìm kiếm dạng này thường quá lớn (do chức năng lọc thông tin không mạnh), mất nhiều thời gian (thường phải tải kèm hình ảnh quảng cáo), dễ bị gián đoạn (do quá tải ở trang chủ) Để tăng hiệu quả tìm kiếm, chúng ta có thể sử dụng những trang tìm kiếm nhỏ gọn và chuyên nghiệp hơn (ví dụ Google, All The Web) Các trang này thường có nhiều chức năng tìm kiếm chuyên biệt, khả năng chọn lọc thông tin mạnh (Advanced Search), tìm được nhiều địa chỉ
Một giải pháp khác để tìm kiếm thông tin là sử dụng các phần mềm tìm kiếm thông tin Các phần mềm này thường sử dụng cùng lúc nhiều trang tìm kiếm trên mạng (ví dụ phần mềm WebFerret, Copernic) Cách tìm kiếm này thường cho hiệu quả rất cao, có thể tìm rất nhiều địa chỉ liên quan đến thông tin ta quan tâm, nhưng thông tin thường không tập trung
Giới hạn kết quả xuất hiện Nhập từ
tìm kiếm
Giới hạn ngôn ngữ, phạm vi tìm kiếm
Trang 16Số tập xuất
Trong đợt thực tập này chúng ta sẽ tìm kiếm thông tin bằng cách sử dụng cơ sở dữ liệu trong trang chủ NCBI (National Center for Biotechnology Information - NCBI, USA) tại địa chỉ Internet là http://www.ncbi.nlm.nih.gov/ Khi truy cập vào địa chỉ này, chúng ta sẽ nhìn thấy một trang chủ dạng như sau:
Giới hạn phạm vi tìm kiếm và kết quả thể hiện
Trang 17Chúng ta thực hiện tìm kiếm thông tin sinh học trong trang Entrez Trang Entrez là một trang web của NCBI
• Nhấn dòng chữ Entrez để vào trang Entrez
Trong Entrez, bạn có thể tìm kiếm nhiều dạng cơ sở dữ liệu khác nhau Mỗi
cơ sở dữ liệu là một liên kết được biểu thị bằng dòng văn bản được đổi màu khi ta di chuyển đến Ví dụ: PubMed, Protein
Các dòng văn bản đổi màu được gọi là các liên kết siêu văn bản (hay liên kết) và thường mở ra một trang mới khi ta nhấn vào Trong Entrez chúng ta có thể nhập vào những yêu cầu tìm kiếm cơ sở dữ liệu về các bài báo thuộc lĩnh vực Y – Sinh học
(PubMed), trình tự nucleic acid (Nucleotide), trình tự protein (Protein), cấu trúc 3 chiều (Structure), bộ gen (Genome)… Ở đây, chúng ta sử dụng trang PubMed để tìm
kiếm các bài báo về thông tin Y - Sinh học
Ví dụ chúng ta quan tâm bài báo có tựa đề “Isolation and characterization
of Escherichia coli O157:H7 from retail meats in Argentina” Tác giả: Chinen I, Tanaro JD, Miliwebsky E, Lound LH, Chillemi G, Ledri S, Baschkier A, Scarpin
M, Manfredi E, Rivas M Chúng ta có thể chọn lựa từ khóa là “O157:H7”,
“Argentina” (tựa đề) và “Chinen” (tên tác giả)
Các cơ sở dữ liệu thuộc trang Entrez Khung nhập yêu cầu
Trang 18• Chọn cơ sở dữ liệu là PubMed ở khung Search
• Nhập từ khóa cần tìm kiếm vào khung yêu cầu (for oooo )
• Ấn phím Go hoặc nhấn Enter↵
Kết quả sẽ xuất hiện sau vài phút (hoặc lâu hơn) dưới dạng một danh sách các mục bài (entries, hits) với tên tác giả, tựa đề bài báo, tên tạp chí, năm xuất bản Nhấn vào dòng tên tác giả để xem chi tiết tóm tắt từng mục bài
Thay đổi kiểu thể hiện kết quả bằng cách chọn kiểu thể hiện ở menu Display (Summary, Brief, Abstract, Citation, ASN.1, MEDLINE…) Để tìm chính xác các từ
khóa, chúng ta có thể sử dụng toán tử Boolean (AND, OR, NOT) và dùng thẻ (tag) trong ngoặc vuông ([ ]) đặt sau từ khóa để giới hạn phạm vi tìm kiếm từ khóa đó Dưới đây là một số thẻ thông dụng
Thẻ Giới hạn phạm vi tìm kiếm
[AB] Tóm tắt - abstract
[AU] Tên tác giả - author name
[DP] Ngày xuất bản - publication date
[CY] Nơi phát xuất bản tạp chí - country
[IP] Số phát hành của tạp chí
[IS] International Standard Serial Number of Journal (ISSN)
[LA] Ngôn ngữ của bài báo - language
[PG] Số trang - page number
[TI] Tựa đề - title word
[VI] Tập (số) - volume
Tên tác giả Tựa đề bài báo
Trang 19Ví dụ: "DNA microarray"[ti] AND Curtis[au] 2002[dp] nghĩa là: tìm bài báo có chữ
DNA microarray (trong tựa đề bài báo) của tác giả Curtis năm 2002
Lưu ý: khi tìm kiếm, để tìm một cụm từ (phrase) thì chúng phải được đặt trong dấu
ngoặc kép (“”) Entrez tự động hiểu có toán tử AND giữa các từ cách nhau bằng khoảng trắng (không nằm trong dấu ngoặc kép)
Ví dụ: protein SSB tương đương với protein AND SSB và khác với “protein SSB”
3 Thực hành
Sinh viên thực hành tìm bài báo có tựa đề:
“Cloning and characterization of two promoters for the human Hsal 2 gene and their transcriptional repression by the Wilms tumor suppressor gene product”
Tác giả:
Ma Y, Li D, Chai L, Luciani AM, Ford D, Morgan J, Maizel AL
Ta thực hiện chọn lựa từ khóa là “Cloning” (tựa đề) và “Ma” (tên tác giả) Chúng ta thực hiện tìm kiếm bài bào này trên PubMed bằng nhiều cách khác nhau Đầu tiên thực hiện tìm những bài báo có từ “Cloning” và từ “Ma”
• Nhập vào khung for dòng “Cloning[TI] AND Ma[AU]”
• Nhấn phím Go hoặc nhấn Enter↵
Câu hỏi: Có bao nhiêu mục bài được tìm thấy?
Trả lời:
Bây giờ nếu biết thêm thông tin bài báo trên xuất bản năm 2001
Câu hỏi: Phải nhập vào trình tự tìm kiếm là gì để tìm được chính xác bài báo ta cần?
Có bao nhiêu bài báo tìm được?
Trả lời:
Trong trang PubMed, thử tìm và phân biệt hai trường hợp khi tìm bài báo với yêu cầu là LT AND gene và “LT gene” (trong ngoặc kép)
Câu hỏi: Số bài tìm được của mỗi cách là bao nhiêu?
Có gì khác nhau giữa hai cách tìm này?
Trả lời:
Trang 20Bài 3
TÌM KIẾM CÁC TRÌNH TỰ SINH HỌC
1 Mục đích, nguyên tắc
Trong nghiên cứu sinh học phân tử, chúng ta thường xuyên phải làm việc trên các đối tượng là nucleic acid (DNA) và protein Đây là các dạng trình tự sinh học được lưu trữ phổ biến trong các cơ sở dữ liệu sinh học Hiện nay, các thông tin này được lưu trữ chủ yếu trong các cơ sở dữ liệu lớn trên thế giới như hệ thống GenBank (NCBI, USA), EMBL (European Molecular Biology Laboratory, UK), DDBJ (DNA Database of Japan, JP) và một số hệ thống cơ sở dữ liệu khác trên thế giới
Thông tin trong các cơ sở dữ liệu này rất lớn và luôn được cập nhật thường xuyên (sau mỗi 24 giờ) Ví dụ cơ sở dữ liệu về nucleotide của Genbank (NCBI) hiện nay chứa trên 13 tỉ base của trên 100 ngàn loài Con số này luôn tăng theo số mũ và dự tính gia tăng lên gấp đôi trung bình sau mỗi 14 tháng (10/2001) Để tìm những
trình tự sinh học này, chúng ta sử dụng công cụ tìm kiếm Entrez Nucleotide (tìm trình tự DNA) hoặc Entrez Protein (tìm trình tự protein)
2 Công cụ và cách sử dụng
2.1 Tìm trình tự DNA
Để tìm những trình tự DNA ta sử dụng Entrez Nucleotide để tìm kiếm trong hệ
thống cơ sở dữ liệu về trình tự DNA Các cơ sở dữ liệu này bao gồm hệ thống GenBank (NCBI, USA) và liên kết với cơ sở dữ liệu của EMBL, DDBJ và một số hệ thống dữ liệu khác trên thế giới
• Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến trang Entrez
Nucleotide
• Nhập vào yêu cầu (thường là tên gen như: “luc gene”, “ST gene”,…) và
nhấn nút Go (hoặc nhấn Enter↵)
• Kết quả sẽ xuất hiện một danh sách trình tự DNA tương tự như sau:
• Nhấn vào các mục bài để xem chi tiết trình tự DNA
Các mục bài tìm được
Trang 21Tên tác giả và tạp chí đăng tải
2.2 Tìm trình tự Protein
Để tìm trình tự protein, cũng tương tự việc tìm kiếm trình tự DNA Việc tìm kiếm trình tự protein cũng được thực hiện trong hệ thống Genbank, EMBL và DDBJ
• Nhấn vào dòng Protein trong trang Entrez để mở trang Entrez Protein
• Nhập vào yêu cầu (thường là tên protein như: “SSB”, “ST”,…) và nhấn nút
Go (hoặc nhấn Enter↵)
• Sau vài phút, kết quả sẽ xuất hiện một danh sách trình tự protein tương tự như trường hợp DNA
• Nhấn vào mã số truy cập của các mục bài để xem chi tiết trình tự protein
3 Thực hành
3.1 Tìm trình tự DNA
Chúng ta thực tập tìm kiếm trình tự gen có tên là LT
• Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến trang Entrez
Nucleotide
• Nhập vào yêu cầu là ( “LT gene” và nhấn nút Go (hoặc nhấn Enter↵)
• Sau vài phút, kết quả sẽ xuất hiện một danh sách trình tự DNA
Kết quả tìm kiếm sẽ thể hiện số lượng các mục bài (entries, hits) có liên quan đến trình tự gen LT
Trình tự protein
Trang 22Câu hỏi: Có bao nhiêu mục bài có liên quan đến trình tự gen LT được tìm thấy? Trả lời:
Để thay đổi kiểu thể hiện kết quả ta có thể thay đổi dạng trình bày bằng cách
chọn kiểu thể hiện ở menu Display (Summary, Brief, ASN.1, FASTA, GenBank, GI
list…)
• Nhấn lên phần số của bất kỳ mục bài nào, ta sẽ nhận được mô tả chi tiết của mục này liên quan đến trình tự DNA, trình tự protein đã được dịch mã, tên tác giả và những thông tin cần thiết khác (vùng promoter, peptide tín hiệu…)
Dạng thể hiện những mô tả này là kiểu Genbank
• Trở lại trang Entrez Nucleotide và nhập trình tự tìm kiếm là “D00102” và nhấn Go
Câu hỏi: Kết quả có bao nhiêu mục được tìm thấy?
Trả lời:
• Tiếp tục nhấn vào dòng D00102 để xem chi tiết mục bài này
Câu hỏi: Trình tự DNA này dài bao nhiêu?
Nó mã hóa cho gen gì?
Công trình này được đăng tải bởi tạp chí nào?
Tác giả là ai?
Trả lời:
Trang 23Cách mã hoá dùng trong trình tự acid nucleic:
• Trở về trang Entrez hoặc từ trang Entrez Nucleotide, nhấn vào dòng
Protein để mở trang Entrez Protein
Trang Entrez protein sẽ xuất hiện có dạng:
Chúng ta thực tập tìm kiếm trình tự protein là độc tố bền nhiệt có tên là ST (ST toxin)
• Nhập dòng “ST toxin” vào khung yêu cầu, nhấn Go, và chờ kết quả
Trang 24Thực hiện tìm hiểu chi tiết các mục bài vừa tìm kiếm được bằng cách nhấn lên các mã số mục bài (tương tự cách dùng với trình tự DNA)
Câu hỏi: Có bao nhiêu mục bài liên quan đến trình tự protein yêu cầu được tìm
thấy?
Trình tự protein ST toxin chủ yếu liên quan đến loài nào?
Đặc điểm của protein này?
M methionine * translation stop
N asparagine - gap of indeterminate length
Trang 25Bài 4
TÌM KIẾM CÁC TRÌNH TỰ TƯƠNG ĐỒNG
1 Mục đích, nguyên tắc
Một chương trình tìm kiếm và so sánh trình tự tương đồng được nhiều người
dùng nhất hiện nay có tên là BLAST (Basic Local Alignment Search Tool) Chương
trình này thực hiện so sánh trình tự DNA và protein nhập vào với những trình tự trong các cơ sở dữ liệu (GenBank, EMBL…) và lựa chọn các trình tự có mức độ tương đồng từ cao đến thấp Chúng ta dùng BLASTù khi có câu hỏi đặt ra “Liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không?”
Chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có) với trình tự bạn yêu cầu Ngoài ra, BLAST còn cung cấp cho bạn những số liệu về tỉ tệ tương đồng, nguồn gốc các trình tự tương đồng…
2 Công cụ và cách sử dụng
Để truy cập vào trang BLAST, chúng ta nhấn vào dòng BLAST trong trang chủ
của NCBI Chúng ta có thể thực hiện tìm kiếm trình tự tương đồng DNA (Nucleotide - Nucleotide BLAST) hoặc protein (Protein – Protein BLAST)
Trang 262.1 Nucleotide – Nucleotide BLAST
Mở chương trình BLAST bằng cách nhấn vào dòng BLAST trong các trang của
NCBI
• Mở chương trình Nucleotide BLAST bằng cách nhấn lên dòng blastn Trang kết quả Nucleotide BLAST sẽ xuất hiện dưới dạng HTML (chúng ta có thể thay đổi dạng hiển thị tại menu Format)
• Nhập trình tự DNA cần tìm kiếm vào khung nhập trình tự (Search) Lựa chọn chức năng blastn và nr (non-redundant), đặt chiều dài giới hạn vùng cần tìm (From: ooooo To: ooooo )
• Nhấn lên nút BLAST! để bắt đầu chương trình
Kết quả sẽ hiện lên trang formatting BLAST
• Nhấn vào nút Format! để mở trang kết quả tìm kiếm và chờ đợi (có thể kéo
dài vài phút hoặc lâu hơn)
Kết quả sẽ hiện lên một trang web mới chứa nội dung tìm được Thông thường kết quả không hiện lên tức thì mà yêu cầu chúng ta chờ đợi trong một khoảng thời gian (từ vài phút đến nhiều phút tùy vào kích thước đoạn cần tìm)
Kết quả gồm phần đồ thị, danh sách mục bài có trình tự tương đồng với trình tự DNA nhập vào với mức độ ngày càng giảm dần Ngoài ra còn có danh sách các trình tự sắp xếp theo trị số Score
Score E Sequences producing significant alignments: (bits) Value
gi|145832|gb|M17873.1|ECOELTBP E.coli (from pig) heat-labil 44 0.003 gi|1648865|emb|X83966.1|ECLT87 E.coli LT87 gene for heat-la 44 0.003
Trang 27Giải thích:
tương đồng trong GenBank Nhấn vào để mô tả chi tiết mục bài này
44 - Tỷ số tương đồng được tính toán bởi Nucleotide BLAST
trị này càng nhỏ càng thì mức độ tương đồng càng cao)
2.2 Protein – Protein BLAST
Sử dụng tương tự chức năng Nucleotide BLAST
• Mở trang Protein BLAST bằng cách nhấn vào dòng blastp trong trang BLAST Trang protein BLAST sẽ có dạng:
• Trong hộp nhập thông tin (Search), nhập vào toàn bộ trình tự amino acid Chọn chiều dài giới hạn vùng cần tìm (From: ooooo To: ooooo ), cơ sở dữ
liệu là nr (non-redundant)
• Nhấn vào nút Format! và đợi đến khi xuất hiện kết quả (có thể trong nhiều
phút hoặc lâu hơn)
Chương trình sẽ trả lời kết quả bằng một trang web chứa những trình tự gần giống nhất so với trình tự amino acid cần tìm (tương tự dạng Nucleotide BLAST)
3 Thực hành
3.1 Nucleotide – Nucleotide BLAST
Tìm trong thư mục “baitap” tập tin chứa trình tự DNA có tên là
Trang 28Blast-DNA-• Mở chương trình BLAST bằng cách nhấn vào dòng BLAST trong các trang của NCBI Mở chương trình Nucleotide BLAST bằng cách nhấn lên dòng
blastn
• Chép trình DNA tự trong tập tin Blast-DNA-32.txt vào khung nhập trình tự
(Search) Lựa chọn chức năng blastn và nr, đặt chiều dài giới hạn từ 1 đến
32 trong mục From và To
• Nhấn nút BLAST! để bắt đầu chương trình
Kết quả sẽ hiện lên trang formatting BLAST
• Nhấn vào nút Format! để mở trang kết quả tìm kiếm và chờ đợi (có thể kéo
dài vài phút hoặc lâu hơn)
Câu hỏi: Chiều dài của đoạn DNA bắt cặp tốt nhất với trình tự ta dò tìm là bao
nhiêu?
Đoạn DNA này thuộc loài nào?
Tên của gen được mã hóa bởi trình tự này?
Trả lời:
3.2 Protein – Protein BLAST
Tìm trong thư mục “baitap” tập tin chứa có tên là Blast-protein-72.txt chứa một đoạn trình tự protein (độc tố ST)
• Mở trang Protein BLAST bằng cách nhấn vào dòng blastp trong trang BLAST
• Trong hộp nhập thông tin (Search), chép trình toàn bộ trình tự amino acid
trong tập tin Blast-protein-72.txt vào Chọn trình tự BLAST từ 1 đến 72,
chọn cơ sở dữ liệu là nr
• Nhấn vào nút BLAST!, một cửa sổ mới sẽ xuất hiện
• Nhấn vào nút Format! để mở trang kết quả tìm kiếm và đợi đến khi xuất
hiện kết quả (có thể trong nhiều phút hoặc lâu hơn)
Kết quả xuất hiện tương tự dạng Nucleotide BLAST
Câu hỏi: Những dạng protein họ hàng với độc tố ST?
Trả lời:
Trang 29Bài 5
PHÂN TÍCH TRÌNH TỰ DNA
1 Mục đích, nguyên tắc
Các trình tự DNA mã hóa thông tin di truyền dưới dạng các bộ ba nucleotide Khi có một trình tự DNA, chúng ta cần phải tìm trình tự protein nếu muốn xác định sản phẩm sau dịch mã của trình tự này Tuy nhiên, các trình tự DNA, sau khi được phiên mã, chỉ được dịch mã thành protein khi chúng là một khung đọc mở (Open Reading Frame - ORF) Các khung đọc mở phải là những trình tự DNA có codon bắt đầu và codon kết thúc dịch mã (Stop Codon) như TAA, TGA, TAG
2 Công cụ và cách thực hiện
Để tìm các khung đọc mở có thể có trong một trình tự DNA, chúng ta sử dụng
một chương trình có tên là ORF finder của NCBI Chương trình này sẽ tìm kiếm
những khung đọc mở có thể có của trình tự nhập vào và trình tự bổ sung của nó Sau đó đưa ra bản đồ khung đọc mở với các trình tự đã dịch mã thành trình tự amino acid
• Mở trang ORF finder từ trang chủ NCBI bằng cách nhấn vào dòng ORF
finder
Trang 30• Nhập trình tự DNA vào hộp trình tự (sequence in FASTA format) hoặc mã số trình tự vào hộp GI or ACESSSION (nếu muốn dùng toàn bộ trình tự trong cơ
sở dữ liệu)
• Lựa vị trí dịch mã (From: ooooo To: ooooo ) và kiểu mã di truyền
• Nhấn nút OrfFind để thực hiện chương trình
Đợi kết quả xuất hiện sau vài phút (hoặc có thể lâu hơn) Kết quả có sáu khung dịch mã xuất hiện Các khung đọc mở (nếu có) sẽ là những thanh có màu sậm
hơn Lựa chọn giới hạn cách thể hiện bằng trị số trong mục Redraw (50, 100, 300)
Kết quả thể hiện có dạng tương tự:
• Nhấn lên trình tự khung đọc mở sẽ thấy hiện lên trình tự DNA và trình tự dịch mã amino acid tương tự kết quả bên dưới
Trang 31• Chép trình tự DNA trong tập tin ORF-DNA-1310LT.txt (dạng tập tin văn
bản text) vào hộp trình tự (sequence in FASTA format)
• Lựa chọn dịch mã từ 1 đến 1000 và mã di truyền là Bacteria code
• Nhấn nút OrfFind để thực hiện chương trình
Kết quả có sáu bản dịch xuất hiện và mỗi bản là một khung đọc mở LT (lymphotoxin) là một protein có mạch polypeptide là 205 amino acid nên cần có một khung đọc mở với 618 base
• Chọn thể hiện khung đọc mở có kích thước lớn hơn 300 nucleotide bằng
cách lựa chọn trị số 300 ở menu Redraw và nhấn Redraw
Câu hỏi: Có bao nhiêu khung đọc mở có kích thước trên 300 nucleotide?
Tìm khung đọc mở nào cho ra một polypeptide có kích thước đúng với độc tố LT?
Trả lời:
Trang 32• Nhấn lên trình tự khung đọc mở sẽ thấy hiện lên trình tự DNA và trình tự dịch mã amino acid
Câu hỏi: Có nhận xét gì về kích thước trình tự amino acid?
Các vị trí codon có được đánh dấu?
Trả lời: