KHAI THÁC DỮ LiỆU TRÊN MẠNG INTERNET - Nguyên tắc cơ bản về tìm kiếm thông tin trên Internet - Giới thiệu về CSDL sinh học lớn trên mạng Internet - Khai khác các phần mềm trực tuyến:
Trang 1TIN SINH HỌC
BIOINFORMATICS
Giới thiệu môn học
Trang 2GIỚI THIỆU CHUNG
1 KHAI THÁC DỮ LiỆU TRÊN MẠNG INTERNET
- Nguyên tắc cơ bản về tìm kiếm thông tin trên
Internet
- Giới thiệu về CSDL sinh học lớn trên mạng Internet
- Khai khác các phần mềm trực tuyến: Blast (tìm
kiếm trình tự tương đồng), ORFfinder (tìm khung đọc mở) của NCBI
2.LÀM QUEN MỘT SỐ CÔNG CỤ PHẦN MỀM PHÂN
TÍCH DNA, RNA, PROTEIN
Trang 3Mục tiêu môn học
Tự tìm tài liệu, các bài báo và công trình nghiên cứu về công nghệ sinh học nói chung từng chuyên ngành như CNSH nông nghiệp, CNSH y dược, CNSH môi trường nói riêng.
Phân tích trình tự sinh học (DNA,RNA, protein, các cấu trúc sinh học) bằng các công cụ trực tuyến cũng như các phần mềm sinh học.
Trang 4Bioinformatics là gì?
Trang 5Bioinformatics là gì?
Là một lĩnh vực khá đặc biệt trong công nghệ sinh học
và sinh học hiện đại, Tin-Sinh học cũng cần có những công
cụ riêng phục vụ cho nhu cầu và sự phát triển của nó Những công cụ cơ bản có thể bao gồm:
- Máy tính
- Các thuật toán: Thống kê các số liệu thô, sự xắp xếp của mã trình tự
Trang 6Cơ sở dữ liệu sinh học NCBI
120 quốc gia
Anh đã giải mã 30% bản đồ gene
Mỹ, Pháp, Đức, Nhật Bản Trung Quốc Các vi sinh vật khác: vi khuẩn, Virus…
Chuyển trình
tự Gene
Trang 7Các ứng dụng của Tin sinh học
BẮT ĐẦU THÍ NGHIỆM
PHẦN MỀM
XÁC ĐỊNH LẠI
TỐI ƯU HÓA
THÔNG SỐ MÁY TÍNH
TIẾN HÀNH THÍ NGHIỆM
TỪ CÁC THÔNG
SỐ NÀY
Trang 8Các ví dụ về mô hình máy tính
Ví dụ 1: Làm thế nào để chuyển gene vào vi sinh vật
Từ cơ sở dữ liệu-> thí nghiệm
(DNA club)
Ví dụ 2: Xét nghiệm huyết thống (NTSYSPC)
Số liệu DNA được phân tích khi thực hiện thí nghiệm
Trang 9Các ứng dụng của Tin sinh học
Nghiên cứu về chuỗi trình tự
Nghiên cứu về bộ gene
Nghiên cứu bằng sự tiến hoá của sinh học bằng máy tính
Nghiên cứu đa dạng di truyền
Nghiên cứu các đột biến của tế bào ung thư
So sánh bộ gene
Trang 10PHÂN TÍCH CƠ SỞ DỮ LIỆU
Phần mềm sinh học
1 Sản phẩm nghiên cứu từ nông nghiệp
2 Sản phẩm nghiên cứu từ thực phẩm
3 Sản phẩm
từ môi trường
Các kỹ thuật sinh học Khi làm thí nghiệm
Trang 11BÀI 1: TÌM KIẾM CƠ SỞ DỮ
LIỆU TRÊN INTERNET
Tìm kiếm thông tin trên Internet qua các công cụ
tìm kiếm
www.google.com www.altavista.com www.infoseek.com www.excite.com www.nlsearch.com
Tìm kiếm thông tin qua cơ sỡ dữ liệu sinh học
- NCBI-Cơ sở dữ liệu của Mỹ
Trang 12CÁC GIAO DIỆN CỦA CÁC CÔNG CỤ TÌM KIẾM
Trang 13TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET
Nguyên tắc
Trang 14TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET
1 XÁC ĐỊNH THÔNG TIN CẦN TÌM
Để có nhiều thông tin hơn, ta phải dịch nội dung chính của
vấn đề sang tiếng Anh vì dữ liệu trên internet là tiếng Anh
ví dụ: Đu đủ chuyển gen kháng virus
Transformation papaya viral resistance
2 XÁC ĐỊNH TỪ KHÓA
Để tìm kiếm thông tin chúng ta phải xác định một từ hay
một nhóm từ khóa mang nội dung chủ yếu hay quan trọng nhất của vấn đề quan tâm
Trang 15TÌM KIẾM CÁC THÔNG TIN TRÊN MẠNG INTERNET
3 CHỌN CÔNG CỤ TÌM KIẾM
- Google Patent Search-Tìm kiếm bằng sáng chế
- Google Scholar-Công cụ tìm kiếm dành cho học
giả
- Google Books- công cụ tìm kiếm sách
4 LỌC THÔNG TIN
- Đọc lướt nhanh rồi đối chiếu với nội dung ta cần tìm
Nếu đúng là thông tin ta cần tìm thì lưu lại trang web
- Từ khóa càng chuyện biệt thì kết quả tìm kiếm càng
Trang 16VÍ DỤ THỰC HÀNH TÌM KIẾM BẰNG GOOGLE
Trang 18TÌM KIẾM THÔNG TIN NÂNG CAO TRÊN GOOGLE
-Acrobat -Power point
Trang 19Ví DỤ THỰC HÀNH CÁC BƯỚC
TÌM KIẾM
Trang 20BÀI TẬP
1 Hãy tìm những tài liệu về sự chuyển gene kháng virus ở
cây đu đủ bằng tạp chí chuyên ngành và google
Từ khóa: viral resistance, transformation, papaya)
2 Hãy tìm những công bố nghiên cứu về xác định giới tính
ở bò bằng kỹ thuật multiplex PCR
Từ khóa: Determination,sex, cattle, multiplex PCR
3 Hãy tìm những bài báo liên quan đến vấn đề chẩn đoán
Trang 21CÔNG TRÌNH NGHIÊN CỨU VỀ SINH HỌC, CÔNG NGHỆ SINH HỌC
Trang 22CÔNG TRÌNH NGHIÊN CỨU VỀ SINH HỌC, CÔNG NGHỆ SINH HỌC
Sinh học phân tử và tiến hóa :
Trang 23TÌM KIẾM CÁC BÀI BÁO QUA TẠP CHÍ CHUYÊN NGÀNH
http://www.plantcell.org/search.dtl
Trang 24TÌM KiẾM BÀI BÁO QUA CÁC TÀI LIỆU THAM KHẢO CỦA CÁC TẠP CHÍ CHUYÊN NGÀNH
Trang 27 NCBI (National Center for Biotechnology
Trang 28CƠ SỞ DỮ LIỆU NCBI
Trang 29TÌM KIẾM CÁC BÀI BÁO QUA PUBMED
- Cơ sở dữ liệu
về các bài báo
y học, sinh học
- Tóm tắt
- Cơ sở dữ liệu
về các bài báo
y học, sinh học
Trang 30Đánh từ
khóa
Trang 31Chọn lọc thông tin
Trang 32Thẻ Giới hạn phạm vi tìm kiếm
[AB]: Tóm tắt - abstract
[AU]: Tên tác giả - author name
Journal (ISSN)
Trang 33 Để tìm chính xác các từ khóa, chúng ta có thể sử dụng toán
tử Boolean (AND, OR, NOT) và dùng thẻ (tag) trong ngoặc vuông ([]) đặt sau từ khóa để giới hạn phạm vi tìm kiếm từ khóa đó
Ví dụ: “ DNA microarray” [ti] AND Curtis [au] 2002[dp]
nghĩa là: tìm bài báo có chữ DNA microarray ( trong tựa
đề bài báo) của tác giả Curtis năm 2002.
Lưu ý: để tìm một cụm từ (phrase) thì chúng ta phải được đặt trong dấu ngoặc kép (“”) Entrez tự động hiểu có toán tử AND giữa các từ cách nhau bằng khoảng trắng (không nằm
Trang 34Các toán tử trong tìm kiếm
Toán tử Boolean (AND, OR, NOT) và dùng thẻ (tag) trong ngoặc
Tìm kiếm các cụm từ để các cụm từ trong dấu ngoặc kép
“cụm từ”
Khoảng cách giữa hai từ hiểu là And ( ví dụ :
H5N1 H1N1)
Trang 35KHI THỰC HIỆN TÌM KIẾM TRONG PUBMED
CÁC TOÁN TỬ PHẢI ĐÚNG
THEO QUI ĐỊNH
Trang 36TÌM KiẾM CÁC BÀI BÁO QUA CÁC
TÀI LIỆU THAM KHẢO
CÁC TOÁN TỬ PHẢI ĐÚNG
THEO QUI ĐỊNH
Trang 38TOÀN BÀI BÁO
Trang 39TÌM KiẾM THÔNG TIN TRONG GOOGLE
VÀ NCBI CÓ GÌ KHÁC
GOOGLE là tìm kiếm những thông tin nhập vào
sau đó trả lại những liên kết đến các trang web liên quan
Pubmed trong NCBI: tìm kiếm những bài báo về Y- sinh học và các lĩnh vực sinh học khác
Trang 40TÓM TẮT NỘI DUNG ĐÃ HỌC
NGÀNH
Trang 41BÀI TẬP
Thực hành
Sinh viên thực hành tìm bài báo có tựa đề bằng công cụ pubmed:
“Cloning and characterization of two promoters
for the human HsaI 2 gene and their transcriptional repression by the Wilms tumor suppressor gene
product”
Tác giả:
Ma Y, Li D, Chai L, Luciani AM, Ford D, Morgan J,
Maizel AL
Trang 42BÀI TẬP
Trong trang PubMed, thử tìm và phân biệt hai
trường hợp khi tìm bài báo với yêu cầu là LT AND gene và “LT gene” ( trong ngoặc kép).
Câu hỏi: Số bài tìm được của mỗi cách là bao
nhiêu?
Có gì khác nhau giữa hai cách tìm này?