Thực tập Bionformatics Đại cương ngành công nghệ sinh học
THỰC TẬP BIOINFORMATICS THỰC TẬP BIOINFORMATICS ĐẠI CƯƠNGĐẠI CƯƠNGNGÀNH CÔNG NGHỆ SINH HỌCĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNKHOA SINH HỌCCBGD: Nguyễn Thái Minh QuânVõ Trí Nam Bài 1 - CSDL SH và PP khai thác thông tinSlide 2NỘI DUNG THỰC TẬP•Bài 1: Cơ sở dữ liệu sinh học và phương pháp khai thác thông tin trên internet•Bài 2: Khai thác cơ sở dữ liệu PubMed, Nucleotide, Protein trong NCBI •Bài 3: Thiết kế mồi (primer)•Bài 4: So sánh các trình tự sinh học•Bài 5: Vẽ cây phát sinh loài•Bài 6: Bài tập tổng hợp Bài 1 - CSDL SH và PP khai thác thông tinSlide 3Internet là gì ?•Internet là tập hợp các tất cả các máy tính trên thế giới, mà chúng có thể kết nối với nhau và trao đổi thông tin lẫn nhau.•2004 - 160 triệu máy chủ kết nối giữa 150 nước, trên 55 triệu trang web, trên 600 triệu người truy cập vào Internet mỗi ngày Bài 1 - CSDL SH và PP khai thác thông tinSlide 4Bioinformatics là gì?•Bioinformatics cổ điển: sử dụng máy tính để lưu trữ, truy vấn, phân tích cấu trúc phân tử sinh học•Bioinformatics hiện đại–Theo NCBI: Sự kết hợp giữa Công nghệ Sinh học và Công nghệ thông tin với mục tiêu giúp hiểu biết và khám phá những nguyên lí trong Sinh học–Human Genome Project–Genomics, Functional Genomics, Proteomics, Medical Informatics Bài 1 - CSDL SH và PP khai thác thông tinSlide 5SƠ LƯỢC LỊCH SỬ•1960s: CSDL đầu tiên về trình tự protein•1960s - 1970s: Phát triển thuật giải để phân tích dữ liệu •1980s: thành lập CSDL GenBank và một số CSDL khác (EMBL, DDBJ, …)•1990s: Sự phát triển chóng mặt của GenBank và PDB•1991: Thuật ngữ Bioinformatics xuất hiện Bài 1 - CSDL SH và PP khai thác thông tinSlide 6Bioinformatics là gì? (tt)•Xây dựng các cơ sở dữ liệu•Phát triển các thuật giải và các phương pháp thống kê•Sử dụng các công cụ tin sinh học được xây dựng để phân tích và thông dịch nguồn dữ liệu sinh học Bài 1 - CSDL SH và PP khai thác thông tinSlide 7BÀI 1 - CƠ SỞ DỮ LIỆU SINH HỌC VÀ PHƯƠNG PHÁP KHAI THÁC THÔNG TIN 1. Mục đích – nguyên tắc:•Sự bùng nổ thông tin trong sinh học •Cơ sở dữ liệu sinh học: trao đổi thông tin, quản lý, khai thác, nghiên cứu kho dữ liệu sinh học khổng lồ của sự sống trên hành tinh này2. Khai thác thông tin sinh học•Nhiều lĩnh vực: dữ liệu về môi trường, đa dạng sinh học, đa dạng di truyền; dữ liệu về nguồn gen: DNA, RNA; dữ liệu về protein: trình tự, cấu trúc, chức năng…•Nội dung: –NCBI (National Center for Biotechnology Information–EMBL (European Molecular Biology Laboratory)–ExPASy (Expert Protein Analysis System) Bài 1 - CSDL SH và PP khai thác thông tinSlide 8PHƯƠNG PHÁP KHAI THÁC THÔNG TIN •Tìm kiếm các trang web chứa thông tin mình đang cần•Lựa chọn từ khóa và nhờ những công cụ tìm kiếm hay cỗ máy tìm kiếm những trang web có chứa từ khóa của mình•Nguyên tắc: Thông tin cần tìmXác định từ khóa Chọn cách tìm kiếm Lọc thông tin KẾT QUẢ CẦN TÌM Bài 1 - CSDL SH và PP khai thác thông tinSlide 9•Lựa chọn từ khóa–Đặc trưng cho thông tin cần tìm (đối tượng, phương pháp), không chứa từ thông thường (in, of, for…)–Dùng linh hoạt từ khóa (OR)–Dùng dấu nháy kép (“ “) đối với một cụm từ–Dùng các toán tử lôgic AND, OR, NOT•Lưu ý khác–số lượng từ khóa–Từ quan trọng thường đứng trước,–Dùng chức năng find (Ctrl-F) để tìm từ khóa trong trang web–Dùng chữ HOA thích hợp, cho phép dùng dấu đại diện * Bài 1 - CSDL SH và PP khai thác thông tinSlide 10•Ví dụ: tìm các bài báo của tác giả Pandey viết về H5N1 đăng tải trong năm 2012 Hãy xác định từ khóa cho yêu cầu tìm kiếm trên [...]... Slide 14 Bài 1 - CSDL SH và PP khai thác thô Slide 15 Bài tập 1 Sinh viên thực hành tìm kiếm địa chỉ các cơ sở dữ liệu (ngân hàng dữ liệu) sau: NCBI, EMBL, DDBJ, Protein Data Bank, SwissProt, … 2 Tìm các trang web cho phép thực hiện việc thiết kế mồi (primer) 3 Tìm một slide bài giảng về giới thiệu bioinformatics 4 Tìm một đoạn video khoa học về sinh học Bài 1 - CSDL SH và PP khai thác thô Slide 16 . THỰC TẬP BIOINFORMATICS THỰC TẬP BIOINFORMATICS ĐẠI CƯƠNGĐẠI CƯƠNGNGÀNH CÔNG NGHỆ SINH HỌCĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNKHOA SINH. vấn, phân tích cấu trúc phân tử sinh học Bioinformatics hiện đại Theo NCBI: Sự kết hợp giữa Công nghệ Sinh học và Công nghệ thông tin với mục tiêu giúp