Thu thập nguồn gene và tổ chức dữ liệu gene 1

22 361 0
Thu thập nguồn gene và tổ chức dữ liệu gene  1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Thu thập nguồn gene và tổ chức dữ liệu gene 1

BỘ GIÁO DỤC ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    KHÓA LUẬN TỐT NGHIỆP THU THẬP TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN NGÀNH HỌC: CÔNG NGHỆ SINH HỌC NIÊN KHÓA: 2001-2005 SINH VIÊN THỰC HIỆN: NGUYỄN KỲ TRUNG 01125137 LÊ THÀNH TRUNG 01126165 Thành phố Hồ Chí Minh Tháng 9/2005 ii BỘ GIÁO DỤC ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    THU THẬP TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN Giảng viên hƣớng dẫn: Sinh viên thực hiện: PGS.TS. BÙI THỌ THANH NGUYỄN KỲ TRUNG TS. BÙI MINH TRÍ LÊ THÀNH TRUNG TS. NGUYỄN CÔNG VŨ Thành phố Hồ Chí Minh Tháng 9/2005 iii LỜI CẢM ƠN Chúng em chân thành cảm ơn: - Ban Giám hiệu trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. - Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. - Ban chủ nhiệm Bộ Môn Công nghệ Sinh học cùng toàn thể Quý Thầy Cô đã truyền đạt kiến thức cho chúng em trong suốt quá trình học tập tại trƣờng. Chúng em xin gửi lòng biết ơn sâu sắc đến: - TS. Bùi Minh Trí - PGS.TS. Bùi Thọ Thanh - TS. Nguyễn Công Vũ Đã tận tình hƣớng dẫn tạo điều kiện tốt nhất cho chúng em trong suốt quá trình thực hiện đề tài hoàn thành luận văn tốt nghiệp này. Chúng em đồng chân thành cảm ơn đến: - Thầy Lƣu Phúc Lợi - TS. Đinh Duy Kháng - Các bạn sinh viên Khoa Công nghệ Thông tin đang làm việc trong nhóm Bioinformatics Đại học Nông Lâm thành phố Hồ Chí Minh - Các anh chị đang làm việc tại Trung tâm Phân tích Hóa sinh - Các bạn trong lớp CNSH27 Đã hết giúp đỡ, hỗ trợ, động viên, chia sẽ những buồn vui trong suốt thời gian chúng tôi thực tập thực hiện đề tài này. Tp. Hồ Chí Minh tháng 09 năm 2005 Sinh viên thực hiện Nguyễn Kỳ Trung Lê Thành Trung iv TÓM TẮT Tên đề tài: THU THẬP TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN, do hai sinh viên: NGUYỄN KỲ TRUNG LÊ THÀNH TRUNG thực hiện tháng 9/2005. Giảng viên hƣớng dẫn: PGS.TS. BÙI THỌ THANH TS. BÙI MINH TRÍ TS. NGUYỄN CÔNG VŨ Đề tài thực hiện nhằm mục đích tập hợp, tổ chức dữ liệu gene phục vụ cho nghiên cứu cây trồng biến đổi di truyền. Công việc đƣợc tiến hành tại Trung Tâm Phân Tích Hóa Sinh (Đại học Nông Lâm TP.HCM), Phòng thực hành mạng (Khoa Công Nghệ Thông Tin, Đại học Nông Lâm TP.HCM). Công việc đƣợc tiến hành chia ra nhiều giai đoạn:  Khai thác thông tin ấn phẩm bài báo về cây trồng biến đổi di truyền trên kho dữ liệu khổng lồ trên internet bằng hai công cụ tìm kiếm trang web Google Scirus.  Khai thác thông tin trình tự trên GenBank tại NCBI bằng hai công cụ Entrez BLAST.  Tổ chức thông tin dữ liệu với ngôn ngữ Perl.  Xử lý dữ liệu, tạo giao diện sử dụng khai thác dữ liệu cho ngƣời dùng với Biojava, công nghệ Java servlet công cụ thiết kế web Frontpage, Dreamweaver. Kết quả tạo ra qui trình tìm trình tự gene mong muốn trên cơ sở dữ liệu trình tự chung GenBank tạo đƣợc cơ sở dữ liệu riêng về các gene liên quan đến cây trồng biến đổi di truyền phục vụ khai thác dễ dàng thuận lợi cho các nhà nghiên cứu trong lĩnh vực này. v SUMMARY “COLECTING AND ORGANIZING GENE DATA SERVES GENETIC MODIFIED PLANT RESEARCHES” by TRUNG NGUYEN KY and TRUNG LE THANH in 9/2005. Supervisors: Assoc. prof. PhD. THANH BUI THO PhD. TRI BUI MINH PhD. VU NGUYEN CONG The purpose of this research is to collect, orgarnize gene data to surve research in genetic modified plant. The research was carried out at the Chemical and Biological Analysis and Experiment Center and the practical network department (in the Information Facuty at Nong Lam University). The process was devided in various phases as following: Accessing articles about GM plants on the internet with two web search engines Google and Scirus. Accessing comparing and selecting sequences of interest from the GenBank at NCBI with Entrez and BLAST tools. Organizing data with Perl language. Processing data, designing user interfaces with Biojava, Java Servlet technology in combination with Frontpage and Dreamweaver. The establishing database allows researchers in the related fields easily to access and satisfied with basic requirement in genetic research. vi MỤC LỤC Nội dung Trang Trang tựa ii Lời cảm ơn . iii Tóm tắt . iv Sumary v Mục lục vi Danh sách các chữ viết tắt x Danh sách các sơ đồ bảng xi Danh sách các hình . xii PHẦN A: GIỚI THIỆU . 1 I. Đặt vấn đề . 1 II. Mục đích của đề tài 2 III. Yêu cầu của đề tài 2 IV. Các giai đoạn tiến hành 3 V. Giới hạn 3 PHẦN B: TỔNG QUAN TÀI LIỆU . 4 I. GIỚI THIỆU VỀ SINH HỌC 4 I.1. Cơ sở sinh học về gene 4 I.1.1. Thuật ngữ quan niệm về gene 4 I.1.2. DNA ở các sinh vật khác nhau 5 I.1.2.1. Sự khác nhau giữa các phân tử DNA . 5 I.1.2.2. Cấu trúc acid nucleic 6 I.1.3 Mã di truyền . 8 I.1.3.1. Thuật ngữ 8 I.1.3.2. Từ điển mã di truyền . 8 I.1.3.3. Ba đặc tính quan trọng của mã di truyền 10 I.1.4 Cấu trúc căn bản của một gene eukaryote 12 I.2. Cơ sở sinh học về chuyển gene 13 vii I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền 14 I.2.2. Các phƣơng pháp chuyển gene . 14 I.2.3. Những khó khăn trong chuyển gene . 17 I.2.4. Sản phẩm của kỹ thuật di truyền . 18 I.2.5. Tiềm năng của chuyển gene 19 I.2.5.1. Các chức năng mới trong cải biến di truyền thực vật . 19 I.2.5.2. Các tính trạng mới (News traits) . 20 I.2.5.3. Sự biểu hiện gene 21 I.2.6. Locus chuyển gene 22 I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới 24 II. GIỚI THIỆU VỀ BIOINFORMATICS . 28 II.1. Khái niệm về Bioinformatics 28 II.2. Vài nét về các cơ sở dữ liệu Sinh học 29 II.2.1. NCBI . 29 II.2.2. EMBL . 29 II.2.3. DDBJ 30 II.3. Vài công cụ Bioinformatics hiện nay . 31 II.3.1. Readseq 31 II.3.2. BLAST . 31 II.3.3. BLAT . 32 II.3.4. ClustalW . 32 II.3.5. HMMER . 32 II.3.6. MEME/MAST . 33 II.3.7. EMBOSS 33 II.4. Ngôn ngữ dùng trong Bioinformatics . 34 III. CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ . 35 III.1. Khái niệm về lập trình . 35 III.2. Ngôn ngữ Perl dùnh trong Bioinformatics 39 III.2.1. Giới thiệu Perl . 39 III.2.2. Thành phần cơ bản trong Perl . 39 III.3. Công nghệ Java ứng dụng trong công việc xử lý dữ liệu Bioinformatics 50 III.3.1. Biojava 50 viii III.3.2. Biojava CSDL 50 III.3.3. Tổng quan về công nghệ servlet cho các ứng dụng trên Web 51 III.3.4. Chức năng cơ bản của servlet . 52 III.3.5. Thuận lợi của servlet so với các công nghệ thiết kế web khác 53 III.3.6. Sự xây dựng ứng dụng servlet 55 PHẦN C: PHƢƠNG TIỆN PHƢƠNG PHÁP TIẾN HÀNH 57 I. PHƢƠNG TIỆN 57 I.1. Thiết bị . 57 I.2. Thời gian địa điểm xây dựng CSDL . 57 II. TÌM KIẾM DỮ LIỆU BÀI BÁO 58 II.1. Tìm kiếm tổng hợp tính trạng . 58 II.2. Tổng hợp dữ liệu Primer dùng trong phát hiện GMO 64 III. TÌM KIẾM DỮ LIỆU TRÌNH TỰ 66 III.1. Tìm kiếm trình tự bằng Keyword 66 III.2. Tìm kiếm trình tự bằng Primer 70 PHẦN D: KẾT QUẢ THẢO LUẬN . 82 I. Kết quả thu đƣợc từ quá trình tìm kiếm ấn phẩm khoa học 82 II. Kết quả thu đƣợc từ quá trình tìm kiếm trình tự trên NCBI 82 II.1. Kết quả tìm kiếm trình tự bằng keyword 83 II.2. Kết quả tìm kiếm trình tự bằng Primer . 84 II.3. Dùng Perl xử lý kết quả thu đƣợc . 85 II.3.1. Loại bỏ trùng lắp dữ liệu, tổng hợp danh sách tổng hợp . 85 II.3.2. Tải trình tự . 90 III. Các kết quả thu đƣợc từ quá trình tải trình tự từ Genbank 92 IV. Tổ chức dữ liệu 93 IV.1. Cách thức tổ chức dữ liệu . 93 IV.2. Tiến hành tổ chức, phân loại dữ liệu . 94 V. Java xử lý dữ liệu . 98 V.1. Các yêu cầu đặt ra 98 V.2. Xử lý yêu cầu bằng Java Biojava 99 V.3. Thiết kế giao diện . 101 V.4. Lập trình hiển thị giao diện sử dụng 104 ix VI. Kết quả giao diện tìm kiếm với dữ liệu tập hợp đƣợc 108 PHẦN E: KẾT LUẬN ĐỀ NGHỊ . 118 I. Kết luận 118 II. Đề nghị . 119 TÀI LIỆU THAM KHẢO 121 Phụ lục A 126 Phụ lục B 139 Phụ lục C 152 Phụ lục D 173 Phụ lục E . 197 x DANH SÁCH CÁC CHỮ VIẾT TẮT A adenine API application programing interface BLAST Basic Local Alignment Search Tools BLAT BLAST-Like Alignment Tool C cytosine CDS coding sequence CGI common gateway interface CIB the Center for Information Biology CSDL Cơ sở dữ liệu DDBJ DNA Data Bank of Japan DNA deoxyribonucleic acid EBI the European Bioinformatics Institute EMBL the European Molecular Biology Laborary EPSP 5-enolpyruvyl-shikimate-3-phosphate synthase E-value expected value G guanine gi GenInfo Indentifier Gln Glutamine GM plant Genetic modified plant GMO Genetic modified organism HTML hypertext markup language HTTP hypertext transfer protocol ID identify J2EE Java 2 Enterprise Edition JDBC Java Database Connectivity JSP JavaServer page Met methionine mRNA messenger ribonucleic acid NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics NIH the National Institutes of Health NLM the Nation Library of Medicine NOS noplaine synthase Phe phenylalanine RNA ribonucleic acid SQL Structure Query Language STDIN standard input T thymine T-DNA transfer DNA tRNA tranfer ribonucleic acid Trp tryptophan U uracil [...]... 13 Hình 1. 12: Gắn gene chuyển vào vector (Plasmid) 13 Hình 1. 13: Plasmid dùng trong chuyển gene đậu nành 15 Hình 1. 14: Chuyển gene thông qua môi trƣờng Agrobacterium tumefaciens 16 Hình 1. 15: Súng bắn gene đƣợc dùng trong chuyển gene 16 Hình 1. 16: Chuyển gene thông qua vi 17 Hình 1. 17: Ví dụ cấu trúc di truyền đƣợc dùng ức chế gene UDP 6-glucose dehydrogenease trong... Hình 1. 5: Chi tiết cấu trúc của chuỗi Polynucleotide 8 Hình 1. 6: Sao chép dịch mã 9 Hình 1. 7: Mã di truyền của nhân (các codon của mRNA) 9 Hình 1. 8: Mã di truyền ty thể ngƣời 10 Hình 1. 9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) 11 Hình 1. 10: Các trình tự đƣợc sao chép của DNA (gene) 12 Hình 1. 11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn 13 ... đƣợc một cơ sở dữ liệu hoàn chỉnh thì nhiều, do đó đề tài có rất nhiều hạn chế cần hoàn thiện về sau :  Dữ liệu không lớn chỉ vài ngàn gene đƣợc xem là thông dụng nhất trong công nghệ chuyển gene hiện nay  Phải thiết lập các mối liên hệ trong dữ liệu, tiến tới quản lý dữ liệu một cách có hệ thống bằng một hệ quản trị cơ sở dữ liệu hoặc nghiên cứu sử dụng công nghệ mới vào quản lý dữ liệu  Giao diện... keyword 10 9 Hình 6.2: Nhập keyword cần tìm vào khung tìm kiếm 11 0 Hình 6.3: Trang kết quả tìm kiếm mặc định là dạng Summary 11 1 Hình 6.4: Trang biểu diễn kết quả dạng GenBank 11 3 Hình 6.5: Trang biểu diễn kết quả dạng FASTA 11 4 Hình 6.6: Trang biểu diễn vùng trình tự mã hóa (CDS) dạng FASTA 11 4 Hình 6.7: Trang Biểu diễn trình tự aminoacid do CDS mã hóa, dạng FASTA 11 5 Hình... phục vụ nhiều nhu cầu khác của ngƣời dùng  Chƣa đƣa đƣợc các công cụ phân tích gene sẵn có vào sử dụng trực tiếp trên cơ sở dữ liệu NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene 4 B TỔNG QUAN TÀI LIỆU I Giới thiệu về sinh học I .1 Cơ sở sinh học về gene I .1. 1 Thu t ngữ quan niệm về gene Sinh học phân tử là gì ? Sinh học phân tử (Molecular biology) là môn học nghiên... Hình 2 .11 : Trang kết quả Entrez Nucleoide dạng text 67 Hình 2 .12 : Kết quả sau khi nhấp vào mục Details 68 Hình 2 .13 : Nhập từ khóa cần tìm vào khung tìm kiếm 69 Hình 2 .14 : Xem chi tiết (Details) khi kết quả không tìm thấy 70 Hình 2 .15 : Trang BLAST của cơ sở dữ liệu NCBI 70 Hình 2 .16 : Trang BLAST Nucleotide của NCBI 71 Hình 2 .17 : Khung nhập trình tự 71 Hình... Bioinformatics  Tìm hiểu ngôn ngữ Java dùng trong Bioinformatics  Tìm hiểu dữ liệu bài báo trên PubMed dữ liệu trình tự GenBank trên NCBI  Tìm hiểu các công cụ sinh học dùng trong Bioinformatics Giai đoạn 2: Xây dựng tổ chức các dữ liệu  Tìm kiếm dữ liệu cho đề tài (bài báo khoa học, trình tự)  Tiến hành xây dựng trang tìm kiếm với dữ liệu trình tự tìm đƣợc V Giới hạn của đề tài Do thời gian thực tập... 19 09, Garrod cho rằng gene điều khiển kiểu hình qua enzyme 19 40, Beadle Tatum đề nghị giả thuyết “một gene - một enzyme” (một gene điều khiển sự sản xuất một enzyme chuyên biệt) Thuyết này đã phát triển để trở nên khái quát hơn , “một gene – một protein”, hiện nay “một gene – một polypetide” 19 53, Watson Crick đề nghị cấu trúc xoắn kép của phân tử DNA Sau đó, là sự ra đời lý thuyết trung tâm (central... trong đậu nành 23 Hình 1. 18: Bản đồ một số nƣớc chính có cây trồng chuyển gene lớn trên thế giới 27 Hình 1. 19: Diện tích cây trồng chuyển gene các nƣớc trên thế giới 27 Hình 1. 20: Biểu đồ tỷ lệ các gene kháng đƣợc chuyển vào cây trồng trên thế giới 27 Hình 3 .1: Một chu kỳ sống của CGI 53 Hình 3.2: Chu kỳ sống của CGI hiện nay 54 PHẦN C Hình 2 .1: Trang kết quả tìm kiếm bằng... tựu cũng nhƣ những mặt hạn chế mà công nghệ chuyển gene mang lại Việc nắm bắt thông tin về các gene chuyển hiện nay sẽ giúp ta chủ động trong các nghiên cứu về lĩnh vực còn khá mới này Đƣợc sự hƣớng dẫn của thầy TS Bùi Minh Trí, cùng các thầy PGS TS Bùi Thọ Thanh thầy TS Nguyễn Công Vũ chúng tôi đã thực hiện đề tài THU THẬP TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN”, . BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    KHÓA LUẬN TỐT NGHIỆP THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ. 9/2005 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU

Ngày đăng: 01/11/2012, 11:54

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan