Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển market phân từ SSR

71 440 2
Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển market phân từ SSR

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển market phân từ SSR

i BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC ************ KHÓA LUẬN TỐT NGHIỆP KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS) Ngành học: CÔNG NGHỆ SINH HỌC Niên khóa: 2003-2007 Sinh viên thực hiện: LƢU TRẦN CÔNG HUY Thnh ph H Ch Minh Thng 9/2007 ii LỜI CẢM ƠN           m 2007   iii TÓM TẮT KHOÁ LUẬN LƢU TRẦN CÔNG HUY, Đại Học Nông Lâm TP. Hồ Chí Minh, tháng 07/2007. “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)”                      xpressed Sequence Tags), trong citrus)Simple Sequence Repeats sau:   3 iv 4(Citrus),  5 Kết quả Citrus C                 BUILDING SSRs DATABASE of Citrus.        -. -  -  Tristeza -value = 10-10 v ABSTRACT LUU TRAN CONG HUY, NONG LAM UNIVERSITY, DATA MINING FOR DEVELOPING SIMPLE SEQUENCE REPEATS (SSR) MARKER IN EXPRESSED SEQUENCE TAGS (ESTs) FROM CITRUS Supervisor:   The research was carried out at the department of biotechnology at Nong Lam University. Recent advances in genomic technologies have generated a vast amount of publicly available expressed sequence tags (ESTs) in Citrus. These data can be mined to identify Simple sequence repeats (SSRs) or microsatellites. These SSRs are useful because of a broad range of application, such as genome mapping and characterization, phenotype mapping, marker assisted selection of plant breeding, additional map-based cloning of important genes. Moreover, this method of developing SSR marker from ESTs is inexpensive comparing to the traditional methods. Methodology 1) We used perl script to receive EST sequences from database NCBI 2) Finded and separated SSRs include in ESTs database 3) We were learning about relationship database model to used to saved nucleotide, SSRs citrus sequences data and created database contain them. 4) Finding SSR which are homologous with tristeza virus resistance gene. 5) Designed web that contain database control software to share information with users Results: 28,241 SSR-containing ESTs (EST-SSRs) were identified by analyzing 191,110 ESTs sequences belonging to Citrus in dbEST division of GenBank. 19,755 primers, which were filtered with repetition checking and BLAST checking, vi were designed in flanking regions of SSRs. These data were put into relational database and integrated SSR finder tool into the BUILDING SSRs DATABASE of Citrus Website. After cleaning, masking repeat, vector and organelle sequences, the EST-SSR sequences and the related EST sequences without SSRs were assembled into contigs and singletons, to reduce redundancy, to enlarge EST-SSRs for primer designed and to develop consensus sequences. As a result, more 1071 primers were design for these enlarged EST-SSRs. Using a stringent BLAST search with a threshold e-value = 10-10 against typical pathogen resistance gene database in Citrus, we identified 33 EST-SSRs which are homologous with tristeza virus resistance gene. vii Mục Lục  iii  . iv ABSTRACT vi  xi Chƣơng 1 1  . 1 1.1 Đặt vấn đề 1.2.Mục tiêu của khóa luận Chƣơng 2 3  . 3  . 3  . 3 m 4 2.1.3  6 2.2 EST . 7  7  . 7  . 8  . 8  . 9  9  . 10  11  . 12  . 12 viii 2.3.5  . 13  . 15  . 16  . 18  . 18 2.7.1 NCBI 19  19  19 Chƣơng 3 . 20  20  . 20  20  . 20 3.1.2.1 Chương trình Perl ssrfinder_1 20  BLAST 22  . 23 3.1.2.4 Egassembler 23 3.1.3 Apache web Server 24  . 25 Chƣơng 4 37  37 4.1  . 37 EGassembler  . 38  . 38 4.2.2  . 39  39 ix 4.3 Assembling 41   42 4.4.1 BLASTn: . 43 4.5. . 45 4.6 tBLASTx . 48 4 49          49  49 SRs (SSRs PAGE) . 50 Chƣơng5 . 52  . 52  52  . 53  . 54  . 57 x DANH SÁCH CÁC TỪ VIẾT TẮT BLAST Basic Local Alignment Search Tool CGI Common Gateway Interface CSDL  DBD Database Driver DBI Database Interface DNA deoxyribonucleic acid EST Expressed Sequence Tag HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics NIH the National Institutes of Health NLM the Nation Library of Medicine Perl Practical Extraction and Report Language PHP Hypertext Preprocessior RDBMS Relational Database Management System SNP Single Nucleotide Polymorphism SSCP Single- Strand Conformation Polymorphism SSR Simple Sequence Repeats STS Sequence Tagged Site [...]... phẩm… 1.2.Mục tiêu của khóa luận Xây dựng cơ sở dữ liệu Microsatellite để phục vụ cho việc tìm hiểu đa dạng và quan hệ di truyền, phân biệt loài và cá thể, lập bản đồ di truyền, xác định gen, chọn giống nhờ chỉ thị phân tử 2 Vì vậy, khóa luận KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” đƣợc thực hiện với... do cơ sở dữ liệu đã nhiễm trong quá trình làm đƣợc phân tích và công bố rộng rãi 18 trên NCBI và các cơ sở dữ liệu sinh học lớn khác Có thể tiến hành phân lập SSR từ bất Nếu không có cơ sở dữ liệu EST thì cứ đọan gen mong muốn nào không thể tiến hành phân lập SSR 2.6 Ứng dụng Thiết kế bản đồ gen trong di truyền Đa dạng hóa vật liệu di truyền Nghiên cứu quần thể Chẩn đoán và xác định các bệnh ngƣời... 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự DNA và từ đó NCBI còn đƣợc gọi là GenBank NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông qua những cơ sở dữ liệu trực tuyến Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ gene, protein,… 3.1.1.2 Một số cơ sở dữ liệu trong NCBI Nucleotide... cơ sở dữ liệu này có hợp tác, trao đổi qua lại dữ liệu lẫn nhau Từ đó, càng làm cho cơ sở dữ liệu về các trình tự nucleotide ngày càng trở nên phong phú 20 Chƣơng 3 VẬT LIỆU VÀ PHƢƠNG PHÁP 3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng 3.1.1 Hệ điều hành Microsoft Windows XP Server Pack 2 Xây dựng CSDL trình tự SSRs của chi cam chanh (Citrus) trên hệ điều hành này 3.1.2 Các chƣơng trình phân. .. định các bệnh ngƣời Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên 2.7 Cơ sở dữ liệu sinh học Dữ liệu sinh học đang đƣợc thu nhận với tốc độ rất nhanh Đến tháng 8 năm 2000, ngân hàng dữ liệu GENEBANK đã có 8.214.000 mục liên quan đến các trình tự sinh học DNA và cơ sở dữ liệu SWISS-PROT có 88.166 mục liên quan đến các trình tự protein Trung bình những sơ sở dữ liệu đang tăng gấp đôi kích thƣớc... dài các EST -SSR và xác định các trình tự bảo tồn bằng cách thực hiện BLAST trên các Contigs (thu nhận đƣợc bằng assembly Website Egassembler) 5 Tìm kiếm những SSR có độ tƣơng đồng cao so với các SSR có trong các gene kháng bệnh thực vật 6 Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu 7 Dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông... Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống 2.5 Phƣơng pháp phân lập microsatellite sử dụng SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm 17 Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTschi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có Hiện... của chi cam chanh từ CSDL ESTs đƣợc lấy tại trang chính NCBI 2 Dùng Egassembler để để phân tích làm sạch trình tự, dấu những vùng lập lại, dấu những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu của các bào quan, sắp gióng cột và assembly các đọan ESTs 3 Dùng Perl script thu nhận các SSR có trong cơ sở dữ liệu ESTs vừa thu đƣợc từ đó thiết kế mồi trên vùng FLANKING của SSRs... cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó, giúp cho việc tìm kiếm, quản lý thông tin đƣợc tốt hơn 3 Chƣơng 2 TỔNG QUAN TÀI LIỆU 2.1 Giới thiệu về chi cam chanh Chi Cam chanh (Citrus) là một chi thực vật có hoa trong họ Cửu lý hƣơng (Rutaceae), có nguồn gốc từ khu vực nhiệt đới và cận nhiệt đới đông nam châu Á Các loại cây trong chi này là các cây bụi lớn hay cây thân gỗ nhỏ, cao tới 5-15... Office, đƣợc sử dụng để quản lý dữ liệu (quản lý nhân sự, khách hàng, vật tƣ, kế toán…).Phần mềm này đƣợc bảo vệ và phân phân phối bởi hãng Microsoft Phiên bản Access tùy thuộc vào phiên bản của bộ phần mềm Microsoft Office Để sử dụng phần mềm này chúng ta phải mua bản quyền của Microsoft Mỗi tập tin ACCESS gọi là một cơ sở dữ liệu Một cơ sở dữ liệu chứa đựng nhiều dữ liệu nằm trong một thành phần chính . KHÓA LUẬN TỐT NGHIỆP KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE. Minh, tháng 07/2007. KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE

Ngày đăng: 17/11/2012, 09:41

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan