Khai thác dữ liệu ESTs ở chi cam chanh cho việc phát triển market phân từ SSR

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC

************

KHÓA LUẬN TỐT NGHIỆP

KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE

TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT

TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)

Ngành học: CÔNG NGHỆ SINH HỌC Niên khóa: 2003-2007

Sinh viên thực hiện: LƯU TRẦN CÔNG HUY

Thành phố Hồ Chí Minh Tháng 9/2007

Trang 2

LỜI CẢM ƠN

Xin gửi lòng biết ơn sâu sắc đến ba mẹ và gia đình đã hết lòng hỗ trợ, động viên về mọi mặt để tôi hoàn thành đề tài

Xin chân thành cảm tạ

Ban Giám hiệu Trường Đại học Nông Lâm Thành Phố Hồ Chí Minh

Ban chủ nhiệm Bộ Môn Công nghệ Sinh Học cùng tất cả quý thầy cô đã truyền đạt kiến thức cho tôi trong suốt quá trình học tại trường

Chân thành cảm ơn

TS Trần Thị Dung đã tận tình hướng dẫn, giúp đỡ tôi trong suốt thời gian thực hiện đề tài tốt nghiệp

Xin cảm ơn CN Lưu Phúc Lợi đã giúp đỡ, hỗ trợ kiến thức và tài liệu chuyên môn

Xin cảm ơn bạn bè thân yêu của lớp DH03SH đã chia sẻ cùng tôi những vui buồn trong thời gian học cũng như hết lòng hỗ trợ, giúp đỡ tôi trong thời gian thực hiện đề tài

Tp Hồ Chí Minh tháng 08 năm 2007 Sinh viên thực hiện

Lưu Trần Công Huy

Trang 3

TÓM TẮT KHOÁ LUẬN

LƯU TRẦN CÔNG HUY, Đại Học Nông Lâm TP Hồ Chí Minh, tháng 07/2007 “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở

CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN

TỬ SSR (SIMPLE SEQUENCE REPEATS)”

Hội đồng hướng dẫn TS Trần Thị Dung Cử Nhân Lưu Phúc Lợi

Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học Nông Lâm TP Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2007 đến 8/2007

Trong những năm qua, sinh học không ngừng phát triển và đã tạo ra những kho dữ liệu miễn phí và trực tuyến rất lớn về trình tự gene, protein, bộ gene của thực vật lẫn động vật như các cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj… Một trong những CSDL lớn đó là ESTs (Expressed Sequence Tags), trong

đó có ESTs của chi cam chanh (citrus) Những trình tự ESTs này có thể được sử

dụng để khai thác các SSRs (Simple Sequence Repeats) Những SSRs này rất hữu ích vì chúng có rất nhiều ứng dụng như genome mapping, phenotype mapping và chọn giống thực vật nhờ marker phân tử Hơn thế nữa, việc phát triển marker SSR từ EST có chi phí rất thấp so với phương pháp phân lập SSR truyền thống

Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện những nội dung như sau:

1) Dùng Perl script để thu nhận trình tự các nucleotide của ESTs của Citrus vừa tìm từ trang cơ sở dữ liệu GenBank NCBI

2) Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen 3) Tìm SSR nằm trên vùng gen kháng virus Tristeza

Trang 4

4) Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu

trữ dữ liệu các trình tự nucleotide và trình tự SSRs của chi cam chanh (Citrus), và

tạo cơ sở dữ liệu chứa những trình tự này Sau đó đưa các dữ liệu này vào cơ sở dữ liệu chính

5) Trang web được thiết kế để chia sẻ thông tin trực tuyến với người dùng

Kết quả

Thu nhận được 191.110 trình tự ESTs của các loài Citrus được thu thập từ

CSDL dbEST và CoreNucleotide của GenBank Những trình tự ESTs này được tìm các vùng lặp lại, từ đó xác định được 28.241 SSRs trong 190412 ESTs 19755 primers được thiết kế trên vùng flanking của các SSRs Các primers này đã được kiểm tra sự lặp lại và sự bắt cặp đặc hiệu bằng BLAST Cơ sở dữ liệu có 28241 trình tự SSRs được chuyển vào CSDL quan hệ và tích hợp vào website BUILDING

SSRs DATABASE of Citrus Sau khi được loại bỏ các trình tự tạp, nhiễu và dấu

các trình tự ở các bào quan, trình tự lặp lại và trình tự vector, các trình tự ESTs được phân nhóm thành 2 nhóm Contigs và Singletons Việc nhóm các trình tự giúp ích cho việc giảm bớt các trình tự dư thừa, kéo dài các EST-SSR và xác định các trình tự bảo tồn Kết quả là thêm 1071 primers được thiết kế cho các EST-SSR được kéo dài Ngoài ra, chúng tôi cũng xác định được 33 EST-SSRs tương đồng gene

kháng virus Tristeza bằng công cụ BLAST với ngưỡng e-value = 10-10

Trang 5

The research was carried out at the department of biotechnology at Nong Lam University

Recent advances in genomic technologies have generated a vast amount of publicly available expressed sequence tags (ESTs) in Citrus These data can be mined to identify Simple sequence repeats (SSRs) or microsatellites These SSRs are useful because of a broad range of application, such as genome mapping and characterization, phenotype mapping, marker assisted selection of plant breeding, additional map-based cloning of important genes Moreover, this method of developing SSR marker from ESTs is inexpensive comparing to the traditional methods

Results:

28,241 SSR-containing ESTs (EST-SSRs) were identified by analyzing 191,110 ESTs sequences belonging to Citrus in dbEST division of GenBank 19,755 primers, which were filtered with repetition checking and BLAST checking,

Trang 6

were designed in flanking regions of SSRs These data were put into relational database and integrated SSR finder tool into the BUILDING SSRs DATABASE of

Citrus Website After cleaning, masking repeat, vector and organelle sequences, the

EST-SSR sequences and the related EST sequences without SSRs were assembled into contigs and singletons, to reduce redundancy, to enlarge EST-SSRs for primer designed and to develop consensus sequences As a result, more 1071 primers were design for these enlarged EST-SSRs Using a stringent BLAST search with a threshold e-value = 10-10 against typical pathogen resistance gene database in

Citrus, we identified 33 EST-SSRs which are homologous with tristeza virus

resistance gene

Trang 7

TỔNG QUAN TÀI LIỆU 3

2.1 Giớ thiệu về chi cam chanh 3

2.3.2 Nguồn gốc của EST 7

2.3.Sơ lược về phương pháp Microsatellite (SSR) 8

2.3.1Những khái niệm về kỹ thuật microsatellite 8

2.3.2 Giới thiệu chung 9

2.3.2.1 Tính chất 9

2.3.2.2 Khuếch đại của microsatellites 10

2.3.2.3 Những giới hạn của microsatellite 11

2.3.3 Các loại microsatellite 12

2.3.4 Cơ chế hình thành microsatellite 12

Trang 8

2.3.5 Vai trò của microsatellite 13

2.4 Phương pháp xác định microsatellite truyền thống 15

2.5 Phương pháp phát hiện microsatellite sử dụng 16

3.1.2.1 Chương trình Perl ssrfinder_1 20

3.1.2.2 Chương trình tìm kiếm các trình tự tương đồng – BLAST 22

3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS 23

3.1.2.4 Egassembler 23

3.1.3 Apache web Server 24

3.4 CÁC BƯỚC TIẾN HÀNH 25

Chương 4 37

KẾT QUẢ VÀ THẢO LUẬN 37

4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST 37

4.2 Loại các dữ liệu nhiễu và dư bằng công cụ EGassembler bao gồm các bước sau: 38

4.2.1 Làm sạch trình tự 38

4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors 39

4.2.3 Dấu những vùng trình tự nhiễu của các bào quan 39

Trang 9

4.8.1 Trang chủ (HOME PAGE) 49

4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) 50

Trang 10

DANH SÁCH CÁC TỪ VIẾT TẮT

BLAST Basic Local Alignment Search Tool CGI Common Gateway Interface

CSDL Cơ sở dữ liệu DBD Database Driver DBI Database Interface DNA deoxyribonucleic acid EST Expressed Sequence Tag HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol

NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics

NIH the National Institutes of Health NLM the Nation Library of Medicine

Perl Practical Extraction and Report Language PHP Hypertext Preprocessior

RDBMS Relational Database Management System SNP Single Nucleotide Polymorphism

SSCP Single- Strand Conformation Polymorphism SSR Simple Sequence Repeats

STS Sequence Tagged Site

Trang 11

DANH SÁCH CÁC BẢNG

Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI 26

Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI 26

Bảng 3.3 Nội dung tblStrain 34

Bảng 3 4 Nội dung tblMotifLengthGroup 34

Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra 45

Bảng 4.10 Các trình tự tương đồng với gene kháng virus tristeza 48

Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu 50

Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu 51

Trang 12

DANH SÁCH CÁC HÌNH

Hình 2.1 CTV dưới KHV điện tử 6

Hình 2.2: Nguồn gốc của EST 8

Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân 12

Hình 2.4 Cơ chế trượt lỗi trong quá trình sao mã 13

Hình 2.5: Phương pháp phân lập microsatellite truyền thống 16

Hình 2.6 Tương quan giữa NCBI (National Library of Medicine và NIH) 19

Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI (nguồn www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) 27

Hình 3.2 : Các bước thực hiện của Egassembler 29

Hình 3.3 phân biệt giữa Contig và Singleton 30

Hình 3.4 nội dung tập tin “ssrout20030101.txt” 31

Hình 3.5 nội dung tập tin “labdbout20030101.txt” 31

Hình 3.6 Nội dung tập tin “new_ids20030101.txt” 32

Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn: india.org/ssr/ssr.htm) 36

http://www.ncl-Hình 4.1: Sơ đồ so sánh lượng ESTs của từng loài 37

Hình 4.2: Bảng so sánh dữ liệu ESTs trước và sau khi lọai nhiễu 40

Hình 4.10 Trang cơ sở dữ liệu SSRs (All) 50

Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và “Motif Length Group ID” là 3 51

Trang 13

1.1 Đặt vấn đề

Công tác bảo tồn chọn giống ngày càng cần thiết do quá trình thoái hóa diễn ra ngày càng nhanh và phức tạp vì vậy đòi hỏi phải có nhiều công cụ, phương pháp đắc lực hỗ trợ Hiện nay, SSR đã và đang là 1 trong những công cụ đắc lực phục vụ cho qui trình này  việc phát triển maker SSR rất cần thiết

Tình hình bệnh ở cây trồng diễn biến ngày càng phức tạp, nghiêm trọng Chúng ta phải sử dụng các lọai marker khác nhau để chuẩn đoán, phát hiện bệnh sớm nhằm tìm biện pháp khắc phục.Hiện nay, maker có độ tin cậy cao nhất là Microsatellite

SSR được phân lập theo phương pháp truyền thống từ thư viện cDNA hay thư viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm Trong khi đó, phương pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có chi phí thấp và tương đối dễ thực hiện, do trình tự ESTs luôn sẵn có và ta có thể sử dụng miễn phí

Lượng trình tự EST được giải mã và công bố ngày càng nhiều, tính đến nay có khỏang 46159508 trình tự EST được công bố (theo NCBI)

Hiện nay các cây thuộc họ chi cam chanh được quan tâm nghiên cứu nhiều do những giá trị mà nó mang lại như giá trị thương phẩm, dược phẩm…

1.2.Mục tiêu của khóa luận

Xây dựng cơ sở dữ liệu Microsatellite để phục vụ cho việc tìm hiểu đa dạng và quan hệ di truyền, phân biệt loài và cá thể, lập bản đồ di truyền, xác định gen, chọn giống nhờ chỉ thị phân tử

Trang 14

Vì vậy, khóa luận “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED

SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT

TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” được

thực hiện với các mục tiêu lần lượt như sau:

1 Thu nhận trình tự EST của chi cam chanh từ CSDL ESTs được lấy tại trang chính NCBI

2 Dùng Egassembler để để phân tích làm sạch trình tự, dấu những vùng lập lại, dấu những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu của các bào quan, sắp gióng cột và assembly các đọan ESTs

3 Dùng Perl script thu nhận các SSR có trong cơ sở dữ liệu ESTs vừa thu được từ đó thiết kế mồi trên vùng FLANKING của SSRs

4 Kéo dài các EST-SSR và xác định các trình tự bảo tồn bằng cách thực hiện BLAST trên các Contigs (thu nhận được bằng assembly ở Website Egassembler)

5 Tìm kiếm những SSR có độ tương đồng cao so với các SSR có trong các gene kháng bệnh ở thực vật

6 Xây dựng CSDL và công cụ để giúp người dùng có thể khai thác tốt dữ liệu

7 Dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó, giúp cho việc tìm kiếm, quản lý thông tin được tốt hơn

Trang 15

Chương 2

TỔNG QUAN TÀI LIỆU

2.1 Giới thiệu về chi cam chanh

Chi Cam chanh (Citrus) là một chi thực vật có hoa trong họ Cửu lý hương

(Rutaceae), có nguồn gốc từ khu vực nhiệt đới và cận nhiệt đới ở đông nam châu Á

Các loại cây trong chi này là các cây bụi lớn hay cây thân gỗ nhỏ, cao tới 5-15 m tùy loại, với thân cây có gai và các lá thường xanh mọc so le có mép nhẵn Hoa mọc đơn hay thành ngù hoa nhỏ, mỗi hoa có đường kính 2-4 cm với 5 (ít khi 4) cánh hoa màu trắng và rất nhiều nhị hoa Hoa thông thường có mùi thơm rất mạnh Quả là loại quả có múi, một dạng quả mọng đặc biệt, hình cầu hay cầu thuôn dài, chiều dài 4-30 cm và đường kính 4-20 cm, bên trong quả khi bóc lớp vỏ và cùi sẽ thấy lớp vỏ mỏng, dai, màu trắng bao quanh các múi bên trong chứa nhiều tép mọng nước Chi này là quan trọng về mặt thương mại do nhiều loài (hoặc cây lai ghép) được trồng

để lấy quả Quả được ăn tươi hay vắt, ép lấy nước

Trang 16

2.1.2 Đặc điểm

Quả của chi Citrus đáng chú ý vì mùi thơm của chúng, một phần là do các terpen chứa trong lớp vỏ, và chủ yếu là do nó chứa nhiều nước Nước quả có hàm lượng axít citric cao, tạo ra hương vị đặc trưng của chúng Chúng cũng là nguồn cung cấp vitamin C và các flavonoit đáng chú ý

Sự phân loại nội bộ trong chi này rất phức tạp và hiện nay người ta vẫn không biết chính xác số lượng loài có nguồn gốc tự nhiên, do nhiều loài được coi là

có nguồn gốc lai ghép Các loại cây trong chi Citrus được trồng có thể là con cháu

của chỉ 3 loài tổ tiên Hiện nay có hàng loạt các loại cây lai ghép tự nhiên hay do con người nuôi trồng, bao gồm nhiều loại quả có giá trị thương mại như cam ngọt, chanh tây, bưởi chùm, chanh ta, quít, bưởi v.v Các nghiên cứu gần đây cho rằng

các chi có quan hệ họ hàng gần như Fortunella, và có lẽ cả Poncirus, Microcitrus,

Eremocitrus, cần được gộp lại trong chi Citrus

Citrus sinensis x Poncirus trifoliata Citrus aurantium

Trang 17

Citrus Sinensis

Citrus Clementina

Trang 18

2.1.3 Sâu hại và bệnh tật Bệnh do virus

Virus citrus là loài rất nhỏ chỉ có thể nhân lên trong tế bào sống Trong tế

bào của citrus, virus di chuyển theo dòng tế bào chất hoặc di chuyển theo dòng nhựa nguyên và nhựa luyện của cây Theo các mạch dẫn, virus được truyền trong cây từ vùng này sang vùng khác và nhờ cầu nối nguyên sinh virus có thể di chuyển từ tế bào này sang tế bào khác Virus cũng có thể nhân lên trong cơ thể của aphid hoặc một vài loài khác làm môi giới truyền bệnh (vectơ truyền bệnh) Khi cây nhiễm virus, nó có thể là tác nhân nhiễm bệnh cho các cây khác Bệnh virus thường không lây qua hạt Một vài loài virus chỉ nhiễm trên một vài loài citrus Virus có thể nhiễm vài tháng hoặc vài năm trước khi có một vài triệu chứng xuất hiện

Virus Tristeza (CTV)

Có nguồn gốc từ nhiều năm trước ở Trung Quốc Tristeza là bệnh tàn phá

rất lớn trên citrus ở Bắc và Nam Mỹ, có khoảng phân bố rất rộng trên thế giới, là

bệnh nguy hiểm ở Nhật Bản Bệnh Tristeza được xác định là có hiện diện ở nước ta Virus Tristeza dạng hình sợi dài (2 x 10 – 11 nm), tập trung và làm hỏng mạch dẫn

nhựa libe trong cây, xuống rể và làm suy dinh dưỡng như rụng lá, chết đọt, lùn cây và thường thối rễ

Bệnh có thể lộ ra ở cây con mới trồng hay ở cây lớn bị suy dinh dưỡng Cây có mang mầm bệnh có thể vẫn thấy khoẻ mạnh trong liếp ươm nhưng sớm lộ triệu chứng ngay sau khi trồng Cây mang bệnh mãn tính sẽ bị lùn, phù gốc do mắt tháp phát triển quá khổ

Hình 2.1 CTV dưới KHV điện tử

Trang 19

Hầu hết các giống cam quýt đều có triệu chứng sọc lõm ở gỗ thân và cành (stem pitting) Một dạng đặc trưng của bệnh là triệu chứng tổ ong khi dùng cam chua làm gốc ghép: khi tách vỏ ở vùng bên dưới mắt tháp sẽ thấy nhiều lỗ nhỏ xếp cụm trong gỗ

Vector chính truyền bệnh do virus Tristeza là loài aphid có tên Toxoptera

citricida Kirkaldy Kiểm tra thấy rằng nếu có 5 aphid tấn công cây thì 50% cây sẽ bị

nhiễm và nếu có 15 aphid tấn công cây thì 70% cây sẽ bị nhiễm Người ta cũng nhận thấy rằng các type khác nhau của virus này đều gây bệnh được

CTV nhiễm trên tất cả các loại (nhân giống và tháp ghép) của cây citrus Nó được tìm thấy trên toàn thế giới và có nhiều giống khác nhau, trong các type khác nhau đó có các type tàn phá rất lớn Bệnh chịu ảnh hưởng bởi điều kiện môi trường, các dạng khác nhau của cây citrus và các nòi virus khác nhau

Khi cây được ghép trên gốc kháng thì nó có khả năng phục hồi lại sau đó

2.3.2 Nguồn gốc của EST

ESTs là những mảnh nhỏ của cấu trúc DNA (thường có chiều dài từ 200 đến 500 Nucleotide), chúng được hình thành bởi một phần hay toàn bộ cấu trúc của một gen biểu hiện Đó là sự kết hợp những phần nhỏ DNA của gen nằm trong các tế bào, mô, cơ quan của những sinh vật khác nhau và sử dụng những “tags” này để thiết lập một gen nằm ngoài vị trí của chromosome bằng cách bắt cặp với các cặp base

Đây là sự kết hợp khó khăn của những gen đã biết từ các bộ gen khác nhau giữa các loài sinh vật và phụ thuộc vào kích thước của bộ gen khi có mặt hay không

Trang 20

có mặt của các intron, sự can thiệp của cấu trúc DNA làm gián đoạn cấu trúc của gen quy định protein

Hình 2.2: Nguồn gốc của EST 2.3.Sơ lược về phương pháp Microsatellite (SSR) 2.3.1Những khái niệm về kỹ thuật microsatellite

Microsatellite: Một dạng của VNTR (variable number of tandem repeats) (q.v.) Một đoạn DNA được mô tả đặc điểm bởi sự xảy ra của số lượng bản copy biến thiên (từ một vài bản lên đến 30 hay nhiều hơn) của dãy trong vòng 5 hoặc số bases ít hơn (được gọi là đơn vị lặp lại, q.v) Một microsatellite điển hình có đơn vị lặp lại AC, xảy ra ở khoảng 100 000 vị trí khác nhau trong bộ genome động vật điển hình Ở bất kì một vị trí nào (locus), thường xuyên có khoảng 5 – 7 “alleles” khác nhau, mà mỗi alleles có thể nhận biết tuỳ thuộc vào số đơn vị lặp lại Những alleles này có thể phát hiện bởi PCR (q.v), sử dụng primers được thiết kế từ một dãy đơn và cũng có trên cả mặt kia của microsatellite Khi sản phẩm PCR được chạy trên gel điện di, alleles được ghi nhận khác biệt về độ dài trong giá trị đến kích cỡ của đơn vị lặp lại, e.g., nếu primers tương ứng với dãy duy nhất trực tiếp trên cả 2 mặt của microsatellite và là đoạn dài 20 base, và một cá thể là dị hợp tử cho một

Trang 21

microsatellite AC với một alleles bao gồm sự lặp lại 5 lần và một alleles khác lặp lại 6 lần, sự dị hợp sẽ tạo ra 2 bands trên gel, một band dài 20 + (2x5) +20 =50 bases, và allele khác dài 20 + (2x6) + 20 = 60 bases Microsatellites là một marker DNA chuẩn: chúng được phát hiện dễ dàng bằng PCR, và chúng có khuynh hướng xác định vị trí bằng nhau từ đầu đến cuối của genome Hàng ngàn SSR đã được lập bản đồ trong nhiều loài khác nhau

Tóm lại, microsatellite ngày nay trở thành một thuật ngữ chung nhất để miêu tả các trình tự lặp lại ngắn và ngẫu nhiên, thay vì sử dụng các thuật ngữ STR (short tandem repeats, Edward; 1991) hay VNTR (variable number of tandem repeats) Microsatellite bao gồm các đoạn lặp lại ngắn từ 2 - 6 bp và kích thước tại mỗi locus là 20 - 100 bp Microsatellite được tìm thấy trong tất cả cơ thể sống, đặc biệt là ở những cơ thể sống có bộ gen lớn và phân bố đều trên genome

Microsatellite có tính đa hình rất cao (đa hình theo chiều dài), là những codominant-al hay al đồng trội (bao gồm 2 loại: al đồng hợp và al dị hợp), nó có các tính chất cần thiết cho một marker Tần số đột biến từ 104

- 5.10-6, nó tuân theo định luật Mendel Vị trí của microsatellite trên nhiễm sắc thể có thể được xác định bằng PCR từ một lượng DNA rất nhỏ Xác định microsatellite PCR trên một loài nào đó thì có thể áp dụng trên những loài khác có quan hệ họ hàng

2.3.2 Giới thiệu chung 2.3.2.1 Tính chất

Một ví dụ điển hình của microsatellite là sự lặp lại (CA)n, với n là sự biến thiên giữa những alleles Những markers này thường hiện diện với mức độ cao của hiện tượng đa hình, đặc biệt khi số lần lặp lại lớn hơn hoặc bằng 10 Trình tự được lặp lại thường đơn giản, bao gồm 2, 3 hoặc 4 nucleotides (tương ứng với việc lặp lại di-, tri-, và tetranucleotide), và có thể được lặp lại từ 10 đến 100 lần Sự lặp lại của nucleotide CA xảy ra rất thường xuyên trong bộ gene người và các loài khác, và được hiện diện trong khoảng vài ngàn bases pair Như vậy có sự xuất hiện thường xuyên của nhiều alleles tại vị trí microsatellite, kiểu gene trong phả hệ thường cung cấp đầy đủ thông tin về di truyền, trong đó alleles đặc thù của tổ tiên có thể được

Trang 22

nhận biết dễ dàng Bằng cách này, microsatellite là lý tưởng để xác định nguồn gốc, nghiên cứu di truyền quần thể và bản đồ tái tổ hợp Nó còn là marker phân tử dùng để cung cấp đầu mối về những alleles có mối quan hệ gần nhau hơn

Microsatellite có được tính hay thay đổi với tỉ lệ đột biến tăng dần so với vùng trung tính khác của DNA Tỉ lệ đột biến cao này có thể được giải thích bởi sự bắt cặp sai trong bộ phận trượt (slipped strand mispairing - sự giữ không đúng mục tiêu) trong suốt quá trình sao chép DNA trên một chuỗi đơn xoắn kép Sự đột biến cũng xảy ra suốt quá trình tái tổ hợp trong quá trình giảm phân Một vài lỗi sai mục tiêu được sửa bởi cơ chế đọc và sửa trong nhân, thế nhưng một vài đột biến có thể không được sửa chữa Kích thước của đơn vị lặp lại, số lần lặp lại và sự hiện diện của sự lặp lại khác nhau là tất cả các yếu tố, cũng như là tính thường xuyên của sự dịch mã trong khu vực của DNA lặp lại Sự gián đoạn của microsatellites, có thể do đột biến, có thể là nguyên nhân trong việc giảm sự đa hình Tuy nhiên, cơ chế tương tự này thỉnh thoảng có thể dẫn đến sự khuếch đại không chính xác của microsatellites; nếu sự sai mục tiêu xảy ra sớm trong suốt quá trình PCR, thì chiều dài không chính xác của microsatellites có thể được khuếch đại

2.3.2.2 Khuếch đại của microsatellites

Microsatellites có thể được khuếch đại để nhận biết bằng việc sử dụng PCR, sử dụng mẫu của những vùng lân cận (primer) DNA được biến tính ở nhiệt độ cao, tách ra làm hai dãy, cho phép sự bắt cặp của primer và sự kéo dài của trình tự nucleotide dọc theo chuỗi đối diện ở nhiệt độ thấp Kết quả của quá trình này là có đủ hàm lượng DNA để có thể nhìn thấy được trên gel agarose hay arcrylamide, một số lượng nhỏ DNA cần thiết cho việc khuếch đại kết hợp với chu trình nhiệt cách hợp lí để tạo ra sự tăng lên theo số mủ trong đoạn được sao chép Với sự phong phú của kỹ thuật microsatellite, primer liên kết với vị trí microsatelltes thì đơn giản và được sử dụng nhanh chóng, tuy nhiên sự phát triển của những primers như vậy thường là một quá trình tốn kém và đơn điệu

Trang 23

2.3.2.3 Những giới hạn của microsatellite

Microsatellite được chứng tỏ là marker phân tử hữu hiệu, đặc biệt là trong nghiên cứu quần thể, thế nhưng chúng không phải là không có hạn chế Microsatellite được phát triển cho những chủng đặc trưng có thể được ứng dụng thường xuyên với những chủng có mối quan hệ họ hàng gần nhau, tuy nhiên tỉ tệ phần trăm vị trí di truyền được khuếch đại thành công có thể bị giảm bởi sự gia tăng khoảng cách di truyền Điểm đột biến trong vị trí bắt cặp của primer trong một loài nào đó có thể dẫn đến sự cố „alleles không giá trị‟ (null alleles), nơi mà primer microsatellite không thể đáp ứng để khuếch đại trong thí nghiệm PCR Null alleles có thể đóng góp vào một vài hiện tượng Sự phân kì trong trình tự ở vùng liên kết có thể dẫn đến sự bắt cặp nghèo nàn của primer, đặc biệt ở vùng 3‟ nơi mà sự kéo dài bắt đầu, sự khuếch đại ưu tiên của vị trí alleles đặc thù do sự cạnh tranh tự nhiên của PCR có thể dẫn đến việc cá thể dị hợp tử được ghi nhận từ đồng hợp tử (bộ phận không có giá trị) Sự thất bại của phản ứng PCR có thể thu nhận kết quả khi sự sai khác ở vị trí đặc thù được khuếch đại Tuy nhiên, ảnh hưởng sai khác của quần thể nhỏ và khả năng của sự liên kết giới tính cũng cần được xem xét để không đưa ra giá trị sai của alleles không giá trị do sự tăng tính đồng hình trong phân tích quần thể Sự khác nhau trong kích thước alleles cũng không phản ánh sự khác nhau thật sự đột biến có thể có từ sự thêm vào hay mất đi của bases và toàn bộ microsatellite có thể chịu sự nén chặt về chiều dài Tỉ lệ đột biến thì không có tiêu chuẩn để đánh giá Vùng trung tính của một số vùng microsatellite còn đang nghi vấn, có lẽ do sự biến thiên tính trạng số lượng hoặc sự cố trong vùng exon của genes dưới sự chọn lọc Khi sử dụng microsatellite để so sánh loài, vị trí đồng hình có thể dễ dàng khuếch đại trong những loài có quan hệ, thế nhưng số vị trí khuếch đại thành công trong suốt phản ứng PCR có thể giảm do sự tăng khoảng cách di truyền giữa các loài nghi vấn Đột biến trong alleles microsatellite có thể bị ảnh hưởng xấu trong trường hợp có một đoạn alleles lớn hơn chứa nhiều bases hơn, và do đó có thể được dịch sai trong quá trình phiên mã DNA Một alleles nhỏ hơn tham gia vào việc làm tăng kích thước, trong khi một alleles lớn hơn tham gia để làm giảm kích thước, khi

Trang 24

mà chúng có thể là nguyên nhân cho sự giới hạn trên về kích thước, sự ép buộc này đã được xác định nhưng giá trị khẳng định là chưa chuyên biệt Nếu có một sự khác biệt lớn về kích cỡ giữa alleles của cá thể, điều đó có thể làm tăng sự không bền vững trong sự tái tổ hợp ở quá trình giảm phân Trong tế bào khối u, nơi mà sự kiểm soát trên phiên mã bị phá hủy, microsatellite có thể tăng thêm hay mất đi thường xuyên ở tỉ lệ đặc biệt cao trong mỗi chu kỳ nguyên phân Do đó một dòng tế bào khối u có thể chỉ ra những đặc điểm khác biệt di truyền từ những mô kí chủ đó

2.3.3 Các loại microsatellite

Căn cứ vào cấu tạo của đơn vị lặp lại (2-6 lần) chúng ta có : Dinucleotide SSR (GT)6

GTGTGTGTGTGT Trinucleotide SSR (CTG)4 CTGCTGCTGCTG

Tetranucleotide SSR (ACTC)4 ACTCACTCACTCACTC

Trinucleotide SSR xuất hiện ít hơn dinucleotide SSR khoảng 10 lần, và

tetranucleotide SSR còn hiếm hơn nữa (Ma và ctv., 1996)

2.3.4 Cơ chế hình thành microsatellite

Cơ chế đột biến hình thành microsatellite vẫn chưa được hiểu biết một cách đầy đủ Tuy nhiên di truyền học và các nghiên cứu khác cho rằng cơ chế xuất hiện và hình thành microsatellite là do 2 quá trình sau:

Quá trình bắt chéo lỗi trong quá trình giảm phân (unequal crossing- over during meiosis)

Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân

Trang 25

Quá trình trượt lỗi trong sao mã (replication slippage)

Đây được coi là nguyên nhân chủ yếu và nó xảy ra trên mạch chậm (lagging strand) Quá trình này liên quan đến quá trình trượt lỗi của enzyme polymerase trên phân tử DNA mới tổng hợp Sự trượt lỗi này tạo ra một chỗ phình nhất thời có thể bị loại bỏ trong quá trình sửa lỗi hoặc là có thể kéo dài thêm ở mạch đối diện tạo thành một đoạn lặp lại dài hơn

Hình 2.4 Cơ chế trượt lỗi trong quá trình sao mã 2.3.5 Vai trò của microsatellite

Rất nhiều microsatellite đã được tìm thấy ở vùng phía trên của các vùng khởi

đầu sao mã của vùng mang mã Chức năng rõ rệt của những vùng như vậy vẫn còn

chưa rõ ràng, mặc dù người ta tìm thấy chúng tồn tại giữa các vùng exon và có liên quan tới các bệnh di truyền

Microsatellite được dùng như một marker di truyền để nghiên cứu về di truyền quần thể, quan hệ tiến hóa, lập bản đồ gen Tuy nhiên có rất nhiều chứng cứ

Trang 26

cho rằng trình tự microsatellite cũng đóng vai trò là yếu tố mang mã hoặc nhân tố điều hòa Microsatellite được tìm thấy khắp nơi ở phần trước vùng khởi đầu sao mã của vùng mang mã, và một số đã được tìm thấy có quan hệ với vùng mã hoá Số lượng khác nhau của các đoạn lặp lại của microsatellite ở vùng mã hoá có quan hệ với sự biểu hiện của gene và chức năng của gene

Ở một số trường hợp, sự thay đổi (mất hoặc thêm) các đơn vị lặp lại của microsatellite cũng làm thay đổi chức năng hoạt động của promotor Vị trí của microsatellite gần hay xa promotor cũng làm hoạt động của promotor thay đổi Vùng điều khiển có chứa microsatellite hoạt động như một nhân tố thúc đẩy quá trình phiên mã và những đột biến mất đoạn microsatellite đã làm giảm chức năng của gen

Microsatellite cũng liên kết với các protein bám mà các protein này có chức năng bám dính vào các trình tự khởi động của gene, khi trình tự này được giải phóng thì gen được khởi động và sao mã Điều này chỉ ra rằng microsatellite hoạt động như một yếu tố điều hòa trong quá trình sao mã, ảnh hưởng đến quá trình sao mã thông qua ảnh hưởng đến protein bám Rất nhiều nghiên cứu chỉ ra rằng ảnh hưởng thúc đẩy của microsatellite và protein bám dính của nó là một chức năng của các đoạn lặp lại trong một vùng microsatellite đặc biệt nào đó Như một trình tự mang mã, microsatellite đã được tìm thấy biểu hiện ở rất nhiều protein và sự khác nhau về số lần lặp lại của các trình tự trong microsatellite có thể dẫn đến sự khác nhau về chức năng của protein và hoạt động của gen, do đó có thể ảnh hưởng đến chức năng sinh lý cũng như sự phát triển của cơ thể

Một số nghiên cứu gần đây đã chỉ ra rằng có sự ảnh hưởng của chiều dài khác nhau của microsatellite đến hình thái và sự phát triển ở mức độ cơ quan được tổng kết lại như một yếu tố chức năng của hệ gen Những tính chất đặc biệt của microsatellite như sự đột biến điểm dẫn đến những giả thiết cho rằng microsatellite có thể là một nguồn chủ yếu tạo nên sự đa dạng về di truyền số lượng và quá trình tiến hóa thích nghi (Kashi và ctv.,1990,1997) Nó cho phép một quần thể có thể khôi phục lại nguồn đa dạng di truyền đã bị mất trong quá trình chọn lọc, nó hoạt

Trang 27

động như một “núm điều chỉnh” mà qua đó những gen đặc biệt có thể điều chỉnh nhanh chóng các phản ứng thay đổi ít hay nhiều trong quá trình đòi hỏi của tiến hóa (King và ctv., 1997, 1998) Do vậy microsatellite là một nguồn rất quan trọng trong việc nghiên cứu đa dạng di truyền và làm cơ sở cho sự thay đổi của tiến hóa

2.4 Phương pháp phân lập microsatellite truyền thống

Primer của microsatellite được phát triển bởi việc tạo dòng ngẫu nhiên một đoạn DNA từ những giống loài trọng tâm Những đoạn này được chèn vào plasmid hoặc phage vector, và được chuyển tiếp vào vi khuẩn Escheria coli Khuẩn lạc sau đó phát triển và được chụp lên phim với những trình tự nucleotide được đánh dấu huỳnh quang được lai với trình tự lặp lại của microsatellite, nếu nó có hiện diện trên đoạn DNA Nếu dòng dương tính có thể thu được từ quy trình này, đoạn DNA được đọc trình tự và primers PCR sẽ được chọn từ vùng trình tự liên kết như vùng để xác định vị trí đặc trưng Quy trình này liên quan đến những thử nghiệm thành công, khi trình tự lặp lại của microsatellites phải được dự đoán trước và primers được thu nhận ngẩu nhiên có thể không biểu hiện tính đa hình có ý nghĩa.Vị trí microsatellite được trải xuyên suốt genome và có thể được thu nhận từ sự thoái hoá DNA chung của những mẫu cũ hơn, khi đó là tất cả những chất nền cần thiết và hợp lí để khuếch đại thông qua PCR

Primer microsatellite đặc trưng cho một loài sẽ giúp phát hiện sự đa hình ở những vị trí tương đồng (cùng locus trên mỗi alleles) đối với từng cá thể trong loài Điều này có thể thực hiện được là nhờ trình tự microsatellite và trình tự của vùng flanking- vùng nằm ở 2 bên trình tự microsatellite để thiết kế primer- được bảo tồn trong quá trình di truyền của loài Vùng flanking rất quan trọng vì nó giúp phát hiện trình tự microsatellite đặc trưng ở mỗi locus trên nhiễm sắc thể

Một qui trình phân lập 1 SSR mất khoảng 3 tuần trong đó giai đọan thiết kế mồi và kiểm tra mòi vừa thiết kế cho SSR mất khỏang hơn 2 tuần Đồng thời phải tốn một chi phí khá lớn để mua các hóa chất và máy móc cần thiết để tiến hành thí nghiệm ( cần khoảng 200 USD tiền hóa chất để xác định được 1SSR) nhưng rủi ro thu được SSR là khá lớn

Trang 28

Hình 2.5: Phương pháp phân lập microsatellite truyền thống 2.5 Phương pháp phân lập microsatellite sử dụng

SSR được phân lập theo phương pháp truyền thống từ thư viện cDNA hay thư viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm

Trang 29

Trong khi đó, phương pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có chi phí thấp và tương đối dễ thực hiện, do trình tự ESTs luôn sẵn có

Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ như: 1.MIcroSAtellite (MISA) [http://pgrc.ipkgatersleben.de/misa/]

2.Sputnik [http://abajian.net /sputnik/index.html] 3.CUGIssr [http://www.genome.clemson.edu/projects/ssr/] 4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl] 5.SSRFinder [http://www.maizemap.org/bioinformatics/

SSRFINDER/ssrfinder_1_0.tar.gz] Công cụ được tìm kiếm trình tự SSR được tham khảo và tải về từ địa chỉ http://www.maizemap.org/bioinformatics/SSRFINDER/SSR_Finder_Download của tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR và những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu về sau

So sánh hiệu quả của 2 phương pháp phân lập

Phương pháp truyền thống Phương pháp sử dụng Chỉ xác định được 1 hoặc vài SSR

Không xác định được chính xác các SSRs có thể có trong gene

Độ chính xác không cao do có thể bị nhiễm trong quá trình làm

Có thể xác định được nhiều SSR 1 lúc

Chi phí cho quá trình phân lập khá thấp vì không phải tốn tiền hóa chất và máy móc thiết bị nhiều

Thời gian tiến hành phân lập và thiết kế mồi nhanh (1 phút)

Xác định chính xác các SSRs có thể có trong 1 gen

Độ chính xác cao do cơ sở dữ liệu đã được phân tích và công bố rộng rãi

Trang 30

2.6 Ứng dụng

Thiết kế bản đồ gen trong di truyền Đa dạng hóa vật liệu di truyền Nghiên cứu quần thể

Chẩn đoán và xác định các bệnh ở người

Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên

2.7 Cơ sở dữ liệu sinh học

Dữ liệu sinh học đang được thu nhận với tốc độ rất nhanh Đến tháng 8 năm 2000, ngân hàng dữ liệu GENEBANK đã có 8.214.000 mục liên quan đến các trình tự sinh học DNA và cơ sở dữ liệu SWISS-PROT có 88.166 mục liên quan đến các trình tự protein Trung bình những sơ sở dữ liệu đang tăng gấp đôi kích thước sau mỗi chu kỳ 15 tháng Ngoài ra sự ra đời của vô số dự án nghiên cứu gen, xác định cấu trúc protein được mã hóa trong bộ gen đã tạo ra một lượng lớn thông tin sinh học và thông tin này ngày càng đa dạng và phong phú

Do dữ liệu sinh học tăng trưởng mạnh mẽ nên công cụ tin học đã trở thành một phương tiện không thể thiếu trong phân tích xử lý dữ liệu sinh học Công nghệ thông tin có thể quản lý nguồn dữ liệu khổng lồ, phân tích các dữ liệu đa dạng và luôn biến đổi trong thế giới tự nhiên Ngành Sinh Tin học được xem là lĩnh vực nghiên cứu liên ngành nhằm kết hợp các kỹ thuật xử lý, tính toán và tổ chức thông tin bằng thiết bị tin học với các kỹ thuật, công cụ phổ biến trong ngành sinh học phân tử

Sinh tin học hiện đang là ngành nghiên cứu khoa học khá mới tại Việt Nam , ra đời với mục tiêu xây dựng các công cụ để tính toán , mô phỏng và đưa ra những chương trình máy tính phục vụ nghiên cứu sinh học

Có thể tiến hành phân lập SSR từ bất cứ đọan gen mong muốn nào

trên NCBI và các cơ sở dữ liệu sinh học lớn khác

Nếu không có cơ sở dữ liệu EST thì không thể tiến hành phân lập SSR

Trang 31

Một số cơ sở dữ liệu lớn, trực tuyến đã được xây dựng để cung cấp thông tin cho các nhà nghiên cứu sinh học như NCBI, EBI, SIB, DDBJ,…

2.7.1 NCBI

2.7.1.1 Vài nét về NCBI

Hình 2.6 Tương quan giữa NCBI (National Library of Medicine và NIH)

NCBI là chữ viết tắt của “Center for Bioinformatic Information” Đây là trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa kỳ (NIH – National Insitute of Health) NCBI chính thức được thành lập vào ngày 4/10/1988 Đến năm 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự

DNA và từ đó NCBI còn được gọi là GenBank

NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông qua những cơ sở dữ liệu trực tuyến Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ gene, protein,…

3.1.1.2 Một số cơ sở dữ liệu trong NCBI

Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide Protein: là cơ sở dữ liệu về trình tự amino acid

Genome: trình tự toàn bộ genome của một số sinh vật

Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi nucleotide DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của Hoa Kỳ là ba cơ sở dữ liệu về trình tự nucleotide lớn, mang tính toàn cầu và ba cơ sở dữ liệu này có hợp tác, trao đổi qua lại dữ liệu lẫn nhau Từ đó, càng làm cho cơ sở dữ liệu về các trình tự nucleotide ngày càng trở nên phong phú

NLM

NCBI

NIH

Trang 32

Chương 3

VẬT LIỆU VÀ PHƯƠNG PHÁP 3.1 Các chương trình và ngôn ngữ lập trình được sử dụng

3.1.1 Hệ điều hành

Microsoft Windows XP Server Pack 2 Xây dựng CSDL trình tự SSRs của

chi cam chanh (Citrus) trên hệ điều hành này

3.1.2 Các chương trình phân tích trình tự 3.1.2.1 Chương trình Perl ssrfinder_1_0

Đây là một chương trình của tác giả Steven Schroeder thuộc trường Đại học Missouri – Michigan Chương trình gồm 6 Perl scripts có chức năng xác định SSR và thiết kế primer thích hợp cho mỗi SSR tìm được

- 1_ssr_repeat_finder.pl: tìm SSR, lấy ra trình tự SSR và vùng flanking cho những phân tích sau

- 2_ssr_primer_designer.pl: thiết kế primer mà mục tiêu là khuếch đại vùng trình tự chứa SSR

- 3_ssr_primer_rep_check.pl: sàng lọc lại các primer đã thiết kế để loại bỏ những primer có chứa trình tự lặp lại

- 4_ssr_primer_blast.pl: so sánh các primer đã thiết kế với cơ sở dữ liệu primer

- 5_ssr_order_filter.pl: tạo 1 file chỉ chứa SSR mà có primer duy nhất - 6_ssr_primer_formatter.pl: tạo 1 file chỉ chứa SSR có primer duy nhất – file này được tạo đơn giản chỉ chứa những thông tin cần thiết cho việc chọn lựa primer

Trang 33

Yêu cầu: vì chương trình này được viết cho hệ điều hành Unix hay Linux nên cần phải thực hiện sửa đổi một số lệnh lập trình cơ bản để có thể chạy trên môi trường Window

Chương trình cần sự kết hợp với 3 phần mềm khác là Primer3, blastall và formatdb để thực thi Ba phần mềm này có thể tải hoàn toàn miễn phí (có phiên bản dành cho Window) từ trang Primer3 http://frodo.wi.mit.edu/primer3/code và trang Blast của NCBI http://www.ncbi.nlm.nih.gov/BLAST/download.shtml

Các thông số của chương trình thiết kế primer đều được mặc định như sau

TARGET= m, n với m là vị trí bắt đầu có microsatllite và n là chiều dài microsatellite (mục tiêu)

PRIMER_PRODUCT_SIZE_RANGE=80-160 80-240 80-300 (kích thước sản phẩm)

PRIMER_OPT_SIZE=24 (kích thước tối ưu của primer) PRIMER_MIN_SIZE=20 (kích thước tối thiểu của primer) PRIMER_MAX_SIZE=28 (kích thước tối đa của primer) PRIMER_OPT_TM=63 (nhiệt độ nóng chảy tối ưu của primer) PRIMER_MIN_TM=60 (nhiệt độ nóng chảy tối thiểu của primer) PRIMER_MAX_TM=65 (nhiệt độ nóng chảy tối đa của primer) PRIMER_MAX_DIFF_TM=1 (độ chênh lệch nhiệt độ nóng chảy tối đa)

Với các thông số mặc định trên chương trình hoàn toàn có thể sử dụng cho mục tiêu của đề tài

Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ như: 1.MIcroSAtellite (MISA) [http://pgrc.ipkgatersleben.de/misa/],

2.Sputnik [http://abajian.net /sputnik/index.html], 3.CUGIssr [http://www.genome.clemson.edu/projects/ssr/] 4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl]

Trang 34

5.SSRFinder [http://www.maizemap.org/bioinformatics/

SSRFINDER/ssrfinder_1_0.tar.gz] Các công cụ này hầu như dựa trên cùng một thuật toán tìm SSR, tuy nhiên mỗi phần mềm được viết bằng các ngôn ngữ lập trình khác nhau Một điểm nổi bật của công cụ SSRFinder (được viết bằng Perl, có tích hợp Primer3 và ncbi-BLAST) là có tích hợp thêm những Perlscript giúp hỗ trợ việc thiết kế primer cũng như kiểm tra lại primer, tuy nhiên các Perlscript này được lập trình dưới hệ điều hành UNIX nên cần được chỉnh sữa để có thể sử dụng trên hệ điều hành Windows Ngoài ra, còn có rất nhiều trang web hỗ trợ việc tìm SSR trên trình tự như:

1.SSR Server [http://www.bioinfo.wsu.edu/cgi-bin/gdr/gdr_ssr] 2 SSR Primer Discovery [http://hornbill.cspp.latrobe.edu.au/cgi-

binpub/ssrprimer/indexssr.pl]

3 SSRIT [http://www.gramene.org/db/searches/ssrtool]

3.1.2.2 Chương trình tìm kiếm các trình tự tương đồng – BLAST

BLAST là một chương trình tìm kiếm và so sánh trình tự tương đồng được nhiều người dùng nhất hiện nay Thuật giải của BLAST xuất phát từ ý tưởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới như GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan tâm” BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những trình tự trong CSDL Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ tương đồng và nguồn gốc các trình tự

Chiến lược tìm kiếm trình tự tương đồng trong BLAST được thực hiện qua ba bước chính:

Đầu tiên BLAST tìm kiếm những đoạn tương đồng HSPs (High Scoring Pair) giữa một trình tự đưa vào và mỗi trình tự trong CSDL

Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự tương đồng nào được tìm thấy

Sau cùng BLAST đưa ra một báo cáo kết quả giống nhau thỏa mãn ngưỡng giá trị mà người dùng mong muốn

Trang 35

Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa chỉ của trang CSDL NCBI: blast-2.2.14-ia32-win32.exe

(ftp://ftp.ncbi.nih.gov.blast/executables/)

3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS

Microsoft Access là một phần mềm ứng dụng thuộc bộ phần mềm Microsoft Office, được sử dụng để quản lý dữ liệu (quản lý nhân sự, khách hàng, vật tư, kế toán…).Phần mềm này được bảo vệ và phân phân phối bởi hãng Microsoft

Phiên bản Access tùy thuộc vào phiên bản của bộ phần mềm Microsoft Office

Để sử dụng phần mềm này chúng ta phải mua bản quyền của Microsoft Mỗi tập tin ACCESS gọi là một cơ sở dữ liệu

Một cơ sở dữ liệu chứa đựng nhiều dữ liệu nằm trong một thành phần chính của một tập tin ACCESS gọi là bảng (TABLE)

Các bảng này có mối quan hệ với nhau theo một quy luật nào đó do người thiết kế tạo nên

3.1.2.4 Egassembler

Là 1 công cụ trực tuyến cung cấp những công cụ sinh học tự động mà người dùng có thề sử dụng để phân tích làm sạch trình tự, dấu những vùng lập lại, dấu những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu của các bào quan, sắp gióng cột và assembly các đọan ESTs và đọan genomic Hệ thống máy chủ chấp nhận nhiều dạng trình tự DNA ở dạng FASTA như EST, , cDNA, gDNA, GSS

Hệ thống gồm 5 công cụ chính:  Làm sạch trình tự  Dấu những vùng lặp lại

 Dấu những vùng trình tự nhiễu của vector và adaptors  Dấu những vùng trình tự nhiễu của các bào quan

 Assembling: sắp gióng cột vá chồng các trình tự lại với nhau tạo thành các Contigs và Singletons