Xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa

Trang 1

TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC

***000***

TRẦN NGUYỄN MINH ĐĂNG

XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE REPEATS) TỪ ESTs (EXPRESSED

SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)

Thành phố Hồ Chí Minh Tháng 09/2006

Trang 2

TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC

Chuyên ngành: Công Nghệ Sinh Học

Thành phố Hồ Chí Minh Tháng 09/2006

Trang 3

NONG LAM UNIVERSITY, HCMC DEPARTMENT OF BIOTECHNOLOGY

Ho Chi Minh City 09/2006

Trang 4

iv

LỜI CẢM ƠN

XIN CHÂN THÀNH CẢM ƠN

Ban Giám Hiệu trường Đại học Nông Lâm Tp Hồ Chí Minh đã tạo mọi điều kiện cho tôi trong suốt thời gian học tập

Các thầy cô trong bộ môn Công Nghệ Sinh Học cùng các thầy cô đã trực tiếp giảng dạy trong suốt bốn năm qua

Xin bày tỏ lòng biết ơn sâu sắc đến:  TS Trần Thị Dung

 Cử Nhân Lưu Phúc Lợi

Đã tận tụy hướng dẫn, truyền đạt kiến thức giúp cho tôi hoàn thành khóa luận này

Cùng toàn thể lớp Công Nghệ Sinh Học 28 thân thiện đã hỗ trợ, giúp đỡ và động viên tôi trong suốt thời gian làm đề tài

Thành kính ghi ơn ba mẹ cùng những người thân trong gia đình luôn tạo điều kiện và động viên con trong suốt quá trình học tập tại trường

Tháng 08 năm 2006

Trần Nguyễn Minh Đăng

Trang 5

v

TÓM TẮT KHOÁ LUẬN

TRẦN NGUYỄN MINH ĐĂNG, đại học Nông Lâm TP Hồ Chí Minh, tháng 08/2006 “XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE REPEATS) TỪ ESTs (EXPRESSED SEQUENCE TAGS) CỦA CÂY DỨA

(Ananas comosus)”

Hội đồng hướng dẫn:  TS Trần Thị Dung  Cử Nhân Lưu Phúc Lợi

Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học Nông Lâm TP Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2006 đến 8/2006

Trong những năm qua sinh học không ngừng phát triển, đã tạo ra những kho dữ liệu rất lớn về trình tự gene, protein, của thực vật, động vật,… Và với các thành tựu vốn có của công nghệ thông tin, những trình tự gene này đã và đang được lưu trữ trong cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj,…Vì các cơ sở dữ liệu này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt, trong đó có phương pháp microsatellite Do vậy, mục tiêu của chúng tôi

là tiến hành xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa Ananas comosus được

lấy ở cơ sở dữ liệu sinh học NCBI

Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau:  Dùng Perl script để thu nhận trình tự các nucleotide của gene từ trang cơ sở dữ liệu GenBank NCBI

 Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen

 Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu

trữ dữ liệu các trình tự nucleotide và trình tự SSRs của Ananas comosus, và tạo

cơ sở dữ liệu chứa những trình tự này Sau đó chuyển các dữ liệu này vào cơ sở dữ liệu chính

 Kết hợp các phần mềm quản lý cơ sở dữ liệu và phần mềm tạo web, thiết kế trang web chia sẻ thông tin với người dùng

Trang 6

vi

MỤC LỤC

LỜI CẢM ƠN iv

1.1.1 Sơ lược về sinh – tin học 1

1.1.2 Sơ lược về cây dứa 2

1.1.3 Sơ lược về phương pháp Microsatellite 2

1.2 Mục tiêu của khóa luận 3

Phần 2 Tổng quan tài liệu 4

2.1 Giới thiệu về cây dứa 4

Trang 7

vii

2.1.6.4 Nhóm Abacaxi 10

2.1.6.5 Các giống trồng trong nước 11

2.1.7 Tình hình phát triển của cây dứa trong và ngoài nước 11

2.4.1 Sơ lược về EST 19

2.4.2 Nguồn gốc của EST 20

2.5 Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu 20

2.5.1 Nguyên nhân ra đời của mô hình quan hệ 20

2.5.2 Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệ 21

2.5.2.1 Định nghĩa cơ sở dữ liệu 21

2.5.2.2 Hệ quản trị cơ sở dữ liệu 21

2.5.3 Các mô hình dữ liệu 23

2.5.3.1 Định nghĩa 23

2.5.3.2 So sánh các mô hình dữ liệu 23

2.5.4 Người dùng 24

2.5.5 Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ 25

2.5.5.1 Vấn đề 1: Cấu trúc logic và cấu trúc vật lý 25

Trang 8

viii

2.5.5.2 Vấn đề 2: Dư thừa dữ liệu 25

2.5.5.3 Vấn đề 3: Sự khai thác dữ liệu của người sử dụng 25

2.6 Internet và Web 26

2.6.1 Sơ lược về Internet 26

2.6.1.1 Tóm lược lịch sử phát triển 26

2.6.1.2 Tổng quát về Internet 26

2.6.2 Các dịch vụ được cung cấp trên Internet 28

2.6.2.1 Phân loại khối thông tin 28

2.6.2.2 Các dịch vụ cơ bản 28

2.6.3 Tích hợp cơ sở dự liệu với web 28

2.7 Ngôn ngữ lập trình Perl và Javascript 28

2.7.2.3 Ưu và nhược điểm của Javascript 31

2.8 Cơ sở dữ liệu sinh học 32

2.8.1 NCBI 32

2.8.1.1 Vài nét về NCBI 32

2.8.1.2 Một số cơ sở dữ liệu trong NCBI 33

2.8.1.3 Một số công cụ trong NCBI 33

3.1.2.2 Chương trình tìm kiếm các trình tự tương đồng – BLAST 36

3.1.2.3 Hệ quả trị CSDL quan hệ MySQL 36

3.1.2.4 Apache web Server 37

3.2 Thu nhận trình tự SSRs 38

3.2.1 Thu thập và chọn lọc dữ liệu 40

Trang 9

ix

3.2.2 Thu nhận trình tự SSR 41

3.3 Xây dựng CSDL, công cụ để giúp người dùng có thể khai thác tốt dữ liệu 44

3.3.1 Xây dựng cơ sở dữ liệu 44

3.3.1.1 Tạo bảng chứa dữ liệu 44

3.3.1.2 Xây dựng mối quan hệ 46

3.3.1.3 Nhập dữ liệu vào bảng 47

3.4 Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu 47

3.5 Tích hợp các công cụ sinh học vào trang web 48

Phần 4 Kết quả và thảo luận 49

4.1 Kết quả thu nhận trình tự microsatellite 49

4.1.1 Kết quả thu nhận trình tự của Ananas comosus 49

4.1.2 Kết quả thu nhận trình tự SSRs 50

4.2 Xây dựng CSDL, công cụ để giúp người dùng có thể khai thác tốt dữ liệu 51

4.2.1 Cơ sở dữ liệu trình tự Ananas comosus 51

4.2.2 Kết quả sau khi lập CSDL của trình tự microsatellite 52

4.2.3 Mô hình quan hệ 57

4.3 Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus 59

4.3.1 Trang chủ (HOME PAGE) 60

4.3.2 Trang thông tin về microsatellite (ABOUT SSRs PAGE) 60

4.3.3 Trang thông tin về Ananas comosus (Ananas comosus PAGE) 60

4.3.4 Trang cơ sở dữ liệu ESTs (ESTs PAGE) 61

4.3.5 Trang cơ sở dữ liệu SSRs (SSRs PAGE) 62

Trang 10

x

DANH SÁCH CÁC HÌNH

Hình 1 1 Định nghĩa bioinformatics được mở rộng 2

Hình 1 2 Tìm hiểu nguồn gốc dựa vào Microsatellite 3

Hình 2 1 Các giống dứa Natal Queen - Red Spanish – Cayenne 11

Hình 2 2 Sơ đồ một hệ quản trị cơ sở dữ liệu 22

Hình 2 3 So sánh cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ 25

Hình 2 4 Tương tác giữa Perl script-DBI-DBD-và RBDMS 30

Hình 2 5 Tương quan giữa NCBI, NLM (National Library of Medicine và NIH) 32

Hình 3 1 Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder 38

Hình 3 2 Kết quả thiết kế mồi cuối cùng của Steven Schroeder 39

Hình 3 3 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI 40

Hình 3 4 Sơ đồ tóm tắt quá trình thu nhận trình tự microsatellite 41

Hình 3 5 Nội dung tập tin “sequence31052006.txt” để thu nhận SSR 42

Hình 3 6 Nội dung tập tin “ssrout31052006.txt” 42

Hình 3 7 Nội dung tập tin “labdbout31052006.txt” 43

Hình 3 8 Nội dung tập tin “new_ids31052006.txt” 44

Hình 3 9 Sơ đồ trình tự nhập dữ liệu vào bảng 47

Hình 3 10 Trang web mẫu về trình tự microsatellite 48

Hình 4 1 Nội dung mẫu tin về Ananas comosus trên NCBI 50

Hình 4 2 Mô hình quan hệ giữa các bảng 57

Hình 4 3 Sơ đồ cấu trúc của trang web 59

Hình 4 4 Nội dung trang thông tin về microsatellite 60

Hình 4 5 Nội dung trang thông tin về Ananas comosus 61

Hình 4 6 Trang cơ sở dữ liệu ESTs 61

Hình 4 7 Trang cơ sở dữ liệu SSRs (All) 62

Hình 4 8 Trang cơ sở dữ liệu SSRs chọn lọc theo “Motif Length Group ID” 63

Hình 4 9 Trang web tìm kiếm trình tự microsatellite 64

Trang 11

xi

DANH SÁCH CÁC BẢNG

Bảng 3 1 Nội dung tblStrain 44

Bảng 3 2 Nội dung tblMotifLengthGroup 45

Bảng 3 3 Nội dung tblEST 45

Bảng 3 4 Nội dung tblGenBank 45

Bảng 3 5 Nội dung tblSSR 46

Bảng 4 1 Phân loại giống Ananas comosus tại NCBI 49

Bảng 4 2 Các trình tự SSRs trên cây dứa Ananas comosus có trong CSDL 52

Bảng 4 3 Ví dụ nhiều đoạn microsatellite trong một trình tự chính 57

Bảng 4 4 Số trình tự trong cơ sở dữ liệu 51

Bảng 4 5 Các loại Motif trong cơ sở dữ liệu 62

Trang 12

BLAST Basic Local Alignment Search Tool

DNA deoxyribonucleic acid

GUI Graphical User Interface HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol

NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics

NIH the National Institutes of Health NLM the Nation Library of Medicine

Perl Practical Extraction and Report Language PHP Hypertext Preprocessior

RAPD Random Amplififed Polymorphic DNA RDBMS Relational Database Management System RFLP Restriction Fragment Length Polymorphism SNP Single Nucleotide Polymorphism

SSCP Single- Strand Conformation Polymorphism SSR Simple Sequence Repeats

Trang 13

Phần 1 MỞ ĐẦU

1.1 Đặt vấn đề

1.1.1 Sơ lƣợc về sinh – tin học

Dữ liệu sinh học đang được thu nhận với tốc độ rất nhanh Đến tháng 8 năm 2000, ngân hàng dữ liệu GENEBANK đã có 8.214.000 mục liên quan đến các trình tự sinh học DNA và cơ sở dữ liệu SWISS-PROT có 88.166 mục liên quan đến các trình tự protein Trung bình những sơ sở dữ liệu đang tăng gấp đôi kích thước sau mỗi chu kỳ 15 tháng Ngoài ra sự ra đời của vô số dự án nghiên cứu gen, xác định cấu trúc protein được mã hóa trong bộ gen đã tạo ra một lượng lớn thông tin sinh học và thông tin này ngày càng đa dạng và phong phú

Do dữ liệu sinh học tăng trưởng mạnh mẽ nên công cụ tin học đã trở thành một phương tiện không thể thiếu trong phân tích xử lý dữ liệu sinh học Công nghệ thông tin có thể quản lý nguồn dữ liệu khổng lồ, phân tích các dữ liệu đa dạng và luôn biến đổi trong thế giới tự nhiên Ngành Sinh Tin học được xem là lĩnh vực nghiên cứu liên ngành nhằm kết hợp các kỹ thuật xử lý, tính toán và tổ chức thông tin bằng thiết bị tin học với các kỹ thuật, công cụ phổ biến trong ngành sinh học phân tử

Sinh tin học hiện đang là ngành nghiên cứu khoa học khá mới tại Việt Nam, ra đời với mục tiêu xây dựng các công cụ để tính toán , mô phỏng và đưa ra những chương trình máy tính phục vụ nghiên cứu sinh học

Nhưng định nghĩa trên chưa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp của nhiều ngành khoa học khác nhau như toán học, thống kê, khoa học máy tính, sinh học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tương hỗ với nhau Vì thế, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh học mà còn cho các ngành khác Như vậy, định nghĩa đầy đủ về Bioinformatics như sau:

Trang 14

Hình 1 1 Định nghĩa bioinformatics được mở rộng

1.1.2 Sơ lược về cây dứa (Ananas comosus)

Dứa là loại cây ăn trái nhiệt đới có giá trị dinh dưỡng cao, được tiêu thụ rộng rãi trên thị trường thế giới Nước khóm còn có chứa men Bromelin có tác dụng phân hủy protein làm kích thích tiêu hóa Ngoài ra, nước khóm còn cung cấp nhiều năng lượng, 1ml nước khóm cho 1 calori Toàn bộ trái khóm có 60% phần ăn được

Phần lớn việc sản xuất khóm trên thế giới được dùng đóng hộp, các sản phẩm chính gồm có: Xắt khoanh vô hộp, nước khóm hộp Các dạng khác là sy rô, rượu, nước giải khát, hay trích acid citric, men bromelin

Ngoài việc ăn tươi và đóng hộp, các phụ phẩm khác của khóm còn được sử dụng để: chế biến thức ăn gia súc; dệt vải; thân lá khóm cũng có thể dùng làm nguyên liệu chế biến bột giấy

1.1.3 Sơ lược về phương pháp Microsatellite (SSR)

Microsatellite là một công cụ đắc lực để giải quyết vấn đề như định danh và phát hiện những cây bị mất lai lịch đồng thời cũng đánh giá mức độ đa dạng di truyền của cây Ngoài ra phương pháp này hỗ trợ rất lớn cho công tác chọn giống cây trồng

TOÁN HỌC

KHOA HỌC MÁY TÍNH THỐNG KÊ

SINH HỌC

HÓA HỌC VẬT LÝ

Bioinformatics

Trang 15

Hình 1 2 Tìm hiểu nguồn gốc dựa vào Microsatellite 1.2 Mục tiêu của khóa luận

Các nhà nghiên cứu đã tìm ra rất nhiều trình tự của cây dứa, vì vậy cũng sẽ có rất nhiều đoạn Microsatellite trong những trình tự đó Khi đó các cơ sở dữ liệu này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt

Việc xây dựng cơ sở dữ liệu Microsatellite để phục vụ cho việc tìm hiểu đa dạng và quan hệ di truyền; phân biệt loài và cá thể, lập bản đồ di truyền, xác định gen; chọn giống nhờ chỉ thị phân tử

Vì vậy, khóa luận “Xây dựng cơ sở dữ liệu SSRs (Simple Sequence

Repeats) từ ESTs (Expressed Sequence Tags) của cây dứa (Ananas comosus)”

được thực hiện với các mục tiêu lần lượt như sau:

Thu nhận trình tự SSR của cây dứa từ CSDL ESTs được lấy tại trang chính NCBI

Hai là xây dựng CSDL và công cụ để giúp người dùng có thể khai thác tốt dữ liệu

Ba là dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó, giúp cho việc tìm kiếm, quản lý thông tin được tốt hơn

Bốn là tích hợp vào trang web công cụ để tìm trình tự SSRs và một số công cụ sinh học khác

Trang 16

Phần 2

TỔNG QUAN TÀI LIỆU

2.1 Giới thiệu về cây dứa [9, 19] 2.1.1 Vị trí phân loại

Tên khoa học : Ananas comosus (Merr.)

Tên tiếng Anh : Pineapple

Tên thường gọi : Dứa, thơm, khóm

2.1.2 Nguồn gốc và phân bố

Họ dứa gồm khoảng 50 chi và 1700 – 2000 loài, có nguồn gốc ở vùng nhiệt đới châu Mỹ, Braxin hay Paraguay, được Christopher Columbus phát hiện khi đến đảo Guadeloup năm 1943

Năm 1939, sau khi khảo sát Nam Mỹ, Baker và Collins cho rằng nguồn gốc cây dứa là ở một vùng rộng lớn nằm giữa vĩ tuyến Nam 15o đến 30o, kinh tuyến Tây 40o đến 60o, chủ yếu là ở Nam Braxin, Bắc Argentina và Paraguay (Claude, 1963)

M Bertoni lại khoanh vùng nguồn gốc dứa vào lưu vực Panama và Paragoay đã cho rằng cây dứa đã di cư từ đó lên phía bắc tới các bộ lạc Tupi – Guarani trong vùng Và do đó, sự trao đổi giữa các bộ lạc đã đưa dứa tiến dần từng bước lên Trung Mỹ và vùng Caribe

Sự phổ biến của cây dứa gắn liền với sự mở rộng đường hàng hải trong quá trình thực dân hóa các thuộc địa

Đến thế kỷ 17, cây dứa đã phổ biến hầu hết ở các vùng nhiệt đới

Theo tài liệu của J Lan (1928) và Nguyễn Công Thuận (1939) thì giống “dứa ta” đã có ở Việt Nam cách đây hơn 100 năm, có thể là do các thuyền buồm Tây Ban Nha, Bồ Đào Nha mang những giống mới trong đó có dứa vào nước ta

Trang 17

Năm 1913, giống “dứa tây” đã được người Pháp đưa đến trồng đầu tiên Năm 1939, giống dứa Cayen không gai được trồng đầu tiên ở Sơn Tây và về sau phát triển ra nhiều vùng ở nước ta

2.1.3 Đặc điểm hình thái 2.1.3.1 Rễ

Rễ dứa thuộc loại ăn nông, phần lớn do nhân giống bằng chồi nên mọc từ thân ra, nhỏ và phân nhiều nhánh Rễ có thể ăn sâu 0,9m thường tập trung ở tầng đất 10cm – 20cm và phát triển rộng

Rễ gồm có rễ cái và rễ nhánh: mọc ra từ phôi hạt, rễ bất định: mọc ra từ các mầm rễ

2.1.3.2 Thân

Dứa là cây thân cỏ, chia làm 2 phần: một phần trên mặt đất, một phần dưới mặt đất Phần trên thường bị các lá hình giải vây kín, xếp thành hình hoa thị ở gốc nên khó nhìn thấy

Thân trưởng thành dài 20cm – 30cm, đường kính 3cm – 7cm, trọng lượng 200g – 400g Trung tâm của thân là một mô rỗng, mềm, chứa các chất dinh dưỡng có nhiều tinh bột ở giữa, nối tiếp là một lớp bó mạch có nhiều xơ và ngoài cùng được bao bọc bởi một biểu bì và gốc lá

2.1.3.3 Lá

Lá mọc trên thân cây theo hình xoắn ốc, chụm lại ở gốc thành hình phễu, trong có nước và chất hữu cơ bị phân hủy nên là môi trường sống thích hợp cho một số động vật nhỏ, thực vật (một số cây ăn thịt, giáp xác thấp, lưỡng thê…)

Lá thường dày, không có cuống, hẹp ngang và dài Mặt lá và lưng lá thường có một lớp phấn trắng hoặc một lớp sáp có tác dụng làm giảm độ bốc hơi nước cho lá Thường thì có gai nhọn và cứng ở mép lá, tuy nhiên cũng có giống lá không có gai như Cayen

Gốc lá hút nước và chất dinh dưỡng thay cho rễ

2.1.3.4 Hoa

Hoa mẫu 3, tập hợp quanh trục lớn thành bông ngắn, chùm hay chùy Với lá bắc màu tím ở dưới hoa gồm có ba lá đài, ba cánh hoa, sáu nhị đực

Trang 18

xếp thành hai vòng, một nhị cái có ba tâm bì và bầu dưới cánh hoa màu xanh, đỏ tía, gốc có màu trắng nhạt, trên mặt cánh hoa có những vảy

Cả tràng hoa có dạng một ống dài hơi loe ở phía đầu, ở giữa lồi lên ba núm nhụy tím mờ của vòi nhụy Ba tuyến mật thông ra gốc vài nhị cái qua các ống dẫn Hoa dứa bất thụ

2.1.3.5 Quả

Quả dứa là loại quả kép do 100 quả - 150 quả nhỏ họp lại Các giống khác nhau thì hình dạng quả và mắt quả (các quả nhỏ) cũng khác nhau: hình bầu dục, mắt quả lồi hay hình ống, mắt quả to hay hình chóp cụt, mắt quả rất to, phẳng

Phần ăn được gồm trục hoa và các lá bắc mọng nước, còn quả thật nằm trong các mắt dứa

Cây dứa là cây ăn quả nhiệt đới thích hợp nhiệt độ cao, sinh trưởng phát triển tốt ở nhiệt độ 30o

C – 31oC, nhiệt độ giới hạn dưới 5oC và trên 40oC (Claude và Tisseau, 1963) Nhiệt độ tối ưu 24oC – 27oC

Dứa rất mẫn cảm với nhệt độ thấp Khi nhiệt độ hạ thấp đến 10oC, cây ngừng sinh trưởng, 5oC cây bị rét gây hại, 0oC bị rét cóng, nếu càng kéo dài thì càng thiệt hại nghiêm trọng

2.1.4.2 Yếu tố đất đai

Đất đai thích hợp cho trồng dứa phải tơi xốp, thoáng, có kết cấu hạt, không có nước đọng trong mùa mưa, như đất cát thịt, đất latercte trên đồi núi, đất phèn nếu được thoát nước tốt

Tỷ lệ Mn/Fe trong đất cao sẽ có hại cho dứa, để khắc phục cần phun sulfat sắt 1%

Trang 19

Hiện nay, ở nước ta, cây dứa được trồng trên nhiều loại đất: đỏ bazan, đá vôi, đất đỏ váng… ở miền Bắc, đất phèn ở Đồng bằng sông Cửu Long, đất xám ở miền Đông Nam Bộ

Các giống khác nhau thì có yêu cầu về độ pH khác nhau Cayen trơn có độ pH = 5,6 – 6,0, dứa tây nhóm Queen có thể sinh trưởng tốt trên đất phèn có độ pH <= 4,0

Dứa có yêu cầu về thành phần dinh dưỡng kho áng cần thiết cho cây như N, P, K, Ca, Mg, Bo, trong đó N và K là hai nguyên tố đóng vai trò chủ đạo, các nguyên tố vi lượng khác ít ảnh hưởng đến năng suất cây dứa

Lượng phân bón phụ thuộc vào điều kiện đất đai (tốt hay xấu), mật độ trồng trên một đơn vị diện tích và đặc tính của từng giống (chịu được phân bón nhiều hay ít)

2.1.4.3 Yếu tố sinh vật

So với nhiều loại cây trồng khác, dứa ít bị côn trùng gây hại Đối tượng sâu hại quan trọng và phổ biến hầu khắp ở các vùng trồng dứa trên

thế giới là rệp sáp (Dysmicocus hoặc Pseudoeocus brevipes)

Ngoài ra còn có một loại sâu non (Adoretus chinensis Thanber) phá

hoại rễ, tạo vết thương cơ giới, tạo điều kiện cho tuyến trùng và nấm bệnh xâm nhập sinh sống và sinh sản, gây nên hiện tượng thối đen thân chồi dứa, làm lụi tàn vườn dứa

Các bệnh hại dứa như bệnh thối nõn (do nấm Phytophthora

cinnamonic, nấm Phytophthora palmisora hay vi khuẩn Erwinia chrysanthemi), bệnh héo virus, bệnh luộc lá… cũng gây ra nhiều thiệt hại

cho vùng trồng dứa

2.1.5 Giá trị kinh tế và sử dụng

Dứa ngoài để ăn tươi như một quả có giá trị dinh dưỡng cao, còn có thể chế biến thành nhiều loại sản phẩm, đa phần là làm đồ hộp xuất khẩu như dứa khoanh, dứa rẻ quạt, nước dứa làm rượu, làm dấm, bột dứa dùng trong giải khát

Trong 100g thịt quả có trung bình:

Acid hữu cơ: 0,6 g (78% acid citric, còn lại là acid malic và acid khác) Vitamin A

Trang 20

Vitamin C

Khoáng: Ca (16mg), P (11mg), Fe (0,3mg), Cu (0,07mg) Hydrat carbon: 13,7g

Nước: 85,5g

Khi phân tích thành phần dinh dưỡng trong dứa Cayenne ở Hawaii cho thấy trong đường tổng số 11% - 13% là saccharose và còn lại là glucose và fructose

Trong quả dứa còn có men bromelin giúp cho việc tiêu hóa rất tốt Người ta đã chiết và sản xuất bromelin dùng trong công nghiệp thực phẩm, thuộc da, vật liệu làm phim…

Sản phẩm phụ của cây dứa để lên men dùng làm thức ăn gia súc

Sau khi thu hoạch quả, lá dứa dùng để lấy sợi (2% - 2,5% cellulose), sản phẩm dệt từ dứa bền, đẹp, chất lượng hơn cả đay

Thân cây dứa có chứa 12,5% tinh bột là nguyên liệu dùng để lên men rượu, làm môi trường nuôi cấy nấm và vi khuẩn

Dứa là cây ăn quả chịu hạn trồng ở vùng đồi có khả năng bảo vệ đất, chống xói mòn, một số giống dứa có thể trồng xen ở tầng thấp dưới tán một số cây ăn quả khác và cây công nghiệp, vừa có tác dụng phủ đất chống xói mòn, vừa tăng thu nhập

2.1.6 Các giống trồng [20] 2.1.6.1 Nhóm Cayenne

Được trồng rất phổ biến trên thế giới, đồng thời được ưa chuộng nhất để đóng hộp Giống tiêu biểu là Smooth Cayenne (Cayenne lisse)

Đặc tính đóng hộp: rất tốt Ăn tươi: tốt

Xuất khẩu tươi: khá Các đặc điểm về hình thái:

Lá: gần như không gai, chỉ có một ít gai ở chóp lá Chồi: ít chồi

Dạng trái: hình trụ, mắt dẹp, cạn Trọng lượng trái: trung bình 2,5 kg

Trang 21

Lỏi (cùi): trung bình

Màu vỏ trái khi chín: vàng da cam Màu ruột khi chín: vàng lợt đến vàng

Hương vị: ngọt, hơi chua, ít xơ, nhiều nước, mềm

Tính kháng: mẩn cảm với triệu chứng héo khô đầu lá (Wilt) Năng suất: cao

Trọng lượng trái: trung bình 1 kg Lỏi: nhỏ

Màu vỏ khi chín: vàng Màu ruột khi chín: vàng

Hương vị: ngọt hơn Cayenne, ít chua, ít xơ, xơ ngắn, cong, thơ Thích hợp cho tiêu thụ tươi

Tính kháng: mẩn cảm với bệnh Wilt Năng suất: kém

2.1.6.3 Nhóm Spanish (Tây Ban Nha)

Đặc tính đóng hộp: kém Ăn tươi: rất tốt

Xuất khẩu tươi: rất tốt Các đặc điểm về hình thái:

Lá: dài, hẹp, có gai

Chồi: cho nhiều chồi cuống

Dạng trái: hơi tròn (Trụ bầu), mắt rộng, dẹp

Trang 22

Trọng lương trái: trung bình 1,2-1,5 kg Lỏi: rất lớn

Màu vỏ khi chín: cam

Màu ruột khi chín: trắng đến vàng

Hương vị: ngọt, hơi có vị cay chua, nhiều xơ Tính kháng: kháng bệnh Wilt

Năng suất: kém

2.1.6.4 Nhóm Abacaxi

Ít phổ biến, còn gọi là Brazilian

Đặc tính đóng hộp: xấu Ăn tươi: tốt

Xuất khẩu tươi: kém Các đặc điểm về hình thái:

Ngoài 4 nhóm trên, Leal và Soule (1977) còn đề nghị thêm một nhóm mới là Maipure Các giống trong nhóm này hoàn toàn không có gai ở lá, như Perolera, Monte Lirio, Bumanguesa Trái có hình trụ đến bầu dục, lỏi nhỏ, thịt màu ngà, khá nhiều xơ Chất lượng không cao khi dùng xuất tươi và đóng hộp, chỉ thích hợp cho tiêu thụ tại chỗ

Trang 23

Hình 2 1 Các giống dứa Natal Queen - Red Spanish – Cayenne

(nguồnhttp://www.servicevie.com/01Alimentation/AlimentVedette/AVf_HTML/HTML_500C/553VX.html)

2.1.6.5 Các giống trồng trong nước

 Ở miền Bắc có các giống như:

Dứa hoa Phú thọ (Natal Queen): Victoria

Dứa hoa Na hoa (Nam phi Queen): Paris, Yellow Mauritius Dứa hoa Nam bộ (Nam phi Queen): khóm, thơm ta

Dứa ta (Red Spanish): thơm bẹ đỏ, thơm lửa, dứa Sàn, dứa Buộm, Tam dương

Độc bình không gai (Cayenne): thơm tây, Sarawak, Hồng Kông  Ở miền Nam khóm trồng chủ yếu là nhóm Queen, tập trung ở một số tỉnh như: Cần Thơ, Kiên Giang, Minh Hải, Long An, Tiền Giang và thành phố Hồ Chí Minh, gồm có các giống Singapore Canning, Alexandra, Mac-grégor Nhóm Cayenne chỉ được trồng nhiều ở Bảo Lộc (Lâm Đồng)

2.1.7 Tình hình phát triển của cây dứa trong và ngoài nước

Thái Lan là nước đứng đầu, kế đến là Philippin và Trung Quốc Tuy nhiên, trong những năm gần đây, sản lượng dứa tăng nhanh nhờ phương pháp canh tác, kỹ thuật trồng trọt thu hoạch ngày càng được cải thiện hơn, bên cạnh đó có sự góp phần của nhu cầu thị trường về sản phẩm và xuất khẩu hâu Á có sản lượng dứa lớn nhất, chiếm 52% sản lượng của thế giới, tiếp theo là châu Mỹ: 31%, châu Phi: 15,4%, châu Âu: 1,4%

Cây dứa đã được trồng ở Việt Nam từ rất lâu, tuy nhiên, trước đây, chưa có một thống kê đầy đủ nào về tình hình phát triển cũng như là về sản lượng thu được hàng năm mãi cho đến những năm gần đây Năm 2002 thì diện tích trồng dứa trong cả nước đã tăng lên là 37.800 ha, sản lượng dứa thu được là 284.000 tấn, trong đó đồng bằng Sông Cửu Long chiếm 71%

Trang 24

2.2 Các Marker phân tử [2, 4] 2.2.1 Isozymes

Isozymes là các dạng khác nhau của một enzyme một cá thể, có cùng chức năng xúc tác cho một phản ứng (hoạt tính xúc tác tương tự hoặc giống nhau) nhưng lại bị ức chế bởi những phân tử khác nhau Nói cách khác, isozyme là tất cả các dạng khác nhau của một enzyme được mã hóa bởi locus di truyền Hoạt tính của chúng đặc trưng đối với một cơ chất và trợ enzyme nhất định Chỉ thị isozyme là chỉ thị sinh hóa

Phân loại isozyme: Isozyme đơn gen Isozyme đa gen

2.2.2 ALP (Amplicon Length Polymorphism)

Người ta tìm thấy ALP trong phân tích PCR của nhiều cá thể Sự biến dị trong vùng khuếch đại (amplicon) được ghi nhận trong gel điện di, với các sản phẩm của PCR

2.2.3 AFLP (Amplified Fragment Length Polymorphism)

 Nguyên lý:

Đa hình độ dài các đoạn nhân bản chọn lọc – AFLP: kết hợp RFLP và PCR, nhân DNA chọn lọc từ các đoạn DNA nhận được từ cắt DNA hệ gen bằng enzyme giới hạn

 Ưu điểm và hạn chế: Ưu điểm:

Phát hiện thay đổi trên toàn bộ hệ gen, cho đa hình cao Kỹ thuật nhanh, ổn định, có khả năng lặp lại cao, cần ít DNA Hạn chế:

Trang 25

2.2.4 RAPD (Random Amplififed Polymorphic DNA)

Một trong những giới hạn chính của PCR chuẩn đối với ALP marker là mọi thông tin về chuỗi mã di truyền đầu tiên phải được biết rõ trước khi chuẩn bị các primer tương ứng Nhưng hiện nay, thông tin về các chuỗi mã này trên các vùng của genome sinh vật chưa được biết hết Do đó, người ta phải cải tiến kỹ thuật PCR để có thể phát hiện ra các thể đa hình DNA như vậy Năm 1990, có hai nhóm nghiên cứu đã thực hiện việc cải tiến này để phát hiện thể đa hình DNA bằng PCR tiêu chuẩn

Nguyên tắc: Khi khuếch đại một đoạn DNA đặc biệt nào đó có thể thu nhận được kết quả thông qua điều kiện nghiêm ngặt PCR Nhưng các sọc không có tính chuyên biệt gì vẫn thể hiện ra trong điện di khi sự nghiêm ngặt này lơi lỏng Trong trường hợp nhiệt độ ở giai đoạn tác động của primer tại đầu dây đơn bị giảm thấp hơn Tm, sẽ có nhiều sọc bất thường thể hiện ra trên gel Welsh và Mc Clelland (1990) đã ghi nhận hiện tượng này và đã phát minh ra AP-PCR (Arbitrary Primer- PCR)

Trong AP-PCR, người ta sử dụng một primer đơn hay một cặp primer với một chuỗi mã điều hành (arbitrary) có khoảng 20 Nu tiếp nhận điều kiện nghiêm ngặt PCR, thay vì sử dụng hai primer đặc biệt như những primer tiêu chuẩn Thành phần còn lại của phản ứng giống như bình thường, nhưng nội dung chu trình hoàn toàn khác Sau bước mở dây đôi DNA của chu kỳ đầu tiên, nhiệt độ của phản ứng được phép giảm xuống khoảng 400C, primer điều hành có thể tác động ở đầu dây đơn DNA, tại nhiều nơi trong genome, để bắt đầu tổng hợp DNA Sau hai vòng khuếch đại trong điều kiện không nghiêm ngặt lắm (relaxed), người ta sử dụng PCR bình thường và có thể quan sát các sản phẩm PCR không chuyên biệt ở trên gel Nếu AP-PCR được lặp lại, thì sản phẩm của PCR sẽ được sản xuất giống hệt nhau

Thay vì sử dụng primer có 20 Nu, William và cộng sự (1990) đã sử dụng primer có 10 Nu Vì nhiệt độ Tm thấp hơn rất nhiều ở thể 10 mers so với 20 mers, cho nên William và cộng sự đã sử dụng mọi điều kiện giống nhau cho tất cả các chu kỳ Thể đa hình DNA được xác định thông qua sản phẩm PCR trên gel, với đa hình về độ dài của các đoạn PCR Wiliiam gọi đó là RAPD

Trang 26

2.2.5 SSCP (Single- Strand Conformation Polymorphism)

ALP không phải luôn luôn được tìm thấy nếu những amplicon có cùng một độ dài, thậm chí trong trường hợp chúng có biến dị di truyền giữa những amplicon

Người ta tìm thấy có sự chuyển dịch của đoạn DNA dạng dây đơn, ngắn, trong điều kiện chưa qua quá trình biến hóa DNA thành dây đơn (denaturation) Người ta giả định: sự thay đổi chuỗi mã di truyền DNA là do sự thay đổi ngoại hình của dây đơn (single- strand conformation) Sự thay đổi này làm cho DNA chuyển dịch trên gel, tạo ra thể đa hình

Trong phân tích SSCP, phản ứng chuẩn PCR đã hoàn thành Sản phẩm của PCR này lại bị mở dây đơn lần nữa Các mẫu này được ngâm trong nước đá, hiện tượng “snap-back” sẽ xảy ra cấu trúc thứ cấp Để tránh hiện tượng đứt gãy cấu trúc thứ cấp, các mẫu này phải được xử lý trong điều kiện lạnh Nếu P32 được dùng trong PCR, thì phim chụp X quang sẽ thể hiện rõ trên gel Nếu không, người ta sẽ dùng bạc để nhuộm gel Nhuộm bạc trên DNA dây đơn (SS

DNA) sẽ nhạy cảm gấp trăm lần nhuộm ethidium bromide 2.2.6 SNP (Single Nucleotide Polymorphism)

Marker này thường dùng để phân tích genome người và được áp dụng cho nhiều genome sinh vật khác, nhờ đột biến điểm tại một Nucleotide trên genome

Yêu cầu SNP là:

Xác định chuỗi trình tự DNA Tần suất alen

Có hai phương pháp để tạo ra SNP: Dùng trực tiếp mã trình tự di truyền

Phân biệt các đột biến điểm thông qua dùng tách sắc ký lỏng

Thông thường dùng primer để thiết kế mã trình tự và các đoạn khuếch đại khoảng 500 cặp base Chúng có thể dùng phường pháp PCR tách hai cá thể và trộn các cá thể này chung, sau đó đun nóng và lai để thành lập các delux tương đồng và dị biệt

Trang 27

2.2.7 SSR (Simple Sequence Repeats)

Microsatellite là chuỗi mã di truyền lặp lại rất đơn giản, xảy ra ngẫu nhiên trong hầu hết genome thực vật, động vật và trên con người Chiều dài thường 1 – 100 bp Do đó, SSR có thể khuếch đại trong ống nghiệm bằng phương pháp PCR với tính phát triển của primer theo miền của hai bên trên một locus Ứng dụng kỹ thuật SSR chi phí ít hơn RFLP Do đó, hiện nay SSR được dùng để thiết kế bản đồ gen trong di truyền, chọn lọc giống, đa dạng hóa các vật liệu di truyền

2.2.8 Kỹ thuật STS (Sequence Tagged Site) và SCARP (Sequence Characterzied Amplified Region Primer)

 Khái niệm

Chỉ thị STS là chỉ thị bậc hai, phát triển từ các chỉ thị RFLP và AFLP đã được xác định vị trí trên bản đồ di truyền và liên kết với một tính trạng nào đó

Chỉ Thị SCARP là chỉ thị bậc hai, phát triển từ chỉ thị RAPD đã được xác định vị trí trên bản đồ di truyền và liên kết với một tính trạng nào đó  Ứng dụng:

Trong đánh giá và chọn giống nhờ chỉ thị phân tử

2.2.9 RFLP (Restriction Fragment Length Polymorphism)

 Nguyên lý:

Đa hình độ dài các đoạn cắt giới hạn – RFLP (Bot Stein et al., 1980), dùng cDNA hoặc DNA ngẫu nhiên trong hệ gen như mẫu dò để phát hiện các đoạn DNA có độ dài khác nhau được tạo ra khi cắt DNA hệ gen của mẫu nghiên cứu và phân tách bằng điện di trên gel

 Ưu điểm và hạn chế: Ưu điểm:

Phát hiện trên tất cả NST đồng dạng, phát hiện tính trạng đồng hợp tử và dị hợp tử

Ổn định và chính xác cao, không cần đọc trình tự Hạn chế:

Cần lượng DNA lớn (50 - 250 mg)

Trang 28

Tốn thời gian và công sức  Ứng dụng:

Microsatellite có tính đa hình rất cao (đa hình theo chiều dài), là những codominant-alen hay alen đồng trội (bao gồm 2 loại: alen đồng hợp và alen dị hợp), nó có các tính chất cần thiết chất cần thiết cho một marker Tần số đột biến từ 104 - 5.10-6, nó tuân theo định luật Mendel Vị trí của microsatellite trên nhiễm sắc thể có thể được xác định bằng PCR từ một lượng DNA rất nhỏ Xác định microsatellite PCR trên một loài nào đó thì có thể áp dụng trên những loài khác có quan hệ họ hàng

Ví dụ:

Mononucleotide SSR (A)11 AAAAAAAAAAA Dinucleotide SSR (GT)6

GTGTGTGTGTGT Trinucleotide SSR (CTG)4

CTGCTGCTGCTG Tetranucleotide SSR (ACTC)4

ACTCACTCACTCACTC

2.3.2 Các phương pháp phát hiện microsatellite

Có 2 phương pháp để phát hiện microsatllite: phương pháp lai và phương pháp PCR

Trang 29

2.3.2.1 Phương pháp lai

Phương pháp lai ghép phân tử cho phép xác định chính xác kiểu microsatellite bằng cách chuyển qua màng lai, cùng một lúc có thể phát hiện nhiều kiểu microsatellite bằng các mẫu dò khác nhau Tuy nhiên xác định chiều dài của chúng còn bị hạn chế

Trong phương pháp lai có hai cách: phương pháp phát hiện nhờ đồng vị phóng xạ và phương pháp nhuộm bạc

Phương pháp phát hiện nhờ đồng vị phóng xạ: Phương pháp hiệu quả và được dùng đầu tiên là đồng vị phóng xạ Người ta có thể đánh dấu vào một đầu của primer (end-labelling) hoặc đánh dấu và trộn lẫn một trong bốn thành phần nucleotide A, T, G, C (incorporation-labelling) Nhưng ngày nay phương pháp dùng đồng vị phóng xạ rất ít được sử dụng vì nguy hiểm đến sức khỏe con người và đòi hỏi việc xử lý chất thải tốn kém

Phương pháp nhuộm bạc (phát hiện không dùng phóng xạ): Phương pháp này rẻ, không độc hại nhưng độ nhạy cao, đòi hỏi một số kỹ thuật rắc rối khi nhuộm

Chất huỳnh quang này được gắn vào một đầu 5’ của cặp mồi, 40 ng mồi loại này đủ dùng cho 10000 phản ứng PCR

Phương pháp này có hiệu quả rất cao và đang được sử dụng phổ biến trên các phòng thí nghiệm trên thế giới Người ta có thể đánh dấu bằng 3 loại chất nhuộm huỳnh quang khác nhau, trong cùng một phản ứng PCR và

Trang 30

chạy cùng một giếng điện di, kể cả kích thước các đoạn bằng nhau nhưng chúng ta vẫn có thể xác định được nhờ màu huỳnh quang khác nhau

Kết quả được thể hiện trên máy tính, nhờ đó chúng ta có thể xác định được chính xác kích thước của alen, loại trừ những băng lặp lại (stuter DNA) hoặc thêm một nucleotide A,…

2.3.3 Vai trò của microsatellite

Rất nhiều microsatellite đã được tìm thấy ở vùng phía trên của các vùng

khởi đầu sao mã của vùng mang mã Chức năng rõ rệt của những vùng như

vậy vẫn còn chưa rõ ràng, mặc dù người ta tìm thấy chúng tồn tại giữa các vùng exon và có liên quan tới các bệnh di truyền

Microsatellite được dùng như một marker di truyền để nghiên cứu về di truyền quần thể, quan hệ tiến hóa, lập bản đồ gen Tuy nhiên có rất nhiều chứng cứ cho rằng trình tự microsatellite cũng đóng vai trò là yếu tố mang mã hoặc nhân tố điều hòa Microsatellite được tìm thấy khắp nơi ở phần trước vùng khởi đầu sao mã của vùng mang mã, và một số đã được tìm thấy có quan hệ với vùng mã hoá Số lượng khác nhau của các đoạn lặp lại của microsatellite ở vùng mã hoá có quan hệ với sự biểu hiện của gene và chức năng của gene

Ở một số trường hợp, sự thay đổi (mất hoặc thêm) các đơn vị lặp lại của microsatellite cũng làm thay đổi chức năng hoạt động của promotor Vị trí của microsatellite gần hay xa promotor cũng làm hoạt động của promotor thay đổi Vùng điều khiển có chứa microsatellite hoạt động như một nhân tố thúc đẩy quá trình phiên mã và những đột biến mất đoạn microsatellite đã làm giảm chức năng của gen

Microsatellite cũng liên kết với các protein bám mà các protein này có chức năng bám dính vào các trình tự khởi động của gen, khi trình tự này được giải phóng thì gen được khởi động và sao mã Điều này chỉ ra rằng microsatellite hoạt động như một yếu tố điều hòa trong quá trình sao mã, ảnh hưởng đến quá trình sao mã thông qua ảnh hướng đến protein bám Rất nhiều nghiên cứu chỉ ra rằng ảnh hưởng thúc đẩy của microsatellite và protein bám dính của nó là một chức năng của các đoạn lặp lại trong một vùng microsatellite đặc biệt nào đó Như một trình tự mang mã, microsatellite đã

Trang 31

được tìm thấy biểu hiện ở rất nhiều protein và sự khác nhau về số lần lặp lại của các trình tự trong microsatellite có thể dẫn đến sự khác nhau về chức năng của protein và hoạt động của gen, do đó có thể ảnh hưởng đến chức năng sinh lý cũng như sự phát triển của cơ thể

Một số nghiên cứu gần đây đã chỉ ra rằng có sự ảnh hưởng của chiều dài khác nhau của microsatellite đến hình thái và sự phát triển ở mức độ cơ quan được tổng kết lại như một yếu tố chức năng của hệ gen Những tính chất đặc biệt của microsatellite như sự đột biến điểm dẫn đến những giả thiết cho rằng microsatellite có thể là một nguồn chủ yếu tạo nên sự đa dạng về di truyền số lượng và quá trình tiến hóa thích nghi Nó cho phép một quần thể có thể khôi phục lại nguồn đa dạng di truyền đã bị mất trong quá trình chọn lọc, nó hoạt động như một “núm điều chỉnh” mà qua đó những gen đặc biệt có thể điều chỉnh nhanh chóng các phản ứng thay đổi ít hay nhiều trong quá trình đòi hỏi của tiến hóa Do vậy microsatellite là một nguồn rất quan trọng trong việc nghiên cứu đa dạng di truyền và làm cơ sở cho sự thay đổi của tiến hóa

2.3.4 Ứng dụng

Thiết kế bản đồ gen trong di truyền Đa dạng hóa vật liệu di truyền Nghiên cứu quần thể

Expressed Sequence Tag là một phần nhỏ của toàn bộ gen mà nó có thể được sử dụng để nhận biết những gen chưa biết và xác lập vị trí của chúng trong bộ gen

Trang 32

ESTs cung cấp một phương pháp nghiên cứu nhanh chóng và không tốn kém đối với việc khám phá ra các gen mới, tính bảo toàn của gen về biểu hiện và điều khiển hoạt động, và xây dựng bản đồ di truyền

2.4.2 Nguồn gốc của EST

ESTs là những mảnh nhỏ của cấu trúc DNA (thường có chiều dài từ 200 đến 500 Nucleotide), chúng được hình thành bởi một phần hay toàn bộ cấu trúc của một gen biểu hiện Đó là sự kết hợp những phần nhỏ DNA của gen nằm trong các tế bào, mô, cơ quan của những sinh vật khác nhau và sử dụng những “tags” này để thiết lập một gen nằm ngoài vị trí của chromosome bằng cách bắt cặp với các cặp base

Đây là sự kết hợp khó khăn của những gen đã biết từ các bộ gen khác nhau giữa các loài sinh vật và phụ thuộc vào kích thước của bộ gen khi có mặt hay không có mặt của các intron, sự can thiệp của cấu trúc DNA làm gián đoạn cấu trúc của gen quy định protein

2.5 Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu [1, 7]

2.5.1 Nguyên nhân ra đời của mô hình quan hệ (Relational Model)

Trong nhiều năm, công nghệ tính toán và thông tin phát triển từ những hệ thống lớn, đắt tiền, độc quyền đến các hệ thống mở mạnh và không đắt tiền Sự phát triển này mang lại lợi ích to lớn cho người dùng cuối bởi sự phát triển của các gói ứng dụng số như xử lý văn bản, bảng tính điện tử, văn phòng xuất bản, hệ quản lý cơ sở dữ liệu, máy tính trợ giúp công nghệ phần mềm

Trước khi máy tính hóa cơ sở dữ liệu đươc giới thiệu, dữ liệu được lưu trữ theo kiểu điện tử thành nhiều tập tin riêng biệt sử dụng hệ tập tin (hệ tập tin theo lối cũ) Những tập tin này được xử lý bằng các ngôn ngữ thế hệ thứ ba như Cobol, Fortran, Pascal và ngay cả Basic để tạo ra các giải pháp cho các vấn đề của doanh nghiệp Các ứng dụng như vậy tạo ra ba vấn đề sau:

Có sự liên kết chặt chẽ giữa cấu trúc luận lý và cấu trúc vật lý của các tập tin và chương trình ứng dụng khai thác chúng Điều này khiến việc tạo nên các ứng dụng này rất khó khăn, tốn nhiều thời gian và do vậy mà tốn kém trong bảo trì hệ thống

Có sự dư thừa dữ liệu rất lớn qua việc trùng lắp các tập tin trong các ứng dụng khác nhau Điều này tạo ra những vấn đề như: dữ liệu thiếu nhất

Trang 33

quán, không gian đĩa bị lãng phí, thời gian bảo trì và lưu phòng hờ các tập tin gia tăng, vấn đề về quản trị như không chú trọng bảo mật và tổ chức dữ liệu thiếu thống nhất

Người sử dụng có ít khả năng khai thác trực tiếp dữ liệu

2.5.2 Cơ sở dữ liệu (Database) và hệ quản trị cơ sở dữ liệu (Database Management System)

2.5.2.1 Định nghĩa cơ sở dữ liệu

Cơ sở dữ liệu là một tập hợp dữ liệu được tổ chức theo một cấu trúc chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn lọc, có tương quan, các mẫu tin và các cột Tập hợp dữ liệu sẽ được lưu trữ trên các thiết bị lưu trữ thông tin thứ cấp như băng từ, đĩa từ,… để thỏa mãn nhu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương trình ứng dụng với nhiều mục đích khác nhau

Ngày nay cơ sở dữ liệu tồn tại trong mỗi ứng dụng thông dụng Như vậy, các đặc tính của một cơ sở dữ liệu là:

Tính nhất quán Tính toàn vẹn Tính tích hợp Tính chia sẻ

Tính độc lập dữ liệu Tính an toàn

Tính bảo mật

2.5.2.2 Hệ quản trị cơ sở dữ liệu

Hệ quản trị cơ sở dữ liệu đầu tiên ra đời vào đầu những năm 60 dựa trên mô hình dữ liệu phân cấp và mô hình mạng Năm 1976 đánh dấu sự ra đời hệ quản trị cơ sở dữ liệu đầu tiên dựa trên mô hình quan hệ mang tên System-R Đến những năm 90, bắt đầu xuất hiện các hệ quản trị cơ sở dữ liệu dựa trên mô hình hướng đối tượng,… Tuy nhiên chúng vẫn dựa chủ yếu vào nền tảng là mô hình quan hệ Hệ quản trị ODMG ra đời năm 1996 được coi là hệ quản trị thuần hướng đối tượng nhất

Một hệ quản trị cơ sở dữ liệu là:

Trang 34

Một tập các phần mềm quản lý cơ sở dữ liệu và cung cấp các dịch vụ xử lý cơ sở dữ liệu cho các những người phát triển ứng dụng và người dùng cuối

Hệ quản trị cơ sở dữ liệu cung cấp một giao diện giữa người sử dụng và dữ liệu

Hệ quản trị cơ sở dữ liệu biến đổi cơ sở dữ liệu vật lý thành cơ sở dữ liệu logic

Hình 2 2 Sơ đồ một hệ quản trị cơ sở dữ liệu

Dựa vào cách tổ chức dữ liệu, hệ quản trị cơ sở dữ liệu được chia thành năm loại:

Loại phân cấp như hệ IMS của IBM

Loại mạng như IDMS của Cullinet Software Loại tập tin đảo như ADABAS của Software AG

Loại quan hệ như như ORACLE của Oracle, DB2 của IBM, ACCESS của Microsoft Access

Loại đối tượng là một tiếp cận khá mới trong thiết kế hệ quản trị cơ sở dữ liệu và việc sử dụng loại này sớm trở nên phổ biến

Hiện tại, loại hệ quản trị cơ sở dữ liệu chính được sử dụng trong công nghệ là loại hệ quản trị cơ sở dữ liệu quan hệ Loại này đã chiếm lĩnh trong công nghệ trên 10-15 năm cuối cùng khi đánh bật loại hệ quản trị cơ sở dữ liệu phân cấp và gần đây là hệ quản trị cơ sở dữ liệu mạng

Hiện nay, một số hệ quản trị cơ sở dữ liệu mạnh đang được đưa ra thị trường như Visual FoxPro, SQL-Server, Oracle,…

Một hệ quản trị cơ sở dữ liệu phải có khả năng giải quyết các vấn đề:

Trang 35

Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ liệu và tính chính xác của dữ liệu

Tính bảo mật và quyền khai thác thông tin của người sử dụng Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều người cùng truy cập vào một nguồn tài nguyên dữ liệu với các mục đích khác nhau nên hệ quản trị cơ sở dữ liệu phải có cơ chế ưu tiên truy cập dữ liệu

Phục hồi dữ liệu khi có sự cố

2.5.3 Các mô hình dữ liệu 2.5.3.1 Định nghĩa

Mô hình dữ liệu là sự trừu tượng hóa thế giới thực, là sự biểu diễn dữ liệu mức quan niệm Mô hình dữ liệu được phân loại dựa trên các cách tiếp cận dữ liệu khác nhau của các nhà phân tích, thiết kế cơ sở dữ liệu Mô hình dữ liệu hoàn toàn độc lập giữa hệ thống máy tính và cấu trúc dữ liệu

Hiện nay, có năm loại mô hình dữ liệu chính Đó là: Mô hình dữ liệu mạng: thập niên 60-70

Mô hình dữ liệu phân cấp: thập niên 60-70 Mô hình dữ liệu quan hệ: thập niên 80

Mô hình dữ liệu thực thể kết hợp: thập niên 90 Mô hình dữ liệu hướng đối tượng: thập niên 90

2.5.3.2 So sánh các mô hình dữ liệu

Sự ra đời của mô hình dữ liệu quan hệ đã khắc phục được những khó khăn khi thiết kế và quản lí cơ sở dữ liệu theo mô hình mạng và mô hình phân cấp

Thứ nhất, mô hình mạng và mô hình phân cấp sử dụng nguyên lý chủ nhân – thành viên, cha – con rất khó khăn cho việc thiết kế, sắp xếp và sau khi thiết kế xong muốn sửa đổi rất phức tạp, hầu như phải làm lại từ đầu Mô hình quan hệ tổ chức dữ liệu dưới dạng bảng dễ hiểu và đơn giản hơn trong việc thiết kế và sửa đổi sau này Ngoài ra, việc thiết kế mô hình quan hệ hoàn toàn độc lập với hệ quản trị cơ sở dữ liệu

Trang 36

Thứ hai, các ngôn ngữ để tạo và thao tác các cấu trúc trong mô hình mạng và mô hình phân cấp rất khó sử dụng Ví dụ khi sử dụng hệ quản trị IDMS đòi hỏi phải thông thạo về ngôn ngữ từ điển dữ liệu tích hợp và các trình biên dịch lược đồ và lược đồ con Trong khi đó, các hệ quản trị theo mô hình quan hệ dễ sử dụng hơn vì sử dụng ngôn ngữ truy vấn dữ liệu ở mức độ cao như SQL,…

Do những ưu điểm trên cơ sở dữ liệu quan hệ ngày càng được sử dụng rộng rãi Tuy nhiên, trong một số trường hợp, mô hình quan hệ trở nên không thích hợp, nhất là khi sử dụng nó để thể hiện những dữ liệu có quan hệ cấu trúc như cây hệ thống sinh học đối với những loại dữ liệu loại này, sử dụng mô hình dữ liệu hướng đối tượng là thích hợp nhất

Khi một cơ sở dữ liệu được xây dựng xong, thì việc tiếp theo là làm sao để có thể truy xuất thông tin từ cơ sở dữ liệu này, nghĩa là người dùng có thể nhận được các thông tin mà họ cần hay có thể bổ sung thêm một vài thông tin qua một giao diện thân thiện Hơn thế nữa, người dùng còn muốn chia sẻ thông tin với các nơi khác Để thực hiện được điều đó, người ta thường chọn giao thức CGI, hiển thị những đòi hỏi thông tin về cơ sở dữ liệu của người dùng thông qua dịch vụ web

2.5.4 Người dùng (User)

Người dùng khai thác cơ sở dữ liệu thông qua hệ quản trị cơ sở dữ liệu có thể phân thành ba loại: người quản trị cơ sở dữ liệu, người phát triển ứng dụng và lập trình, người dùng cuối

Người quản trị cơ sở dữ liệu, hàng ngày, chịu trách nhiệm quản lý và bảo trì cơ sở dữ liệu

Người phát triển và lập trình ứng dụng là những người chuyên nghiệp về máy tính có trách nhiệm thiết kế, tạo dựng và bảo trì hệ thông tin cho người dùng cuối

Người dùng cuối là những người không chuyên về máy tính nhưng họ là các chuyên gia trong các lãnh vực khác có trách nhiệm cụ thể trong tổ chức Họ khai thác cơ sở dữ liệu thông qua hệ được phát triển bởi người phát triển ứng dụng hay các công cụ truy vấn của hệ quản trị cơ sở dữ liệu

Trang 37

2.5.5 Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ

 Tiếp cận cơ sở dữ liệu đã giải quyết 3 vấn đề của hệ tập tin theo lối cũ:

2.5.5.1 Vấn đề 1: Cấu trúc logic và cấu trúc vật lý

Hình 2 3 So sánh cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ

Kiến trúc bên trong hệ quản trị cơ sở dữ liệu quan hệ tách biệt rõ ràng giữa:

Cấu trúc luận lý của tất cả tập tin và chương trình ứng dụng khai thác tập tin này

Cấu trúc vật lý của cơ sở dữ liệu và phần lưu trữ các tập tin

Tiếp cận này tạo cho người quản trị cơ sở dữ liệu có thể thay đổi cấu trúc vật lý hay nơi lưu trữ của tập tin mà không ảnh hưởng đến chương trình ứng dụng

2.5.5.2 Vấn đề 2: Dư thừa dữ liệu

Khi hệ quản trị cơ sở dữ liệu quan hệ được giới thiệu, nhiều tổ chức mong tích hợp các tập tin đã phân tán khắp trong tổ chức vào một cơ sở dữ liệu tập trung Dữ liệu có thể chia sẻ cho nhiều ứng dụng khác nhau và người sử dụng có thể khai thác đồng thời các tập con dữ liệu liên quan đến họ Điều này làm hạn chế sự dư thừa dữ liệu

2.5.5.3 Vấn đề 3: Sự khai thác dữ liệu của người sử dụng

Trong hệ quản trị cơ sở dữ liệu quan hệ người dùng có thể trực tiếp khai thác dữ liệu thông qua việc sử dụng các câu truy vấn hay các công cụ

báo cáo được cung cấp bởi hệ quản trị cơ sở dữ liệu

Trang 38

2.6 Internet và Web [5] 2.6.1 Sơ lƣợc về Internet

2.6.1.1 Tóm lƣợc lịch sử phát triển

Năm 1957, Bộ quốc phòng Mỹ thành lập cơ quan nghiên cứu các dự án kỹ thuật cao ARPA (Advanced Research Projects Agency), thuộc một bộ phận trong bộ quốc phòng Chỉ một thập niên sau, năm 1969, ARPA thiết lập mạng ARPANET – tiền thân của Internet ngày nay ARPANET là một mạng máy tính nối bốn máy chủ tại các trường đại học California – Los Angeles, đại học California – Santa Barbara, viện nghiên cứu Standford và đại học Utah lại với nhau

Từ năm 1969 đến 1986, số lượng máy chủ tăng lên khoảng năm ngàn Đến năm 1973, mạng xuyên quốc gia đầu tiên được thiết lập giữa hai nước Anh và Na Uy

Năm 1982, giao thức TCP/IP ra đời và nhanh chóng trở thành giao thức chuẩn

Năm 1985 là năm bùng nổ Internet lần thứ 1 khi xa lộ thông tin thực sự hình thành Lúc này có khoảng 2000 máy trên Internet

2.6.1.2 Tổng quát về Internet

Internet là kho tài nguyên thông tin, là mạng của các mạng, là một tổ hợp hàng triệu máy tính trên toàn thế giới, có thể trao đổi, chia sẻ nguồn thông tin hầu như vô tận với nhau cho dù người dùng đang ở đâu và vào lúc nào Các máy tính có thể đủ các loại và sử dụng các hệ điều hành khác nhau một cách bình đẳng

Như vậy Internet là một mạng khổng lồ được tạo ra bằng việc kết nối các máy tính và các mạng máy tính lại với nhau Nó kết hợp nhiều mạng máy tính riêng rẽ của các trường học, thư viện, các hãng kinh doanh, bệnh viện, các tổ chức nhà nước, viện nghiên cứu… và nhiều thành phần khác vào trong một mạng chung rộng lớn mang tính chất toàn cầu

Từ đó, một loạt các thuật ngữ lần lượt ra đời như webServer, webClient, webPage, webSite, URL:

WebServer: Máy cung cấp thông tin dạng web WebClient: Máy truy xuất thông tin từ web server

Trang 39

WebSite: Tập hợp các trang web của một tổ chức, một website có thể có nhiều web server

WebPage: Một trang tự liệu web

URL (Uniform Resource Locator) đường dẫn chỉ đến một tập tin trong một máy chủ trên Internet

Việc kết nối về mặt vật lý các mạng máy tính này được thực hiện thông qua các mạng viễn thông khác nhau như mạng điện thoại công cộng, kênh vệ tinh (satellite), các kênh vi-ba (micro-waves), các đường thuê riêng (dedicated lines), hoặc cáp quang (optical cable),…

Không thể có được sơ đồ cụ thể của mạng Internet vì các máy tính và các mạng máy tính liên tục đăng ký thêm vào mạng Internet cũng như các thông tin trên mạng cũng liên tục được thay đổi, cập nhật

Trang 40

2.6.2 Các dịch vụ đƣợc cung cấp trên Internet 2.6.2.1 Phân loại khối thông tin

 Khối thông tin mở cho công cộng: bao gồm các thông tin về văn hóa, xã hội, giáo dục và đào tạo, khoa học kỹ thuật, kết quả của các công trình nghiên cứu khoa học công nghệ Bất cứ ai thuộc mạng, một khi đã truy cập vào mạng, tại bất kỳ điểm nút nào, bất cứ lúc nào đều có thể khai thác và nhận được tất cả thông tin thuộc loại mở này

 Khối thông tin không mở cho công cộng: bao gồm các hệ thống cơ sở dữ liệu chuyên ngành do các tổ chức có mạng con hoặc có các máy chủ ở bất cứ nước nào xây dựng và thiết lập để phục vụ cho các nhu cầu riêng của họ và để bán thông tin Các cơ sở dữ liệu này thường được bảo mật cao, chỉ những người sử dụng nào được phép mới có quyền truy nhập và khai thác

2.6.2.2 Các dịch vụ cơ bản

 Tìm kiếm thông tin  Thư điện tử

 Truyền File  Trao đổi trực tiếp  Truy cập máy tính khác

2.6.3 Tích hợp cơ sở dự liệu với web

Có nhiều kỹ thuật được dùng để tích hợp cơ sở dữ liệu với web để tạo ra trang web động như CGI, PHP, ASP, JSP, Coldfusion

2.7 Ngôn ngữ lập trình Perl và Javascript 2.7.1 Ngôn ngữ Perl [7]

2.7.1.1 Tóm tắt lịch sử phát triển

Perl là chữ viết tắt của “Practical Extraction and Report Language” Larry Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các mạng máy tính lớn Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị ảnh hưởng bởi ngôn ngữ khác như BASIC, awk, sed và UNIX shell

Năm 1987, Perl 1.0 ra đời