Khai thác dữ liệu EST nhằm phát hiện Microsatellite phục vụ cho công tác phân tích và so sánh đặc điểm di truyền của ong mật
Trang 11
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
************
KHÓA LUẬN TỐT NGHIỆP
KHAI THÁC DỮ LIỆU EST (Expressed Sequence Tags) NHẰM PHÁT HIỆN MICROSATELLITE PHỤC VỤ CHO
CÔNG TÁC PHÂN TÍCH VÀ SO SÁNH ĐẶC ĐIỂM DI TRUYỀN CỦA ONG MẬT
Ngành học: CÔNG NGHỆ SINH HỌC Niên khóa: 2002-2006
Sinh viên thực hiện: TRẦN NGỌC VIỆT
Thành phố Hồ Chí Minh Tháng 8/2006
Trang 22
TRƯỜNG ĐẠI HỌC NÔNG LÂM THÀNH PHỐ HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
Thành phố Hồ Chí Minh Tháng 8/2006
Trang 3iii
LỜI CẢM TẠ
Cảm ơn công lao nuôi dưỡng, dạy dỗ của cha mẹ
Xin chân thành cảm tạ
Ban Giám hiệu Trường Đại học Nông Lâm Thành Phố Hồ Chí Minh
Ban chủ nhiệm Bộ Môn Công nghệ Sinh Học cùng tất cả quý thầy cô đã truyền đạt kiến thức cho tôi trong suốt quá trình học tại trường
Chân thành cảm ơn
TS Bùi Minh Trí đã tận tình hướng dẫn, giúp đỡ tôi trong suốt thời gian thực hiện đề tài tốt nghiệp
Xin cảm ơn CN Lưu Phúc Lợi đã giúp đỡ, hỗ trợ tài liệu chuyên môn
Cảm ơn các anh chị tại phòng Sinh Hóa đã tạo điều kiện tốt cho tôi khi tiến hành thực hiện công việc tại Trung Tâm
Xin cảm ơn bạn bè thân yêu của lớp DH02SH đã chia sẻ cùng tôi những vui buồn trong thời gian học cũng như hết lòng hỗ trợ, giúp đỡ tôi trong thời gian thực hiện đề tài
Tp Hồ Chí Minh tháng 08 năm 2006 Sinh viên thực hiện
Trần Ngọc Việt
Trang 4iv
TÓM TẮT
TRẦN NGỌC VIỆT, Đại Học Nông Lâm Thành phố Hồ Chí Minh Tháng 8/2006 “KHAI THÁC DỮ LIỆU EST (Expressed Sequence Tags) NHẰM PHÁT HIỆN MICROSATELLITE PHỤC VỤ CHO CÔNG TÁC PHÂN TÍCH VÀ SO SÁNH ĐẶC ĐIỂM DI TRUYỀN CỦA ONG MẬT”
Giảng viên hướng dẫn: TS BÙI MINH TRÍ
Thời gian nghiên cứu: từ tháng 2 đến tháng 7 năm 2006
Địa điểm nghiên cứu: Trung tâm Phân tích Thí Nghiệm - trường Đại học Nông Lâm TP Hồ Chí Minh
Ở Việt Nam, nghề nuôi ong mật đã hình thành rất lâu và hiện nay các sản phẩm của ong mật hầu hết là được xuất khẩu Hiệu quả kinh tế mang về từ nghề nuôi là khá cao Tuy nhiên, việc nuôi ong chỉ tập trung chủ yếu ở một số vùng nhất định như Tây Nguyên (Đak Lak), miền Đông Nam Bộ, chưa tận dụng được hết nguồn tài nguyên có sẵn Sự hạn chế này là do chưa xác định được loài ong cho mật nào phù hợp với từng vùng địa lý cụ thể tại Việt Nam Chính vì thế chúng tôi tiến hành nghiên cứu về việc thiết lập nên primer chạy phản ứng PCR dựa vào chỉ thị microsatellite của các loài ong cho mật để làm cơ sở cho những bước nghiên cứu định danh và xác định đặc điểm di truyền của ong mật phục vụ cho việc mở rộng nghề nuôi ong mật ở các vùng ở Việt Nam
Những kết quả đã đạt được:
۰ Chúng tôi đã chọn được một nguồn dữ liệu (EST) tốt cho nghiên cứu ۰ Thiết lập được phương pháp để tìm kiếm microsatellite từ nguồn EST ۰ Thiết kế được những cặp primer dựa vào vùng bảo tồn hai bên những loại microsatellite tìm được
Kết luận: Sự thành công của việc thiết kế primer đã làm cơ sở cho những bước
nghiên cứu xa hơn về đặc điểm di truyền của các loài ong cho mật Thành công này mở ra một triển vọng cho việc ứng dụng lĩnh vực Bioinformatic hỗ trợ cho nghiên cứu thực nghiệm, làm giảm đáng kể chi phí và đẩy nhanh tốc độ nghiên cứu thực nghiệm tại Trung Tâm
Trang 5v
MỤC LỤC
CHƯƠNG TRANG Trang tựa
2 TỔNG QUAN TÀI LIỆU 3
2.1 Giới thiệu chung về ong mật 3
2.1.1 Cấu tạo cơ thể của ong mật 3
Trang 62.3.4 Marker phân tử (molecular markers) 13
2.3.5 Vì sao chọn marker microsatellite? 14
2.4 Ngôn ngữ lập trình Perl (Practical Extraction and Reporting Language) 15
2.4.1 Nguồn gốc của Perl 15
2.4.2 Cấu trúc của Perl 16
2.4.2.1 Dữ liệu vô hướng (scala data) 16
2.4.2.2 Cấu trúc điều khiển 16
2.4.2.3 Các List, Array và Hash 19
2.4.2.4 Dòng chương trình và các thường trình con 19
2.4.2.5 Package và Module 20
2.5 Giới thiệu về mồi (primer) 21
2.5.1 Khái quát về mồi 21
2.5.2 Đặc điểm của mồi 21
2.5.2.1 Tính chuyên biệt 21
2.5.2.2 Tính ổn định 22
2.5.2.3 Tính tương thích 23
2.6 Tin sinh học 24
2.6.1 Khái niệm tin sinh học 24
2.6.2 Các lĩnh vực nghiên cứu chính của tin sinh học 24
2.6.2.1 Genomics - Hệ gen học 24
2.6.2.2 Sinh học tiến hóa 26
2.6.2.3 Phân tích chức năng gen 26
3 PHƯƠNG TIỆN VÀ PHƯƠNG PHÁP NGHIÊN CỨU 29
3.1 Thời gian và địa điểm tiến hành nghiên cứu 29
3.1.1 Thời gian nghiên cứu 29
3.1.2 Địa điểm nghiên cứu 29
3.2 Vật liệu và công cụ nghiên cứu 29
3.2.1 Vật liệu nghiên cứu 29
Trang 7vii
3.2.2 Công cụ nghiên cứu 29
3.3 Phương pháp tiến hành nghiên cứu 30
3.3.1 Quy trình nghiên cứu tổng quát 30
3.3.2 Phương pháp nghiên cứu 31
3.3.2.1 Sơ đồ các bước tiến hành nghiên cứu 31
3.3.2.2 Các bước tiến hành nghiên cứu chi tiết 32
4 KẾT QUẢ VÀ THẢO LUẬN 42
4.1 Kết quả tìm kiếm và tải trình tự EST về máy tính cá nhân 42
4.1.1 Kết quả tìm kiếm EST 42
4.1.2 Kết quả tải trình tự EST về máy tính cá nhân 43
4.2 Kết quả tìm và phân loại microsatellite 44
4.2.1 Kết quả tìm microsatellite qua xử lý của EST_TRIMMER 44
4.2.2 Kết quả xử lý qua MISA 45
4.3 Kết quả thiết kế primer 49
4.3.1 Kết quả thiết kế primer qua 6 Script Perl 49
4.3.2 Kết quả so sánh và chọn lọc primer được thiết kế 56
Trang 8EMBL the European Molecular Biology Laborary EST Expressed Sequence Tags
NCBI the National Center for Biotechnology Information MPSS Massively Parllel Signatur Sequencing
PCR Polymerase Chain Reaction PDA Primer Design Assitant
PERL Practical Extraction and Reporting Language RAPD Radom Aplified Polymorphic DNA
RFLP Restriction Fragment Length Polymorphism SNP Single Nucleotide Polymorphism
SSCP Single Strand Conformation Polymorphism SSR Simple Sequence Repeats
STS Sequence Tagged Sites
Trang 9ix
DANH SÁCH CÁC BẢNG
BẢNG TRANG
Bảng 2.1 Tên gọi một số marker DNA 13
Bảng 4.1 Kết quả xử lý qua MISA 47
Bảng 4.2 Thành phần của các dạng microsatellite 47
Bảng 4.3 Tỷ lệ phần trăm các dạng microsatellite 48
Bảng 4.4 Phần trăm các loại microsatellite chiếm tỷ lệ cao 48
Bảng 4.5 Kết quả primer của dạng dinucleotide SSR 54
Bảng 4.6 Kết quả primer của dạng trinucleotide SSR 55
Bảng 4.7 Kết quả primer của dạng tetranucleotide SSR 56
Bảng 4.8 Kết quả primer sau cùng của dạng dinucleotide SSR 57
Bảng 4.9 Kết Quả primer sau cùng của dạng tri/tetra-nucleotide SSR 57
Bảng 4.10 Trình bày loại SSR và mã số truy cập của EST 58
Trang 10x
DANH SÁCH CÁC HÌNH
HÌNH TRANG
Hình 2.1 Hình thái các loài ong cho mật 3
Hình 2.2 Thể hiện ba phần chính của ong 4
Hình 2.3 Hình thái phần đầu của con ong 4
Hình 2.4 Hình thái phần ngực của con ong 5
Hình 2.5 Hình thái phần bụng của con ong 5
Hình 2.6 Sơ đồ nguồn gốc của EST 9
Hình 2.7 Cách thức tạo nên EST 10
Hình 2.8 Cơ chế bắt chéo lỗi trong giảm phân 11
Hình 2.9 Cơ chế trượt lỗi trong quá trình sao mã 12
Hình 3.1 Trình bày qui trình nghiên cứu tổng quát 30
Hình 3.2 Các bước tiến hành nghiên cứu chính 31
Hình 3.3 Giao diện trên trang NCBI với từ khóa honeybee 32
Hình 3.4 Cú pháp thực thi của EST_TRIMMER 35
Hình 3.5 Cú pháp thực thi của MISA 36
Hình 3.6 Giao diện của Primer3 38
Hình 3.7 Giao diện của PrimerQuest 40
Hình 3.8 Giao diện của PDA 40
Hình 3.9 Giao diện của DNAClub 41
Hình 4.1 Kết quả tìm thấy EST trên NCBI 42
Hình 4.2 Kết quả download với tùy chọn có sẵn của NCBI 43
Hình 4.3 Kết quả thực thi 4 tác vụ của EST_TRIMMER 45
Hình 4.4 File chứa kết quả trình tự EST được chọn 45
Hình 4.5 File định dạng FASTA 45
Hình 4.6 Thể hiện kết quả thực thi của MISA 46
Hình 4.7 Kết quả của file new_ids170404 49
Hình 4.8 Kết quả trình diễn của ssrout170404 50
Hình 4.9 Kết quả trình diễn của labdbout170404 50
Hình 4.10 Xuất kết quả các thông số thiết lập từ script 51
Hình 4.11 Trình bày primer được thiết kế 51
Trang 11xi
Hình 4.12 Trình diễn của rescreened170404 52
Hình 4.13 Kết quả màn hình xử lý qua 4_ssr_blast 52
Hình 4.14 Thể hiện EST và primer sau cùng 53
Hình 4.15 Trình bày primer đạt đƣợc sau cùng 53
Hình 5.1 Qui trình nghiên cứu thiết kế primer 59
Trang 12Sự đa dạng và giá trị di truyền học của ong mật cần phải có phương pháp để định danh chính xác từng loài và dưới loài (thứ) Điều này rất cần thiết, nó có tác động quyết định đến hiệu quả kinh tế trong nghề nuôi ong nói riêng và ý nghĩa về bảo vệ đa dang sinh học nói chung Công việc này sẽ phục vụ đắc lực trong việc tuyển chọn được loài ong phù hợp nhất cho nghề nuôi ong ở từng vùng địa lý riêng (như nguồn mật hoa, thời tiết…), đảm bảo bảo vệ “thuần khiết” đặc điểm di truyền ban đầu của mỗi loài ong
Hiện nay, marker microsatellite là một chọn lựa tốt trong việc phân tích sự đa dạng di truyền, lập bản đồ di truyền, nhận biết giữa các loài và các cá thể trong một loài Dựa trên nguồn dữ liệu EST (Expressed Sequence Tags) chúng ta có thể tìm ra đươc những vị trí microsatellite có ở trên các EST một cách nhanh chóng nhờ vào lĩnh vực nghiên cứu gọi là tin sinh học (bioinformatics)
Việc ứng dụng bioinformatic sẽ làm cho công việc nghiên cứu trở nên dễ dàng và chính xác hơn rất nhiều Bioinformatic là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê và khoa học máy tính để giải quyết các vấn đề sinh học
Trên cơ sở đó tôi tiến hành thực hiện đề tài:
“Khai thác dữ liệu EST (Expressed Sequence Tags) nhằm phát hiện microsatellite phục vụ cho công tác so sánh và phân tích đặc điểm di truyền của ong mật”
Trang 13Đề tài được thực hiện dưới sự hướng dẫn của TS Bùi Minh Trí Đối tượng
nghiên cứu là các loài ong cho mật
1.2 Mục đích và yêu cầu nghiên cứu
- So sánh lựa chọn, thiết kế được các công cụ tin học phù hợp nhất cho công việc nghiên cứu
- Đề tài chỉ thực hiện trên loài ong mật
- Chỉ tiến hành thiết kế mồi và khảo sát toàn bộ qui trình trên lý thuyết mà chưa được tiến hành kiểm tra lại bằng thực nghiệm
- Năng lực và thời gian có giới hạn nên việc nghiên cứu sẽ có những hạn chế nhất định
Trang 14Phần 2
TỔNG QUAN TÀI LIỆU
2.1 Giới thiệu chung về ong mật
Trong thế giới động vật, ong mật thuộc ngành chân đốt (Athropoda), lớp côn trùng (Insecta), bộ cánh màng (Hymenoptera), họ ong mật (Apisdae), giống ong mật (Apis) Ong mật xuất hiện cách đây khoảng 40 triệu năm được tìm thấy trong mẫu hóa thạch vào thời kỳ Eocene (Mark L Winston, 1987)
Trên thế giới có 7 loài ong cho mật, ở Việt Nam có 4 loài chính:
1 Apis mellifera: Ong Ý 2 Apis cerena: Ong ruồi
3 Apis dorsata: Ong khoái hay ong gác kèo 4 Apis florae: Ong muỗi
Trong đó hai loài Apis mellifera và Apis cerena có giá trị kinh tế cao, đang
được nuôi rộng rãi Hai loài còn lại chỉ được khai thác tự nhiên
2.1.1 Cấu tạo cơ thể của ong mật
2.1.1.1 Hình thái cơ thể
Hình 2.1 Hình thái các loài ong cho mật
Ong có bộ vỏ bao ngoài được cấu tạo bởi chất chitin có vai trò như khung xương ngoài nâng đỡ các cơ quan bên trong và chống lại các nhân tố bất lợi bên ngoài Cơ thể ong gồm ba phần khớp động với nhau: đầu, ngực và bụng Trong quá trình phát triển cơ thể ong phải trải qua những lần lột xác
Trang 15Hình 2.2 Thể hiện 3 phần chính của ong
Phần đầu
Hình 2.3 Hình thái phần đầu của con ong
Đầu con ong có cấu tạo hình hộp, trên đầu có hai mắt kép Đỉnh đầu có ba mắt đơn phân bố dạng tam giác Trước đầu có một đôi râu có nhiều đốt (râu ong đực có 12 đốt, râu ong chúa và ong thợ có 11 đốt), râu của ong là cơ quan xúc giác rất nhạy
Miệng và vòi ong có đặc điểm khác với những loài côn trùng khác có chức năng cắn, nghiền, hút Ong dùng hàm trên cắn vật cứng, nghiền phấn hoa… Vòi hút của ong đặc trưng cho từng giống, ong dùng vòi hút để hút mật hoa, sirô, nước
Phần ngực
Ngực gồm 3 đốt: đốt ngực trước, đốt ngực giữa và đốt ngực sau Phần ngực mang các cơ quan vận động là cánh và chân ong Các đốt ngực được chia ra nửa lưng và nửa bụng
Ngực gồm 3 đốt: đốt ngực trước, đốt ngực giữa và đốt ngực sau Phần ngực mang các cơ quan vận động là cánh và chân ong Các đốt ngực được chia ra nửa lưng và nửa bụng
Trang 16
Hình 2.4 Hình thái phần ngực của con ong
Nửa lưng có 2 đôi cánh: đôi cánh trước lớn hơn đôi cánh sau, khi ong bay đôi cánh trước móc lại với đôi cánh sau thông qua hệ thống móc cánh Nửa bụng của phần ngực có 3 đôi chân gắn vào 3 đốt ngực tương ứng
Phần bụng
Hình 2.5 Hình thái phần bụng của con ong
Bụng ong có 6 đốt và nối với phần ngực qua đốt chuyển tiếp Mỗi đốt gồm hai nửa: nửa lưng và nửa bụng, các đốt bụng nối với nhau bằng màng kitin mỏng và đàn hồi (nhờ màng này ong có thể thay đổi thể tích bụng), hai bên mỗi đốt bụng có lỗ thở
Ở phần bụng của 4 đốt bụng cuối cùng có cơ quan tiết sáp, cuối bụng có ngòi đốt (ong đực không có ngòi đốt, ong chúa trưởng thành thì ngòi đốt có tác dụng như một máng đẻ trứng và là một vũ khi đánh nhau với các con ong chúa khác)
Giữa đốt bụng thứ 5 và thứ 6 của ong có tuyến Naxonop tiết ra mùi đặc trưng cho đàn ong (ở ong chúa tuyến này phát triển mạnh và tiết ra mùi đặc trưng gọi là chất chúa để điều khiển hoạt động bìng thường của đàn ong)
Trang 172.1.1.2 Các cơ quan bên trong Cơ quan tiêu hóa
Ong mật thuộc vào các côn trùng ding dưỡng chuyên tính, cơ quan tiêu hóa còn là nơi dự trữ tạm thời mật khi thu và chuyển về tổ
Cơ quan hô hấp
Gồm hai lỗ thở, hệ thống khí quản phân nhiều nhánh, các túi khí và hệ
thống mao quản trao đổi khí với các tế bào, mô trong cơ thể
Cơ quan tuần hoàn
Hệ thống tuần hoàn của ong là hệ thống mở, tim gồm 5 ngăn, hai bên sườn của mỗi ngăn có các cửa để máu lưu thông
Cơ quan thần kinh
Cơ quan thần kinh của ong mật phát triển cao, bảo đảm mối liên hệ của đàn ong với môi trường xung quanh, điều khiển mọi hoạt động thống nhất trong cơ thể ong Cơ quan thần kinh của ong chia làm ba phần: thần kinh trung ương, thần kinh ngoại biên, thần kinh thực vật
Cơ quan sinh dục
Cơ quan sinh dục của ong chúa gồm hai buồn trứng hình quả lê, mỗi buồn trứng có rất nhiều ống dẫn trứng nằm song song với nhau
Cơ quan sinh dục của ong thợ về cấu tạo giống như cơ quan sinh dục của ong chúa, nhưng không được phát triển hoàn chỉnh, hai buồn trứng ong thợ có dạng dải
Cơ quan sinh dục của ong đực gồm hai đôi dịch hoàn: ống dẫn tinh, tuyến phụ và bộ phận giao phối
2.1.2 Tổ chức của đàn ong
Đàn ong là một tổ chức phức tạp gồm hàng nghìn con liên kết với nhau thành một đơn vị thống nhất bằng quá trình trao đổi chất Nhờ có sự thống nhất giữa các cá thể, đàn ong có thể giữ được nhiệt độ tối ưu trong tổ, thu được nhiều mật và phấn hoa, bảo vệ tổ chống kẻ thù và phát triển Mỗi đàn ong có những đặc điểm cá thể riêng: mùi đặc thù, khả năng khai thác mật và tiết sáp, khả năng chia đàn, sức chống bệnh truyền nhiễm…
Trang 18Đàn ong chỉ sống và phát triển khi có đủ các thành phần Mỗi cá thể trong đàn (ong chúa, ong thợ, ong đực) thực hiện một chức năng nhất định theo hướng bảo tồn và kéo dài cuộc sống của cả đàn
Ong chúa: ong chúa làm nhiệm vụ đẻ trứng
Ong thợ: ong thợ làm nhiệm vụ nuôi ấu trùng, lấy mật và phấn hoa, xây bánh tổ, điều chỉnh nhiệt độ, làm sạch tổ, bảo vệ tổ, chăm sóc ong chúa…
Ong đực: nhiệm vụ của ong đực là giao phối với ong chúa tơ
2.1.3 Yêu cầu dinh dưỡng của ong
Khẩu phần ăn tự nhiên của ong mật trưởng thành phải có: protein (amino acid), carbonhydrate (đường), lipid (acid béo, sterol), vitamin, chất khoáng (muối), nước Những nguồn dinh dưỡng này trong khẩu phần ăn phải được xác định rõ tỉ lệ về số lượng và chất lượng để đạt được mức dinh dưỡng cao nhất
2.1.4 Các sản phẩm của ong mật
2.1.4.1 Mật ong
Thành phần mật ong có trên 65% dạng đường khử gồm glucose và fructose, còn saccharose ít, chỉ có khoảng 5% Ngoài ra trong quá trình luyện mật hoa, con ong còn tiết ra một số acid hữu cơ có tác dụng làm cho đường trong mật ong không bị lên men
2.1.4.2 Phấn hoa
Phấn hoa là sản phẩm giàu dinh dưỡng được ong thu từ nhị hoa của các loài hoa khác nhau để làm thức ăn cho chúng Phấn hoa chứa 30 – 35% protein, trong đó 10% là acid amin tự do, các enzyme, vitamin… (phấn hoa chứa 21 acid amin cần thiết cho cơ thể, trong đó có 10 acid amin không thay thế)
Dùng phấn hoa có tác dụng tốt cho cơ thể, tăng cường sức khỏe vì phấn hoa có nhiều chất dinh dưỡng dễ hấp thụ…
2.1.4.3 Sữa ong chúa
Sữa ong chúa (tên gọi có nguồn gốc lịch sử) là nguồn dinh dưỡng cao cấp, là sản phẩm đặc biệt Nó là nguồn thức ăn duy nhất để nuôi ong chúa và ấu
Trang 19trùng của ong chúa do ong thợ non tiết ra Sữa ong chúa có thành phần dinh dưỡng như sau: protein (18%), lipid (6,46%), các vitamin, chất khô (39,95%), tro (0,83%)
Sữa ong chúa kích thích quá trình trao đổi lipid và protein giúp cơ thể khỏe mạnh Sữa ong chúa giàu hormon, vitamin E có tác dụng kích thích sinh lý, tái tạo tế bào, chống sự già cỗi của các hệ thống tế bào Sữa ong chúa dùng để chữa các bệnh đường tiêu hóa, gan, thận, nâng cao sức đề kháng với các bệnh truyền nhiễm
2.1.4.4 Sáp ong
Sáp ong là dẫn xuất của acid béo no và không no có phân tử lượng lớn, các acid tự do và rượu gồm 50 hợp chất, 75% là este, carbonhydrate 12 – 15%, acid béo tự do 13 – 15%
Ngoài ra còn có nọc ong và keo ong là những sản phẩm dược liệu thiên nhiên có giá trị cao do ong mật tạo ra
2.2 Nguồn gốc EST (Expressed Sequence Tags)
Một Expressed Sequence Tag (EST) có thể sử dụng giúp cho việc xác đinh những gen chưa biết và lập bản đồ của chúng trong một bộ gen (genome)
Trang 20
2.2.2 Phương pháp tạo EST
Sơ đồ nguồn gốc của EST
Hình 2.6 Sơ đồ nguồn gốc của EST
Sử dụng mRNA để tạo cDNA
cDNA là gì?
cDNA là một dạng của DNA được tạo ra trong các phòng thí nghiệm, sử dụng một loại enzyme gọi là reverse transcriptase Tạo cDNA đi ngược với tiến trình bình thường của sự sao mã trong tế bào Bởi vì, người sản xuất sử dụng mRNA làm khuôn (template) chứ không phải DNA Không giống như DNA của bộ gen, cDNA chỉ chứa exon hay gen biểu hiện
mRNA là một chìa khóa để tìm thấy những gen biểu hiện trong bộ gen Tuy nhiên, mRNA không bền vững ở bên ngoài tế bào Do đó, các nhà khoa học đã sử dụng một loại enzyme đặc biệt để biến đổi nó thành dạng DNA (cDNA) bổ sung (complementary DNA) cDNA có cấu tạo bền vững hơn rất nhiều so với mRNA Vì được tạo ra từ mRNA, các intron đã được bị loại bỏ nên cDNA chỉ đại diện cho những trình tự DNA biểu hiện
Từ cDNA đến EST
Một cDNA đại diện cho một gen biểu hiện được phân lập, sau đó các nhà khoa học có thể giải trình tự từ hai đầu của phân tử này thường khoảng 100 đến vài trăm nucleotide (khoảng 500 nucleotide) để tạo ra hai loại EST Đó có thể là 5‟EST và 3‟EST
Trang 21Hình 2.7 Cách thức tạo nên EST
2.3 Microsatellite là gì?
Microsatellite là trình tự đơn lặp lại (Simple Sequence Repeats - SSR) từ 1 – 10 nucleotide Chúng xuất hiện khắp trong các loài sinh vật bậc cao, mặc dù tần số xuất hiện của SSR có sự biến đổi giữa các loài SSR rất phong phú, nằm rải rác khắp nơi trong bộ gen và cho thấy mức độ đa hình cao hơn so với các marker di truyền khác Những đặc điểm này, kết hợp lại làm cho SSR đƣợc xác định một cách dễ dàng, chúng đƣợc sử dụng làm marker phân tử Khả năng tự thừa kế của SSR trong những tính trạng trội, đó là những thuận lợi mà chúng có đƣợc khi so sánh với các loại marker phân tử khác SSR gần đây đã trở thành marker di truyền quan trọng, đặc biệt là với các loài ngũ cốc nhƣ lúa mì và lúa mạch
Trang 22Dạng trinucleotide xuất hiện ít hơn dạng dinucleotide tới 10 lần, dạng tetranucleotide thì ít hơn dạng trinucleotide (Ma và ctv., 1996)
Sự lặp lại của polyA/T là rất phổ biến ở các loài Tuy nhiên, sự phân bố giữa các loài rất khác nhau Dạng này thường không ổn định vì vậy trong phân tích di truyền và lập bản đồ di truyền… là không phù hợp
Dạng CA/GT thường gặp trong các loài có vú, gấp đôi dạng AT và gấp 3 dạng AG/CT Ở thực vật dạng thường gặp là AA/TT và AT/TA Chúng có thể được phần thành ba dạng, sau đây là 3 ví dụ cụ thể:
Dạng liên tục: ATATATATATATAT Dạng kết hợp: GCGCGCGC TATATA
Dạng ngắt quảng: CACACACA TGCT CACACACA
Loại đa hình cao nhất là dạng không bị ngắt quãng Tuy nhiên, trong thực tế dạng kêt hợp và ngắt quãng được tìm thấy nhiều hơn
2.3.2 Cơ chế hình thành microsatellite
Cơ chế đột biến hình thành microsatellite vẫn chưa được hiểu biết một cách đầy đủ Tuy nhiên, di truyền học và các nghiên cứu khác cho rằng cơ chế xuất hiện và hình thành microsatellite là do 2 quá trình sau:
Quá trình bắt chéo lỗi trong quá trình giảm phân ( unequal crossing- over during meiosis)
Hình 2.8 Cơ chế bắt chéo lỗi trong giảm phân
Trang 23Quá trình trượt lỗi trong sao mã (replication slippage)
Đây được coi là nguyên nhân chủ yếu và nó xảy ra trên mạch chậm (lagging strand) Quá trình này liên quan đến quá trình trượt lỗi của enzyme polymerase trên phân tử DNA mới tổng hợp Sự trượt lỗi này tạo ra một chỗ phình nhất thời có thể bị loại bỏ trong quá trình sửa lỗi hoặc là có thể kéo dài thêm ở mạch đối diện tạo thành một đoạn lặp lại dài hơn
Hình 2.9 Cơ chế trượt lỗi trong quá trình sao mã
2.3.3 Ứng dụng của microsatellite
SSR được sử dụng để lập bản đồ di truyền Chúng dễ dàng sử dụng và chứa đựng thông tin cao có thể thay thế tốt cho RFLP trong kỹ thuật lập bản đồ di truyền ở người (Dib và ctv., 1996) Sự phát triển SSR trong thực vật là rất nhanh, và vị trí SSR hiện giờ được hợp nhất để thành lập bản đồ di truyền của tất cả các loài ngũ cốc (Liu và ctv., 1996; Korzun và ctv., 1997; Smith và ctv., 1997; Stephenson và ctv., 1998)
SSR có thể được sử dụng trong công tác phân tích và so sánh đặc điểm di truyền của các loài Sự đa hình của SSR được xác định bằng phương pháp PCR với
Trang 24mồi được thiết kế ở vùng bảo tồn hai bên SSR (flanking regions) trên cơ sở sự khác nhau về kích thước của các băng khi điện di của trình tự lặp lại
2.3.4 Marker phân tử (molecular marker)
Chỉ thị phân tử là những đặc điểm thể hiện ở khía cạnh hoá học hay cấu trúc phân tử di truyền lại cho đời sau, giống như các nhân tố di truyền Meldel, nhưng lại có thể định lượng được Về nguyên tắc, bất cứ đoạn DNA nào phân biệt được hai cá thể, hai dòng hoặc các giống khác nhau thì có thể xem như là một marker DNA Marker DNA có nhiều ưu điểm hơn so với marker hình thái và isozyme vì sản phẩm thể hiện tính đa hình cao, tính đồng trội, tính ổn định không phụ thuộc vào yếu tố môi trường Các chỉ thị di truyền phân tử được sử dụng để xác định mối quan hệ giữa các cá thể trong cùng một loài hoặc giữa các loài, là cơ sở cho việc phân loại dưới loài (thứ), phát hiện loài mới và mối quan hệ tiến hóa giữa loài (Ahn và ctv, 1993; Dunforal và ctv, 1995) Chúng có thể được dùng để chọn các tổ hợp lai (Nair và ctv, 1995; Zhang và ctv, 1995)
Các chỉ thị DNA có thể chia thành 2 nhóm sau (Bùi Chí Bửu và Nguyễn Thị Lang, 2004):
- Chỉ thị dựa trên cơ sở chuỗi phản ứng polymerase (PCR - Polymerase Chain Reaction) (PCR-based): có các RAPD, AFLP, SSR, SSCP, STS
- Chỉ thị trên cơ sở đánh dấu thăm dò và lai DNA (DNA / DNA hydridization-based): RFLP, minisatellite
Bảng 2.1 Tên gọi một số marker DNA
RAPD Random amplified polymorphic DNA AP-PCR Arbitrary primer-PCR
DAF DNA amplification fingerprinting
AFLP Amplified fragment length polymorphism
SSR Simple sequence repeat (microsatellite) SSCP Single strand conformation polymorphism RFLP Restriction fragment length polymorphism
Trang 25STS Sequence-tagged sites
Chọn giống nhờ chỉ thị phân tử là một chiến lược được thế giới ủng hộ từ năm 1995, là phương pháp tác động mạnh đến hiệu quả chọn giống với các marker có kết quả kỹ thuật cao trên cơ sở PCR để đánh giá kiểu gen của tính trạng mục tiêu Sau khi đánh giá kiểu gen chúng ta so sánh với đánh giá kiểu hình để tìm ra mức độ chính xác của phương pháp (Bùi Chí Bửu, 2002)
2.3.5 Vì sao chọn marker SSR?
Hiện nay marker SSR là một công cụ mạnh (powerful tool) được ứng dụng rộng rải trong việc lập bản đồ bộ gen của các loài; phân tích đặc điểm di truyền của các loài, dưới loài và các cá thể trong một loài phục vụ có hiệu quả cho công tác chọn giống trong chăn nuôi và trồng trọt; tìm hiểu về nguồn gốc và phân lập các gen gây bệnh (các gen có liên quan đến bệnh Alzheimer, ung thư ruột kết và nhiều bệnh khác) từ đó nghiên cứu ra phương pháp điều trị
Marker SSR có các ưu điểm nổi bật sau
Di truyền đa allen và đồng trội Có tính chỉ thị cao (non- abundant)
Có ở tận hai đầu của bộ gen (tính chỉ thị rộng)
Marker RAPD thì dễ dàng phát triển nhưng giới hạn trong nhiều mục đích ứng dụng (Haymer 1994) Microsatillite (Simple Sequence Repeats, SSRs) có độ đa hình cao, marker đồng trội, hiệu quả này đã được chứng minh qua nhiều mục đích ứng dụng bao gồm kỹ thuật finger-printing (Smith và Devey, 1994), nghiên cứu di truyền quần thể (Haymer 1994; Tsumura và ctv, 1996; Thomas và ctv, 1999), kiểm tra sư phân bố di truyền cho đời sau (Dow và ctv, 1995), kiểm tra sự thuần hóa (Morchen và ctv, 1996)
SSR dễ dàng sử dụng hơn sự đa hình chiều dài đoạn cắt giới hạn (Restriction Fragment Length Polymorphisms, RFLPs) chỉ giải quyết được số lượng nhỏ DNA, sự đa hình cao và khả năng phân tích nhanh Marker SSR có thể dễ dàng thay đổi giữa
Trang 26các nhà khoa học bởi vì mỗi locus được xác định bởi trình tự mồi riêng SSR phân tích nhanh hơn sự khuyếch đại đa hình ngẫu nhiên DNA (Random Amplified Polymorphic DNA, RAPD) và sự chuyển đổi tốt hơn AFLP SSR hiện giờ thay thế cho RFLP trong lập bản đồ di truyền các cây trồng nông nghiệp Sự kết hợp của SSR với AFLP tạo nên bản đồ di truyền chi tiết Sự đồng trội tự nhiên của SSR cũng là điểm mạnh trong lập bản đồ di truyền
2.4 Ngôn ngữ lập trình Perl (Practical Extraction and Reporting Language)
2.4.1 Nguồn gốc của Perl
Trước khi Java hay JavaScript chiếm lĩnh Internet, và thậm chí trước khi Web xuất hiện, Perl đã có một vai trò rất quan trọng Từ viêc tự động hóa các tác vụ quản lý UNIX cho đến việc thực hiện thường trình phân tích file, Perl được sử dụng như một ngôn ngữ tiện ích thực sự
Vào ngày 18 tháng 10 năm 1987, Larry Wall, tác giả của ngôn ngữ này, lần đầu tiên đưa Perl vào sử dụng tại nhóm usenet comp.sourse Ngôn ngữ mới này phát sinh từ ngôn ngữ lập trình C và bị ảnh hưởng bởi các ngôn ngữ khác như BASIC, awk, sed, và UNIX shell Perl là sự kết hợp các ưu điểm của những ngôn ngữ trên
Những người có ít hay không có kinh nghiệm lập trình đều có thể học và sử dụng Perl để lập trình một cách dễ dàng Ngoài việc dễ dàng học, Perl còn là một ngôn ngữ hữu dụng Ngay từ đầu, Perl đã có một khả năng rất lớn trong việc thao tác text, file, và các tiến trình hệ thống
Từ lúc khai sinh đến nay, Perl đã có nhiều phiên bản, sau Perl 1.0 là Perl 2.0, …Perl 5.6 Perl 5.6 xuất hiện vào tháng 3 năm 2000 Bênh cạnh một cú pháp mới được dùng để diễn dịch và khai báo các thuộc tính thường trình phụ, Perl 5.6 còn bổ sung khá nhiều đặc tính nhỏ mà những người lập trình yêu cầu vốn không có trong các phiên bản trước Các đặc tính này bao gồm:
Hỗ trợ Unicode và UTF-8 Hỗ trợ 64 bit
Hỗ trợ các file lớn hơn 2GB
Trang 27Có nhiều khả năng chẩn đoán hơn Các loại cảnh báo theo phạm vi từ vựng Hàm open có thêm một số đối số
Hàm pack được cải tiến thêm
2.4.2 Cấu trúc của Perl
2.4.2.1 Dữ liệu vô hướng (scalar data)
Dữ liệu vô hướng (scalar data) ám chỉ một kiểu dữ liệu duy nhất gồm số và chuỗi Đây là kiểu dữ liệu cơ bản nhất mà Perl đã quen xử lý Biến vô hướng phải được đặt tên với ký tự “$”
Các số
Theo quan điểm của người sử dụng, thường có hai dạng khác nhau Kiểu số thứ nhất là một interger, tức là một số nguyên Các số nguyên này được trình bày với các cơ số 10 Kiểu thứ hai là số thập phân Ngoài ra còn có hai kiểu số đặc biệt khác là các số bách phân và thập lục phân Các số bách phân được trình bày với cơ số 8 và các số thập lục phân với các chữ số cơ số 16
2.4.2.2 Cấu trúc điều khiển
Trang 28Cấu trúc điều khiển là tập hợp các câu lệnh điều kiện Các câu lệnh điều kiện được sử dụng trong ngôn ngữ lập trình khi một quyết định cần được thực hiện trước khi một phần mã được thưc thi
Các khối câu lệnh
Một khối lệnh là một chuỗi các câu lệnh thưc thi được được nhóm lại với nhau bằng các dấu ngoặc „{„ và „}‟ Một khối lệnh trong một chương trình trông giống như thế này:
{
$a = 12; $a + = 5;
print “a equals $a\n”}
Câu lệnh điều kiện if-then-else
Câu lệnh điều kiện if-then-else nhận một biểu thức và đánh giá nó với một giá trị là đúng/sai Nếu việc xác định của một biểu thức là giá trị đúng, khối lệnh cho phần câu lệnh then được thực thi Nếu phần xác định của biểu thức là sai, khối lệnh else sẽ được thực thi Cú pháp của câu lệnh điều kiện if-then-else như sau:
khối lệnh „else‟ }
Việc bỏ đi phần else của câu lệnh này là hoàn toàn hợp lệ nếu chúng ta không cần nó Dưới đây là cú pháp câu lệnh if-then mà không có else
If (biểu thức) {
khối lệnh „then‟ }
Việc có một khối lệnh else mà không có khối lệnh if trước đó là không hợp lệ trong Perl
Câu lệnh điều kiện while
Trang 29Câu lệnh điều kiện while là một câu điều kiện hữu ích bởi vì nó cho phép người lập trình lặp lại một khối lệnh bao nhiêu lần tùy ý Lệnh while hoạt động giống như câu lệnh điều kiện if-then-else ở chỗ xác định một biểu thức cho việc đánh giá đúng/sai Một khác biệt lớn là nó tiếp tục thực thi khối lệnh khi biểu thức là đúng Dưới đây là cú pháp cho câu lệnh điều kiện while
While (biểu thức) ví dụ: #!/usr/bin/perl
khối lệnh „while‟ while ($a<25) {
Câu lệnh điều kiện until
Câu lệnh điều kiện until ngược với câu lệnh while Khối lệnh until chỉ thực thi khi biểu thức xác định là sai Dưới đây là cú pháp cho câu lệnh điều kiện until
until (biểu thức) ví dụ: #!/usr/bin/perl
khối lệnh „until‟ } until ($a >25) { print “the value of is $a \n”; $a; }
Câu lệnh điều kiện do while-until
Trong một số trướng hợp, người lập trình có thể cần khối lệnh phải được thực thi ít nhất một lần Perl cho phép người lập trình thực hiện điều này bằng cách sử dụng câu lệnh điều kiện do while-until Câu lệnh có cú pháp như sau:
do {
khối lệnh „do‟ } until (biểu thức)
Câu lệnh điều kiện do while–until cho phép bạn thưc thi khối lệnh ít nhất một lần, bất kể biểu thức xác định như thế nào (đúng hay sai)
Ví dụ
#!/usr/bin/perl $a = 12;
Trang 30Câu lệnh for được sử dụng rộng rãi bởi các nhà lập trình trong tất cả các ngôn ngữ Lý do của điều này là câu lệnh for cung cấp cho người lập trình một phương pháp nhanh chóng xác định số lần mà một khối lệnh được thực thi Cú pháp câu lệnh điều kiện for như sau
For (câu lệnh 1;biểu thức điều kiện; câu lệnh 2) {
khối lệnh „for‟ }
Ví dụ
#!/usr/bin/perl
for ($a=1;$a<10;$a++){# the for conditional statement
print “the statement block has been executed $a times \n”;}
2.4.2.3 Các List, Array và Hash Danh sách (list)
Danh sách là một nhóm dữ liệu vô hướng sắp xếp theo thứ tự, nó là một chuỗi các giá trị vô hướng được đặt trong các dấu ngoặc đơn, nó có dạng: (1, 2, 3, 6, 7, 12); (1, 2, “hello”, 3, 6 , “again”); (4, 5, “$name”, 7, 10)
Các Array
Một biến mảng (array variable) giống như một biến vô hướng trong đó nó được tạo ra để lưu trữ dữ liệu Sự khác biệt là biến mảng được thiết kế để lưu trữ một danh sách trong khi một biến vô hướng được thiết kế để lưu trữ một dữ liệu vô hướng số ít Biến mảng được biểu thị bằng ký tự @ đầu tiên (@number)
Các hash (băm)
Một hash là một biến khác mà người lập trình có thể sử dụng để lưu trữ dữ liệu vô hướng Đối với các array, phần tử đâu tiên có một index là 0, phần tử thứ hai có một index là 1,… Mỗi trong các phần tử được chứa trong một hash có những gì được gọi là các khóa (key), các khóa được sử dụng làm index Những khoá này có thể được ấn định bởi người dùng và chúng có thể là bất kỳ nếu muốn Cú pháp của hash như sau
%hash = (key, element, key, element)
Trang 312.4.2.4 Dòng chương trình và các thường trình con
Dòng chương trình và các thường trình con là một cách để giúp cho người lập trình phân chia mã của mình thành các đoạn Bằng cách thực hiện điều này, người lập trình thường có thể tổ chức chương trình của mình tốt hơn theo chức năng
Ngoài ra, điều này còn cho phép người lập trình tạo các phần hay chức
năng để sử dụng lại thay vì phải viết lại
Dòng chương trình
Khi bàn về dòng chương trình lôgic, chúng ta ám chỉ đến dòng mà chương trình đi qua khi nó giải quyết một tác vụ Ví dụ, khi bạn thức dậy vào buổi sáng, bạn có thể tắm rửa, mặc đồ, ăn sáng, và sau đó đi làm Một chương trình được thiết kế logic sẽ tuân theo tiến trình tương tự đó, bất kể bất kỳ điểm chung giữa các bước như mở cửa hay đi bộ Do đó, bằng cách tuân theo kiểu phương pháp này, người lập trình sẽ khai báo các biến này thay vì tại phần trên cùng – và các thường trình con thay vì tại phân dưới cùng – khi cần thiết
Một dòng chức năng là nơi mà người lập trình nhóm các chương trình lại với nhau Ví dụ, tại cuối chương trình, người lập trình kéo tất cả thường trình con, được sắp xếp bằng chức năng tương tự Các thủ tục đi bộ, mở cửa, và lái xe có thể nằm kề nhau, trong khi đó nói chuyện và các dạng giao tiếp khác có thể theo sau
Thường trình con
Một thường trình con là phương pháp để tạo các hàm của Perl Những hàm này cho phép người lập trình thực hiện mọi thứ từ việc truyền các đối số và chỉnh sửa các giá trị đến việc cho ra giá trị
Sự khai báo các thường trình con trong ngôn ngữ Perl được thực hiện bằng cách sử dụng từ khóa ngôn ngữ sách Theo sau từ khóa này là một mã nhận dạng tên dùng để gọi thường trình con khi cần đến Sau đây là cú pháp cơ bản, trong đó NAME tham chiếu tên mà người lập trình muốn gọi thường trình con và code là mã mà người lập trình muốn thực thi khi thường trình con được gọi
Sub NAME { Code }
Trang 322.4.2.5 Package và Module
Package
Một package là một tập hợp các hàm Perl được nhóm thành một file đơn File này, cũng được gọi là một thư viện (library) và có phần mở rộng pl (đôi khi là pm), được chỉ ra bởi tên file của nó trong mã Một package khai báo một namespace khác của các biến và/hoặc các thường trình con bên trong nó Mục đích là để các biến tránh ghi đè lên nhau
Module
Module không có gì hơn là một package Điểm khác biệt duy nhất là một Module được thiết kế để sử dụng lại Điều này được thực hiện bằng cách cho phép xuất một số hay tất cả các biến và thường trình con của một Module sang các package khác
Trên đây, tôi chỉ trình bày sơ lượt một vài thành phần trong cấu trúc hoạt động của ngôn ngư lập trình Perl Còn rất nhiều các yếu tố cấu tạo - nguyên tắc chi tiết ứng dụng của từng thành phần trong Perl mà do mục đích và yêu cầu của đề tài nên tôi không thể trình bày hết được
2.5 Giới thiệu về mồi (primer) 2.5.1 Khái quát về mồi
Mồi (primer) là một thành phần quan trọng không thể thiếu trong phản ứng PCR (Polymerase Chain Reaction) Mồi là những đoạn nucleotide ngắn, bắt cặp bổ sung với đầu 5‟ hay 3‟ của mạch DNA khuôn mẫu Mồi được thiết kế dựa vào vùng trình tự đã được biết, nằm ở hai đầu của đoạn gen cần khuếch đại.
Trong phản ứng PCR bao giờ cũng cần có cặp mồi (mồi xuôi và mồi ngược) Có rất nhiều tiêu chuẩn nghiêm ngặt đặt ra khi thiết kế một cặp mồi như chiều dài mồi, tính chuyên biệt của cặp mồi, nhiệt độ nóng chảy Tm của mồi, nhiệt độ bắt cặp, sự tạo thành cấu trúc bậc hai của mồi… để đảm bảo phản ứng PCR thành công và thu được sản phẩm nhân bản (một số lượng lớn bản sao của đoạn DNA khuôn ban đầu)
2.5.2 Đặc điểm của mồi (primer)
Trang 332.5.2.1 Tính chuyên biệt
Duy nhất: chỉ có duy nhất một vị trí bắt cặp của primer trên khuôn DNA, nghĩa là trình tự primer chỉ xuất hiện một lần trên trình tự khuôn Ngoài ra, cũng phải cần đảm bảo primer không thể bắt cặp bổ sung vào trình tự DNA của các nguồn có khả năng nhiễm như DNA người, chuột, tác nhân gây cùng triệu chứng
DNA khuôn
5‟ …TCAACTTAGCATGATCGGGTA…GTAGCAGTTGACTGTAAATTCAACTTAGCAA…3‟ 3‟-GTTGAATCGT-5‟ 3‟ -CATCGTCAACTGAC-5‟ 3‟-GTTGAATCGT-5‟
Primer 1 3‟-GTTGAATCGT-5‟ Không duy nhất Primer 2 3‟ -CATCGTCAACTGAC-5‟ Duy nhất
Chiều dài: chiều dài của primer ảnh hưởng đến tính duy nhất, nhiệt độ nóng chảy và nhiệt độ bắt cặp của primer Nói một cách khác, primer càng dài thì nó càng thể hiện được tính duy nhất và nhiệt độ nóng chảy, nhiệt độ bắt cặp càng cao Để đảm bảo tính duy nhất thì chiều dài của primer tối thiểu là 15 base, thường thì primer có chiều dài từ 17 – 28 base
Thành phần base: ảnh hưởng đến độ đặc hiệu của quá trình lai, nhiệt độ nóng
chảy, nhiệt độ lai và sự ổn định của cấu trúc phân tử Các base được sắp xếp ngẫu nhiên thì thích hợp hơn là những vùng (A+T) dài hay là những vùng giàu (G+C) Thành phần (G+C) trung bình khoảng từ 50 – 60% sẽ cho ta nhiệt độ nóng chảy, nhiệt độ lai thích hợp trong một phản ứng PCR bình thường
Template DNA
5‟…TCAACTTAGCATGATCGGGCA…AAGATGCACGGGCCTGTACACAA…3‟ TACTAGCCCGT
2.5.2.2 Tính ổn định
Nhiệt độ nóng chảy (Tm) là nhiệt độ mà tại đó một nửa sợi DNA là sợi đơn và một nửa còn lại là DNA sợi đôi Tm là đặc tính của thành phần base Thành phần (C +G) trong DNA cao sẽ dẫn tới nhiệt độ Tm cao vì liên kết H trong DNA mạnh hơn Có nhiều công thức tính Tm, một trong những công thức được nhiều người sử dụng nhất có dạng như sau:
Tm = 59.9 +0.41*(%GC) – 600/chiều dài
Trang 34Nhiệt độ bắt cặp (Tanneal) là nhiệt độ mà tại đó primer bắt cặp vào DNA khuôn Tanneal được tính theo công thức: Tanneal = Tm-primer – 40C
Để đảm bảo primer bắt cặp vào DNA mạch khuôn trước khi hai sợi đơn của mạch khuôn bắt cặp với nhau thì: Tm-product - Tanneal 300C
Tính nghiêm ngặt trong quá trình bắt cặp của mồi: quyết định tính đặc hiệu
của sản phẩm DNA được nhân bản Tanneal là nhân tố ảnh hưởng quan trọng nhất của tính chuyên biệt này Nếu Tanneal quá thấp thì mồi sẽ bắt cặp không đặt hiệu tính nghiêm ngặt thấp Ngược lại, nếu Tanneal quá cao thì mồi không có khả năng bắt cặp tính nghiêm ngặt cao
Cấu trúc thứ cấp: nếu sự bắt cặp giữa mồi xuôi và mồi ngược hình thành dimer, hetero-dimer; mồi xuôi với mồi xuôi self-dimer, homo-dimer, giữa mồi ngược với mồi ngược self –dimer, homo-dimer; hay primer tự tạo cấu trúc kẹp tóc (hairpin) xảy ra nhiều hơn so với sự bắt cặp của primer với DNA mẫu thì hiệu quả nhân bản của phản ứng PCR sẽ giảm một cách rõ rệt
Tuy nhiên, trong một số trường hợp những cấu trúc này không ảnh hưởng đến kết quả của phản ứng PCR vì nhiệt độ bắt cặp không cho phép sự hình thành các cấu trúc đó Ví dụ: một số dimer hay hairpin chỉ hình thành ở nhiệt độ 300C Trong khi đó nhiệt độ của phản ứng PCR thấp nhất cũng là 560C
Hairpin Self-Dimer Dimer
Trang 35Sự hòa hợp của cặp mồi: mồi làm việc theo cặp, mồi xuôi và mồi ngược
Chúng được sử dụng trong cùng điều kiện của phản ứng PCR, vì vậy phải đảm bảo điều kiện phản ứng PCR thỏa mãn cho cả mồi xuôi và mồi ngược Một đặc điểm cần chú ý là nhiệt độ bắt cặp Nhiệt độ này thể hiện sự tương thích giữa mồi xuôi và mồi ngược Sự chênh lệch giữa mồi xuôi và mồi ngược cho phép là 30C Nhiệt độ lai giữa môi xuôi và mồi ngược càng gần thì phản ứng PCR diễn ra càng tốt
2.6 Tin sinh học
2.6.1 Khái niệm tin sinh học
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê và khoa học máy tính để giải quyết các vấn đề sinh học
Các nghiên cứu trong ngành sinh học tính toán (computational biology) thường trùng lắp với sinh học hệ thống (systems biology) Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structural prediction), dự đoán biểu hiện gen (gene expressions), tương tác protein–protein (protein-protein interaction) và mô hình hóa các quá trình tiến hóa Thuật ngữ tin sinh học và khoa học tính toán thường dùng hoán đổi cho nhau, mặt dù cái trước, nói một cách nghiêm túc là tập con của cái sau
Những mối quan tâm chính trong các dự án tin sinh học và khoa học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu hỗn độn được thu nhận từ các kỹ thuật sinh học với lưu lượng mức độ lớn Lĩnh vực khai thác dữ liệu (data mining) trùng lắp với sinh học tính toán về phươn diện này Những bài toán đặc trưng trong sinh học tính toán bao gồm việc lắp ráp (assembly) những trình tự DNA chất lượng cao từ các đoạn ngắn DNA được thu nhận từ kỹ thuật xác định trình tự DNA và việc dự đoán qui luật biểu hiện điều hoà gen (gene regulation) với dữ liệu từ các mRNA, microarray hay khối phổ (mass spectrometry)
2.6.2 Các lĩnh vực nghiên cứu chính của tin sinh học
2.6.2.1 Genomics - Hệ gen học
Trang 36Phân tích trình tự
Kể từ khi Phage - X174 được xác định trình tự (1977) Cho đến nay, trình tự DNA của rất nhiều loài được dự trữ trong các ngân hàng cơ sở dữ liệu Việc thực hiện phân tích nguồn dữ liệu này về các vấn đề tìm kiếm gen cấu trúc (mã hóa cho một protein nào đó), quy luật những trình tự tương đồng, so sánh gen trong cùng một loài hay giữa các loài, mối quan hệ phát sinh chủng loài là không thể thực hiện được bằng tay Do đó, các chương trình máy tính đã được phát triển và ứng dụng vào các công việc này với nguồn dữ liệu lên đến hàng tỷ và nhiều công đoạn nghiên cứu phức tạp khác Mà dự án genome người (Human Genome Project) là một minh chứng Trong dự án này các nhà tin sinh học đã phải mất cả hàng tháng trên một loạt siêu máy tính (các máy DEC Alpha ra đới năm 2000) để sắp xếp đúng toàn bộ số lượng trình tự DNA nhỏ (shotgun DNA sequence) được giải mã tạo nên một sợi DNA với kích thước lớn mà với
kỹ thuật hiện nay không thể giải mã được sợi DNA cở vài chục ngàn nucleotide
Giải mã genome hiện nay và giải thuật lắp ráp genome (genome assembly algorithms) là một trong những lĩnh vực nóng của tin sinh học
Chỉ định gen
Annotation là quá trình đánh dấu các gen và các đặc tính sinh học (biological features) khác trong một chuỗi DNA Hệ thống phần mềm làm nhiệm vụ “ genome annotation” đã được phát triển Công việc này giúp cho lĩnh
vực chuyên về nghiên cứu bản đồ gen (genomics)
Dò tìm đột biến và SNP
Rất nhiều nghiên cứu xác định trình tự (sequencing) hiện nay là nhằm tìm ra các đột biến điểm (point mutation) xảy ra các gen khác nhau trong ung thư Tập sơ khởi (sheer volume) các dữ liệu được tạo ra đòi hỏi các hệ thống tự động đọc những dữ liệu kiểu chuỗi này (sequence data), rồi so sánh trình tự kết quả với các trình tự đã biết trên genome người, bao gồm những điểm đa hình trên các tế bào dòng tinh (germline) đã biết
Những hệ thống oligonucleotide microarray, bao gồm những hệ thống dùng để xác định điểm đa hình đơn nucleotide (Sinlge Nucleotide Polymophism) hoặc khảo sát tính dị biệt so sánh genome (comparative genomic hybridization)
Trang 37với khả năng cho phép khảo sát một lúc hàng trăm ngàn vị trí trên cùng một bản đồ gen đang được sử dụng để xác định những đột biến thêm và mất đoạn nhiễm sắc thể trong quá trình hình thành ung thư
2.6.2.2 Sinh học tiến hóa Phân loại học phân tử
Tiến hóa học máy tính (Computional Evolutation Biology, CEB) đã ra đời trước kỹ nguyên hệ gen học (genomics) nghiên cứu xây dựng các mô hình tính toán quần thể và sự biến thiên của chúng theo thời gian
Bảo tồn đa dạng sinh học
Tin sinh học thường áp dụng trong lĩnh vực bảo tồn đa dạng sinh học (biodiversity) Thông tin quan trọng nhất được thu thập chính là tên, mô tả, sự phân bố, trạng thái và kích thước phân bố của các chủng loài (speciese), nhu cầu thói quen (habitat) mà cách mà mỗi tổ chức tương tác với các chủng loài khác Thông tin này được lưu trữ trong cơ sở dữ liệu các máy tính, được truy xuất bởi các chương trình phần mềm để tìm kiếm, hiển thị, phân tích thông tin đó một cách tự động và quan trọng nhất là để giao tiếp được với con người, đặc biệt là qua internet
Một ví dụ của ứng dụng này là dự án Speciese 2000 Nó là một dự án nghiên cứu toàn cầu dựa vào internet để giúp cung cấp thông tin về mỗi chủng loài được biết đến của cây, động vật, nấm (fungus), và vi khuẩn (microbe) còn tồn tại để làm cơ sở cho việc nghiên cứu đa dạng sinh học toàn cầu
2.6.2.3 Phân tích chức năng gen Mức độ biểu hiện gen
Nhà sinh học phân tử có thể đánh giá mức độ biểu hiện của một gen bằng cách xác định lượng mRNA được tạo ra từ gen đó thông qua các kỹ thuật như microarray, EST, SAGE (Serial Analygis of Gene Expression), MPSS (Massively Parllel Signature Sequencing), hay khối phổ định lượng protein Tất cả những dữ liệu trên được tạo ra đều chứa thông tin nhiễu (noise-prone) làm việc phân tích, tính toán trở nên phức tạp Yêu cầu thực tế đó đã cho ra đời một
Trang 38lĩnh vực mới trong sinh học tính toán đó là phát triển công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu trong những nghiên cứu biểu hiện gen đa lượng (high-thoughput gene expression)
Nhận diện protein
Protein microarray và hệ thống khối phổ cao năng (high- throughput mass spectrometry) có thể cung cấp hình ảnh (snapshot) tổng thể của các protein hiện có trong một mẫu sinh học (biological sample) Các ứng dụng tin sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu thu được từ những hệ thống này
Đối với protein microarray, những nhà tin sinh học cần kiểm tra dữ liệu mRNA gắn trên array Trong khi đó, những vấn đề tin sinh học liên quan đến việc gán (matching) dữ liệu phổ sắc ký MS với cơ sở dữ liệu về trình tự protein
Dự đoán cấu trúc protein
Dự đoán cấu trúc là một ứng dụng quan trọng nữa của tin sinh học Có thể dễ dàng xác định trình tự acid amin của protein từ trình tự gen mã hóa cho nó Nhưng protein chỉ có chức năng khi nó có cấu trúc bậc hai, bậc ba, bậc bốn Sẽ là vô cùng khó khăn khi dự đoán cấu trúc gấp nếp này từ tình tự axit amin Một số phương pháp dự đoán cấu trúc bằng máy tính hiện đang phát triển
Trong đó ý tưởng quan trọng trong nghiên cứu tin sinh học là về quan điểm tương đồng Với kỹ thuật mô phỏng tương đồng (homology modeling), thông tin này được dùng để dự đoán cấu trúc của một protein khi đã biết cấu trúc của một protein khác tương đồng với nó Hiện tại, đây là cách dự đoán cấu trúc protein đáng tin cậy nhất
Các hệ thống sinh học kiểu mẫu
Sinh học hệ thống bao gồm việc sử dụng khả năng mô phỏng bằng máy tính (computer simulation) các hệ cơ quan tế bào để có thể phân tích và hiển thị hóa (visualize) việc kết nối phức tạp của các quá trình Sự sống nhân tạo (artificial life) hay tiến hóa ảo nổ lực nhằm tìm hiểu quá trình tiến hóa thông qua việc mô phỏng bằng máy tính các dạng sự sống (nhân tạo) đơn giản
Phân tích hình ảnh mức độ cao
Trang 39Các kỹ thuật tính toán cũng được dùng để tăng tốc độ hoặc giúp tự động hoàn toàn quá trình xử lý định lượng, và phân tích một lượng lớn hình ảnh sinh học có chứa- thông- tin-cao Các hệ thống xử lý ảnh hiện đại tăng cường khả năng quan sát để giúp cho việc tính toán từ môt tập lớn và phức tạp các hình ảnh bằng cách cải tiến độ chính xác, tính khách quan, hay tốc độ Một hệ thống phân
tích được phát triển hoàn thiện có thể thay thế hoàn toàn người quan sát
Các công cụ phần mềm
Một trong những công cụ dùng trong sinh học tính toán nổi tiếng nhất là BLAST, một giải thuật để tìm kiếm các trình tự acid nucleic hoặc protein tương đồng lưu trữ trên các cơ sở dữ liệu Ba nguồn cơ sở dữ liệu công cộng lớn nhất (thường được gọi là ngân hàng gen) là NCBI, EMBL, DDBJ
Các ngôn ngữ lập trình của máy tính như Perl và Python thường được dùng để giao tiếp (interface) và ly trích (parse) dữ liệu từ các ngân hàng cơ sở dữ liệu sinh học (biological database) thông qua những chương trình tin sinh học (bioinformatics program)
Cộng đồng những lập trình viên sinh tin học đã triển khai nhiều dự án phần mềm mã nguồn mở (free/open source) như EMBOSS, Bioconductor, BioPerl, BioPhyton, BioRubi, BioJava Điều này giúp cho việc chia sẻ, phát triển và phổ biến các công cụ lập trình và tài nguyên lập trình (programming objects) giữa các nhà tin sinh học
Trang 40Phần 3
PHƯƠNG TIỆN VÀ PHƯƠNG PHÁP NGHIÊN CỨU
3.1 Thời gian và địa điểm tiến hành nghiên cứu
3.1.1 Thời gian nghiên cứu
Đề tài được bắt đầu tiến hành nghiên cứu từ tháng 3 năm 2006 và phải hoàn thành vào ngày 15 tháng 8 năm 2006
3.1.2 Địa điểm nghiên cứu
Đề tài được thực hiện tại Trung Tâm Phân Tích Thí Nghiệm Hóa Sinh thuộc trường Đại học Nông Lâm Thành Phố Hồ Chí Minh
3.2 Vật liệu và công cụ nghiên cứu
3.2.1 Vật liệu nghiên cứu
Vật liệu nghiên cứu là toàn bộ EST (Expressed Sequence Tags) của của tất cả các loài ong cho mật (tính đến ngày 14-06-2006), hiện đã được công bố trên các ngân hàng cơ sở dữ liệu như NCBI, EMBL, DDBJ
Trong số trình tự EST này, sẽ có một số lượng nhất định các trình tự đơn lặp lại (Simple Sequence Repeats, SSRs) Trong số microsatellite tìm được có những microsatellite có đặc điểm đặc trưng, được ứng dụng làm marker microsatellite Và trên thực tế hiện nay marker microsatellite đang được sử dụng nhiều trong các dự án nghiên cứu như lập bản đồ bộ gen của các loài ngũ cốc, trong dự án genome người (Human Genome Project) và nhiều nghiên cứu khác trong việc phân tích, so sánh đặc điểm di truyền của các loài sinh vật
3.2.2 Công cụ nghiên cứu
Máy tính IBM với hệ điều hành window server 2003 và hệ điều hành Linux
(phiên bản Fedora core 1)
Internet truy cập cơ sở dữ liệu thế giới
Trình biên dịch Active Perl 5.6