1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Giải trình tự hệ gen lục lạp của sâm ngọc linh (panax vietnamensis ha et grushv)

111 221 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 111
Dung lượng 3,09 MB

Nội dung

Bảng 1.2: Thống kê các kết quả giải trình tự hệ gen lục lạp các Bảng 3.1: Tỷ lệ các vùng biến đổi màu cam và tình trạng phân loại thành công màu xanh trong phân tích mPTP với mỗi chỉ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Nguyễn Nhật Linh

GIẢI TRÌNH TỰ HỆ GEN LỤC LẠP

CỦA SÂM NGỌC LINH

(Panax vietnamensis Ha et Grushv.)

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2017

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Nguyễn Nhật Linh

GIẢI TRÌNH TỰ HỆ GEN LỤC LẠP CỦA SÂM NGỌC LINH

(Panax vietnamensis Ha et Grushv.)

Chuyên ngành: Sinh học thực nghiệm

Mã số: 60420114

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Lê Thị Thu Hiền

PGS TS Võ Thị Thương Lan

Đại diện cán bộ hướng dẫn:

Lê Thị Thu Hiền

Hà Nội – 2017

Trang 3

LỜI CẢM ƠN

Để thực hiện thành công luận văn thạc sĩ này, tôi xin gửi lời cảm ơn sâu sắc

và chân thành đến TS Lê Thị Thu Hiền (Viện Nghiên cứu hệ gen, Viện Hàn lâm

Khoa học và Công nghệ Việt Nam), người đã trực tiếp hướng dẫn, chỉ bảo tận tình trong suốt thời gian tôi thực hiện đề tài Cô không chỉ giúp đỡ tôi vượt qua khó khăn, truyền thụ cho tôi những kiến thức, kinh nghiệm chuyên môn quý báu trong công việc mà còn giúp tôi phát triển khả năng tư duy, định hướng trong nghiên cứu cũng như tác phong làm việc khoa học Điều này đã giúp tôi thêm tự tin trên con đường nghiên cứu khoa học sau này

Trong suốt thời gian học tập và nghiên cứu vừa qua, tôi đã nhận được sự

dạy dỗ, khích lệ và hỗ trợ nhiều mặt của PGS TS Võ Thị Thương Lan (Khoa Sinh học, Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội) Sự quan

tâm, giúp đỡ của cô đã góp phần không nhỏ giúp tôi hoàn thành luận văn tốt nghiệp này Tôi xin chân thành cảm ơn những sự trợ giúp quý báu đó

Tôi cũng xin được bày tỏ lòng biết ơn của mình đến PGS TS Nông Văn

Hải (Chủ tịch Hội đồng Khoa học, Viện Nghiên cứu hệ gen), tập thể cán bộ Phòng

Đa dạng sinh học hệ gen và các cán bộ Viện Nghiên cứu hệ gen, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện thuận lợi và tận tình hướng dẫn, trợ giúp tôi thực hiện tốt đề tài nghiên cứu này

Tôi xin chân thành cảm ơn các thầy cô thuộc Khoa Sinh học, Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội và các thầy cô cùng các cán bộ Phòng thí nghiệm Sinh Y, đã dạy dỗ và dìu dắt tôi những bước đi đầu tiên trên con đường nghiên cứu khoa học

Luận văn được thực hiện trong khuôn khổ của đề tài cấp Viện Hàn lâm Khoa học và Công nghệ Việt Nam: “Giải mã hệ gen lục lạp của sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.)”

Hà Nội, ngày 05 tháng 12 năm 2017 Học viên cao học

Nguyễn Nhật Linh

Trang 4

i

MỤC LỤC

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN TÀI LIỆU 3

1.1 Chi Nhân sâm và sâm Ngọc Linh 3

1.2 Các công nghệ giải trình tự DNA 5

1.2.1 Các hệ thống giải trình tự DNA thế hệ đầu tiên 5

1.2.2 Các hệ thống giải trình tự DNA thế hệ mới HT-NGS (high-throughput next generation sequencing) 7

1.3 Giải trình tự gen và hệ gen ở các loài thuộc chi Nhân sâm 12

1.3.1 Giải trình tự gen phục vụ định loại phân tử 12

1.3.2 Giải trình tự hệ gen nhân và hệ gen biểu hiện 14

1.3.3 Giải trình tự hệ gen lục lạp 17

1.4 Phân tích phát sinh chủng loại 20

CHƯƠNG 2: VẬT LIỆU VÀ PHƯƠNG PHÁP 23

2.1 Vật liệu 23

2.1.1 Vật liệu thực vật 23

2.1.2 Hóa chất, dụng cụ 23

2.2 Phương pháp 24

2.2.1 Sơ đồ thí nghiệm 24

2.2.2 Tách chiết và tinh sạch DNA tổng số 25

2.2.3 Phân tách các phân đoạn DNA methyl hóa và không methyl hóa 25

2.2.4 Tạo thư viện hệ gen 27

2.2.5 Giải trình tự hệ gen lục lạp bằng hệ thống giải trình tự DNA thế hệ mới28 2.2.6 Lắp ráp trình tự hệ gen lục lạp 29

2.2.7 Khuếch đại và giải trình tự các vùng DNA quan trọng và cần hiệu chỉnh 30

2.2.8 Phân tích và chú giải hệ gen lục lạp 32

2.2.9 Xây dựng cây phát sinh chủng loại 32

2.2.10 Tìm kiếm, phân tích và đánh giá các vùng trình tự mã vạch phân tử tiềm năng 32

Trang 5

ii

CHƯƠNG 3: KẾT QUẢ VÀ THẢO LUẬN 33

3.1 Kết quả tách chiết, kiểm tra chất lượng DNA tổng số mẫu sâm Ngọc Linh và phân tách các phân đoạn DNA bị methyl hóa, không bị methyl hóa 33

3.1.1 Tách chiết và kiểm tra chất lượng DNA tổng số mẫu sâm Ngọc Linh 33 3.1.2 Phân tách các phân đoạn DNA bị methyl hóa và không bị methyl hóa trên CpG 34

3.2 Giải trình tự hệ gen lục lạp của sâm Ngọc Linh 36

3.3 Kết quả lắp ráp các gen của hệ gen lục lạp sâm Ngọc Linh 38

3.4 Kết quả hiệu chỉnh/ kiểm chứng trình tự hệ gen lục lạp của sâm Ngọc Linh 39 3.5 Kết quả phân tích và chú giải hệ gen lục lạp của sâm Ngọc Linh 41

3.6 Đề xuất bộ chỉ thị phân tử tiềm năng khai thác từ trình tự hệ gen lục lạp sâm Ngọc Linh 45

KẾT LUẬN 49

KIẾN NGHỊ 49

DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ 50

LIÊN QUAN ĐẾN LUẬN VĂN 50

TÀI LIỆU THAM KHẢO 51

Trang 6

iii

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

DNA Deoxyribonucleic acid Acid deoxyribonucleic

dNTPs Deoxyribonucleotide

triphosphates

Deoxyribonucleotide triphosphates

ENA European Nucleotide Archive

(http://www.ebi.ac.uk/ena)

Cơ sở dữ liệu Nucleotide châu Âu

EST Expressed sequence tag Các đoạn trình tự gen biểu hiện

LSC Large single copy region Vùng bản sao đơn lớn

ML Maximum likelihood Phương pháp phân tích phát sinh

chủng loại dựa trên độ tương đồng lớn nhất

mPTP Multi-rate Poisson Tree

Processes

Phân tích cây Poisson đa cấp

NCBI National Center for

Đa hình đơn nucleotide

SSC Small single copy region Vùng bản sao đơn nhỏ

WGS Whole genome sequencing Giải trình tự toàn bộ hệ gen

Trang 7

Bảng 1.2: Thống kê các kết quả giải trình tự hệ gen lục lạp các

Bảng 3.1: Tỷ lệ các vùng biến đổi (màu cam) và tình trạng phân

loại thành công (màu xanh) trong phân tích mPTP với mỗi chỉ thị phân tử

47

Bảng 3.2 Trình tự mồi khuếch đại các chỉ thị phân tử được lựa

Trang 8

v

DANH MỤC CÁC HÌNH

Trang

Hình 1.1: Sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.) 5

Hình 1.2: Giải trình tự DNA theo phương pháp Sanger 6

Hình 1.3: Giải trình tự DNA thế hệ mới theo công nghệ của 454, SOLiD

(A) và Solexa (B)

8

Hình 1.4: Nguyên lý hoạt động của giải trình tự Ion Torrent 11

Hình 2.1: Mẫu sâm Ngọc Linh được sử dụng trong nghiên cứu 23

Hình 2.2: Sơ đồ thí nghiệm giải mã và phân tích hệ gen lục lạp 24

Hình 3.1: Kết quả điện di mẫu DNA tổng số sau tách chiết 34

Hình 3.2: Kết quả kiểm tra chất lượng DNA tổng số, các phân đoạn

methyl hóa và không bị methyl hóa sử dụng Fragment Analyzer

Hình 3.5: Hệ gen lục lạp của sâm Ngọc Linh sau khi lắp ráp và độ bao

phủ trên toàn bộ hệ gen lục lạp

Hình 3.8: Hệ gen lục lạp của sâm Ngọc Linh đã chú giải 42

Hình 3.9: Cây phát sinh chủng loại Bayesian dựa trên trình tự các loài

thuộc họ Araliaceae

44

Hình 3.10: Kết quả phân tích phân loại với mPTP sử dụng toàn bộ hệ gen

lục lạp (A) và kết quả phân tích phát sinh chủng loại với ML sử

dụng kết hợp 4 marker (trnQ-rps16, trnE-trnM, psbM-trnD và

trnS-trnG) (B)

46

Trang 9

1

MỞ ĐẦU

Sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.) thuộc chi Nhân sâm (Panax) còn có các tên gọi khác là sâm Việt Nam, sâm Khu Năm (K5), sâm trúc

(sâm đốt trúc, trúc tiết sâm), củ Ngải rọm con hay cây Thuốc giấu, là loài đặc biệt

có giá trị về khoa học và kinh tế với thành phần saponin, hàm lượng các acid amin, các chất khoáng vi lượng trong củ, lá và rễ hơn nhiều những loài sâm khác Ngoài tác dụng dược lý, sâm Ngọc Linh còn giúp chống căng thẳng, trầm cảm, oxy hóa

Do vùng phân bố hạn chế và việc khai thác quá mức đã khiến sâm Ngọc Linh trở nên khan hiếm trong tự nhiên và được đưa vào Danh lục đỏ của IUCN (2003) và danh sách các loài hạn chế khai thác và sử dụng vì mục đích thương mại

Trên thế giới cũng như ở Việt Nam, các nghiên cứu về định loại bằng phương pháp hình thái kết hợp với phân tử thông qua phân tích một số vùng gen các loài thuộc chi Nhân sâm, trong đó có sâm Ngọc Linh đã được thực hiện Nhờ sự ra đời và phát triển của các hệ thống giải trình tự gen thế hệ mới, trình tự toàn bộ hệ gen, trong đó có hệ gen biểu hiện, hệ gen lục lạp của một số loài thuộc chi Nhân sâm đã được triển khai thực hiện trong những năm gần đây Việc phân tích và khai thác cơ sở dữ liệu của toàn bộ hệ gen đã cung cấp nguồn thông tin lớn, có giá trị và

độ tin cậy cao, hỗ trợ các nghiên cứu phát sinh chủng loại, quá trình thích nghi, nhận dạng loài phục vụ giám sát thương mại và bảo tồn nguồn gen

Nhằm đáp ứng nhu cầu ngày càng tăng trong nghiên cứu tiến hóa, bảo tồn, khai thác và sử dụng bền vững nguồn gen sâm Ngọc Linh quý hiếm cũng như góp phần tìm kiếm mã vạch phân tử đặc trưng định hướng ứng dụng trong giám định chất lượng sâm Ngọc Linh và các loài thuộc chi Nhân sâm ở Việt Nam, đề tài:

“Giải trình tự hệ gen lục lạp của sâm Ngọc Linh (Panax vietnamensis Ha et

Grushv.)” đã được xây dựng và thực hiện với các nội dung chính sau: (1) Tách

chiết DNA và giải trình tự hệ gen lục lạp của sâm Ngọc Linh; (2) Lắp ráp và hiệu chỉnh trình tự hệ gen lục lạp; (3) Chú giải và phân tích trình tự hệ gen lục lạp; (4)

Trang 10

2 Phân tích và tìm kiếm các chỉ thị phân tử thích hợp để phân biệt sâm Ngọc Linh với

các loài thuộc chi Nhân sâm

Trang 11

3

CHƯƠNG 1: TỔNG QUAN TÀI LIỆU

1.1 Chi Nhân sâm và sâm Ngọc Linh

Chi Nhân sâm (Panax) thuộc họ Ngũ gia bì (Araliaceae), là một trong những

chi có nhiều loài cây thuốc quan trọng nhất ở phương Đông Thông thường, các loài thuộc chi này được trồng chủ yếu từ hạt Cây sâm trưởng thành sau 1 năm khi gieo trực tiếp vào đất hoặc trồng ở vườn ươm Cây con có một thân với 2 lá và rễ Trong năm đầu tiên, thân và lá sẽ cao khoảng 5 - 10 cm Trọng lượng tươi của rễ nhỏ hơn

1 g Phần khí thân của cây sâm chết đi hàng năm vào cuối vụ và thân mới tiếp tục mọc vào cuối tháng 4 hoặc tháng 5 Nụ hoa và lá của sâm Ngọc Linh xuất hiện đồng thời Sau 6 năm, lá cao khoảng 40 - 60 cm và trọng lượng tươi của rễ đạt khoảng

200 g Cây sâm trưởng thành có một vài vòng lá Mỗi vòng lá bao gồm một cuống

lá và 3 đến 5 lá nhỏ Hạt hình thành sau 2 - 4 năm và mỗi chùm có 2 hoặc 3 hạt có màu từ trắng đến vàng [75]

Có khoảng 13 loài thuộc chi này đã được miêu tả, hầu hết phân bố ở Đông Á,

vùng Himalaya, Đông Dương và Bắc Mỹ Hai loài là Panax ginseng C A Meyer (Sâm Hàn Quốc, Sâm Cao Ly, Sâm Á châu) và Panax quinquefolius L (Sâm Mỹ)

được trồng và thương mại hóa rộng rãi [16,43], các loài khác khá hiếm và bị đe dọa, thậm chí có loài có thể bị tuyệt chủng trong tương lai gần do nạn khai thác bừa bãi hoặc mất nơi sống Ở Việt Nam, chi Nhân sâm gồm các loài mọc tự nhiên rất có giá

trị làm thuốc như Sâm Vũ diệp (P bipinnatifidus), Tam thất hoang (P

stipuleanatus), Sâm Lai Châu (Panax vietnamensis var fuscidiscus) và đặc biệt là

sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.) [2,9]

Sâm Ngọc Linh là cây thảo, sống nhiều năm, cao khoảng 30 - 110 cm Cây

có thân rễ tạo thành các đốt, mọc b ngang, có thể phân nhánh, đường kính từ 1 - 2

cm Phần mang lá của cây từ 1 - 5 thân, tùy theo số đầu nhánh của thân rễ Lá kép chân vịt, mọc vòng, ở ngọn, mỗi lá kép gồm 3 - 5 lá chét Lá sâm Ngọc Linh là lá chét hình bầu dục, thuôn, nhọn hai đầu, 6 - 14 × 2,5 - 4 cm, mép khía răng cưa Cây

Trang 12

4

có cụm hoa tán đơn hay tán kép (thêm 1 - 2 tán phụ), mọc ở ngọn, chiều dài cuống cụm hoa dài hơn cuống lá, nên thường cao vượt tán lá Hoa của sâm Ngọc Linh có cuống ngắn, màu trắng xanh, 5 đài nhỏ, 5 cánh hoa, 5 nhị Bầu 2 ô, vòi nhụy chẻ 2 ở đầu Cây có quả mọng, hình cầu, đường kính 0,5 - 0,6 cm, khi chín màu đỏ và thường có một chấm đen ở đỉnh Hạt thường 1 hoặc 2; hạt nhỏ gần tròn hoặc gần giống hình thận, vỏ hạt không nhẵn (Hình 1.1) [102] Mùa hoa của sâm Ngọc Linh

là tháng 4 - 5, quả tháng 6 - 9 Đây là loài gieo giống tự nhiên bằng hạt Phần thân

rễ bị gãy còn lại vẫn có thể tái sinh Cây thường lụi hàng năm vào mùa đông, đến đầu mùa xuân năm sau từ thân rễ sẽ mọc lên chồi thân mới Đây là loài đặc biệt ưa

ẩm và ưa bóng, mọc rải rác dưới tán rừng kín thường xanh ẩm, nhất là dọc theo hành lang ven suối, ở độ cao từ 1900 - 2300 m [10]

Sâm Ngọc Linh còn có các tên gọi khác như sâm Việt Nam, sâm Khu Năm (K5), sâm trúc (sâm đốt trúc, trúc tiết sâm), củ Ngải rọm con hay cây Thuốc giấu Sâm Ngọc Linh được phát hiện vào năm 1973 Tuy nhiên, cho đến 1985, loài này mới được công bố là hoàn toàn mới đối với khoa học Đến nay, Sâm Ngọc Linh chỉ được phát hiện ở vùng núi Ngọc Linh thuộc hai tỉnh Quảng Nam và Kon Tum, Gia Lai và Lâm Đồng Những điểm vốn trước đây có sâm Ngọc Linh mọc tự nhiên, chủ yếu tập trung ở địa bàn của hai huyện Đăk Tô (tỉnh Kon Tum) và Trà My (tỉnh Quảng Nam) Tuy nhiên, do vùng phân bố hạn chế và việc khai thác quá mức đã khiến sâm Ngọc Linh trở nên rất hiếm trong tự nhiên sâm Ngọc Linh đã được đưa vào Danh lục đỏ của IUCN (2003) và danh sách các loài hạn chế khai thác và sử dụng vì mục đích thương mại (Nghị định 32/2006/NĐ-CP ngày 31 tháng 3 năm

2006 về quản lý thực vật rừng, động vật rừng nguy cấp quý hiếm)

Để bảo tồn và phát triển nguồn gen qu hiếm này, một số nhóm nghiên cứu ở nước ta đã thực hiện tái sinh, nhân vô tính sâm Ngọc Linh và phân tích hoạt chất saponin [5] Những năm gần đây, nhóm nghiên cứu của Dương Tấn Nhựt Tại Viện Nghiên cứu khoa học Tây Nguyên thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã thành công trong nhân vô tính sâm Ngọc Linh có chất lượng cho sản xuất trong khuôn khổ các đề tài “Hệ thống nuôi cấy lớp mỏng tế bào trong nghiên

Trang 13

5

cứu chương trình phát sinh hình thái và bảo tồn cây sâm Ngọc Linh”; “Nghiên cứu nhân giống vô tính và sản xuất sinh khối rễ cây sâm Ngọc Linh”… [1,26,27]

Hình 1.1 Sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.)

1.2 Các công nghệ giải trình tự DNA

1.2.1 Các hệ thống giải trình tự DNA thế hệ đầu tiên

Giữa những năm 70 của thế kỷ 20, Sanger đã đưa ra khái niệm đầu tiên về phương pháp giải trình tự DNA và công bố phương pháp cho phép xác định nhanh các trình tự DNA dựa vào hoạt động của DNA polymerase [83] Năm 1977, hai công trình nổi tiếng về giải trình tự DNA đã được công bố: Công trình của Sanger

và đồng tác giả về kỹ thuật giải trình tự DNA sử dụng dideoxynucleotide để làm ngừng phản ứng tổng hợp DNA một cách ngẫu nhiên (Phương pháp dideoxy); Công trình của Maxam và Gilbert về kỹ thuật giải trình tự DNA bằng phương pháp hóa học, trong đó các đoạn DNA được đánh dấu, cắt ngẫu nhiên và điện di trên gel polyacrylamide [63] Hình 1.2 thể hiện nguyên lý chung của phương pháp giải trình

tự này [87] Hai phòng thí nghiệm đi tiên phong trong việc cho ra đời các thế hệ máy giải trình tự DNA tự động đầu tiên là Caltech (sau này được Applied Biosystems – ABI thương mại hóa), Phòng thí nghiệm Sinh học phân tử châu Âu –

Trang 14

6

EMBL và Pharmacia-Amersham, sau này là General Electric Healthcare - GE Kết quả của các nghiên cứu xây dựng và cải biến phương pháp cùng việc thương mại hóa các máy giải trình tự DNA những năm sau đó dẫn tới làn sóng ứng dụng rộng rãi các công nghệ này trong cộng đồng khoa học trên khắp thế giới [14,15,89]

Hình 1.2 Giải trình tự DNA theo phương pháp Sanger

Với thiết bị giải trình tự DNA tự động đầu tiên hoạt động dựa trên nguyên lý của phương pháp Sanger có cải biến (đánh dấu các ddNTP bằng huỳnh quang thay

vì phóng xạ), locus hoàn chỉnh của gen mã hóa hypoxanthineguanine phosphoribosyltransferase (HPRT) đã được xác định [30] Năm 1996, máy giải

Trang 15

7

trình tự DNA thương mại đầu tiên, ABI Prism 310 sử dụng điện di trên bản gel ra đời Hai năm sau đó, các ống mao quản tự động đã được thay thế cho các bản gel tự

đổ tốn công sức trong hệ thống ABI Prism 3700 Tuy nhiên, do giá thành cao và tốc

độ xử lý chậm nên việc giải trình tự DNA chủ yếu chỉ dừng ở các gen đơn lẻ, thường phục vụ các xét nghiệm chẩn đoán phân tử trong các ph ng thí nghiệm y sinh [36,56]

1.2.2 Các hệ thống giải trình tự DNA thế hệ mới HT-NGS (high-throughput

next generation sequencing)

Một trong những công nghệ có sự phát triển mạnh mẽ và tạo ảnh hưởng ở quy mô toàn cầu là công nghệ giải trình tự DNA thế hệ mới (next generation sequencing - NGS), cho phép giải trình tự hiệu quả và nhanh chóng toàn bộ hệ gen sinh vật (whole genome sequencing - WGS) Nhiều công ty thương mại đã cho ra đời các hệ thống máy giải trình tự DNA thế hệ mới dựa trên các công nghệ HT- NGS Năm 2005, 454 sequencing đã được đưa ra thị trường bởi 454 Ngay sau đó, năm 2006 chứng kiến sự ra đời của Genome Analyzer thuộc Solexa Tiếp đó, Agencourt phát triển hệ thống giải trình tự SOLiD Đây là ba hệ thống giải trình tự NGS lớn nhất khi đó với các ưu điểm là dung lượng lớn, độ chính xác cao và chi phí giảm Các công ty này sau đó được mua bởi các hãng: Applied Biosystems/ Agencourt (2006), Roche/ 454 (2007), Illumina/ Solexa (2007) Cho tới nay, rất nhiều hệ thống giải trình tự DNA thế hệ mới đã được phát triển bởi các hãng/ công

ty như Applied Biosystem/ SOLiD; Roche/ 454; Illumina/ Solexa, MiSeq, HiSeq; Pacific Biosciences/ RS; Life technologies/ Ion Torrent PGM… và gần đây là Life technologies/ Ion Proton… cho phép giải trình tự nhanh toàn bộ hệ gen [32,56,64,76,87]

Về nguyên lý, các hệ thống giải trình tự DNA thế hệ mới được thực hiện dựa trên việc giải trình tự bằng tổng hợp (sequencing by synthesis, SBS) hoặc giải trình

tự gắn nối (sequencing by ligation, SBL) (Applied Biosystems/ SOLiD) Giải trình

tự bằng tổng hợp là nguyên lý mà các thế hệ máy Roche/ 454, Life Technologies/

Trang 16

8

Ion Torrent và Illumina sử dụng Hình 1.3 mô tả nguyên lý của công nghệ giải trình

tự thế hệ mới của 454, SOLiD và Solexa [87] Công nghệ NGS được phát triển trên

cơ sở các kỹ thuật chuẩn bị mẫu, giải trình tự, lắp ráp hệ gen, chú giải và so sánh hệ gen Trong đó, công đoạn giải trình tự được thực hiện với 3 bước chính bao gồm: Chuẩn bị các đoạn DNA và gắn lên các giá bám; Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu adapter; Giải trình tự bằng tổng hợp hoặc bằng gắn nối [85,81] Với ưu thế thời gian đọc nhanh, dung lượng lớn (high-throughput), trình tự đọc được rất chính xác, các hệ thống giải trình tự gen thế hệ mới ngày càng được sử dụng rộng rãi [73,74,84]

Hình 1.3 Giải trình tự DNA thế hệ mới theo công nghệ của 454, SOLiD (A) và Solexa (B)

Sự phát triển mạnh mẽ của công nghệ NGS dẫn tới một cuộc cách mạng trong công nghệ sinh học phân tử nói chung và công nghệ giải trình tự DNA nói riêng NGS là một bước tiến vượt bậc về công nghệ giải trình tự DNA, cho phép đọc một lượng dữ liệu khổng lồ, từ 8 Gb đến 600 Gb Nếu như trước đây, việc giải trình tự toàn bộ hệ gen rất phức tạp, khó khăn, chi phí lớn, thời gian dài thì ngày nay, với sự phát triển của công nghệ NGS, các chương trình, dự án giải trình tự 1.000 - 10.000 hệ gen người, 1.000 - 10.000 hệ gen động vật, 1.000 hệ gen thực vật

có thể được thực hiện tại nhiều phòng thí nghiệm trong một thời gian ngắn Công

Trang 17

9

nghệ NGS hiện được ứng dụng chủ yếu trong các dự án lớn nghiên cứu hệ gen người với mục đích phục vụ y học, metagenomics và các nghiên cứu đa hình hệ gen của những loài đã được giải trình tự toàn bộ hệ gen Công nghệ này đã và đang tiếp

tục phát triển nhằm giải trình tự de novo hệ gen của những loài chưa có hệ gen tham

chiếu Trong lĩnh vực y học, NGS là một công cụ mạnh nhất cho phép phát hiện được các tác nhân gây bệnh hay các đột biến với tỷ lệ thấp Chính vì vậy, giải trình

tự DNA thế hệ mới được ứng dụng để phát hiện và định lượng các đột biến trong ung thư, nghiên cứu chẩn đoán bệnh di truyền… Tuy nhiên, phương pháp giải trình

tự truyền thống (phương pháp Sanger) với đoạn đọc dài và độ chính xác cao vẫn tiếp tục được lựa chọn sử dụng trong nhiều trường hợp, đặc biệt ở các dự án quy mô nhỏ với dung lượng giới hạn ở Kb – Mb [87]

Mặc dù sở hữu những ưu điểm vượt trội so với giải trình tự truyền thống, NGS vẫn gặp khó khăn với những hệ gen có độ phức tạp cao, các đoạn lặp dài hay

có số lượng bản sao và cấu trúc đa dạng Vì vậy, các đoạn đọc trình tự dài với kích thước vài kb đã được phát triển để giải quyết vấn đề này Công nghệ giải trình tự các đoạn đọc dài được gọi là giải trình tự thế hệ thứ ba Những đoạn đọc dài này có thể bao phủ toàn bộ vùng lặp hay phức tạp, từ đó cũng cấp thông tin trình tự chính xác và tin cậy hơn Giải trình tự thế hệ thứ ba được chia ra làm hai loại chính là giải trình tự thời gian thực đơn phân tử (single-molecular real-time sequencing, SMRT)

và giải trình tự tổng hợp (synthetic sequencing) dựa trên công nghệ giải trình tự

đoạn đọc ngắn để tạo các đoạn đọc dài in silico Hiện nay, hệ thống giải trình tự

SMRT phổ biến nhất là PacBio của Pacific Biosciences Hệ thống này cho DNA chạy qua giếng có gắn polymerase và phát hiện các dNTP được gắn vào khuôn qua tín hiệu huỳnh quang Ngoài ra, vào năm 2014, một hệ thống giải trình tự SMRT khác được đưa ra là MinION của Oxford Nanopore Technologies Khác với các nền tảng công nghệ giải trình tự khác, MinION có thể phát hiện trực tiếp thành phần DNA của phân tử DNA khuôn sợi đơn khi DNA đi qua lỗ của protein nhờ sự thay đổi điện thế Hướng tiếp cận thứ hai trong giải trình tự thế hệ thứ ba sử dụng hệ thống barcoding để liên kết các đoạn đọc ngắn ở các hệ thống giải trình tự cũ Theo

Trang 18

10

đó, các phần của khuôn sẽ được phân đoạn và đánh dấu với barcode để có thể phân biệt nguồn gốc các đoạn đọc nhỏ, từ đó sắp xếp và lắp ráp chúng thành các đoạn đọc lớn hơn Hiện tại, có hai hệ thống giải trình tự sử dụng hướng tiếp cận này là Illumina synthetic long-read sequencing và 10X Genomics emulsion-based system

Do việc phân đoạn DNA, hệ thống giải trình tự của Illumina đ i hỏi độ bao phủ lớn hơn so với giải trình tự đoạn đọc ngắn thông thường dẫn tới tăng giá thành sử dụng Tương tự, với hệ thống 10X Genomics emulsion-based system, việc phải sử dụng thêm thiết bị vi dẫn đặc biệt cũng làm tăng giá thành Tuy nhiên, ưu điểm của hệ thống này cho phép sử dụng lượng đầu vào chỉ từ 1 ng Giải trình tự thế hệ thứ ba thường được sử dụng trong các nghiên cứu hệ gen biểu hiện nhờ khả năng bao phủ toàn bộ trình tự phiên mã mRNA [36] Sau thế hệ thứ ba, vào năm 2015, lần đầu

tiên việc giải trình tự mRNA in situ được công bố và được coi là thế hệ thứ 4 của giải trình tự Công nghệ giải trình tự in situ cho phép khai thác hóa chất của NGS để

đọc trình tự acid nucleic trực tiếp trong mô hoặc tế bào Công nghệ giải trình tự thế

hệ thứ 4 đã mở ra một hướng đi mới cho phân tích biểu hiện gen, kiểm chứng các chỉ thị sinh học, chẩn đoán và phân loại bệnh nhân trong điều trị ung thư [65]

1.2.3 Hệ thống giải trình tự Ion Personal Genome Machine (Ion PGM)

Trong các hệ thống NGS, Ion Torrent là nền tảng đầu tiên không sử dụng cảm biến quang học cùng với tín hiệu huỳnh quang tạo ra nhờ hoạt động của enzyme [80] Hệ thống này sử dụng tín hiệu của ion H+ giải phóng mỗi khi một nucleotide được sử dụng để tổng hợp sợi DNA mới bởi enzyme polymerase Cụ thể

là các hạt từ sau khi gắn DNA khuôn sẽ được đưa lên đĩa sao cho mỗi giếng chỉ chứa một hạt từ Các loại nucleotide sau đó sẽ lần lượt được đưa vào Mỗi nucleotide được gắn vào khuôn DNA sẽ giải phóng ra một ion H+

Nếu nucleotide không thích hợp để gắn sẽ không tạo ra H+ và khi có hai nucleotide được gắn sẽ tạo

ra lượng H+

gấp đôi [33] Mỗi ion H+ thoát ra sẽ làm thay đổi 0,02 đơn vị pH Bằng cách nhận biết sự thay đổi này, hệ thống sẽ biết liệu nucleotide có được gắn vào sợi DNA hay không Sau đó, các nucleotide không thích hợp để gắn vào sợi DNA sẽ được loại bỏ và loại nucleotide mới được đưa vào Sự thay đổi pH gây ra bởi ion H+

Trang 19

11

được phát hiện bởi CMOS (integrated complementary metal-oxide-semiconductor)

và ISFET (ion-sensitive field-effect transistor) Tuy nhiên, độ thay đổi pH phát hiện được với cảm biến có tỷ lệ không chính xác tuyệt đối với số lượng nucleotide nhất

là với những đoạn có nucleotide lặp lại [36] Hình 1.4 thể hiện nguyên lý giải trình

tự của nền tảng Ion Torrent [36]

Hình 1.4 Nguyên lý hoạt động của giải trình tự Ion Torrent

Hệ thống Ion Torrent đã đưa ra các loại chip và các hệ thống giải trình tự khác nhau phù hợp với những yêu cầu đa dạng của các nhà nghiên cứu Những loại chip có thể cung cấp các thông lượng khác nhau từ khoảng 50 Mb đến 15 Gb với thời gian chạy từ 2 đến 7 giờ Tốc độ này nhanh hơn hầu hết các nền tảng giải trình

tự hiện nay [36] Ba loại chip được cung cấp cho hệ thống Ion Torrent là Ion 314,

316 và 318 với số lượng giếng khác nhau và các quy mô khác nhau trong cùng thời gian giải trình tự Chip Ion 318 có thể tạo ra trên 1 Gb dữ liệu trong 2 tiếng [56] Hiện nay, để phục vụ cho những nghiên cứu ứng dụng lâm sàng cũng như các phòng thí nghiệm nhỏ, một số hệ thống giải trình tự thế hệ mới với quy mô nhỏ đã được ra đời, đó là hệ thống Ion Personal Genome Machine (PGM) [60] Hệ thống này được đưa ra vào cuối năm 2010 và sử dụng công nghệ giải trình tự dựa trên chất bán dẫn của Ion Torrent Quy trình giải trình tự trên Ion PGM có thể được đơn giản hóa khi kết hợp với thiết bị chuẩn bị thư viện Ion Chef [36] Nhờ sử dụng công nghệ giải trình tự sử dụng chất bán dẫn của Ion Torrent, Ion PGM sẽ có tốc độ

Trang 20

12

nhanh hơn, giá thành giảm và quy mô nhỏ hơn Hiện tại, hệ thống này có thể giải trình tự các đoạn 200 bp của 8 mẫu cùng lúc trong 2 giờ với thời gian chuẩn bị mẫu dưới 6 giờ [56] So với hệ thống HiSeq 2000 thì PGM có độ ổn định cao hơn với các đoạn đọc kích thước lớn (~400 bp) và có độ chính xác cao hơn với các vị trí bắt cặp sai Tuy nhiên, hệ thống này không tỏ ra hiệu quả khi đọc các đoạn nucleotide lặp lại liên tục (homopolymer) lớn hơn 6-8 bp và những vị trí indel (insertion and deletion) [34,56,58] Mặc dù vậy, hệ thống Ion PGM vẫn là một lựa chọn tốt cho các ứng dụng lâm sàng cũng như những nghiên cứu giải trình tự quy mô nhỏ [56]

1.3 Giải trình tự gen và hệ gen ở các loài thuộc chi Nhân sâm

1.3.1 Giải trình tự gen phục vụ định loại phân tử

Hiện nay, với số lượng các loài sinh vật mới được công bố ngày càng tăng, phân loại học dựa trên hình thái không đủ hiệu quả để đáp ứng cho việc định loại loài, nhất là ở các nhóm sinh vật có quá trình tiến hóa phức tạp Để khắc phục các nhược điểm của phương pháp phân loại dựa trên kiểu hình, các phương pháp phân

tử đang dần trở thành một công cụ trợ giúp hữu hiệu trong việc định loại các loài

thuộc chi này Sự phát triển của các phương pháp phân tử trong việc định loại các

loài sinh vật, đặc biệt đối với những loài được sử dụng để sản xuất các sản phẩm hàng hóa (như dược phẩm, mỹ phẩm) đã đóng góp tích cực không chỉ về khía cạnh bảo hộ quyền sở hữu mà còn hỗ trợ xác định các nguyên liệu thô cho quá trình sản xuất thương mại Việc xác định các loài, các quần thể đặc hữu và khả năng định loại chúng cũng có nghĩa quan trọng đối với quốc gia trong việc xác lập quyền đối với nguồn gen theo Công ước Đa dạng sinh học (Convention on Biological Diversity) Đặc biệt, việc xác định các sản phẩm khó nhận diện như lâm sản ngoài gỗ (non- timber forest products) cho phép kiểm soát các hoạt động thương mại xuyên biên giới đối với các loài có nghĩa quan trọng về kinh tế [3]

Đối với các loài thuộc chi Nhân sâm, việc phân loại chủ yếu dựa trên các đặc điểm hình thái của thân, lá, rễ của cây sâm kết hợp với phân tích các hợp chất saponin Các nghiên cứu sử dụng chỉ thị phân tử các loài thuộc chi Nhân sâm trên

Trang 21

13

cơ sở phân tích một số vùng DNA đã và đang được triển khai thực hiện, tuy nhiên,

ở mức độ và quy mô tương đối hạn chế [2] Các kỹ thuật phân tử được sử dụng chủ yếu dựa trên PCR như AFLP (Amplified fragment length polymorphism); RADP (Random amplified polymorphic DNA); EST-SSR (Expressed sequence tags - simple sequence repeats); RFLP (Restriction fragment length polymorphism) [38,86,103] Ngoài ra, một số nghiên cứu về mã vạch phân tử cũng như giải trình tự một phần genome các loài thuộc chi này đã được tiến hành [20,25]

Đối với mã vạch DNA, các nghiên cứu phân loại các loài sâm thuộc chi Nhân sâm sử dụng mã vạch đã phổ biến và thông dụng từ những năm giữa thập kỷ

90 của thế kỷ trước Các mã vạch phân tử được sử dụng để phân loại các loài sâm thuộc chi Nhân sâm tương đối nhiều, có thể nằm trong hệ gen nhân như vùng ITS

(internal transcribed spacers), 18S rRNA; trong ty thể như nad1 hoặc nằm trong hệ gen lục lạp như matK, psbA-trnH, psbK-psbI, pspM-trnD, rps16, trnC-trnD… [50,72,40,41,52] Trong các chỉ thị này, vùng ITS, psbA-trnH và trnC-trnD cho

thấy nhiều đa hình đơn nucleotide (Single nucleotide polymorphism, SNP) hơn và

có thể dùng để xác định loài và phân loại nhóm cho chi Nhân sâm [49,54,105,106] Năm 1996, Wen và đồng tác giả đã công bố cây phát sinh chủng loại của 12 loài sâm khác nhau thuộc chi Nhân sâm phân bố ở Bắc Mỹ và Đông Á dựa trên trình tự vùng barcode ITS độ dài từ 606 đến 608 bp gồm vùng ITS1, vùng xen 5,8S và ITS2

[96] Komatsu và đồng tác giả (2001) đã giải trình tự các gen 18S và matK nhằm nghiên cứu so sánh đặc điểm di truyền của P vietnamensis và P quinquefolium

Kết quả cho thấy hai loài hoàn toàn tương đồng ở 18S và khác nhau ở 10 vị trí trên

matK [49] Năm 2004, Lee và Wen công bố một barcode khác của chi Nhân sâm là

vùng trnC-trnD nằm xen giữa trnC và trnD trong hệ gen lục lạp Dựa trên trình tự

vùng này kết hợp với ITS, nhóm nghiên cứu đã xây dựng cây phát sinh chủng loại

của 18 loài trong chi Nhân sâm và 2 loài thuộc chi Aralia [54] Bên cạnh đó, một số barcode khác như vùng trnK kết hợp với vùng 18S-rRNA cũng được các nhà khoa

học ở Đại học Dược Toyama sử dụng và xây dựng cây phát sinh chủng loại của 13

loài Trong nghiên cứu này, P vietnamensis var fuscidiscus được xác định là một

Trang 22

14

thứ của P vietnamensis Ha et Grushv có phân bố ở Vân Nam, Trung Quốc và thứ này khác với P vietnamensis ở 4 vị trí trên gen trnK Kết quả phân tích dữ liệu thông tin gen 18S-rRNA và trnK cho thấy P vietnamensis Ha et Grushv và P

vietnamensis var fuscidiscus có mối quan hệ di truyền gần gũi và chung nhánh với

P zingiberensis có nguồn gốc ở Vân Nam, Trung Quốc [35,105] Các nghiên cứu

xây dựng cây phát sinh chủng loại chi Nhân sâm từ đó đến nay đều sử dụng trình tự vùng ITS của các mẫu như một tiêu chuẩn để tham chiếu cũng như kết hợp với các barcode khác để có kết quả toàn diện hơn [22,54,106] Gần đây, vùng ITS2 có độ dài 218 - 235 bp đã được nhiều nhóm nghiên cứu sử dụng như một barcode chuẩn

để phân biệt các loài sâm Trong công trình của Ali và đồng tác giả (2012), 12 loài được phân loại sử dụng vùng trình tự ITS [12] Trình tự này cũng được Chen và đồng tác giả (2013) nghiên cứu để xây dựng cây phát sinh chủng loại Trong đó, nhóm nghiên cứu đã chỉ rõ trong vùng trình tự ITS2 tương đối ngắn, các loài sâm khác nhau thuộc chi Nhân sâm sẽ biểu hiện từ 2 - 3 SNP [22]

Ở Việt Nam, việc sử dụng các mã vạch phân tử cho các loài thuộc chi Nhân sâm đã được áp dụng nhưng chưa phong phú và toàn diện Các mã vạch được sử

dụng chủ yếu là vùng matK và ITS [7,8] Năm 2011, Nguyễn Thị Phương Trang và

đồng tác giả đã công bố phát hiện về một loài sâm mới ở Việt Nam dựa trên phân tích các sai khác trong trình tự vùng ITS so với các loài khác thuộc chi Nhân sâm phân bố ở Đông Á [7] Vũ Huyền Trang và đồng tác giả (2013) đã nghiên cứu xây

dựng mã vạch DNA cho sâm Ngọc Linh trên cơ sở 5 chỉ thị DNA mã vạch

psbA-trnH, matK, trnL, rbcL và ITS Nhóm tác giả đã chứng minh trong 5 chỉ thị mã

vạch nghiên cứu, psbA-trnH là chỉ thị có tiềm năng nhất, cho phép phân biệt sâm

Ngọc Linh với các loài sâm khác trên thế giới với độ chính xác tương đối cao [11]

1.3.2 Giải trình tự hệ gen nhân và hệ gen biểu hiện

Trên thế giới, các nghiên cứu về hệ gen thực vật được bắt đầu từ những năm đầu của thế kỷ 21 với công bố về xác định trình tự toàn bộ hệ gen của loài cây mô

hình Arabidopsis thaliana Những năm sau đó, hướng nghiên cứu này có những

Trang 23

15

bước phát triển vượt bậc với nghiên cứu giải trình tự hệ gen lúa được công bố năm 2005; trình tự hệ gen cây dương năm 2006; toàn bộ trình tự hai kiểu gen cây nho năm 2007; đu đủ chuyển gen năm 2008 Hệ gen của nhiều loài thực vật khác cũng

đã được giải trình tự [37]

Cùng với sự phát triển của công nghệ NGS, việc tiến hành các nghiên cứu giải trình tự hệ gen các loài thuộc chi Nhân sâm đã được đầu tư và thực hiện trong những năm gần đây Các công bố chủ yếu tập trung ở các quốc gia có Sâm phân bố

và được sử dụng thường xuyên làm dược phẩm như Trung Quốc, Hàn Quốc… Các nghiên cứu giải trình tự đầu tiên thường tập trung vào hệ gen biểu hiện của các loài

trong chi Nhân sâm, xây dựng thư viện của các trình tự biểu hiện (ESTs) phục vụ

nghiên cứu chức năng của các gen sau này như biểu hiện gen, marker phân tử, lập bản đồ di truyền Năm 2010, Sun và đồng tác giả đã công bố nghiên cứu đầu tiên

về giải trình tự hệ gen biểu hiện của chi Nhân sâm trên đối tượng Sâm Bắc Mỹ (P

quinquefolius) Nhóm nghiên cứu đã sử dụng hệ thống đọc trình tự GS FLX

Titanium với công nghệ 454 pyrosequencing và thu được hơn 200 nghìn kết quả đọc trình tự chất lượng cao với độ dài trung bình của mỗi kết quả là 427 bp từ thư

viện cDNA của rễ cây P quinquefolius [94] Năm 2011, hệ gen biểu hiện của một loài khác của chi Nhân sâm là P notoginseng đã được công bố [59] Các nghiên cứu giải trình tự hệ gen biểu hiện của P ginseng cũng được tiến hành một cách

đồng thời nhưng với quy mô lớn và toàn diện hơn Cũng trong năm 2011, Chen và đồng tác giả công bố thu được gần 32 nghìn trình tự biểu hiện (EST) dựa trên việc

phân tích trình tự của thư viện cDNA của rễ Nhân sâm (P ginseng) 11 năm tuổi bằng hệ thống giải trình tự GS FLX Titanium (Chen et al., 2011) [21] Năm 2013,

dựa vào kết quả của hệ thống 454 pyrocequencing, Li và đồng tác giả đã thu được

dữ liệu phân tích về hệ gen biểu hiện (transcriptome) của P Ginseng với 45849,

6172, 4041 và 3273 trình tự mã hóa từ phân tích thư viện cDNA của rễ, thân, lá và hoa của Nhân sâm [55]

Các nghiên cứu giải trình tự hệ gen biểu hiện của chi Nhân sâm cũng được tiến hành nhưng với quy mô nhỏ hơn tại Canada và Hàn Quốc Năm 2013, Wu và

Trang 24

16

đồng tác giả tại Canada đã công bố hơn 41 nghìn kết quả giải trình tự các ESTs thu

được thông qua phân tích các thư viện cDNA của rễ Sâm Bắc Mỹ (P quinquefolius)

ở các giai đoạn phát triển khác nhau [98] Năm 2013, Mathiyalagan và đồng tác giả tại Trung tâm nghiên cứu Sâm Hàn Quốc, công bố nghiên cứu về 69 miRNA bảo thủ dựa trên ngân hàng trình tự EST xây dựng trên thư viện cDNA từ hoa, lá và rễ

của Nhân sâm (P ginseng) [62] Năm 2015, hệ gen phiên mã ở P vietnamensis var

fuscidiscus, một thứ của loài sâm Ngọc Linh được giải trình tự đã hỗ trợ cho việc

tìm kiếm các gen giả định liên quan đến con đường tổng hợp triterpenoid saponin ở mức độ phân tử [102] Bảng 1.1 thống kê các kết quả giải trình tự hệ gen ở chi Nhân sâm sử dụng các công nghệ giải trình tự gen thế hệ mới

Ở Việt Nam, nghiên cứu giải trình tự toàn bộ hoặc một phần hệ gen các loài cây trồng có giá trị phục vụ công tác giám sát nguồn gen, chọn tạo giống mới chỉ được bắt đầu trong thời gian gần đây Trong khuôn khổ Chương trình Quỹ gen cấp Quốc gia, hệ gen biểu hiện của sâm Ngọc Linh đang được triển khai giải trình tự và phân tích

Bảng 1.1 Các kết quả giải trình tự hệ gen các loài thuộc chi Nhân sâm

Chi/ Loài Xây dựng

thƣ viện Dữ liệu (ENA)

Hệ thống giải trình tự

Model Số đoạn đọc Số lƣợng base

Panax L Amplicon SRX576296 ILLUMINA Illumina

Trang 25

P ginseng cv

Yunpoong WGS SRX481170 ILLUMINA

Illumina HiSeq 2000 3.000.000 606.000.000

Trang 26

18

cấp DNA lục lạp là nhân tố di truyền ngoài nhiễm sắc thể Người ta cho rằng trong quá trình phát sinh chủng loại, lục lạp được hình thành do sự cộng sinh của một loài

vi khuẩn lam vào trong tế bào [28]

Hệ gen lục lạp ở các loài thực vật có cấu trúc dạng mạch vòng với kích thước dao động từ 70 - 217 kb, chứa khoảng 130 gen [93] Hệ gen lục lạp thực vật bao gồm hai vùng lặp lại đảo chiều (IR) được ngăn cách bởi hai vùng DNA đặc trưng là vùng bản sao đơn lớn (Large single-copy region - LSC) và vùng bản sao đơn nhỏ (Small single-copy region - SSC) [42] Các nghiên cứu về cấu trúc phân tử hệ gen lục lạp ở hầu hết các loài thực vật bậc cao cho thấy tỷ lệ thay thế trong cpDNA thấp hơn rất nhiều so với hệ gen nhân và chúng cũng có mức tái tổ hợp rất thấp, di truyền theo một dòng cha mẹ [78,97] Với tốc độ tiến hóa chậm, khá bảo thủ về kích thước, cấu trúc và thành phần gen, đặc biệt giữa các loài trong cùng chi, gen trên lục lạp thường được sử dụng để nhận dạng và đánh giá mối quan hệ di truyền của các loài ở nhiều cấp độ [69,78]

Trước đây, các nghiên cứu thường tập trung giải trình tự một vài vùng gen lục lạp của nhiều loài hoặc để giải trình tự hệ gen hoàn chỉnh sử dụng PCR thông thường, hàng loạt vùng gen ở các locus bảo thủ được nhân bản và lắp ráp Tuy nhiên, hướng tiếp cận này mất rất nhiều thời gian và khó thực hiện trên nhiều loài Gần đây, với sự phát triển của các công nghệ NGS, DNA của lục lạp được giải trình

tự toàn bộ Mặc dù các đoạn đọc được khá ngắn, nhưng với kích thước hệ gen lục lạp không quá lớn và không quá phức tạp so với hệ gen nhân, cùng các công nghệ giải trình tự cũng như lắp ráp, hiệu chỉnh khả thi, số lượng các loài được giải trình

tự hệ gen lục lạp tiếp tục tăng nhanh [51] Đến nay, hệ gen lục lạp hoàn chỉnh của rất nhiều loài thực vật đã được giải trình tự và được công bố trên NCBI

Đối với các loài thuộc chi Nhân sâm, Kim và Hee (2004) đã thực hiện giải

trình tự toàn bộ hệ gen lục lạp của Sâm Triều Tiên (P schinseng Nees)

(AY582139) Hệ gen lục lạp là DNA sợi đôi vạch vòng, bao gồm 156.318 bp, chứa một cặp IR (IRa và IRb) với kích thước mỗi vùng lặp là 26.071, ngăn cách bởi vùng

Trang 27

19

LSC có kích thước 86.106 bp và vùng SSC có kích thước 18.070 bp Hệ gen bao gồm 114 gen (75 gen mã hóa cho các peptide, 30 tRNA gene, 4 rRNA gene và 5

khung đọc mở bảo thủ [ycfs]) Nghiên cứu cũng tiến hành so sánh hệ gen lục lạp

Sâm Triều Tiên với hệ gen lục lạp của 17 loài thực vật có mạch nhằm tìm hiểu các

mô hình tiến hóa các đoạn trình tự mang mã và không mang mã của gen, cũng như đánh giá quan hệ phát sinh chủng loại dựa trên trình tự hệ gen lục lạp [48] Năm

2013, Dong và đồng tác giả đã thực hiện giải trình tự hệ gen lục lạp P notoginseng

sử dụng phương pháp PCR và so sánh với P ginseng để xác định các vùng đa hình nhất Kết quả cho thấy, hệ gen lục lạp của P notoginseng có kích thước 156.387 bp

và chỉ có 464 (0,3%) vị trí sai khác giữa hai hệ gen Các vùng intron rps16 và vùng

mã hóa gen ycf1, ycf1a và ycf1b là các mã vạch hữu hiệu có thể sử dụng trong nhận

dạng các loài thuộc chi Nhân sâm với mức độ phân biệt đạt được tương ứng là

83,33% (280 bp của rps16), 91,67% (60 bp của ycf1a) và 100% (100 bp của ycf1b) [25] Zhao và đồng tác giả (2015) đã xác định trình tự hệ gen lục lạp 4 chủng P

ginseng C.A Meyer (P ginseng) - loài dược liệu đặc biệt có giá trị và thường được

sử dụng trong các bài thuốc cổ truyền Trung Hoa Bốn chủng bao gồm Damaya (DMY), Ermaya (EMY), Gaolinshen (GLS), Yeshanshen (YSS) Trình tự toàn bộ

hệ gen lục lạp của DMY, EMY và GLS là 156.354 bp, của YSS là 156.355 bp Trình tự hệ gen của 3 chủng đầu tương tự nhau, trong khi ở chủng YSS đã có 1 bp được chèn vào vị trí 5472 Các phân tích hệ gen học so sánh cho thấy thành phần gen, thành phần GC và thứ tự của gen trong DMY tương tự như ở các loài họ hàng, trong khi đa hình trình tự vùng IR thấp hơn Nghiên cứu cũng thực hiện các đánh giá đa hình các allele hiếm và sự thích ứng với các thay đổi môi trường của hệ gen lục lạp [104] Bảng 1.2 thống kê các nghiên cứu và kết quả giải trình tự hệ gen lục lạp các loài thuộc chi Nhân sâm trên thế giới

Đối với hệ gen lục lạp của sâm Ngọc Linh, nhóm nghiên cứu tại Hàn Quốc

đã sử dụng hệ thống Illumina MiSeq để giải trình tự de novo Trong đó, DNA tổng

số sau khi tách chiết đã được sử dụng toàn bộ để lập thư viện cho giải trình tự Illumina Kết quả của nghiên cứu đưa ra trình tự hệ gen lục lạp với kích thước

Trang 28

20

155.992 bp với 86.177 bp vùng LSC, 17.935 bp vùng SSC, 25.940 bp thuộc hai vùng IRa và IRb [67] Tuy nhiên, tỷ lệ của DNA lục lạp trong toàn bộ DNA tổng số thường rất thấp từ khoảng 0,01 đến 13% tùy thuộc vào kích thước hệ gen nhân [91,92,95] Đối với các loài thuộc chi Nhân sâm với kích thước hệ gen là 5 - 10 Gb thì tỷ lệ DNA thuộc hệ gen lục lạp chỉ chiếm từ 1 đến 5% so với toàn bộ hệ gen gây khó khăn cho quá trình giải trình tự shotgun [68,71] Vì vậy, việc giải trình tự từ toàn bộ DNA tổng số sẽ gây ra những hạn chế về độ chính xác và độ bao phủ của hệ gen lục lạp Ngoài ra, việc sử dụng hệ thống Illumina MiSeq, được thiết kế phù hợp với quy mô nhỏ, cho dù đã được củng cố về kích thước các đoạn đọc (150 bp) cũng

P ginseng isolate damaya KC686331 156.354 SRR1251992 [104]

P ginseng isolate Ermaya KC686332 156.354 SRR1252006 [104]

P ginseng isolate Gaolishen KC686333 156.354 SRR1252007 [104]

1.4 Phân tích phát sinh chủng loại

Trước đây, thuật ngữ cây phát sinh chủng loại chủ yếu được sử dụng trong

hệ thống học và phân loại học để mô tả mối quan hệ giữa các loài, các chi, Ngày nay, với sự ra đời và phát triển mạnh mẽ của công nghệ giải trình tự DNA, thuật ngữ này dần dần được sử dụng trong hầu hết các ngành sinh học Bên cạnh việc mô

tả mối quan hệ của các loài, các chi như trước đây, cây phát sinh chủng loại còn được sử dụng trên cấp độ phát sinh quần thể, nguồn gốc phát sinh gen, [61, 31] Hiện nay, với sự phát triển của khoa học và công nghệ ứng dụng trong sinh học mở

ra những hướng đi mới trong nghiên cứu thì phân tích chủng loại phát sinh đã trở

Trang 29

21

thành một công cụ hữu hiệu và không thể thiếu trong các phân tích về gen, hệ gen, metagenomics, [19] Cây phát sinh chủng loại thể hiện lịch sử tiến hóa của nhóm các đối tượng thông qua các điểm nút (node) và các nhánh (branch) Ngoài ra, cây còn có thể có thêm gốc (root) trong một số trường hợp Trong đó, các điểm nút sẽ đại diện cho một sự kiện đặc biệt nào đó (ví dụ như sự phân chia loài) Các nhánh biểu hiện cho mối quan hệ phát sinh, khoảng cách di truyền hay sự tồn tại theo thời gian của các đối tượng đang xét (gen, hệ gen, cá thể, loài, chi, ) [100]

Cây phát sinh chủng loại được xây dựng dựa trên đặc điểm hoặc khoảng cách tính toán của dữ liệu về đối tượng Có hai nhóm phương pháp xây dựng cây phát sinh chủng loại là phương pháp khoảng cách và phương pháp dựa trên đặc điểm của dữ liệu Phương pháp khoảng cách hay được sử dụng là Neighbor joining với thuật toán gộp nhóm để tính toán ma trận khoảng cách, từ đó tạo nên cây hoàn chỉnh Phương pháp này tuy có tốc đô nhanh nhưng lại có độ chính xác kém hơn các phương pháp dựa trên đặc điểm Nhóm các phương pháp dựa trên đặc điểm bao gồm Maximum parsimony, Maximum likelihood (ML) và Bayesian Nhóm phương pháp này có quy luật chung là so sánh đ ng thời các trình tự và sau đó xem xét các đặc điểm tại cùng một vị trí sắp xếp Dựa trên những đánh giá về đặc điểm này có thể tạo ra điểm của cây Tuy nhiên, do sử dụng các thuật toán và cách tính toán khác nhau, điểm của cây trong các phương pháp này cũng khác nhau Phương pháp Maximum parsimony có điểm của cây được tính là giá trị thay đổi nhỏ nhất Ở phương pháp ML, điểm số của cây được đưa ra là giá trị bootstrap, biểu hiện cho tỷ

lệ xuất hiện hay khả năng xảy ra của cây Điểm của cây ở phương pháp Bayesian là xác suất hậu nghiệm của các nhánh thể hiện cho khả năng xảy ra của cây phát sinh chủng loại Trong các phương pháp này, cây có điểm số cao nhất trong tất cả các cây có khả năng xảy ra sẽ được đưa ra Tuy nhiên, trong thực tế, không một phương pháp nào được đánh giá là chính xác tuyệt đối hay là tốt nhất cho phân tích phát sinh chủng loại và mỗi phương pháp đều có những ưu nhược điểm riêng nên thông thường kết quả được đánh giá dựa trên một vài phương pháp xây dựng cây khác nhau để tránh nhầm lẫn trong phân tích [100]

Trang 30

22

Phương pháp ML tính toán khả năng cây phát sinh chủng loại phù hợp nhất

bộ dữ liệu ban đầu Phương pháp này thực hiện việc đảo các nhánh trên một cây ban đầu để tính toán khả năng xảy ra với điểm tương đồng cao nhất [44] Phương pháp Bayesian là phương pháp xây dựng cây phát sinh chủng loại dựa trên phân tích và phán đoán bằng xác suất thống kê Phương pháp này cũng dựa trên độ tương đồng

để tính toán xác suất Tuy nhiên, Bayesian và ML khác nhau ở các tham số sử dụng

để tính toán Hiện nay, phân tích Bayesian đang trở nên phổ biến hơn nhờ những tiến bộ trong phương pháp tính toán, đặc biệt là thuật toán Markov chain Monte Carlo (MCMC) Hai phương pháp này đều sử dụng khả năng có thể xảy ra của cây phát sinh chủng loại nên chúng tương đối giống nhau ở một số ưu điểm như tính thống nhất và hiệu quả [99] Tuy nhiên, thuật toán và suy luận thống kê sử dụng trong hai phương pháp là khác nhau nên một sô ưu nhược điểm sẽ tùy thuộc vào từng phương pháp Nhược điểm chính của phương pháp ML là giá trị bootstrap thường rất khó giải thích Đối với Bayesian, lỗi phát sinh trong quá trình tính toán khó có thể phát hiện được khi sử dụng MCMC với bộ dữ liệu quá lớn và xác suất hậu nghiệm thường đưa ra quá cao Hiện nay, ML và Bayesian vẫn là hai phương pháp được sử dụng rộng rãi nhất trong phân tích phát sinh chủng loại [100]

Nhằm đưa ra một phương pháp tối ưu hơn cho giải trình tự hệ gen lục lạp ở sâm Ngọc Linh nói riêng và các loài thực vật nói chung phục vụ cho việc tìm kiếm

các chỉ thị phân tử giúp định loại loài chúng tôi xây dựng đề tài: “Giải trình tự hệ

gen lục lạp của sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.)” Nghiên

cứu sử dụng phương pháp phân tách các phân đoạn DNA methyl hóa và không methyl hóa ở CpG kết hợp với giải trình tự bằng hệ thống Ion Torrent Các nghiên cứu liên quan đến giải trình tự và khai thác thông tin về hệ gen, trong đó có hệ gen lục lạp, xây dựng cơ sở dữ liệu hệ gen của sâm Ngọc Linh sẽ hỗ trợ các nghiên cứu tiến hóa, nhận dạng, bảo tồn, khai thác và sử dụng bền vững nguồn gen quý hiếm này

Trang 31

23

CHƯƠNG 2: VẬT LIỆU VÀ PHƯƠNG PHÁP

2.1 Vật liệu

2.1.1 Vật liệu thực vật

Mẫu lá sâm Ngọc Linh được thu tại Trạm Dược liệu Trà Linh - Nam Trà My

- Quảng Nam ở độ cao 1835 m, vĩ độ (N) 15o01.906 và kinh độ (E) 107o58.746 Mẫu lá được làm khô và bảo quản trong silicagel cho đến khi sử dụng (Hình 2.1)

Hình 2.1 Mẫu sâm Ngọc Linh sử dụng trong nghiên cứu

2.1.2 Hóa chất, dụng cụ

Hóa chất: Các bộ kit phục vụ cho nghiên cứu tách chiết DNA tổng số, giải

trình tự DNA thế hệ mới (Qiagen DNeasy Plant Extraction Kit, High Sensitivity Genomic DNA Reagent Kit, NEBNext Microbiome DNA Enrichment Kit, NEBNext Fast DNA Library Prep Set For Ion Torrent, Ion PGM Sequencing 400 Kit, E.Z.N.A.® Cycle Pure Kit; các hóa chất phục vụ PCR (dNTPs, Dream Taq DNA Polymerase…) và các hóa chất thông dụng khác đều đạt độ tinh khiết dùng trong nghiên cứu sinh học phân tử và được mua từ các hãng Qiagen, New England Biolabs, Thermo Fisher Scientific…

Thiết bị, dụng cụ: Nghiên cứu sử dụng các máy móc, trang thiết bị của Viện

Trang 32

Bước 1: Thu thập, bảo quản và tách chiết DNA mẫu sâm Ngọc Linh;

Bước 2: Xây dựng thư viện và giải trình tự bằng Ion Torrent;

Bước 3: Xử lý, lắp ráp hệ gen lục lạp của sâm Ngọc Linh;

Bước 4: Kiểm chứng, hiệu chỉnh trình tự hệ gen lục lạp;

Bước 5: Chú giải và phân tích hệ gen lục lạp;

Bước 6: Tìm kiếm các chỉ thị phân tử tiềm năng

Hình 2.2 Sơ đồ thí nghiệm giải trình tự và phân tích hệ gen lục lạp

Tách chiết

DNA tổng số

Xây dựng thư viện

và giải trình tự

Xử lý, lắp ráp

hệ gen lục lạp

Kiểm chứng, hiệu chỉnh trình tự

hệ gen lục lạp

Chú giải và phân tích

hệ gen lục lạp

Phân tích,

tìm kiếm

chỉ thị phân tử

Trang 33

25

2.2.2 Tách chiết và tinh sạch DNA tổng số

DNA tổng số từ mô lá của cây sâm Ngọc Linh được tách chiết sử dụng Qiagen DNeasy Plant Extraction Kit (Qiagen) theo hướng dẫn của nhà sản xuất Quy trình tách chiết gồm một số bước chính như sau:

(1) Nghiền mẫu: Khoảng 20 mg mẫu lá sâm Ngọc Linh khô được nghiền sử dụng chày, cối và nitơ lỏng

(2) Ly giải: Mẫu sau khi nghiền được bổ sung 400 µl dung dịch Buffer AP1

và 4 µl RNase A (100 mg/ml), ủ ở 65oC trong 10 phút Tiếp theo, 130 µl dung dịch P3 được bổ sung vào hỗn hợp và ủ 5 phút trên đá Phần dịch nổi sau khi ly tâm ở 12.000 vòng/phút (v/p) trong 5 phút được chuyển sang cột QIAshredder Mini và ly tâm ở 12.000 v/p trong 2 phút

(3) Gắn DNA lên cột: Dịch chảy qua cột được chuyển sang ống eppendorf mới và được bổ sung 1,5 thể tích dung dịch Buffer AW1 Sau đó, hỗn hợp được chuyển vào cột DNeasy Mini và ly tâm ở 5.000 v/p trong 1 phút

(4) Rửa cột: Cột DNeasy Mini sau đó được rửa với 500 µl dung dịch AW2,

ly tâm ở 5.000 v/p trong 1 phút và bỏ dịch chảy qua Bước rửa cột được lặp lại với

500 µl dung dịch AW2 và ly tâm ở 12.000 v/p trong 2 phút

(5) Thu DNA: DNA trên cột được rửa giải với 100 µl dung dịch AE Buffer,

ủ 5 phút và ly tâm ở 5.000 v/p trong 1 phút DNA tổng số sau khi tách chiết được đánh giá chất lượng các phân đoạn thông qua hệ thống Fragment Analyzer sử dụng High Sensitivity Genomic DNA Reagent Kit (50 - 40.000 bp) theo hướng dẫn của nhà sản xuất

2.2.3 Phân tách các phân đoạn DNA methyl hóa và không methyl hóa

Để tăng tỷ lệ các đoạn DNA thuộc hệ gen lục lạp trong toàn bộ DNA tổng số

đã được tách chiết, NEBNext Microbiome DNA Enrichment Kit được sử dụng để phân tách các phân đoạn DNA bị methyl hóa và không bị methyl hóa ở CpG Theo

đó, các đoạn DNA bị methyl hóa tại CpG chủ yếu thuộc hệ gen nhân sẽ được tách

Trang 34

(2) Phân tách các đoạn DNA bị methyl hóa và không bị methyl hóa ở CpG: Dung dịch Bind/Wash Buffer 5X và 64 µl Magnetic Bead đã được gắn MBD2 - Fc được bổ sung tương ứng với 400 ng DNA tổng số Hỗn hợp được ủ và lắc trong 15 phút ở nhiệt độ phòng Sau khi DNA và các hạt Magnetic Bead gắn MBD2 - Fc được ủ với nhau, ống chứa hỗn hợp được chuyển lên khay từ trong 5 phút cho đến khi các hạt từ bám hoàn toàn lên thành ống Dịch nổi chứa DNA không bị methyl hóa được chuyển ra ống eppendorf mới;

(4) Tinh sạch DNA không bị methyl hóa: Các phân đoạn DNA không bị methyl hóa trong dịch nổi từ bước phân tách được tinh sạch sử dụng 0.9X AMPure

XP Bead (Beckman Coulter) theo hướng dẫn của nhà sản xuất;

(5) Rửa giải DNA bị methyl hóa: Sau khi phân tách dịch nổi và các hạt từ trong giai đoạn thứ 3, 1 ml dung dịch Bind/Wash Buffer 1X được bổ sung để rửa các hạt từ Tiếp theo, 150 µl dung dịch TE 1X và 15 µl dung dịch Proteinase K được bổ sung vào ống chứa hạt từ và trộn đều Hỗn hợp được ủ tại 65o

C trong 20 phút và ly tâm ở 13.000 v/p Ống được chuyển lên khay từ trong 2 - 5 phút để các

Trang 35

33 HS dsDNA Reagent Kit theo hướng dẫn của nhà sản xuất Các phân đoạn DNA sau khi được phân tách và tinh sạch sẽ được sử dụng để xây dựng thư viện giải trình

tự DNA

2.2.4 Tạo thƣ viện hệ gen

Các đoạn DNA bị methyl hóa và không bị methyl hóa ở CpG sau khi được phân tách ra từ mẫu DNA tổng số sẽ tiếp tục được phân cắt, gắn adapter, chọn lọc

và tinh sạch để tạo thành thư viện phục vụ cho giải trình tự sử dụng hệ thống Ion Torrent

(1) Phân đoạn DNA: DNA được cắt thành các đoạn ngắn để phục vụ cho việc lập thư viện trình tự sử dụng M220 Focused Ultrasonicator (Covaris Inc., Woburn, MA, USA) và microTUBE - 50 (Covaris Inc.) theo hướng dẫn của nhà sản xuất DNA được phân cắt thành các đoạn khoảng 400 bp bằng sóng siêu âm trong

60 giây;

(2) Sửa chữa đuôi và gắn adaptor lên DNA: Quy trình chuẩn bị thư viện trình

tự được thực hiện sử dụng NEBNext Fast DNA Library Prep Set for Ion Torrent (NEB) Các thành phần của phản ứng sửa chữa đuôi DNA (6 µl NEBNext End Repair Reaction Buffer, 3 µl NEBNext End Repair Enzyme Mix và DNA đã phân cắt) được trộn đều trên đá và ủ trong 20 phút ở 25oC, 10 phút ở 70oC và giữ ở 4oC Tiếp theo, quy trình gắn DNA với adapter được thực hiện bằng cách bổ sung 10 µl T4 DNA Ligase Buffer for Ion Torrent, 5 µl NEBNext DNA Library Adaptors for

Ion Torrent, 1 µl Bst 2.0 WarmStart DNA Polymerase và 6 µl T4 DNA Ligase Hỗn

hợp được ủ trong 15 phút ở 25oC, 5 phút ở 65oC và giữ ở 4oC;

Trang 36

28

(3) Lựa chọn DNA có kích thước mong muốn: thư viện đã gắn adapter và barcode được lựa chọn theo kích thước bằng BluePippin (Sage Science) Theo đó, DNA được lựa chọn kích thước trong khoảng 450 - 540 bp sử dụng Range Mode theo hướng dẫn của nhà sản xuất;

(4) Khuếch đại và tinh sạch thư viện DNA: Thư viện DNA sau khi lựa chọn kích thước thích hợp được khuếch đại sử dụng NEBNext Fast DNA Library Prep Set for Ion Torrent Kit theo hướng dẫn của nhà sản xuất Các thành phần của phản ứng khuếch đại (4 µl mồi, 50 µl NEBNext Q5 Hot Start HiFi PCR Master Mix và 1

- 40 µl DNA đã gắn adapter) được trộn và PCR với chu trình nhiệt như sau: 98o

C-30 giây, 12 chu kỳ (98oC-10 giây, 58oC-30 giây, 65oC-30 giây), 65oC - 5 phút và giữ ở 4oC Thư viện đã khuếch đại được tinh sạch 2 lần sử dụng 0,7X AMpure XP Bead

2.2.5 Giải trình tự hệ gen lục lạp bằng hệ thống giải trình tự DNA thế hệ mới

Thư viện khuếch đại sau tinh sạch sẽ được đưa vào các chip giải trình tự sử dụng Ion Chef (Thermo Fisher Scientific) và giải trình tự trên máy Ion Torrent Personal Genome Machine (Thermo Fisher Scientific) sử dụng Ion 318 v2 chip (Thermo Fisher Scientific) và Ion PGM Sequencing 400 kit (Thermo Fisher Scientific) Hệ thống Ion Chef được sử dụng để chuẩn bị mẫu và đưa mẫu vào chip

tự động sử dụng Ion PGMTM IC 200 Kit theo hướng dẫn của nhà sản xuất với các bước chính:

(1) Tạo Planned Run với các thông số liên quan đến quy trình chạy giải trình

tự như loại kit sử dụng, các barcode, kiểu thư viện sử dụng phần mềm Torrent Suite;

(2) Pha loãng mẫu thư viện, chuẩn bị Ion chip;

(3) Chuẩn bị và đưa các thành phần vào máy Ion Chef;

Trang 37

29

(4) Chạy máy Ion Chef dựa trên Planned Run đã tạo trước đó Sau khi hoàn thành quy trình chạy, chip được chuyển sang máy Ion PGM Sequencer để thực hiện giải trình tự

Quy trình giải trình tự sử dụng Ion PGM Sequencing 400 Kit được thực hiện theo hướng dẫn của nhà sản xuất với các bước chính:

(1) Chuẩn bị Ion Sphere Particle (ISP) dương tính với mẫu và đã được làm giàu: Control ISP sau khi ly tâm trong 2 giây được bổ sung trực tiếp (5 µl) vào ISP dương tính với mẫu và đã được làm giàu;

(2) Gắn Sequencing Primer: Mẫu sau đó được ly tâm trong 2 phút ở 12.000 v/p, loại bỏ dịch nổi và hòa tủa trong 12 µl Sequencing Primer Hỗn hợp được đưa vào chu trình nhiệt trong 2 phút ở 95oC, 2 phút ở 37oC và giữ ở nhiệt độ phòng;

(3) Gắn Sequencing Polymerase vào ISP: Sau khi thực hiện quy trình kiểm tra Chip, ISP được bổ sung 3 µl Ion PGM Sequencing 400 Polymerase và ủ ở nhiệt

độ phòng trong 5 phút;

(4) Đưa mẫu lên Chip: Chip được loại bỏ dung dịch và ly tâm trong 5 giây để làm khô hoàn toàn Hỗn hợp polymerase sau khi ủ được đưa lên Chip và ly tâm trong 30 giây Dung dịch trong Chip được đảo đều bằng pipet và tiếp tục ly tâm trong 30 giây Bước này được lặp lại 3 lần Sau đó, dịch nổi được loại bỏ và chip được đưa vào máy Ion PGM Sequencer thực hiện quá trình giải trình tự

Hiệu quả của việc phân tách các phân đoạn DNA methyl hóa và không methyl hóa CpG được đánh giá sử dụng Bowtie2 bằng cách mapping các đoạn đọc

với trình tự tham chiếu của loài Panax vietnamensis (KP036470) [53]

2.2.6 Lắp ráp trình tự hệ gen lục lạp

Dữ liệu thu được từ giải trình tự Ion Torrent sẽ được xử l thô trước khi đưa vào lắp ráp, chú giải và so sánh Các đoạn đọc single-end sẽ được sàng lọc, đánh giá về chất lượng base, độ bao phủ sử dụng phần mềm FastQC 0.11.5 [13] Trimmomatic 0.36 được sử dụng để cắt adapter và lọc chất lượng của các đoạn đọc

Trang 38

30

sử dụng một cửa sổ trượt (sliding window) có kích thước 15 bp và ngưỡng Phred trung bình là 20 đồng thời với việc loại bỏ những đoạn đọc ngắn hơn 100 bp [18] MITOBim 1.7 được sử dụng để lắp ráp các đoạn đọc single-end sử dụng phương

pháp mapping lặp lại với trình tự tham khảo là P.vietnamensis (KP036470) [39] Hệ

gen lục lạp sau lắp ráp và độ bao phủ (coverage) được trực quan hóa sử dụng Tablet 1.17.08.17 [66]

2.2.7 Khuếch đại và giải trình tự các vùng DNA quan trọng và cần hiệu chỉnh

Khuếch đại và tinh sạch các vùng trình tự DNA bằng phương pháp PCR: Một số vị trí trong hệ gen lục lạp đã lắp ráp cho kết quả không rõ ràng và các

vị trí thuộc vùng IR cần được hiệu chỉnh bằng hệ thống giải trình tự Sanger Dựa trên kết quả phân tích và lắp ráp hệ gen lục lạp, các cặp mồi được thiết kế để nhân những đoạn trình tự DNA cần hiệu chỉnh Mồi xuôi và mồi ngược đảm bảo các điều kiện sau: Chiều dài 18-30 nucleotide; tỷ lệ GC khoảng > 40%; mỗi mồi không có trình tự bắt cặp bổ sung có khả năng tạo cấu trúc kẹp tóc (hair-pin); hai mồi không bắt cặp bổ sung tạo primer dimer DNA tổng số được sử dụng làm khuôn cho PCR với các cặp mồi đã thiết kế và tổng hợp Thành phần PCR được tiến hành với thể tích là 20 µl gồm: 1X DreamTaq Buffer; 1 mM dNTPs; 2,5 μM mỗi mồi; 0,75 unit DreamTaq DNA polymerase; 50 ng DNA tổng số PCR được thực hiện trên máy Mastercycler® pro (Eppendorf)với chu trình nhiệt như sau: 94oC - 2 phút; (94oC -

30 giây; 50-60oC (*) - 30 giây; 72oC - 60 giây) × 35 chu kì, 72oC - 5 phút, sau đó giữ

ở 4o

C (*): Nhiệt độ gắn mồi tùy thuộc vào cặp mồi tương ứng

Tinh sạch sản ph m PCR sử dụng E.Z.N.A.® Cycle Pure Kit: Các bước

tinh sạch được tiến hành theo chỉ dẫn của hãng sản xuất bao gồm các bước chính như sau:

(1) Sản phẩm PCR được trộn với 4 - 5 thể tích CP Buffer và được chuyển vào HiBind DNA Mini Column Dịch chảy qua được loại bỏ sau khi ly tâm cột ở 13.000 v/p trong 1 phút;

Trang 39

C

Giải trình tự DNA bằng phương pháp Sanger: Trình tự của các đoạn

DNA được xác định trên máy giải trình tự tự động ABI 3500 Genetic Analyzer sử dụng BigDye Terminator v3.1 Cycle Sequencing Kit Thành phần của PCR phục

vụ giải trình tự gồm: 3,2 μM mỗi mồi, 200 ng DNA plasmid, BigDye, đệm tương ứng trong tổng thể tích 15  l với chu trình nhiệt trên máy Mastercycler® pro (Eppendorf) như sau: 96oC - 1 phút; (96oC - 10 giây, 50oC - 5 giây, 60oC - 4 phút) ×

25 chu kỳ; giữ ở 4oC

Sản phẩm PCR được tinh sạch bằng phương pháp tủa EtOH/EDTA:

(1) Sản phẩm PCR được bổ sung 5  l EDTA 125 mM, 60  l EtOH 100%, ủ

ở nhiệt độ phòng trong 15 phút và ly tâm 12.000 v/p trong 15 phút;

(2) Tủa DNA được rửa với 60  l EtOH 70% và ly tâm ở 10.000 vòng/ phút trong 10 phút;

(3) Tủa DNA sau đó được làm khô, bổ sung 10  l Hi-Di Formamide và biến tính tại 95oC trong 5 phút;

(4) Các mẫu được chuyển vào các giếng của khay đựng mẫu và điện di trong ống mao quản 80 cm × 50  m với polymer POP-4 (ABI) trong hệ thống ABI 3500 Genetic Analyzer

Trang 40

32

2.2.8 Phân tích và chú giải hệ gen lục lạp

Trình tự hệ gen lục lạp được chú giải sử dụng phần mềm Geneious 6.1 và được xây dựng thành bản đồ sử dụng OGDraw (Organellar Genome Draw) [47,57]

2.2.9 Xây dựng cây phát sinh chủng loại

Trình tự hệ gen lục lạp của sâm Ngọc Linh được so sánh sắp hàng toàn bộ (global align) sử dụng MAFFT 7.3 và sửa chữa so sánh sắp hàng cục bộ (local re- align) sử dụng MUSCLE 3.8.31 [29,46] Ma trận trình tự DNA đã so sánh sắp hàng được đưa lên Open Science Framework (https://osf.io/ryuz6) Mô hình thích hợp nhất với bộ dữ liệu được tìm kiếm sử dụng jModelTest 2.1.6 [24] Trên cơ sở đó, cây phát sinh chủng loại được xây dựng sử dụng phương pháp Maximum Likelihood (ML) trong phần mềm RAxML 8.2.10 và phương pháp Bayesian trong phần mềm mrBayes 3.2.6 [79,90]

2.2.10 Tìm kiếm, phân tích và đánh giá các vùng trình tự mã vạch phân tử tiềm năng

Các chỉ thị phân tử được lựa chọn dựa trên việc đánh giá mật độ SNP trong

ma trận so sánh trình tự DNA lục lạp của các loài thuộc chi Nhân sâm SNP-sites 2.3.2 và Bedtools 2.26.0 được sử dụng để tìm ra những vị trí SNP trong ma trận so sánh trình tự lục lạp [70,77] Những vùng trình tự có mức độ biến đổi cao nhất được

sử dụng để làm chỉ thị phân tử cho sâm Ngọc Linh nói riêng và chi Nhân sâm nói chung Cây phát sinh chủng loại với 14 chỉ thị từ lục lạp và ITS được xây dựng kết hợp và riêng rẽ sử dụng RAxML Trong phân tích với phần mềm mPTP (multi-rate Poisson Tree Processes), thuật toán MCMC được thực hiện với hai chuỗi MCMC

và Likelihood Ratio Test đặt ở 0.01 [45]

Ngày đăng: 14/10/2018, 17:13

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Dương Tấn Nhựt, Hoàng Xuân Chiến, Nguyễn Bá Trực, Nguyễn Bá Nam, Trần Xuân Tình, Vũ Quốc Luận, Nguyễn Văn Bình, Vũ Thị Hiền, Trịnh Thị Hương, Nguyễn Cửu Thành Nhân, Lê Nữ Minh Thùy, Lý Thị Mỹ Nga, Thái Thương Hiền, Nguyễn Thành Hải (2010). “Nhân giống vô tính cây sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.)”. Tạp chí Công nghệ sinh học, 8(3B): 1211-1219 Sách, tạp chí
Tiêu đề: Nhân giống vô tính cây sâm Ngọc Linh ("Panax vietnamensis" Ha et Grushv.)”. "Tạp chí Công nghệ sinh học
Tác giả: Dương Tấn Nhựt, Hoàng Xuân Chiến, Nguyễn Bá Trực, Nguyễn Bá Nam, Trần Xuân Tình, Vũ Quốc Luận, Nguyễn Văn Bình, Vũ Thị Hiền, Trịnh Thị Hương, Nguyễn Cửu Thành Nhân, Lê Nữ Minh Thùy, Lý Thị Mỹ Nga, Thái Thương Hiền, Nguyễn Thành Hải
Năm: 2010
2. Lã Đình Mỡi, Châu Văn Minh, Trần Văn Sung, Phạm Quốc Long, Phan Văn Kiệm, Trần Huy Thái, Trần Minh Hợi, Ninh Khắc Bản, Lê Mai Hương (2013). "Họ Nhân sâm (Araliaceae Juss.) - Nguồn hoạt chất sinh học đa dạng và đầy triển vọng ở Việt Nam". Hội nghị khoa học toàn quốc về Sinh thái và tài nguyên sinh vật lần thứ 5: 1152-1158 Sách, tạp chí
Tiêu đề: Họ Nhân sâm (Araliaceae Juss.) - Nguồn hoạt chất sinh học đa dạng và đầy triển vọng ở Việt Nam
Tác giả: Lã Đình Mỡi, Châu Văn Minh, Trần Văn Sung, Phạm Quốc Long, Phan Văn Kiệm, Trần Huy Thái, Trần Minh Hợi, Ninh Khắc Bản, Lê Mai Hương
Năm: 2013
3. Lê Thị Thu Hiền, Hugo de Boer, Nông Văn Hải, Lê Thanh Hương, Nguyễn Mai Hương, Lars Bjork (2012). "Mã vạch phân tử DNA và hệ thống dự liệu mã vạch sự sống". Tạp chí Công nghệ sinh học, 10(3): 393-405 Sách, tạp chí
Tiêu đề: Mã vạch phân tử DNA và hệ thống dự liệu mã vạch sự sống
Tác giả: Lê Thị Thu Hiền, Hugo de Boer, Nông Văn Hải, Lê Thanh Hương, Nguyễn Mai Hương, Lars Bjork
Năm: 2012
4. Nguyễn Cẩm Dương (2010). “Phân tích đa dạng di truyền nguồn tài nguyên một số loài cây dược liệu ở Việt Nam bằng một số chỉ thị ADN”. Luận án Thạc sỹ khoa học. Đại học quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Phân tích đa dạng di truyền nguồn tài nguyên một số loài cây dược liệu ở Việt Nam bằng một số chỉ thị ADN”. "Luận án Thạc sỹ khoa học
Tác giả: Nguyễn Cẩm Dương
Năm: 2010
5. Nguyễn Ngọc Dung (1995). “Nhân giống sâm Ngọc Linh (Panax vietnamensis Ha et Grushv.) bằng con đường sinh học”. Nhà xuất bản Nông nghiệp: 43-100 Sách, tạp chí
Tiêu đề: Nhân giống sâm Ngọc Linh ("Panax vietnamensis" Ha et Grushv.) bằng con đường sinh học
Tác giả: Nguyễn Ngọc Dung
Nhà XB: Nhà xuất bản Nông nghiệp: 43-100
Năm: 1995
6. Nguyễn Tập, Phạm Thanh Huyền, Lê Thanh Sơn, Ngô Đức Phương, Võ Văn Trại, Đinh Đoàn Long, Hoàng Thị H a (2007). "Sử dụng chỉ thị ADN (RAPD-PCR) trong nghiên cứu đa dạng di truyền và góp phần phân loại một số loài cây thuốc định hướng công tác bảo tồn và tiêu chuẩn hóa dược liệu ở Việt Nam". Hội nghị Dược liệu toàn quốc lần thứ hai: 288-301 Sách, tạp chí
Tiêu đề: Sử dụng chỉ thị ADN (RAPD-PCR) trong nghiên cứu đa dạng di truyền và góp phần phân loại một số loài cây thuốc định hướng công tác bảo tồn và tiêu chuẩn hóa dược liệu ở Việt Nam
Tác giả: Nguyễn Tập, Phạm Thanh Huyền, Lê Thanh Sơn, Ngô Đức Phương, Võ Văn Trại, Đinh Đoàn Long, Hoàng Thị H a
Năm: 2007
7. Nguyễn Thị Phương Trang, Lê Thanh Sơn, Nguyễn Giang Sơn, Phan Kế Long (2011). "Phát hiện về một loài sâm mới Panax sp. (Araliaceae) ở Việt Nam". Tạp chí Dược học, 10: 59-63 Sách, tạp chí
Tiêu đề: Phát hiện về một loài sâm mới Panax sp. (Araliaceae) ở Việt Nam
Tác giả: Nguyễn Thị Phương Trang, Lê Thanh Sơn, Nguyễn Giang Sơn, Phan Kế Long
Năm: 2011
8. Nguyễn Văn Đạt, Trần Thị Phương Anh (2013). "Bước đầu nghiên cứu xây dựng khóa định loại các chi trong họ Ngũ gia bì (Araliaceae) ở Việt Nam".Hội nghị khoa học toàn quốc về Sinh thái và tài nguyên sinh vật lần thứ 5:44-51 Sách, tạp chí
Tiêu đề: Bước đầu nghiên cứu xây dựng khóa định loại các chi trong họ Ngũ gia bì (Araliaceae) ở Việt Nam
Tác giả: Nguyễn Văn Đạt, Trần Thị Phương Anh
Năm: 2013
9. Phan Kế Long, Vũ Đình Duy, Phan Kế Lộc, Nguyễn Giang Sơn, Nguyễn Thị Phương Trang, Lê Thị Mai Linh, Lê Thanh Sơn (2014). “Nghiên cứu đặc điểm di truyền của các mẫu sâm thu ở Lai Châu trên cơ sở phân tích trình tự nucleotide vùng gen matK và ITS-rRNA”. Tạp chí Công nghệ sinh học, 12(2): 327-337 Sách, tạp chí
Tiêu đề: Nghiên cứu đặc điểm di truyền của các mẫu sâm thu ở Lai Châu trên cơ sở phân tích trình tự nucleotide vùng gen "mat"K và ITS-rRNA”. "Tạp chí Công nghệ sinh học
Tác giả: Phan Kế Long, Vũ Đình Duy, Phan Kế Lộc, Nguyễn Giang Sơn, Nguyễn Thị Phương Trang, Lê Thị Mai Linh, Lê Thanh Sơn
Năm: 2014
11. Vũ Huyền Trang, Hoàng Đăng Hiếu, Chu Hoàng Hà (2013). “Nghiên cứu xây dựng mã vạch DNA cho việc phân loại nhận dạng cây sâm Ngọc Linh”.Hội nghị khoa học công nghệ sinh học toàn quốc: 1100-1104.Tài liệu tham khảo tiếng Anh Sách, tạp chí
Tiêu đề: Nghiên cứu xây dựng mã vạch DNA cho việc phân loại nhận dạng cây sâm Ngọc Linh”. "Hội nghị khoa học công nghệ sinh học toàn quốc": 1100-1104
Tác giả: Vũ Huyền Trang, Hoàng Đăng Hiếu, Chu Hoàng Hà
Năm: 2013
12. Ali M.A., Al-Hemaid F.M., Lee J., Choudhary R.K., Pandey A.K., Al-Harbi N.A. (2012). "Assessing nrDNA ITS2 sequence based molecular signature of ginseng for potential in quality control of drug". African Journal of Pharmacy and Pharmacology, 6(39): 2775-2781 Sách, tạp chí
Tiêu đề: Assessing nrDNA ITS2 sequence based molecular signature of ginseng for potential in quality control of drug
Tác giả: Ali M.A., Al-Hemaid F.M., Lee J., Choudhary R.K., Pandey A.K., Al-Harbi N.A
Năm: 2012
13. Andrews S., (2010). “FastQC: a quality control tool for high throughput sequence data”. Available online at:http://www.bioinformatics.babraham.ac.uk/projects/fastqc Sách, tạp chí
Tiêu đề: FastQC: a quality control tool for high throughput sequence data
Tác giả: Andrews S
Năm: 2010
14. Ansorge W., Sproat B.S., Stegemann J., Schwager C. (1986). "A non- radioactive automated method forDNA sequence determination". Journal of Biochemical and Biophysical Methods, 13(6): 315-323 Sách, tạp chí
Tiêu đề: A non- radioactive automated method forDNA sequence determination
Tác giả: Ansorge W., Sproat B.S., Stegemann J., Schwager C
Năm: 1986

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w