Đơn vị cấu trúc nhỏ nhất của bộ genome là nucleotide. Có 4 loại nucleotide là A, G, C, T. Một đa hình nucleotide đơn (SNP, single nucleotide polymorphism) hình thành ở một vị trí
nucleotide, và một loại nucleotide ở vị trí này được gọi là một allele. Ví dụ, có 2 đoạn DNA CCACGTT và CCATGTT, trong đó có 2 nucleotide khác nhau ở vị trí thứ tư là C và T; trong trường hợp này chúng ta gọi SNP có 2 allele. Mặc dù sự đa hình có thể gồm 2, 3 hay 4 allele các SNP 3 hay 4 allele là cực kỳ hiếm. Do vậy, nhìn chung SNP được xem như là đa hình 2 allele.
Để sai khác trở thành một SNP nó phải có tần số > 1%. Một locus SNP được gọi là đồng hợp tử khi 2 allele giống nhau và dị hợp tử khi 2 allele khác nhau. Allelle có tần số cao hơn được gọi là hoang dại (wildtype) còn allele kia được gọi là đột biến.
Vì số lượng SNP khá phong phú và phân bố đều khắp bộ gen của nhiều sinh vật (Vd ở bộ gen lúa, trung bình cứ 170 bp có 1 SNP) nên SNP đã trở thành 1 công cụ phân tích di truyền hấp dẫn.
Vì marker SNP chỉ là sự sai khác của 1 bp nên trái với các loại marker khác, người ta không thể phân biệt được allele trên cơ sở so sánh kích thước băng điện di. Có nhiều phương pháp
genotyping dựa trên SNP và tất cả các phương pháp đều gồm 2 phần: (1) tạo một sản phẩm đặc hiệu allele và (2) phân tích sản phẩm đó. Phần lớn các phương pháp thuộc 1 trong 4 nhóm sau:
Các kỹ thuật lai trực tiếp đặc hiệu allele. Dựa trên khả năng phân biệt 2 chuỗi DNA khác nhau chỉ bởi 1 nucleotide bằng lai DNA. Hai dò đặc hiệu allele sẽ được thiết kế, thường với một nucleotide đa hình ở giữa. Dưới điều kiện lai hóa đã được tối ưu hóa, chỉ các tổ hợp lai khớp nhau hoàn hảo mới ổn định. Phần lớn các lớn các kỹ thuật lai là Dot Blot trong đó DNA thử (genome, cDNA hay sản phẩm PCR) được cố đinh trên màng và được lai hóa với dò (thường là oligonucleotide). Trong kỹ thuật Dot Blot đảo, dò sẽ được cố định trước lên màng. Nhìn chung, kỹ thuật lai hóa dễ mắc lỗi nên cần phải thiết kế dò cẩn thận và chuẩn điều kiện lai. Cải tiến mới nhất đối với nhóm kỹ thuật lai là dùng microarray (xem phần).
Các kỹ thuật kéo dài mồi. Có 3 nhóm chính:
- Minisequencing. Nucleotide đa hình được xác định bằng cách thêm một dideoxynucleotid triphosphate (ddNTP).
- Kéo dài mồi đặc hiệu allele. Mồi chỉ được tổng hợp tiếp nếu khớp hoàn hảo với khuôn (chú ý đầu 3’ của mồi).
- Pyrosequencing. Là kỹ thuật sequencing dựa trên sự phát hiện pyrophosphate giải phóng ra trong quá trình sequencing.
Các kỹ thuật nối oligonucleotid. Hai dò oligonucleotid được thiết kế: một dò một dò đặc hiệu allele (đầu 3’ của nó là ở vị trí đa hình) và một dò kế tiếp phía hạ lưu. Khi lai hóa 2 dò lên chuỗi thử, nếu không có mismat ở vị trí đa hình, đầu 3’ của dò đặc hiệu allele sẽ được nối với đầu 5’ của dò thứ 2.
Các kỹ thuật cắt dò. Hai dò oligonucleotide được thiết kế: dò 1 (dò xâm nhập) tương đồng phần 3’ tính từ vị trí đa hình của chuỗi thử (đầu 3’ của dò là 1 nucleotide không khớp (non- matching) với nucleotide đa hình của của chuỗi thử). Dò 2 là dò đặc hiệu allele, được thiết kế gối qua vị trí đa hình khoảng vài nucleotide. Khi lai với chuỗi thử, nếu không có mismatch, hai dò sẽ tạo ra một cấu trúc 3 hướng và 1 cleavase sẽ nhận biết được cấu trúc này và cắt phần gối của dò đặc hiệu allele. Phần bị cắ này thường được gắn với một nhãn huỳnh quang và phát huỳnh quang khi được giải phóng khỏi dò.
12.Kỹ thuật rep-PCR
Rep-PCR (repetitive sequence primed PCR) là 1 kỹ thuật PCR fingerprinting rất hiệu quả để nghiên cứu đa dạng các loài vi khuẩn. Kỹ thuật sử dụng các mồi được thiết kế dựa trên các chuỗi lặp trên bộ gen vi khuẩn như: Các chuỗi lặp đối song vùng không mã hóa (REP,
repetitive extragenic palindromic) có kích thước 35 - 40 bp, các chuỗi lặp bảo thủ vùng liên gen (ERIC, enterobacterial repetitive intergenic consensus) có kích thước 124 - 127 bp, chuỗi BOX có kích thước 54-bp.
Phản ứng PCR sử dụng các mồi này được gọi cụ thể là REP-PCR, ERIC-PCR và BOX-PCR. Mặc dù Gillings & olley (1997) đã chứng minh rằng các chuỗi lặp này không có ở bộ gen eukaryote nhưng kỹ thuật này cũng có thể được áp dụng để nghiên cứu đa dạng nhiều loài nấm gây bệnh cây. Các mồi rep-PCR trong trường hợp nghiên cứu nấm, như vậy, đóng vai trò như các mồi ngẫu nhiên giống như trong kỹ thuật RAPD.
Bảng: các mồi được sử dụng trong rep-PCR
Mồi Trình tự Tham khảo
BOX A1R 5'-CTACggCAAggCgACgCTgACg-3' Versalovic et al. 1994 ERIC 1R 5'-ATgTAAgCTCCTggggATTCAC-3' Versalovic et al. 1991 ERIC 2 5'-AAgTAAgTgACTggggTgAgCg-3' Versalovic et al. 1991
REP 1R 5'-IIIICgICgICATCIggC-3' Versalovic et al. 1991
REP 2I 5'-ICgICTTATCIggCCTAC-3' Versalovic et al. 1991
13.Tóm tắt các kỹ thuật
Thử thách đối với nhà nghiên cứu là làm sao chọn một hoặc vài kỹ thuật phù hợp với mục tiêu nghiên cứu của mình. Các đặc điểm mong muốn của một marker phân tử tốt là: một mặt có tính đa hình cao, di truyền đồng trội (phân biệt được cả đồng hợp tử và dị hợp tử), xuất hiện thường xuyên và phân bố đồng đều trên bộ gen, chọn lọc trung tính; nhưng mặt khác lại phải dễ tiếp cận, chi phí thấp, dễ thực hiện, có khả năng áp dụng với kết quả thống nhất giữa các phòng thí nghiệm. Không có một marker phân tử nào hiện nay có thể đáp ứng được các yêu cầu này, tuy nhiên người ta vẫn có thể chọn được các kỹ thuật mong muốn tùy đều kiện. Các yếu tố cần xét khi lựa chọn là
− Hệ thống marker sẵn có.
− Tính đơn giản và thời gian thực hiện của kỹ thuật. − Mức đa hình yêu cầu của đối tượng nghiên cứu
− Chất lượng và số lượng DNA của đối tượng nghiên cứu − Kỹ năng và trang thiết bị
− Kinh phí của nghiên cứu.
− Tính di truyền của marker trong đối tượng nghiên cứu (trội hay đồng trội) − Loại thông tin di truyền cần biết
Ví dụ, xét về điều kiện kinh tế, các kỹ thuật dựa trên microarray và sequencing (như SNP) hiện nay có lẽ không dễ thực hiện tại các quốc gia đang phát triển như Việt Nam.
Xét về mức sẵn có của trình tự gen, các marker dựa trên EST như EST-SSR, EST-CAPS và EST-RFLP chỉ có thể áp dụng cho các loài mà các chuỗi EST đã được xác đinh trước (sẵn có trên ngân hàng gen)
Nhìn chung các kỹ thuật như RFLP, SSR, RAPD, AFLP, ISSR và rep-PCR có thể được áp dụng cho nhiều đối tượng trong điều kiện Việt Nam.
Các bảng dưới đây mô tả đặc điểm một số kỹ thuật/marker phổ biến
Mức phân biệt trông nghiên cứu đa dạng và phân loại một số kỹ thuật/marker phân tử
Loại phân tích Mức phân biệt
RAPD Cá thể, nhóm dưới loài
SSR (Microsatellite) Cá thể, nhóm dưới loài, loài gần gũi (một số)
AFLP Cá thể, nhóm dưới loài, loài gần gũi
RFLP dựa trên mtDNA Nhóm dưới loài, loài gần gũi RFLP dựa trên vùng ITS/IGS Loài gần gũi, nhóm dưới loài
Sequencing vùng ITS Loài gần gũi, nhóm dưới loài (một số) Sequencing vùng rRNA Ngành (phylum), họ, chi, loài
Các gen mã hóa protein cấu trúc/chức
năng Ngành (phylum), họ, chi, loài, dưới loài (một số)
Bảng. Đặc điểm một số kỹ thuật/marker phân tử
RFLP Microsatellite RAPD AFLP ISSR
Mức phong phú trên bộ gen
Cao Trung bình Rất cao Rất cao Trung bình
Phần gen được khảo sat
Các vùng mã hóa có số copy thấp Toàn bộ genome Toàn bô genome Toàn bộ genome Toàn bộ genome Lượng DNA yêu cầu Cao Thấp Thấp Trung bình Thấp Chất lượng
Loại đa hình Các thay đổi, thêm, mất nucleotide đơn Các thay đổi độ dài đoạn lặp Các thay đổi, thêm, mất nucleotide đơn Các thay đổi, thêm, mất nucleotide đơn Các thay đổi, thêm, mất nucleotide đơn
Mức đa hinh* Trung bình Cao Cao Rất cao Cao
Di truyền của marker
Đồng trội Đồng trội Trội Trội Trội
Phát hiện
allele Có Có Không Không Không
Dễ sử dụng Rất nhiều bước
Dễ Dễ Lúc đầu khó Dễ
Khả năng tự động
Thấp Cao Trung bình Trung bình Trung bình
Tính lặp lại
(độ tin cậy) Cao Cao Trung bình Cao Trung bình – Cao
Loại dò/mồi DNA genome có số copy thấp hoặc clone cDNA Các chuỗi DNA lặp đặc hiệu Thường dài 10 nts (ngẫu nhiên) Các chuỗi đặc hiệu Các chuỗi DNA lặp đặc hiệu Cloning và/hoặc sequencing
Có Có Không Không Không
Phát hiện dùng bức xạ
Có/không Không Không Có/Không Không
Chi phí khởi đầu
Cao Cao Thấp Trung bình Trung bình
Hiện trạng bản quyền
Không Không (một
số có)
Có Có Không
Chương 4. Phân tích kết quả dựa vào số liệu băng điện di
1. Giới thiệu
Các loại marker phân tử khác nhau sẽ cho các kết quả điện di khác nhau. Ví dụ kỹ thuật RFLP và một số kỹ thuật fingerprinting khác như microsatellite (SSR) nhìn chung sẽ tạo các băng điện di đơn, thường từ 1 – 20 băng. Các băng này có thể dễ dàng chuyển sang dạng số liệu nhị nguyên (có băng = 1, không có băng = 0). Dựa trên số liệu này, người ta có thể tính toán mức tương đồng di truyền S (xem các công thức tính hệ số tương đồng) và khoảng cách di truyền D (=1-S), cuối cùng là xây dựng một cây phả hệ thường thông qua phân tích cụm.
Phân tích dựa trên băng điện di giống nhau cho 2 nhóm phân tích. − Nhóm 1 thường tạo ít băng (điển hình RFLP, microsatellite, ISSR)
− Nhóm 2 thường tạo rất nhiều băng phức tạp (điển hình AFLP, rep-PCR). Mặc dù các băng có thể được đánh giá và ghi bằng tay thì thông thường người ta dùng một 1 phần mềm hình ảnh để scan các băng, điều chỉnh, chọn lựa và chuyển sang dạng số liệu nhị thức.
Vd phần mềm CrossChecker (miễn phí): http://en.bio-soft.net/draw/CrossChecker.html Vd phần mềm GelcomparII (thương mại): http://www.applied-
maths.be/gelcompar/gelcompar.htm
2. Các bước chính trong phân tích đa dạng dựa trên băng điện di 2.1. Mô tả sự đa dạng
Vi c mô t s a d ng có th ệ ả ự đ ạ ể được th c hi n gi a các cá th trong qu n th , ự ệ ữ ể ầ ể
gi a các qu n th trong m t khu v v i nhau, th m chí gi a các ữ ầ ể ộ ự ớ ậ ữ đơn v qu n ị ầ
th l n h n nhi u (ví du g a các vùng thu c các l c a khác nhau).ể ớ ơ ề ữ ộ ụ đị
Locus Cá thể /quần thể
1 2 3 4 5 6
A 1 0 1 1 0 1
B 1 0 0 0 1 1
Hình. Bi n d allele trong phân tích microsatellite ế ị đố ớ ấ đại v i n m o ôn lúa (Pyricularia oryzae. (Prondani et al. 2000). M t ví d v ộ ụ ềmô hình b ng ă
i n di n gi n
đ ệ đơ ả
Hình a d ng gen trong phâ Đ ạ
tích rep-PCR đố ới v i vi khu n ẩ
Xanthomonas oryzae (Cruz et al 1996). M t ví d v ộ ụ ềmô hình b ng i n di ph c t pă đ ệ ứ ạ .
C 0 1 1 0 1 0
D 1 0 0 0 1 1
E 0 0 1 1 0 0
F 1 1 1 0 0 0
G 1 0 1 0 1 1
2.2. Tính toán mối quan hệ giữa các đơn vị được phân tích ở bước trên
Bước này chủ yếu tính khoảng cách di truyền giữa các cặp đơn vị phân tích. Ví dụ. Khoảng cách di truyền giữa các cá thể
1 2 3 4 5 6 1 0 2 0.56 0 3 0.33 0.33 0 4 0.47 0.26 0.50 0 5 0.32 0.43 0.37 0.28 0 6 0.33 0.56 0.56 0.37 0.46 0
2.3. Biểu diễn mỗi quan hệ
Biểu diễn mối quan hệ bằng các phương pháp khác nhau (ví dụ vẽ cây phả hệ…)
3. Lượng hóa mức đa dạng: đo đa dạng trong quần thể 3.1. Dựa trên số lượng biến dị
3.1.1 Mức đa hình hay tỷ lệ đa hình (Pj)
Một gen được xem là đa hình nếu tần số của một trong các allele của nó ≤ 0.95 hoặc 0.99 Pj = q ≤ 0.95 hoặc Pj = q ≤ 0.99
Trong đó,
Pj = tỷ lệ đa hình q = tần số allele
Pj chủ yếu được sử dung với các marker đồng trội vì các marker trội có thể bỏ qua các biến dị hợp tử.
Một gen đa hình thường là gen mà allele phổ biến nhất của nó có tần số ≤ 0.95 . Các allele hiếm của nó có thể có tần số ≤ 0.005. Đặt giới hạn tần số 0.95 hay 0.99 là tùy ý.
3.1.2 Tỷ lệ các locus đa hình (P)
Tỷ lệ locus đa hình được tính theo công thức đơn giản sau: P=ntotalnpj Cá th ể 5 Cá th ể 3 Cá th ể 6Cá th ể 4Cá th ể 2Cá th ể 1 Hình. Cây ph ả h th hi n ệ ể ệ m i quan h ố ệ gi a các cá th ữ ể trên. ở
Trong đó,
P = tỷ lệ các locus đa hình npj = số lượng các locus đa hình ntotal = tổng số locus nghiên cứu
P biểu diễn phần trăm các locus đa hình trong quần thể, được tính toán dựa trên đếm trực tiếp các locus đa hình và tổng số locus nghiên cứu.
P chủ yếu được sử dụng cho các loại marker đồng trội
3.1.3 Số allele trung bình trên locus
Số allele trung bình trên locus cung cấp thông tin về mức độ đa dạng của quần thể. Nó được tính bằng công thức đơn giản sau:
K n n K 1 i i ∑ = = Trong đó,
n = số allele trung bình trên locus K = tổng số locus
ni = tổng số allele phát hiện thấy ở locus thứ i
Số allele trung bình trên locus được sử dụng với các marker đồng trội vì marker trội không cho phép phát hiện tất cả các allele.
3.2. Dựa vào tần số biến dị
3.2.1 Số lượng allele hiệu quả (Ae)
Số lượng allele hiệu quả cho biết số allele có thể có mặt ở một locus trong quần thể và được tính theo công thức sau
= − =∑ 2 i p 1 h 1 1 Ae Trong đó,
pi = tần số của allele thứ i ở một locus
h = 1 – Σpi2 (mức dị hợp tử (heterozygosity) tại một locus) Số lượng allele hiệu quả có thể được sử dụng với các marker đồng trội
Giá trị của nó bị ảnh hưởng bởi kích thước mẫu thử, do vậy nó có ý nghĩa trong chọn lựa cách lấy mẫu. Ví dụ, chúng ta tính Ae trong một mẫu, sau đó ta tính Ae của một mẫu thứ 2 hoặc toàn bộ mẫu. Nếu số liệu lần thứ 2 nhỏ hơn lần thứ nhất thì có lẽ chúng ta phải lấy lại mẫu.
Ví dụ tính số lượng allele hiệu quả Ae
Locus (A, B, C) Quần thể 1 Quần thể 2
Cá thể 1 A1 A1 B1 B1 C1 C1 A1 A1 B1 B3 C1 C1 Cá thể 2 A1 A2 B1 B2 C2 C2 A1 A1 B2 B3 C1 C1 Cá thể 3 A1 A1 B1 B1 C1 C3 A2 A2 B1 B4 C1 C1 Cá thể 4 A1 A3 B1 B3 C2 C3 A2 A2 B1 B1 C1 C1 Cá thể 5 A3 A3 B3 B3 C3 C3 A1 A2 B4 B4 C1 C1 Số allele 3 3 3 2 4 1 Tần số allele 1 0.60 0.60 0.30 0.50 0.40 0.10 Tần số allele 2 0.10 0.10 0.30 0.50 0.10 0.00 Tần số allele 3 0.30 0.30 0.40 - 0.20 0.00
Tần số allele 4 - - - - 0.30 -
Mức dị hợp tử (h) 0.54 0.54 0.66 0.50 0.70 0.00
Số allele hiệu quả (Ae) 2.17 2.17 2.94 2.00 3.33 1.00
3.2.2 Mức dị hợp tử kỳ vọng trung bình ( H = mức đa dạng di truyền Nei (D)
Mức đa dạng di truyền Nei là xác suất để 2 allele bất kỳ tại một locus được lấy ngẫu nhiên trong quần thể là khác nhau.
Có 3 cách tính :
− 2 2
j 1 p q
h = − − (khi một locus chỉ có 2 allele)
− =−∑2
i
j 1 p
h (khi một locus thứ j có i allele)
− L h H L j j ∑
= (khi tính trung bình cho tất cả các locus Trong đó,
hj = mức dị hợp tử (heterozygosity) trên locus p và q = các tần số allele
H = mức dị hợp tử (heterozygosity) trung bình trên nhiều locus L = tổng số locus
H là một ước lượng mức độ biến dị di truyền trong quần thể, được tính bằng cách lấy 1 trừ tần số đồng hợp tử tại 1 locus. Quá trình được lặp lại cho tất cả các locus và được lấy trung bình. H có thể được áp dụng cho cả 2 loại marker (trội và đồng trội).
H có giá trị từ 0 đến 1
H đạt giá trị tối đa khi tất cả các allele có tần số bằng nhau.
3.3. Ví dụ tính đa dạng di truyền trong quần thể dùng 1 marker đồng trội 3.4. Ví dụ
Nửa trên của hình là một sơ đồ gel với 30 cá thể được phân tích với môt marker đồng trội (ví dụ RFLP hoặc SSR). Marker này phát hiện 5 locus là A, B, C, D và E. Trong số các locus này, chỉ có 3 locus là đa hình (A, B và E). Để đơn giản, chúng ta giả sử chỉ có tối đa 2 allele / locus. Nửa dưới của hình là kết quả ghi điểm các băng cho mỗi cá thể và mỗi locus. Chú ý là các băng