DỤNG CỦA CHÚNG TRONG NHẬN DẠNG CÁ THỂ
1.3.1. Khỏi niệm cỏc đoạn lặp và STR
Khi nghiờn cứu về cấu trỳc ADN của sinh vật nhõn chuẩn và một số sinh vật nhõn sơ người ta thấy cỏc đoạn mó húa và cỏc đoạn khụng mó húa. Trong cỏc đoạn khụng mó hoỏ chứa cỏc trỡnh tự lặp lại. Cỏc đoạn ADN chứa trỡnh tự lặp lại này khỏc nhau về kớch thước. Chỳng mang tớnh đặc trưng về chiều dài cỏc đơn vị lặp lại và số lượng những đơn vị lặp lại liờn tục trờn toàn bộ chiều dài đoạn ADN. Người ta chia cỏc trỡnh tự này làm 3 loại [23].
- Cỏc trỡnh tự lặp lại nhiều lần chiếm 10 - 15% bộ gen người. Đú là những trỡnh tự lặp lại cú kớch thước khoảng 10 - 20kb, thường tập trung ở vựng tõm động hoặc ở đầu nhiễm sắc thể.
gen người. Chỳng cú kớch thước lớn hơn (100 - 1000bp) và đa dạng hơn những trỡnh tự lặp lại nhiều lần, cỏc trỡnh tự này khụng tập trung mà phõn tỏn trờn toàn bộ hệ gen.
- Cỏc trỡnh tự đơn: đú là cỏc trỡnh tự mó húa cho cỏc protein, cú trỡnh tự đặc trưng cho từng gen.
Cỏc đoạn ADN cú cỏc trỡnh tự lặp từ 10 - 100 nucleotit gọi là VNTR, vớ dụ locut D1S80 cú đoạn lặp là bội số của 16 nucleotit, locut này chứa cỏc alen từ số đơn vị lặp lại 14 lần đến 41 lần. Trỡnh tự lặp lại là GAGGA CCACCAGGAAG.
Cỏc đoạn ADN cú cấu trỳc lặp lại từ 2 - 6bp được gọi là cỏc đoạn lặp lại ngắn (STR). Cỏc cấu trỳc VNTR hay STR mang tớnh bảo thủ cao, được di truyền qua cỏc thế hệ và tớnh đặc trưng cỏ thể. Cỏc VNTR và STR cú thể được nhõn bội bằng phản ứng PCR.
1.3.2. Cơ sở khoa học của phõn tớch STR trong nhận dạng cỏ thể và xỏc định huyết thống
Năm 1956, Joe Hin Tjio và Albert Levan đó xỏc định chớnh xỏc ở người, trong nhõn tế bào (thể lưỡng bội) cú 46 cặp nhiễm sắc thể được xếp thành 23 cặp tương đồng: 22 cặp nhiễm sắc thể thường và một cặp nhiễm sắc thể giới tớnh . Riờng tế bào trứng và tinh trựng chỉ cú 23 nhiễm sắc thể (tế bào đơn bội). Sự kết hợp giữa trứng và tinh trựng đó duy trỡ được số lượng nhiễm sắc thể trong tế bào thường là 46. Bộ nhiễm sắc thể được bảo tồn và di truyền từ thế hệ này sang thế hệ khỏc. Thế hệ con cỏi bao giờ cũng thừa hưởng cỏc đặc tớnh di truyền thụng qua gen của cả bố và mẹ với xỏc suất ngang nhau. Điều đú cú nghĩa là 23 nhiễm sắc thể từ bố được truyền cho con thụng qua tinh trựng, 23 nhiễm sắc thể từ mẹ truyền cho con thụng qua trứng. Cỏc locut STR nằm trờn nhiễm sắc thể cũng theo đú mà được di truyền qua cỏc thế hệ (hỡnh 1.1).
Hỡnh 1.1. Sơ đồ minh hoạ cỏc khả năng di truyền
một số alen thuộc locut STR từ bố, mẹ cho con theo định luật Mendel
(8 - 12: một số alen thuộc locut STR [23]) 1.3.3. Cấu trỳc của STR và danh phỏp quốc tế
Tờn cỏc locut chỉ thị ADN được đặt theo tờn của gen nếu locut này
nằm ở một phần hoặc nằm toàn bộ trong gen [23]; vớ dụ locut TH01 ở gen tyrosine hydroxylase của người nằm trờn nhiễm sắc thể số 11. Chữ "TH" xuất phỏt từ chữ cỏi đầu Tyrosine hydroxylase. Phần "01" của ký hiệu "TH01" xuất phỏt từ vựng intron 1 (vựng khụng mó húa protein) của gen Tyrosine hydroxylase. Đụi khi tiếp đầu ngữ HUM được thờm vào đầu danh phỏp của locut này để xỏc định đú là từ bộ gen người (human). Vỡ vậy locut STR này sẽ được gọi chớnh là HUM TH01 hay TH01.
Cỏc chỉ thị ADN mà nằm ngoài vựng gen thỡ được xỏc định bởi vị trớ của chỳng trờn nhiễm sắc thể. Vớ dụ, STR locut D5S818 và DYS19 đú là những locut khụng nằm trong vựng gen. Trong trường hợp này chữ "D" cú nghĩa là ADN. Con số tiếp theo là số thứ tự của nhiễm sắc thể. Chữ "S" thực chất là trỡnh tự đơn lẻ của ADN. Con số cuối cựng là vị trớ locut nằm trờn mỗi nhiễm sắc thể riờng biệt. Con số này là duy nhất đối với mỗi locut ADN sử dụng trong nhận dạng cỏ thể. Vớ dụ, locut D16S539 cú nghĩa là D: ADN; 16: Nhiễm sắc thể số 16; S: single copy sequence; 539: vị trớ thứ 539 được xỏc định trờn nhiễm sắc thể 16.
Cỏc trỡnh tự STR được đặt tờn dựa trờn độ dài của đơn vị lặp. Trỡnh tự lặp lại 2 nucleotit cú cỏc nucleotit lặp lại liờn tục gần nhau. Trỡnh tự lặp lại 3 nucleotit cú 3 nucleotit trong một đơn vị lặp. Tương tự đối với cỏc trỡnh tự lặp lại 4, 5, 6 cũng cú 4, 5, 6 nucleotit trong một đơn vị lặp tương ứng.
Bố (8-11) Mẹ (9-12) Con 1 (8-9) Con 2 (8-12) Con 3 (9-11) Con 4 (11-12)
Về mặt lý thuyết, cú 4, 16, 64, 256, 1024, 4096 khả năng hỡnh thành cỏc kiểu cấu trỳc (motif) đối với cỏc trỡnh tự lặp 1, 2, 3, 4, 5 và 6 nucleotit tương ứng . Tuy nhiờn do cỏc microsatellite cú tớnh chất lặp lại ngẫu nhiờn nờn một số dạng cấu trỳc được coi là giống nhau. Hiện nay trỡnh tự lặp lại 4 nucleotit (tetranucleotide) được sử dụng phổ biến trong nhận dạng cỏ thể
người.
Cỏc trỡnh tự STR rất đa dạng về chiều dài đoạn lặp và số lượng đoạn lặp. Chỳng được chia thành nhiều kiểu khỏc nhau dựa trờn kiểu cấu trỳc lặp [23, 25].
- Kiểu lặp lại đơn giản (simple repeats) cú đơn vị lặp giống nhau về
chiều dài và trỡnh tự.
- Kiểu lặp phức (compound repeats) bao gồm hai hoặc nhiều hơn cỏc
đơn vị lặp lại đơn giản liền kề nhau.
- Kiểu lặp lại phức tạp (complex repeats) cú thể bao gồm cỏc khối lặp lại
cú chiều dài và trỡnh tự đơn vị lặp khỏc nhau và cỏc trỡnh tự khụng lặp lại xen kẽ .
- Kiểu lặp lại siờu biến (complex hypervariable repeats) mang vụ số cỏc
alen khụng đồng nhất, cỏc alen này khỏc nhau về cả kớch thước và trỡnh tự do đú rất khú xỏc định kiểu gen. Loại này khụng được sử dụng phổ biến trong phõn tớch hỡnh sự do khú khăn trong việc đặt tờn cho cỏc alen và thống nhất giữa cỏc phũng thớ nghiệm, mặc dự đó cú 2 bộ kit
thương mại cú chứa locut này là SE33, cũn gọi là ACTBP2 [23].
Khụng phải tất cả cỏc alen của locut STR đều mang đơn vị lặp lại hoàn
hảo. Thậm chớ cả kiểu đơn vị lặp lại đơn giản (simple repeats) cũng mang
những alen khụng đồng nhất, cỏc alen này nằm xen giữa cỏc alen cú đơn vị
lặp lại đầy đủ. Những alen này được gọi là cỏc biến thể (microvariants). Allen
9,3 của locut TH01 là một vớ dụ. Alen này bao gồm 9 đơn vị lặp lại 4 nucleotit và 1 đơn vị lặp lại khụng hoàn toàn chứa 3 nucleotit do đơn vị lặp lại số 7 bị mất 1 nucleotit andenin, khỏc với cỏc đơn vị lặp bỡnh thường AATG. 1.3.4. Vai trũ của cỏc STR trong phõn tớch hỡnh sự
Cỏc locut STR trở thành cỏc chỉ thị ADN phổ biến bởi đặc tớnh dễ dàng nhõn bội đồng thời qua phản ứng PCR, khụng phải thực hiện nhõn bội riờng
rẽ như đối với cỏc locut VNTR. Đặc điểm này là do cỏc alen của locut STR nằm trong một khoảng kớch thước tương đương, khoảng vài trăm bp, cỏc đơn vị lặp lại cú kớch thước nhỏ. Hơn nữa, số đơn vị lặp của cỏc chỉ thị STR rất khỏc nhau giữa cỏc cỏ thể, điều này làm cho chỳng trở thành cụng cụ hữu hiệu trong nhận dạng cỏ thể.
Với mục đớch sử dụng cho nhận dạng cỏ thể, điểm quan trọng đối với
cỏc chỉ thị ADN là cú tớnh đa hỡnh càng cao càng tốt hoặc một số chỉ thị cú tớnh đa hỡnh thấp hơn cú thể kết hợp với cỏc chỉ thị khỏc để đạt được đủ độ tin cậy phõn biệt giữa cỏc cỏ thể.
Một hạn chế đối với cỏc mẫu hỡnh sự là việc nhõn bội gặp khú khăn do ADN trong mẫu cú thể bị phõn huỷ mạnh (tạo thành cỏc đoạn nhỏ). Những hỗn hợp gồm nhiều mẫu (mẫu lẫn) thường cú mặt nhiều trong cỏc vụ ỏn như mẫu thu từ cỏc vụ xõm hại tỡnh dục mang cỏc vật liệu sinh học từ cả thủ phạm và nạn nhõn. Kớch thước alen nhỏ của cỏc locut STR (khoảng 100-400bp) so với cỏc alen của VNTR (khoảng 400-1000bp) khiến cỏc STR dễ dàng được lựa chọn hơn cho mục đớch ứng dụng trong hỡnh sự phự hợp với cỏc mẫu ADN biến tớnh.
Hơn nữa, việc phõn tỏch cỏc bazơ nitơ của cỏc đoạn ADN cú thể thực hiện dễ dàng với cỏc đoạn cú kớch thước dưới 500bp khi sử dụng kỹ thuật điện di trờn gel polyacrylamide biến tớnh. Vỡ vậy, về mặt sinh học và cụng nghệ, cỏc chỉ thị STR với kớch thước nhỏ hơn cú ưu điểm hơn so với cỏc chỉ thị VNTR cú kớch thước lớn.
Trong số cỏc dạng lặp khỏc nhau của hệ STR, cỏc đoạn lặp 4 nucleotit được sử dụng phổ biến hơn cỏc đoạn lặp hai hoặc ba nucleotit. Dạng lặp 5 và 6 nucleotit ớt phổ biến hơn trong genome người.
Sử dụng cỏc STR cú đơn vị lặp 4 nucleotit (tetranucleotide STR) trong hỡnh sự cú những thuận lợi so với cỏc VNTR hoặc cỏc STR 2 và 3 nucleotit vỡ:
- Khoảng kớch thước giữa cỏc alen nhỏ vừa phải phự hợp cho phản ứng PCR phức.
- Khoảng kớch thước giữa cỏc alen nhỏ vừa phải làm giảm khả năng mất alen đối với cỏc alen cú kớch thước nhỏ hơn.
- Khả năng tạo ra cỏc sản phẩm PCR cú kớch thước nhỏ thuận lợi cho việc phõn tớch cỏc mẫu ADN đó biến tớnh.
- Việc giảm cỏc sản phẩm “stutter” (băng giả) so với cỏc dinucleotit thuận lợi cho việc đọc kiểu gen đối với cỏc mẫu lẫn.
Cỏc tiờu chớ để lựa chọn locut STR ứng dụng cho nhận dạng cỏ thể như
sau: [23].
- Khả năng phõn biệt cỏ thể cao, thường là trờn 90% với tỷ lệ dị hợp tử trờn 70%.
- Nằm ở cỏc vị trớ riờng biệt trờn NST để đảm bảo khụng lựa chọn cỏc locut liờn kết. Để thuận lợi, cỏc STR được lựa chọn thường nằm trờn cỏc NST riờng rẽ.
- Cú thể phối hợp tốt với cỏc chỉ thị khỏc trong phản ứng multiplex
- Tỷ lệ “stutter” thấp.
- Tỷ lệ đột biến thấp.
Độ dài cỏc alen khoảng từ 90 đến 500bp, cỏc kớch thước alen nhỏ phự hợp cho việc phõn tớch cỏc mẫu ADN biến tớnh.
1.3.5. Vai trũ của việc lựa chọn, phối hợp cỏc locut STR khỏc nhau trong xỏc định huyết thống :
Hiện nay, cú thể ứng dụng hệ cỏc locut STR trờn nhiễm sắc thể thường hay STR trờn nhiễm sắc thể giới tớnh để xỏc định cỏc mối quan hệ họ hàng, huyết thống như:
- Xỏc định cỏc mối quan hệ huyết thống trực hệ (cha - mẹ - con): Sử dụng cỏc locut STR trờn nhiễm sắc thể thường.
- Xỏc định cỏc mối quan hệ huyết thống khụng trực hệ :
+ Xỏc định huyết thống theo dũng cha: Sử dụng cỏc locut STR trờn nhiễm sắc thể Y (Y-STR).
+ Xỏc định huyết thống sử dụng cỏc locut STR trờn nhiễm sắc thể X (xỏc định huyết thống bà – chỏu hay anh, chị em trong cỏc trường hợp đặc biệt: khụng cũn cha, mẹ …).
Trong xỏc định huyết thống, việc lựa chọn và sử dụng locut STR nào và số lượng locut STR cần sử dụng là bao nhiờu sẽ quyết định độ chớnh xỏc đối với kết quả giỏm định. Để xỏc định độ chớnh xỏc của một trường hợp xỏc
định huyết thống (bố - mẹ - con), người ta thường dựa trờn chỉ số PI (paternity index). Chỉ số PI được xỏc định dựa trờn tần suất alen của locut STR khảo sỏt được trong quần thể [23]. PI sẽ được xỏc định đối với từng locut, sau đú cần tớnh toỏn để xỏc định chỉ số tiếp theo là CPI (combined paternity index). Chỉ số CPI được tớnh như sau [97]:
CPI = PI(1) x PI (2) x ….PI (n), trong đú: PI: Chỉ số quan hệ huyết thống.
CPI: Chỉ số quan hệ huyết thống kết hợp.
PI (1), PI (2), PI (n): Chỉ số PI của locut thứ nhất, locut thứ hai và
locut thứ n.
Đõy là chỉ số để xỏc định mối quan hệ huyết thống khi phối hợp PI của tất cả cỏc locut STR đó phõn tớch. Chỉ số CPI thể hiện mối quan hệ huyết thống giữa hai cỏ thể được xỏc định. CPI càng cao, độ tin cậy càng lớn. Điều này cú nghĩa muốn đạt được chỉ số CPI cao, cần cú sự lựa chọn phối hợp đủ số lượng cỏc locut STR với nhau, hơn nữa, cỏc locut STR được lựa chọn cũng phải là cỏc locut cú tớnh đa hỡnh tương đối cao trong quần thể.
Từ kết quả của chỉ số CPI, cú thể xỏc định độ chớnh xỏc của trường hợp giỏm định huyết thống. Chỉ số CPI của ca xột nghiệm được cụng nhận là khỏc nhau đối với từng quốc gia. Tuy nhiờn, thụng thường để kết luận khụng loại trừ một trường hợp xỏc định huyết thống, chỉ số PI tối thiểu cần đạt là 100 [23, 97] .
Hiện nay, tại Việt Nam cũng như ở cỏc nước trờn thế giới, số lượng cỏc locut được sử dụng để xỏc định huyết thống thụng thường là từ 16 đến 24 locut [30, 35, 79].
1.4. TèNH HèNH NGHIấN CỨU NHẬN DẠNG CÁ THỂ NGƯỜI BẰNG PHƯƠNG PHÁP PHÂN TÍCH ADN TRấN THẾ GIỚI VÀ TẠI VIỆT NAM
1.4.1. Tỡnh hỡnh nghiờn cứu trờn thế giới
Cỏc locut STR đang sử dụng phổ biến ngày nay được nghiờn cứu phõn loại và phỏt triển tại phũng thớ nghiệm của TS. Thomas Caskey – trường ĐH Y và tại Sở KHHS Anh. Tập đồn Promega (Madison, Wisconsin) đó thương
mại hoỏ cỏc locut do Caskey nghiờn cứu, cũn tập đoàn Applied Biosystems (Foster City, California) lại lựa chọn những locut STR của Sở KHHS Anh (FSS) đồng thời phỏt triển một số locut mới [23].
Một trong những bộ PCR phức được phỏt triển đầu tiờn đú là phức 4 locut do Sở KHHS Anh nghiờn cứu, bao gồm 4 locut TH01, FES/FPS, vWA, và F13A1. Bộ kit này được gọi là “phức thế hệ 1” (first-generation multiplex), cú khả năng trựng lặp 1/10.000. Tiếp đú là bộ phức thế hệ thứ 2 (second- generation multiplex - SGM) bao gồm 6 locut STR đa hỡnh và 01 locut giới tớnh [23]. 6 locut STR bao gồm TH01, vWA, FGA, D8S1179, D18S51, và D21S11cho khả năng trựng lặp khoảng 1/50 triệu.
* Hệ thống cỏc locut STR chủ đạo của Mỹ
Vào đầu năm 1996, Phũng thớ nghiệm FBI – Mỹ đó tài trợ cho việc nỗ lực thành lập cỏc locut “chủ đạo” STR (core STR loci) để sử dụng cho CSDL nhận dạng ADN, được gọi là CODIS (Combined DNA Index System). Dự ỏn bắt đầu từ thỏng 4/1996 và kết thỳc vào thỏng 11/1997, cú liờn quan tới 22 phũng thớ nghiệm phõn tớch ADN với 17 locut STR được đỏnh giỏ. Sau dự ỏn này, 13 locut STR đó được chọn làm cỏc locut chớnh cho việc thành lập CSDL ADN quốc gia CODIS [23]. 13 locut bao gồm CSF1PO, FGA, TH01, TPOX, vWA, D3S1358, D5S818, D7S820, D8S1179, D13S317, D16S539, D18S51, and D21S11. Khả năng trựng lặp trung bỡnh được tớnh toỏn khi sử dụng 13 locut là 1/1000 tỷ trong số cỏc cỏ thể khụng cú quan hệ họ hàng huyết thống [73].
Hiện nay, để đạt được độ tin cậy cao hơn cho nhận dạng cỏ thể đồng thời thuận tiện hơn cho việc trao đổi thụng tin với tổ chức hỡnh sự cỏc nước, Mỹ đó nghiờn cứu bổ sung và dự kiến sau 1/1/2017 sẽ mở rộng hệ thống cỏc locut STR chủ đạo từ 13 đến 20 locut. 7 locut được nghiờn cứu bổ sung gồm D1S1656, D2S441, D2S1338, D10S1248, D12S391, D19S433 và D22S1045 [38, 39]. Bờn cạnh đú, tổ chức Interpol, chõu Âu và cỏc nước như Anh, Đức, Hàn Quốc … cũng chọn cho mỡnh hệ locut chủ đạo riờng với số locut STR trong tổ hợp từ 7 đến 16 locut. [24, 101].
Ngoài việc nghiờn cứu khảo sỏt cỏc locut STR trờn nhiễm sắc thể thường, hiện nay nhiều tỏc giả đó cụng bố cỏc kết quả nghiờn cứu tần suất alen đối với cỏc locut STR trờn nhiễm sắc thể giới tớnh X [27, 45, 61, 70, 104] và nhiễm sắc thể giới tớnh Y [20, 33, 62, 67, 91]. Đối với nhiều quốc gia, cỏc nghiờn cứu khụng chỉ dừng lại ở những dõn tộc, chủng tộc cú số lượng chiếm đa số mà cũn được nghiờn cứu sõu hơn ở nhiều dõn tộc, chủng tộc khỏc nhau trờn tồn lónh thổ [18, 19, 31, 71, 100, 102].
* Cỏc bộ kit thương mại sử dụng phổ biến :