Mục tiêu cụ thể của đề tài là xác định tần suất các alen và đánh giá tính đa hình của 27 locus STR trên nhiễm sắc thể thường thuộc bộ kit ForenSeqTM DNA Signature Prep - Mix A từ 200 cá thể người dân tộc Kinh tại Việt Nam, từ đó đề xuất khả năng ứng dụng của bộ kit ForenSeqTM DNA Signature Prep - Mix A trong lĩnh vực giám định ADN tại Việt Nam.
Trang 1HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-Phạm Ngọc Sơn
NGHIÊN CỨU TÍNH ĐA HÌNH VÀ TẦN SUẤT CÁC ALEN CỦA 27 LOCUS STR TRÊN NHIỄM SẮC THỂ THƯỜNG BẰNG BỘ KIT FORENSEQ ỨNG DỤNG TRONG GIÁM
ĐỊNH ADN HÌNH SỰ TẠI VIỆT NAM
LUẬN VĂN THẠC SĨ: SINH HỌC THỰC NGHIỆM
Hà Nội - 2020
Trang 2HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-Phạm Ngọc Sơn
NGHIÊN CỨU TÍNH ĐA HÌNH VÀ TẦN SUẤT CÁC ALEN CỦA 27 LOCUS STR TRÊN NHIỄM SẮC THỂ THƯỜNG BẰNG BỘ KIT FORENSEQ ỨNG DỤNG TRONG GIÁM
ĐỊNH ADN HÌNH SỰ TẠI VIỆT NAM
Chuyên ngành: Sinh học thực nghiệm
Mã số: 8420114
LUẬN VĂN THẠC SĨ SINH HỌC THỰC NGHIỆM
NGƯỜI HƯỚNG DẪN KHOA HỌC Hướng dẫn 1: PGS TS Phí Quyết Tiến Hướng dẫn 2: PGS TS Nguyễn Văn Hà
Hà Nội - 2020
Trang 3Lời cam đoan
Tôi xin cam đoan những nội dung viết trong luận văn là do sự tìm tòi, học hỏi của bản thân với sự hướng dẫn tận tình của PGS TS Phí Quyết Tiến, PGS TS Nguyễn Văn Hà và các đồng nghiệp tại Trung tâm Giám định sinh học, Viện Khoa học hình sự và Viện Công nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Mọi kết quả nghiên cứu cũng như ý tưởng của tác giả khác, nếu có đều được trích dẫn cụ thể Đề tài luận văn này cho đến nay chưa được bảo vệ tại bất kỳ một hội đồng bảo vệ luận văn thạc sĩ nào và cũng chưa hề được công
bố trên bất kỳ một phương tiện nào Tôi xin chịu trách nhiệm về những lời cam đoan trên
Hà Nội, ngày tháng 8 năm 2020
Người cam đoan
Phạm Ngọc Sơn
Trang 4Lời cảm ơn
Để hoàn thành được Luận văn cao học này, tôi xin bày tỏ lời cảm ơn sâu sắc tới PGS TS Phí Quyết Tiến và PGS TS Nguyễn Văn Hà đã trực tiếp định hướng, tận tình hướng dẫn tôi
Tôi xin cảm ơn tập thể lãnh đạo Viện Khoa học hình sự, lãnh đạo và cán bộ Phòng Tham mưu và Trung tâm giám định Sinh học - Viện Khoa học hình sự đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập và làm nghiên cứu đề tài
Tôi xin trân trọng gửi lời cảm ơn tới ban lãnh đạo cùng các thầy cô giáo Khoa Công nghệ sinh học, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã truyền đạt kiến thức và giúp đỡ tôi trong suốt quá trình học tập và thực hiện luận văn
Cuối cùng tôi xin bày tỏ lòng biết ơn đến gia đình, người thân, bạn bè
và đồng nghiệp - những người đã luôn động viên, tạo điều kiện cho tôi hoàn thành khóa học này./
Học viên
Phạm Ngọc Sơn
Trang 5Danh mục các ký hiệu và chữ viết tắt
CE Capillary Electrophoresis (Điện di mao dẫn)
FSA ForenSeqTM DNA Signature Prep - Mix A (tên bộ kít phân
tích ADN của hãng Illumina) FTA Tên riêng của một loại giấy thu mẫu máu (dạng thẻ)
ID IdentifilerTM (tên bộ kít phân tích ADN của hãng Thermo
Fisher)
PCR Polymerase Chain Reaction (Phản ứng chuỗi polymerase) SNP Single Nucleotide Polymorphism (Đa hình đơn nucleotit) STR Short Tandem Repeat (Các trình tự lặp ngắn)
VNTR Variable Number of Tandem Repeat (Các trình tự lặp
trung bình)
Trang 6Danh mục các bảng
Bảng 1.1: Tần suất tối thiểu của một alen thay đổi tương ứng với số lượng
mẫu khảo sát 11
Bảng 1.2: Các locus STR trên nhiễm sắc thể thường có trong bộ kit ForenSeq DNA Signature Prep - Mix A [25] 14
Bảng 3.1 Kết quả định lượng ADN bằng phương pháp Realtime PCR 35
Bảng 3.2 So sánh tần suất alen (%) của locus D8S1179 43
Bảng 3.3 So sánh tần suất alen (%) của locus D21S11 44
Bảng 3.4 So sánh tần suất alen (%) của locus D7S820 45
Bảng 3.5 So sánh tần suất alen (%) của locus CSF1PO 45
Bảng 3.6 So sánh tần suất alen (%) của locus D3S1358 46
Bảng 3.7 So sánh tần suất alen (%) của locus TH01 47
Bảng 3.8 So sánh tần suất alen (%) của locus D13S317 47
Bảng 3.9 So sánh tần suất alen (%) của locus D16S539 48
Bảng 3.10 So sánh tần suất alen (%) của locus D2S1338 49
Bảng 3.11 So sánh tần suất alen (%) của locus D19S433 50
Bảng 3.12 So sánh tần suất alen (%) của locus vWA 50
Bảng 3.13 So sánh tần suất alen (%) của locus TPOX 51
Bảng 3.14 So sánh tần suất alen (%) của locus D18S51 52
Bảng 3.15 So sánh tần suất alen (%) của locus D5S818 53
Bảng 3.16 So sánh tần suất alen (%) của locus FGA 54
Bảng 3.17 So sánh tần suất alen (%) của locus D1S1656 56
Bảng 3.18 So sánh tần suất alen (%) của locus D2S411 57
Bảng 3.19 So sánh tần suất alen (%) của locus D4S2408 57
Bảng 3.20 So sánh tần suất alen (%) của locus D6S1043 58
Trang 7Bảng 3.21 So sánh tần suất alen (%) của locus D9S1122 59
Bảng 3.22 So sánh tần suất alen (%) của locus D10S1248 59
Bảng 3.23 So sánh tần suất alen (%) của locus D12S391 60
Bảng 3.24 So sánh tần suất alen (%) của locus PentaE 61
Bảng 3.25 So sánh tần suất alen (%) của locus D17S1301 62
Bảng 3.26 So sánh tần suất alen (%) của locus D20S482 63
Bảng 3.27 So sánh tần suất alen (%) của locus PentaD 64
Bảng 3.28 So sánh tần suất alen (%) của locus D22S1045 65
Bảng 3.29 Tổng hợp và so sánh các chỉ số đánh giá bảng tần suất 71
Trang 8Danh mục các hình ảnh
Hình 1.1 Vị trí một số locus trên nhiễm sắc thể sử dụng trong giám định
ADN của một số bộ kít phổ biến hiện nay 6
Hình 1.2 Hình ảnh máy điện di mao quản ABI 3130xl 16
Hình 1.3 Quy trình giải trình tự thế hệ mới của Illumina 17
Hình 1.4 Hình ảnh máy giải trình tự thế hệ mới MiSeq FGxTM 24
Hình 2.1 Sơ đồ nghiên cứu 26
Hình 2.2 Thẻ FTA dùng để thu mẫu máu 27
Hình 2.3 Danh bản ghi thông tin cá nhân 28
Hình 2.4 Hình ảnh mô tả quá trình chuẩn bị thư viện mẫu 31
Hình 3.1 Mẫu máu được thu vào giấy FTA và thông tin cá nhân 36
Hình 3.2 Hình ảnh báo cáo kết quả phân tích mẫu đối chứng dương 37
Hình 3.3 Hình ảnh báo cáo kết quả phân tích mẫu M001 38
Hình 3.4 Hình ảnh báo cáo chi tiết kiểu gen mẫu đối chứng dương 39
Hình 3.5 Hình ảnh báo cáo chi tiết kiểu gen mẫu M001 40
Hình 3.6 Biểu đồ so sánh chỉ số PD 66
Hình 3.7 Biểu đồ so sánh chỉ số PE 67
Hình 3.8 Biểu đồ so sánh chỉ số PI 68
Hình 3.9 Biểu đồ so sánh chỉ số PIC 69
Trang 9MỤC LỤC
Trang
Lời cam đoan i
Lời cảm ơn ii
Danh mục các ký hiệu và chữ viết tắt iii
Danh mục các bảng iv
Danh mục các hình ảnh vi
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN TÀI LIỆU 4
1.1 KHÁI NIỆM VỀ CÁC LOCUS TRÌNH TỰ LẶP LẠI NGẮN (SORT TANDEM REPEAT - STR) 4
1.1.1 Khái niệm 4
1.1.2 Danh pháp quốc tế của các locus STR 6
1.2 CƠ SỞ DỮ LIỆU TẦN SUẤT CÁC ALEN 7
1.2.1 Khái niệm cơ sở dữ liệu tần suất các alen 7
1.2.2 Tần suất các alen 8
1.2.2.1 Alen có tần suất thấp 8
1.2.2.2 Alen có tần suất cao - Alen phổ biến 9
1.2.3 Ý nghĩa của cơ sở dữ liệu tần suất các alen 9
1.2.4 Cơ sở khoa học để xác định số lượng cá thể khảo sát 11
1.3 KHÁI QUÁT VỀ BỘ KÍT FORENSEQ DNA SIGNATURE PREP - MIX A 12
1.3.1 Bộ kít ForenSeqTM DNA Signature Prep 12
1.3.2 Các locus STR trên nhiễm sắc thể thường trong bộ kít ForenSeqTM DNA Signature Prep-Mix A 13
Trang 101.4 CÔNG NGHỆ GIẢI TRÌNH TỰ ỨNG DỤNG TRONG GIÁM ĐỊNH ADN15
1.4.1 Công nghệ điện di mao quản (Capillary electrophoresis - CE) 15
1.4.2 Hệ thống giải trình tự thế hệ mới MiSeq FGxTMcủa hãng Illumina - Hoa Kỳ 16
1.5 TÌNH HÌNH NGHIÊN CỨU VỀ TẦN SUẤT ALEN CÁC LOCUS STR TRÊN THẾ GIỚI VÀ TRONG NƯỚC 19
1.5.1 Tình hình nghiên cứu trên thế giới 19
1.5.2 Tình hình nghiên cứu trong nước 22
CHƯƠNG 2 VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 25
2.1 VẬT LIỆU NGHIÊN CỨU 25
2.1.1 Đối tượng nghiên cứu 25
2.1.2 Hóa chất, thiết bị và dụng cụ nghiên cứu 25
2.1.2.1 Hóa chất 25
2.1.2.2 Máy móc, thiết bị và dụng cụ 25
2.2 PHƯƠNG PHÁP NGHIÊN CỨU 26
2.2.1 Phương pháp thu thập mẫu máu 27
2.2.2 Phương pháp tách chiết ADN 28
2.2.3 Tinh sạch ADN 29
2.2.4 Định lượng ADN 29
2.2.5 Chuẩn bị thư viện mẫu và giải trình tự ADN 30
2.2.6 Các phương pháp thu thập và xử lý số liệu thống kê 31
2.2.6.1 Xác định và tính tần suất các alen 32
2.2.6.2 Phương pháp kiểm định giả thiết Khi bình phương ( χ2) 32
Trang 112.2.6.3 Các chỉ số kết hợp đánh giá giá trị bảng tần suất alen 34
CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN 35
3.1 KẾT QUẢ XÂY DỰNG CƠ SỞ DỮ LIỆU TẦN SUẤT ALEN 35
3.1.1 Kết quả thu mẫu, tách chiết và tinh sạch ADN 35
3.1.2 Kết quả phân tích ADN 36
3.1.3 Kết quả tính toán và lập bảng tần suất các alen 41
3.2 ĐÁNH GIÁ TÍNH ĐA HÌNH CỦA CÁC LOCUS 42
3.2.1 Đánh giá tính đa hình của các locus trùng với hệ Identifiler 42
3.2.2.1 Locus D8S1179 42
3.2.2.2 Locus D21S11 43
3.2.2.3 Locus D7S820 44
3.2.2.4 Locus CSF1PO 45
3.2.2.5 Locus D3S1358 46
3.2.2.6 Locus TH01 46
3.2.2.7 Locus D13S317 47
3.2.2.8 Locus D16S539 48
3.2.2.9 Locus D2S1338 49
3.2.2.10 Locus D19S433 49
3.2.2.11 Locus vWA 50
3.2.2.12 Locus TPOX 51
3.2.2.13 Locus D18S51 52
3.2.2.14 Locus D5S818 53
3.2.2.15 Locus FGA 54
3.2.2 Đánh giá tính đa hình của các locus không có trong hệ Identifiler 55
Trang 123.2.3.1 Locus D1S1656 55
3.2.3.2 Locus D2S411 56
3.2.3.4 Locus D6S1043 58
3.2.3.5 Locus D9S1122 59
3.2.3.6 Locus D10S1248 59
3.2.3.7 Locus D12S391 60
3.2.3.8 Locus PentaE 61
3.2.3.9 Locus D17S1301 62
3.2.3.10 Locus D20S482 63
3.2.3.11 Locus PentaD 64
3.2.3.12 Locus D22S1045 64
3.2.3 Các chỉ số đánh giá trong giám định ADN hình sự 66
3.2.4.1 Khả năng phân biệt (PD) 66
3.2.4.2 Khả năng loại trừ (PE) 67
3.2.4.3 Chỉ số quan hệ huyết thống (PI) 68
3.2.4.4 Chỉ số đa hình (PIC) 69
3.2.4.5 Các chỉ số kết hợp đánh giá giá trị bảng tần suất alen 70
3.3 MỘT SỐ VÍ DỤ VỀ ỨNG DỤNG KẾT QUẢ CỦA ĐỀ TÀI 72
CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ 74
KẾT LUẬN 74
KIẾN NGHỊ 75
TÀI LIỆU THAM KHẢO 76
PHỤ LỤC 80
Trang 13MỞ ĐẦU Tính cấp thiết của đề tài
Giám định ADN là một lĩnh vực nổi bật của ngành Kỹ thuật hình sự với nhiệm vụ quan trọng là phục vụ hoạt động tố tụng Viện Khoa học hình sự là
cơ quan cấp trung ương và là một đơn vị đầu ngành của lực lượng kỹ thuật hình sự, một trung tâm khoa học của ngành Công an Việt Nam Từ tháng 4 năm 1999, Viện Khoa học hình sự là cơ quan đầu tiên tại Việt Nam triển khai lĩnh vực giám định ADN với toàn bộ quy trình được chuyển giao từ Viện Khoa học hình sự bang Victoria - Australia với bộ kit ban đầu gồm 09 locus STR
Năm 2006 Viện Khoa học hình sự đã đưa vào ứng dụng công nghệ điện
di mao dẫn (Capillary Electrophoresis - CE) với hệ thống ABI Prism 3130 Genetic Analyzer, sử dụng bộ kit Identifiler gồm 15 locus STR thay thế hệ
thống điện di ABI Prism 377 DNA Sequencer trước đây Với công nghệ CE
được chuẩn hóa, Viện Khoa học hình sự đã đưa ra hàng vạn Kết luận giám định về ADN phục vụ hiệu quả cho các cơ quan điều tra, xét xử Tuy nhiên, ứng dụng công nghệ CE trong giám định ADN hình sự vẫn tồn tại nhiều hạn chế khi các mẫu án cần phân tích là các mẫu khó như: lượng mẫu ít (vi vết), mẫu bị phân hủy, mẫu hài cốt, mẫu lẫn từ nhiều nguồn
Năm 2015 Viện Khoa học hình sự là cơ quan đầu tiên ở Việt Nam được trang bị hệ thống giải trình tự thế hệ mới của hãng Illumina - hệ thống MiSeq FGx với bộ kit ForenSeqTM DNA Signature Prep - Mix A (gồm 59 locus STR
và 95 locus SNP) có khả năng khắc phục những hạn chế của công nghệ điện
di mao dẫn trong lĩnh vực giám định ADN hình sự
Trong giám định ADN hình sự, việc xác định khả năng truy nguyên đồng nhất của một hồ sơ ADN để buộc tội một đối tượng nghi vấn là rất quan trọng Để đánh giá khả năng xác suất trùng hợp ngẫu nhiên hồ sơ ADN của các cá thể khác nhau trong quần thể, các giám định viên phải tính toán dựa trên tần suất alen các locus STR được nghiên cứu, thu thập ngẫu nhiên từ các
cá thể trong các quần thể người nhất định Theo lý thuyết di truyền học, mỗi quần thể người (dân tộc, tộc người) khác nhau có những đặc điểm di truyền
Trang 14đặc trưng, thể hiện bằng sự phân bố tần suất các alen trong mỗi quần thể là khác nhau và không thể áp dụng cơ sở dữ liệu của quần thể này cho một quần thể khác [1, 2] Do đó, bắt buộc phải tiến hành khảo sát tần suất các alen của các locus dùng trong giám định ADN hình sự đối với mỗi dân tộc để đảm bảo tính khoa học, chính xác, khách quan trong kết luận giám định
Viện Khoa học hình sự là cơ quan tiên phong ở Việt Nam triển khai ứng dụng công nghệ giải trình tự thế hệ mới MiSeq FGx với bộ kit ForenSeqTM DNA Signature Prep - Mix A trong lĩnh vực giám định ADN Để ứng dụng công nghệ mới, vấn đề cấp bách đặt ra phải nghiên cứu tính đa hình
và xây dựng cơ sở dữ liệu tần suất các alen của các locus STR trên nhiễm sắc thể thường trong bộ kit ForenSeqTM DNA Signature Prep - Mix A, trước mắt với quần thể người dân tộc Kinh, là dân tộc chiếm gần 90% tổng số dân của Việt Nam Kết quả nghiên cứu sẽ là căn cứ khoa học vững chắc để xây dựng
cơ sở pháp lý cho việc ứng dụng công nghệ giải trình tự thế hệ mới trong giám định ADN hình sự tại Việt Nam
Để đáp ứng nhu cầu cấp bách trên, chúng tôi thực hiện đề tài "Nghiên cứu
tính đa hình và tần suất các alen của 27 locus STR trên nhiễm sắc thể thường bằng bộ kit ForenSeq ứng dụng trong giám định ADN hình sự tại Việt Nam"
Mục tiêu nghiên cứu của đề tài
- Mục tiêu tổng quát của đề tài là xây dựng cơ sở dữ liệu tần suất alen của 27 locus STR trên nhiễm sắc thể thường trong bộ kít ForenSeqTM DNA Signature Prep - Mix A đối với quần thể người dân tộc Kinh tại Việt Nam để ứng dụng trong giám định ADN hình sự
- Mục tiêu cụ thể của đề tài là xác định tần suất các alen và đánh giá tính đa hình của 27 locus STR trên nhiễm sắc thể thường thuộc bộ kit ForenSeqTM DNA Signature Prep - Mix A từ 200 cá thể người dân tộc Kinh tại Việt Nam, từ đó đề xuất khả năng ứng dụng của bộ kit ForenSeqTM DNA Signature Prep - Mix A trong lĩnh vực giám định ADN tại Việt Nam
Trang 15Phạm vi nghiên cứu của đề tài
Đề tài tập trung nghiên cứu, phân tích 27 locus STR trên nhiễm sắc thể thường trong bộ kit ForenSeqTM DNA Signature Prep - Mix A của 200 phạm nhân dân tộc Kinh thuộc dự án “Tàng thư gen tội phạm quốc gia" với các nội dung sau:
- Thu ngẫu nhiên 200 mẫu máu của 200 phạm nhân dân tộc Kinh đã thu thập được thuộc dự án “Tàng thư gen tội phạm quốc gia”
- Phân tích ADN bằng bộ kit ForenSeqTM DNA Signature Prep - Mix A trên hệ thống giải trình tự thế hệ mới MiSeq FGx của hãng Illumina từ 200 mẫu máu người dân tộc Kinh
- Thống kê, tính toán tần suất các alen của 27 locus STR trên nhiễm sắc thể thường từ 200 kiểu gen
- Kiểm định kết quả và so sánh với tính đa hình của các bộ kit đang được sử dụng để giám định ADN hình sự tại Việt Nam
Ý nghĩa khoa học và thực tiễn của đề tài
Lần đầu tiên tại Việt Nam có nghiên cứu chi tiết trên quần thể người dân tộc Kinh về tính đa hình và đưa ra bảng tần suất các alen của 27 locus STR trên nhiễm sắc thể thường thuộc bộ kit ForenSeqTM DNA Signature Prep -
Mix A với số lượng mẫu đủ lớn (200 mẫu)
Kết quả của đề tài là căn cứ khoa học để xây dựng cơ sở pháp lý và triển khai ứng dụng công nghệ giải trình tự thế hệ mới với bộ kit ForenSeqTMDNA Signature Prep - Mix A, đưa ra kết luận giám định trong lĩnh vực giám định ADN hình sự tại Việt Nam
Kết quả của đề tài đóng góp cho hệ thống dữ liệu quốc tế về tần suất
các alen của người dân tộc Kinh tại Việt Nam
Trang 16CHƯƠNG 1 TỔNG QUAN TÀI LIỆU
1.1 KHÁI NIỆM VỀ CÁC LOCUS TRÌNH TỰ LẶP LẠI NGẮN (SORT TANDEM REPEAT - STR)
1.1.1 Khái niệm
Cũng như ADN ở sinh vật nhân chuẩn khác, ADN nhân tế bào ở người gồm những trình tự mã hoá (các exon) xen kẽ với những trình tự không mã hoá (các intron) [2, 3] Tuỳ mức độ hiện diện của chúng trong nhân, các trình
tự ADN có thể được phân loại như sau:
- Các trình tự duy nhất: là các gen mã hoá cho các protein có trình tự đặc trưng cho từng gen
- Các trình tự có số lần lặp lại trung bình: chiếm khoảng 25 - 40% bộ gen người, chúng có kích thước từ 100 - 1.000 kb, đa dạng hơn các trình tự lặp lại nhiều lần Các trình tự này không tập trung mà phân tán trên toàn bộ hệ gen Chúng có thể là những trình tự không mã hoá với chức năng chưa rõ hoặc cũng có thể là những trình tự mã hoá (các gen mã hoá cho ARN riboxom, ARN vận chuyển )
- Các trình tự lặp lại nhiều lần: Chiếm 10 - 15% bộ gen Đó là những trình tự ADN ngắn (10 - 200 kb), không mã hoá, thường tập trung ở những vùng chuyên biệt trên nhiễm sắc thể (vùng tâm động, vùng đầu nhiễm sắc thể)
Các đoạn ADN (locus) được sử dụng trong giám định hình sự là các locus nằm ở vùng không mã hoá (intron) của ADN Thời kỳ đầu của công nghệ giám định ADN trong nhân tế bào, người ta áp dụng các kỹ thuật phân tích các locus có đoạn lặp trung bình (Variable Number of Tandem Repeat – VNTR hay Minisatellite) Nhưng những kỹ thuật này chỉ áp dụng được với từng locus riêng lẻ (single locus) và phụ thuộc vào thao tác kỹ thuật của người thực hiện nên dễ xảy ra sai sót
Từ năm 1990 cho tới nay các nhà khoa học hình sự sử dụng các kỹ thuật phân tích các đoạn ADN có cấu trúc lặp lại từ 2 bp - 6 bp được gọi là các đoạn lặp lại ngắn (Short Tandem Repeat - STR hay Microsatellite) vì
Trang 17chúng khá bền vững, có khả năng phân tích đồng thời nhiều locus, ít phụ thuộc vào thao tác kỹ thuật của người thực hiện Số lần các đoạn lặp có thể khác nhau rất nhiều giữa các cá thể, chính đặc điểm này mang lại giá trị trong truy nguyên cá thể [4, 5] Các cấu trúc VNTR hay STR đều mang tính bảo thủ cao, được di truyền qua các thế hệ và mang tính đặc trưng cho cá thể
Như vậy, có thể hiểu các locus trình tự lặp lại ngắn ( Short Tandem Repeat
- STR) là các đoạn ADN có cấu trúc lặp lại từ 2 bp - 6 bp
Để một locus STR sử dụng trong giám định ADN, với mục đích truy nguyên cá thể và xác định huyết thống, phải thỏa mãn những yêu cầu sau:
Thứ nhất, các locus STR phải có tính đa hình và mức độ dị hợp tử cao
Thứ hai, các locus STR có kích thước ngắn từ 100 bp - 500 bp, do các
đoạn ADN ngắn sẽ bền vững hơn, ít bị đứt gãy hơn khi có tác động của điều kiện tự nhiên và quá trình nhân bản ADN dễ dàng hơn, có hiệu suất cao hơn đối với các đoạn ADN dài Đối với những đoạn ADN có tính đa hình cao nhưng kích thước lớn, trong thực tế chỉ có thể thực hiện kỹ thuật PCR cho ra kết quả tốt với những mẫu dấu vết, mẫu so sánh còn mới hoặc được bảo quản trong những điều kiện tốt
Thứ ba, các locus dùng trong giám định ADN hình sự thường phải di
truyền độc lập nhau Như vậy chúng phải nằm trên các nhiễm sắc thể khác nhau, điều này đảm bảo cho tính phân ly độc lập của từng locus dẫn tới tính
đa hình kiểu gen trong quần thể [6, 7]
Vì những lý do trên, những trình tự lặp lại chứa các đơn vị lặp lại gồm
4 nucleotit, ví dụ (AGTA)n được ứng dụng nhiều hơn so với các đoạn lặp hình thành từ 2 hoặc 3 nucleotit, ví dụ (CAA)n, (CA)n hoặc những đoạn đa hình hình thành từ các đoạn lặp chứa các đơn vị lặp lại gồm 5 nucleotit ví dụ (CCAAG)n hoặc 6 nucleotit như (CCAACA)n Ngày nay, nhiều đoạn ADN đa hình có trình tự lặp lại bộ 4 nucleotit đã được nghiên cứu và ứng dụng trong nhận dạng do nó đáp ứng được những yêu cầu của công tác giám định ADN Một locus STR trong nhân tế bào thường được lựa chọn để sử dụng trong giám định ADN hình sự nếu nó có nhiều alen khác nhau trong quần
Trang 18thể (nhiều hơn 5 alen) và số các cá thể dị hợp tử trong quần thể lớn hơn 70% [8, 9] Càng nhiều locus STR được phân tích thì khả năng kết luận mẫu dấu vết có cùng một nguồn gốc cơ thể của một người nào đó càng cao
1.1.2 Danh pháp quốc tế của các locus STR
Tên các locus STR được đặt theo tên của gen nếu locus này nằm một phần hoặc nằm toàn bộ trong gen [10] Ví dụ locus STR TH01 có nguồn gốc
từ tên gen tổng hợp enzym tyrosine hydroxylase của người, nằm trên NST số
11 Chữ "TH" xuất phát từ chữ cái đầu tyrosine hydroxylase Số "01" của ký hiệu "TH01" xuất phát từ vùng intron 1 của gen tổng hợp enzym này Đôi khi tiết đầu ngữ HUM (human) được thêm vào đầu tên của locus này để xác định
đó là từ hệ gen người Vì vậy, locus STR này được đặt tên là HUM - TH01 hay TH01
Hình 1.1 Vị trí một số locus trên nhiễm sắc thể sử dụng trong giám định
ADN của một số bộ kít phổ biến hiện nay [11]
Các trình tự ADN nằm ngoài vùng gen được định tên bằng vị trí của chúng trên NST Ví dụ, locus D5S818 và D7S820 đó là những tên gọi cho các locus STR không nằm trong vùng gen Trong trường hợp này chữ D có nghĩa
Trang 19là ADN Chữ số tiếp theo là số thứ tự của NST Chữ "S" là trình tự đơn lẻ (single) của locus ADN Những số cuối là vị trí trình tự đoạn ADN nằm trên mỗi NST riêng biệt Chữ số này là duy nhất trong nhận dạng cá thể Ví dụ, locus ADN D7S820 (Hình 1.1) được giải nghĩa là D: ADN, 7: NST số 7, S: trình tự đơn lẻ (single copy sequence), 820: vị trí thứ 820 xác định trên NST
số 7 [8]
1.2 CƠ SỞ DỮ LIỆU TẦN SUẤT CÁC ALEN
1.2.1 Khái niệm cơ sở dữ liệu tần suất các alen
Cơ sở dữ liệu tần suất các alen là bảng tần số tương đối của các alen trên một locus di truyền trong quần thể, thông thường được thể hiện dưới dạng tỷ lệ hoặc tỷ lệ phần trăm
Để phân tích kết quả giám định ADN, một yếu tố quan trọng không thể thiếu là cơ sở dữ liệu tần suất alen trong quần thể (Allele Frequency of Population) đặc trưng cho mỗi quần thể Việc xác định kiểu gen của tất cả các cá thể (người) sống trên hành tinh là điều không tưởng, do đó cần đến cơ
sở dữ liệu thu được từ quá trình khảo sát những mẫu hữu hạn thường là một tập hợp quần thể nhất định để có được số liệu tần suất các alen trong quần thể Các phòng giám định cần phải thu mẫu ngẫu nhiên (tức không có quan
hệ về huyết thống) từ những vùng miền khác nhau có tính đại diện cao, số lượng mẫu đủ lớn tuỳ thuộc vào số lượng dân số của tộc người cần khảo sát [11]
Việc khảo sát bao nhiêu locus tùy thuộc vào từng phòng giám định là
sử dụng bộ kit phân tích nào, chẳng hạn bộ kit: Identifiler, Powerplex, hoặc Profiler Plus… Việt Nam có đến 54 tộc người (Ethnic groups), trong đó tộc người Kinh chiếm đến 87,3%, các tộc người khác chỉ chiếm 12,7% còn lại,
ví dụ: Tày: 960 nghìn người, Hoa: 930 nghìn người, Khmer: 720 nghìn
ngư-ời, Mường: 700 nghìn ngưngư-ời, Mông: 441 nghìn người… Các tộc người có số lượng tương đối lớn kể trên đều phải được khảo sát tần suất alen, thậm chí còn nghiên cứu đến cả sự pha tạp giữa các tộc người khác nhau để tìm mối
quan hệ giữa chúng biểu hiện thông qua tần suất alen và các chỉ số khác
Trang 201.2.2 Tần suất các alen
1.2.2.1 Alen có tần suất thấp
Để xác định chính xác tần suất của một alen, cần phải thu thập được nhiều hơn một giới hạn nhỏ nhất nào đó cho mẫu cá thể mang alen đó Tần suất alen tối thiểu được quy định để đảm bảo rằng một alen đã được lấy đủ mẫu trong một tập hợp mẫu ngẫu nhiên trong quá trình nghiên cứu
Alen của một locus STR của một tộc người nào đó có thể không có trong bảng tần suất và do vậy, thuật ngữ tần suất alen hiếm đã được sử dụng Tần suất của alen hiếm được thiết lập ở mức thấp hơn tần suất alen thấp nhất trong cơ sở dữ liệu alen "Hội đồng Viện Nghiên cứu Quốc gia, Đánh giá Chứng cứ pháp lý ADN" của Mỹ - (The National Research Council, Evaluation of Forensic DNA Evidence) đã đề xuất sử dụng tần suất alen thấp nhất nên điều chỉnh là 5/2N (trong đó N là kích cỡ mẫu của cơ sở dữ liệu)
Vì vậy, alen có tần suất thấp có giá trị thấp hơn tần suất alen thấp nhất (5/2N) theo quy ước trong cơ sở dữ liệu Trong các nghiên cứu trước đây, các alen chưa xuất hiện trong quần thể nghiên cứu được gán cho giá trị 1/2N (N là số cá thể của quần thể nghiên cứu) và được phần mềm xây dựng mã hóa cố định giá trị đó Trong một số phần mềm tính toán có thể mặc định tần suất cực tiểu là 0,001 [12, 13]
Với các locus STR sử dụng trong khoa học hình sự, tất cả các locus gen đều là những đoạn không mang thông tin di truyền, đại đa số chúng nằm ở những đoạn intron của gen hoặc những vùng trình tự không mang gen Do đó, khái niệm alen hiếm được sử dụng trong một số trường hợp là không hoàn toàn chính xác Chúng tôi đưa ra tên gọi là alen có tần suất thấp khi giá trị tần suất tính được thấp hơn giá trị mặc định 0,001 (0,1%)
Những alen có tần suất thấp trong các locus STR thường có giá trị truy nguyên cao hơn các alen có tần suất cao (alen phổ biến)
Trang 211.2.2.2 Alen có tần suất cao - Alen phổ biến
Một trong những yêu cầu quan trọng đặt ra đối với các locus ADN - STR được sử dụng trong khoa học hình sự là mức dị hợp tử phải cao (trên 70%)
Muốn vậy, các locus STR phải hội tụ được hai điều kiện sau đây:
- Locus STR phải có tính đa hình cao, đó là số lượng các alen của locus
đó phải lớn
- Các alen phải phân bố đều trong toàn bộ bảng tần suất
Tuy nhiên, những nghiên cứu cho thấy, một số alen trong các locus STR có tính phổ biến (tần suất cao) cao hơn các alen còn lại khác Ví dụ, khi nghiên cứu tần suất các alen trong các quần thể của các tộc người Việt (người Khmer và người Mường), locus D3S1358 có ba alen là 15, 16 và alen 17 chiếm tới 90% tổng số các alen, locus TPOX với hai alen là alen 8 và alen 11 chiếm hơn 80% của tổng số các alen [14, 15]
Hiện nay, các bộ kít thương mại có một số locus STR với khả năng phân biệt (PD) và khả năng loại trừ (PE) đều thấp, locus có giá trị truy nguyên thấp (như TPOX, CSF1PO) Những locus này có số lượng alen trong locus ít, nhưng số alen có tần suất cao lại chiếm đa số, sử dụng những locus dạng này chỉ là một giải pháp có ý nghĩa trong truy nguyên cá thể, ít có ý nghĩa trong
việc xác định huyết thống cha con
1.2.3 Ý nghĩa của cơ sở dữ liệu tần suất các alen
Trong giám định ADN hình sự, việc xác định khả năng truy nguyên đồng nhất của một hồ sơ ADN để buộc tội một đối tượng nghi vấn là rất quan trọng Có thể xảy ra các trường hợp:
Trường hợp thứ nhất: mẫu ADN của đối tượng nghi vấn hay của nạn
nhân (mẫu đã biết) không đồng nhất với hồ sơ ADN phân tích được từ mẫu cần giám định (mẫu chưa biết), trong trường hợp này đối tượng nghi vấn được loại trừ là người để lại dấu vết thu thập được
Trang 22Trường hợp thứ hai: khi mẫu ADN từ hiện trường vụ án (mẫu chưa
biết) và mẫu ADN từ đối tượng nghi vấn (mẫu đã biết) đồng nhất về hồ sơ ADN Như vậy, dấu vết tại hiện trường là do chính đối tượng nghi vấn đã để lại hay của một đối tượng nào khác trùng hồ sơ ADN?
Muốn đánh giá khả năng có hay không sự trùng hợp ngẫu nhiên hồ sơ ADN của cá thể này với cá thể khác trong quần thể, các giám định viên phải tính toán dựa trên tần suất các alen STR trong dân cư hoặc quần thể gần gũi nhất về di truyền
Câu hỏi đặt ra là: xác suất liệu có thể có một người khác ngoài nghi can, ngẫu nhiên chọn từ quần thể dân cư có hồ sơ ADN giống với nghi can bằng bao nhiêu? Nếu xác suất này càng nhỏ thì khả năng trùng hợp một cách ngẫu nhiên càng khó xảy ra
Để trả lời câu hỏi đó, tỷ số khả dĩ (LR) là một thông số để đánh giá hai mẫu phân tích có phải là của cùng một người không [11]
Giả sử ta xác định được hồ sơ ADN của nghi phạm và dấu vết tại hiện trường: D13S317 là dị hợp tử hai alen 12/13
LR= =
Trong đó:
Hp có giá trị là 1 (100% chứng cứ buộc tội cho nghi phạm);
Hd: Xác suất của hồ sơ ADN 12-13 trong quần thể, dựa vào tần suất alen 12 và 13
Tần suất alen 12 của locus D13S317 ở người Mỹ gốc Phi là 0,429 còn ở người Mỹ da trắng là 0,283
Tần suất alen 13 của locus D13S317 ở người Mỹ gốc Phi là 0,152 còn ở người Mỹ da trắng là 0,104
LR khi tính với tần suất người Mỹ gốc Phi là:
Trang 23LR khi tính với tần suất người Mỹ da trắng là:
Điều đó cho thấy sự khác biệt là lớn trong trường hợp với 1 locus của
hồ sơ ADN tính với tần suất alen của các tộc người khác nhau
Đối với số lượng alen đạt tới 15 hoặc 27 locus ADN, con số khác biệt khi tính toán dựa trên tần suất alen của các tộc người khác nhau còn lớn hơn rất nhiều Tỷ số khả dĩ (LR) có liên quan đến các alen có tần suất thấp, alen có tần suất cao và phân bố của các alen trong từng tộc người cụ thể
1.2.4 Cơ sở khoa học để xác định số lượng cá thể khảo sát
Theo báo cáo của "Hội đồng Nghiên cứu Quốc gia, Đánh giá Chứng
cứ pháp lý ADN" của Mỹ - (The National Research Council, Evaluation of Forensic DNA Evidence) năm 1996 thì việc ước lượng tần số của một alen nào đó có thể không chính xác nếu alen đó là alen có tuần suất thấp, chỉ xuất hiện một vài lần khi khảo sát và có thể không đại diện cho cả quần thể [13] Hội đồng Viện nghiên cứu quốc gia Mỹ khuyến cáo rằng mỗi alen nên được tính ít nhất là năm lần để tần suất tính được đáng tin cậy Do đó tần số thấp nhất của một alen là 5/2N, trong đó N là số lượng mẫu khảo sát từ quần thể và 2N là số lượng nhiễm sắc thể Với quy ước như thế, số lượng mẫu khảo sát sẽ ảnh hưởng tới tần suất của alen tối thiểu như sau:
Bảng 1.1 Tần suất tối thiểu của một alen thay đổi tương ứng với số lượng
mẫu khảo sát
Số lượng mẫu
khảo sát (N)
Số lượng nhiễm sắc thể (2N)
Tần suất tối thiểu của alen (5/2N)
Trang 24Theo John M Butler, khi khảo sát 302 người Mỹ da trắng, alen 15 của locus D13S317 chỉ xuất hiện 1 lần, do đó tần số quan sát được là 0.00166 [11] Tuy nhiên tần số tối thiểu sử dụng phải là 5/2N, tức là 5/604 = 0.00828 Nói cách khác, bởi vì alen 15 đã không được quan sát đủ số lần tin cậy để tính giá trị tần suất thực trong quần thể, do đó tần số của nó được ước lượng gấp năm lần giá trị quan sát đảm bảo tính đại diện Như vậy, số lượng mẫu càng lớn thì xác suất lý thuyết và thực tế càng tiệm cận tới nhau hơn với độ tin cậy cao hơn
Theo tác giả Chakraborty, số lượng mẫu khảo sát thông thường là
100-150 mẫu ADN từ các cá thể không có quan hệ huyết thống là đủ cho các locus STR có từ 5 đến 15 alen [16] Tuy nhiên, các bộ kit ứng dụng trong lĩnh vực giám định ADN hình sự hiện nay gồm những locus có số lượng alen lớn hơn
15 Ví dụ: khi khảo sát tần suất alen của các locus hệ Identifiler, với quần thể người Mỹ gốc Phi khi khảo sát 357 cá thể, locus D18S51 có 18 alen, locus D21S11 là 24 alen, locus FGA là 24 alen [13] Còn đối với quần thể người Việt (dân tộc Kinh) locus FGA cũng có đến 20 alen khi khảo sát 170 cá thể [17] Như vậy, số lượng cá thể khảo sát phải lớn hơn 150 để xây dựng cơ sở
dữ liệu tần suất các alen
Theo tác giả John Buckleton, chọn 200 mẫu khảo sát cho mỗi quần thể
là số lượng tiêu chuẩn được lựa chọn phổ biến [18]
Với những cơ sở trên, để kết quả nghiên cứu đảm bảo tính khoa học, bảng tần suất các alen có thể được các cơ quan giám định ADN tại Việt Nam, Interpol và Hiệp hội ADN hình sự Châu Á áp dụng trong việc giám định ADN thì chúng tôi chọn số lượng mẫu nghiên cứu đối với quần thể người dân tộc Kinh tại Việt Nam là 200 người
1.3 KHÁI QUÁT VỀ BỘ KÍT FORENSEQ DNA SIGNATURE PREP - MIX A
1.3.1 Bộ kít ForenSeq TM DNA Signature Prep
Năm 2015, hãng Illumina đã phát triển hệ thống giải trình tự MiSeq FGxTM với bộ kit ForenSeqTM DNA Signature Prep với những đặc điểm sau:
Trang 25- Chỉ sử dụng một bộ kít duy nhất phân tích được cả 2 loại chỉ thị trong giám định ADN hình sự là các locus STR và các locus SNP;
- Bộ kít là tổ hợp của 233 locus STR và SNP, từ đó cung cấp được lượng thông tin lớn, mang độ tin cậy và chính xác cao;
- Có khả năng dự đoán được kiểu hình và nguồn gốc chủng tộc của cá thể do có chứa các ancestry SNPs và phenotyping SNPs;
- Số lượng mẫu tối đa có thể thực hiện được là 96 mẫu;
- Lượng ADN khuyến cáo tương đối thấp: 1ng;
- Tất cả mọi hóa chất phải sử dụng đều được gói gọn trong bộ kit
- Kích thước của các đoạn amplicon sau khi khuếch đại từ 60 - 460bp,
có ý nghĩa khi phân tích các mẫu có chất lượng kém, ADN bị phân hủy, đứt gãy như mẫu xương, mẫu đang trong giai đoạn phân hủy
- Bộ kít được chia thành 2 nhóm:
+ Nhóm Mix A: gồm 59 locus STR (trong đó có 27 locus STR trên nhiễm sắc thể thường và 32 locus STR trên nhiễm sắc thể giới tính) và 94 locus SNP được sử dụng để truy nguyên cá thể và xác định quan hệ huyết thống
+ Nhóm Mix B: gồm 80 locus SNP xác định kiểu hình (với 24 locus xác định màu tóc, màu mắt và 56 locus xác định chủng tộc)
Việt Nam với hơn 90% dân số thuộc dân tộc Kinh, còn lại là các dân tộc thiểu số, ít có sự pha trộn với các chủng tộc trên thế giới, về đặc điểm màu tóc và màu mắt cũng không đa dạng Do đó, trong khuôn khổ của luận văn chúng tôi lựa chọn và nghiên cứu các locus STR trên nhiễm sắc thể thường trong nhóm Mix A và không đề cập các maker liên quan đến kiểu hình thuộc nhóm Mix B
1.3.2 Các locus STR trên nhiễm sắc thể thường trong bộ kít ForenSeq TM DNA Signature Prep-Mix A
Bộ kít ForenSeqTM DNA Signature Prep-Mix A được thiết kế có tổ hợp của 27 locus STR trên 21 nhiễm sắc thể thường (không có trên nhiễm sắc thể
Trang 26số 14) Trong đó nhiễm sắc thể số 2, số 3, số 5, số 12, số 20 và số 21 có 2 locus trên mỗi nhiễm sắc thể Mỗi nhiễm sắc thể còn lại có 01 locus [19]
Bảng 1.2 Các locus STR trên nhiễm sắc thể thường có trong bộ kit ForenSeq
DNA Signature Prep - Mix A [19]
STT
Locus
Đoạn Amplicon ngắn nhất (bp)
Đoạn Amplicon dài nhất (bp)
NST
Alen của mẫu 2800M Control
Trang 271.4 CÔNG NGHỆ GIẢI TRÌNH TỰ ỨNG DỤNG TRONG GIÁM ĐỊNH ADN
1.4.1 Công nghệ điện di mao quản (Capillary electrophoresis - CE)
Công nghệ điện di mao quản hiện đang được ứng dụng rộng rãi trong lĩnh vực giám định ADN hình sự [20] Điện di mao quản là công nghệ sử dụng mao quản được làm bằng thuỷ tinh dẫn điện và thường có đường kính bên trong từ 50 - 100 m, chiều dài từ 25 - 75 cm cho phép phân tách các đoạn ADN có kích thước khác nhau
Gel được bơm đầy trong mao quản và ADN được hút vào và chạy trong mao quản khi tạo điện trường cho gel trong mao quản Những đoạn có kích thước nhỏ sẽ chạy nhanh hơn những đoạn có kích thước lớn Trong quá trình chạy trong mao quản, các đoạn ADN sẽ được chiếu laser và phát hiện được nhờ chất màu huỳnh quang khác nhau gắn vào mỗi đoạn ADN Hệ thống sẽ phát hiện các bước sóng và so sánh với hệ thống thang chuẩn được điện di song song với mẫu Phần mềm của máy tính sẽ xử lí thông tin và xác định kích thước của các alen khác nhau (với số đơn vị lặp lại khác nhau) [21]
Công nghệ điện di mao quản là một bước đột phá lớn, khắc phục được vấn đề thời gian phân tích, độ chính xác so với các công nghệ trước đây như công nghệ điện di nhuộm bạc, điện di trên agarose Tuy nhiên, điện di mao quản vẫn có một số nhược điểm sau đây:
- Xác định các alen chỉ dựa trên kích thước ADN và không giải trình tự
- Công suất thấp khi phân tích nhiều chỉ thị, phải sử dụng nhiều bộ kit khác nhau
- Gặp nhiều khó khăn trong việc phân tích các mẫu khó từ hiện trường như các mẫu có chất lượng kém (số lượng ít, bị phân hủy)
- Không thể xác định được các peak nằm ngoài thang alen chuẩn
- Trong giám định huyết thống, khó khăn khi gặp các trường hợp trùng hợp ngẫu nhiên, đột biến, giám định không trực hệ
Trang 28Hình 1.2 Hình ảnh máy điện di mao quản ABI 3130xl
1.4.2 Hệ thống giải trình tự thế hệ mới MiSeq FGx TM của hãng Illumina - Hoa Kỳ
Công nghệ giải trình tự thế hệ mới là một bước đột phá tiếp theo, đang trở thành một công cụ phân tích quan trọng trong lĩnh vực sinh học phân tử nói chung và giám định ADN hình sự nói riêng với những cải tiến ưu việt sau [21]:
- Công nghệ mới không yêu cầu tách dòng các đoạn ADN, mà thay vào
đó là việc chuẩn bị các thư viện NGS
- Thay vì hàng trăm phản ứng giải trình tự thì công nghệ mới có thể đồng thời thực hiện được hàng triệu phản ứng giải trình tự, do đó hàng triệu hoặc hàng tỉ phân tử ADN có thể được giải trình tự đồng thời
- Trình tự được đọc trực tiếp mà không cần phải điện di Số lần đọc của NGS là vô cùng lớn, có thể giải trình tự toàn bộ hệ gen trong thời gian ngắn,
do đó có thể ứng dụng rộng rãi trong nhiều lĩnh vực khoa học và đời sống
Trang 29Hình 1.3 Quy trình giải trình tự thế hệ mới của Illumina [19]
Hệ thống máy giải trình tự của hãng Illumina sử dụng công nghệ giải trình tự theo phương pháp tổng hợp (Sequencing by Synthesis) kết hợp với việc sử dụng các nucleotide có gắn tín hiệu huỳnh quang và khóa dừng thuận nghịch để đọc và nhận biết trình tự một cách trực tiếp Nguyên tắc của công nghệ cũng giống với giải trình tự bằng điện di mao quản ADN polymerase xúc tác cho quá trình ghép các deoxyribonucleotide triphosphates được gắn huỳnh quang vào mạch khuôn ADN trong suốt các chu trình tổng hợp Trong suốt mỗi chu trình, tại nucleotit có sự kết hợp sẽ được phát hiện bằng các bức Chuẩn bị thư viện
Tạo Cluster
Giải trình tự
Trang 30xạ huỳnh quang Điểm khác biệt chính là thay vì chỉ giải trình tự trên 1 sợi ADN, công nghệ NGS của hãng Illumina giải trình tự nhiều đoạn ADN cùng một lúc Công nghệ giải trình tự bằng phương pháp tổng hợp (SBS) sẽ đưa ra kết quả có độ chính xác cao, tăng tỉ lệ đọc được của các đoạn ADN [19]
Hệ thống MiSeq FGx là hệ thống được hãng Illumina phát triển riêng cho giám định ADN hình sự Hệ thống được ra mắt vào tháng 01 năm 2015 được đánh giá là một giải pháp hoàn chỉnh cho lĩnh vực khoa học hình sự Với những đặc điểm như:
- Chỉ sử dụng một bộ kit duy nhất nhưng phân tích được cả 2 nhóm chỉ thị ADN trong hình sự là STRs và SNPs Từ đó cung cấp được lượng thông tin rất lớn, mang độ tin cậy và chính xác cao
- Kết hợp đồng thời các STR trên nhiễm sắc thể thường (27 locus), nhiễm sắc thể giới tính Y (25 locus) và nhiễm sắc thể giới tính X (7 locus) Bên cạnh đó còn có tổ hợp 94 SNPs mang thông tin giúp phân biệt cá thể
- Kích thước của các đoạn amplicon sau khi khuếch đại từ 60 – 460bp,
do đó có thể phân tích các mẫu ADN bị đứt gãy, các mẫu có chất lượng kém
- Có khả năng dự đoán được kiểu hình và nguồn gốc chủng tộc của cá thể do có tổ hợp các ancestry SNPs và phenotyping SNPs
- Có thể phân tích đồng thời 96 mẫu
Quy trình giải trình tự gồm có 4 bước chính:
- Bước 1: Chuẩn bị thư viện (Library Preparation)
Bao gồm việc chuẩn bị thực hiện theo quy trình của bộ kit ForenSeq ADN Signature Prep Mẫu sẽ được khuếch đại những đoạn ADN đặc hiệu và gắn thêm các adapter riêng biệt để có thể phân biệt giữa các mẫu với nhau Cuối cùng, các mẫu sẽ được trộn lại chung và đưa vào máy giải trình tự
- Bước 2: Tạo Cluster
Thư viện sau khi được chuẩn bị sẽ được máy đưa tự động lên flow cell
- nơi có các đoạn nhỏ oligo nucleotit đã được gắn lên trên bề mặt có sự tương thích với các adapter Mỗi đoạn sẽ khuếch đại riêng biệt và tách thành từng
Trang 31nhóm cluster thông qua phản ứng khuếch đại đường cầu Sau quá trình tạo ra các Cluster thì mạch khuôn đã sẵn sàng cho việc giải trình tự
- Bước 3: Giải trình tự bằng công nghệ tổng hợp Kết quả có độ chính xác đến từng base
- Bước 4: Phân tích kết quả
Hệ thống có server đi kèm sử dụng phần mềm riêng biệt để phân biệt
và so sánh các mẫu với nhau
1.5 TÌNH HÌNH NGHIÊN CỨU VỀ TẦN SUẤT ALEN CÁC LOCUS STR TRÊN THẾ GIỚI VÀ TRONG NƯỚC
1.5.1 Tình hình nghiên cứu trên thế giới
Việc ứng dụng các locus STR để truy nguyên cá thể người đã được thực hiện tại những nước phát triển và hiện nay đã được áp dụng ở hầu hết các nước trên thế giới Vì tính chất bắt buộc, nên tất cả các tộc người có số dân lớn trong một quốc gia đều được khảo sát tần suất các locus STR một cách kỹ lưỡng để áp dụng trong giám định ADN khi biết rõ được nguồn gốc chủng tộc của cá thể có mẫu giám định
Tại Mỹ, cảnh sát liên bang Mỹ đã khảo sát và sử dụng tần suất dữ liệu ADN theo hệ Identifiler của nhiều chủng tộc người khác nhau: 191 người gốc
Mỹ, 290 người Mỹ gốc Tây Ban Nha và Bồ Đào Nha, 349 người Mỹ da trắng
và 357 người Mỹ gốc Phi [7]
Với chủng tộc người lai Âu - Á (Eurasia), tại mỗi quốc gia khác nhau lại có những khảo sát khác nhau về tần suất các alen theo hệ Identifiler của cộng đồng người Eurasia tại quốc gia đó: 384 người tại Nga, 300 người tại Hy Lạp, 139 người tại Rumani [22]
Tại Singapore, Cảnh sát Singapore sử dụng tần suất các alen theo hệ Identifiler của dân tộc người Hoa, dân tộc người Mã Lai, dân tộc người Ấn Độ để phục vụ công tác giám định [23]
Trang 32Cùng với sự phát triển không ngừng của ngành công nghệ sinh học nói chung, các tập đoàn nghiên cứu khoa học trên thế giới tiếp tục phát triển các
bộ kit phân tích mở rộng hơn về số lượng locus (Hãng ABI với bộ kit 24 locus Global Filer; Hãng Promega với bộ kit 20 locus PowerPlex 21, bộ kit 24 locus PowerPlex Fusion; Hãng Illumina với bộ kit ForenSeqTM DNA Signature Prep là tổ hợp của tổng số 233 locus STR và SNP ) Theo đó đã có nhiều quốc gia nghiên cứu khảo sát tần suất các alen của các locus ở các bộ kit mới để đưa vào ứng dụng trong giám định ADN hình sự
Tại Mỹ, năm 2016 Tamyra R Moretti và cộng sự đã khảo sát mở rộng
hệ CODIS với 23 locus STR từ 11 nhóm quần thể người, ứng dụng trong giám định ADN hình sự của Cục Cảnh sát liên bang Mỹ (FBI), bao gồm: 202 người Mỹ da trắng, 209 người phía Tây Nam Tây Ban Nha, 263 người phía Đông Nam Tây Ban Nha, 209 người Mỹ gốc Phi, 157 người Bahamas, 177 người Jamaica, 79 người Trinidad, 95 người Chàm, 91 người Philipin, 192 người Apache và 143 người Navajo Theo đó, người Mỹ gốc Phi, người Bahamas và người Jamaica có khoảng cách di truyền nhỏ, có thể gộp thành một nhóm quần thể [24]
Tại Trung Quốc, năm 2017 đã khảo sát tần suất alen 23 locus STR từ
1218 người dân tộc người Duy Ngô Nhĩ (Uyghur) ở vùng Tân Cương, Tây bắc Trung Quốc Tổng cộng 281 alen của các locus này đã được xác định và tần suất alen của chúng dao động từ 0,0004 đến 0,5390 [25]; năm 2018 đã khảo sát 500 người dân tộc Hán và 100 người dân tộc gốc Mông Cổ [26]
Năm 2015, Stefano Caratti và cộng sự sử dụng hệ thống MiSeq FGxTMvới bộ kit ForenSeqTM DNA Signature Prep bao gồm cả Mix A và Mix B để phân tích 78 mẫu (trong đó có 64 mẫu để xác định quan hệ huyết thống và 14 mẫu án hình sự) Trong số các mẫu án hình sự, có 5 mẫu là các dấu vết hiện trường (với 2 mẫu lẫn) và 9 mẫu là hài cốt, móng và răng Kết quả tất cả các mẫu đều thu được đầy đủ kiểu gen của tất cả các locus STR và SNP, phù hợp với các locus STR đã được phân tích trước đó bằng các bộ kit STR thông dụng chạy điện di bằng hệ thống CE Tại locus D9S1122 còn phát hiện alen biến thể so với mẫu chứng dương 2800M Biến thể này rất có giá trị trong
Trang 33việc phân tích dấu vết bị lẫn, đặc biệt khi các mẫu lẫn từ những người có quan
hệ huyết thống Từ những kết quả cho thấy ưu thế vượt trội của hệ thống MiSeq FGxTM so với công nghệ CE [27]
Những năm gần đây, ứng dụng công nghệ giải trình tự thế hệ mới (Next generation sequencing - NGS), hay còn gọi là Massively parallel sequencing - MPS) trong giám định ADN hình sự trên thế giới đang là một xu thế để khắc phục, giải quyết những tồn tại của công nghệ giải trình tự bằng mao quản Cuộc khảo sát 33 phòng thí nghiệm từ 25 quốc gia ở Châu Âu trong giai đoạn
từ năm 2016 - 2019 đã có 17 phòng thí nghiệm trang bị hệ thống giải trình tự thế hệ mới [28]
Vào đầu năm 2016, Giáo sư nổi tiếng về ADN hình sự trên thế giới Bruce Budowle cũng đã công bố trên tạp chí FSI Genetics nghiên cứu đánh giá khả năng ứng dụng bộ kit ForenSeqTM DNA Signature Prep trong giám định ADN hình sự với các thí nghiệm: đánh giá độ nhạy, khả năng phân tích mẫu lẫn với các tỉ lệ khác nhau, các cá thể với các chủng tộc khác nhau và các mẫu khó (mẫu tế bào niêm mạc miệng thu từ 6 năm trước và các mẫu xương) Nghiên cứu đã khẳng định kết quả từ bộ kit ForenSeqTM DNA Signature Prep với hệ thống MiSeq FGxTM là chính xác và tin cậy, có khả năng ứng dụng rất hiệu quả trong giám định ADN hình sự Số lượng lớn các chỉ thị được phân tích cùng lúc là lợi ích rõ ràng nhất và vẫn phù hợp với các kết quả phân tích trước đây bằng các bộ kit khác nhau Các phân nhóm STRs trên nhiễm sắc thể thường, trên nhiễm sắc thể X và trên nhiễm sắc thể Y được phân tích đồng thời nên việc truy nguyên cá thể hay xác định quan hệ huyết thống sẽ rất thuận tiện và đảm bảo độ chính xác cao nhất [29]
Anh và Hàn Quốc cũng đã nghiên cứu, khảo sát bộ kit ForenSeqTMDNA Signature Prep từ 200 người gốc Anh, 200 người Anh gốc Trung Quốc
và 209 Hàn Quốc, so sánh với các bộ kit sử dụng công nghệ CE Kết quả đã chỉ ra 26 alen ở các locus STR trên nhiễm sắc thể thường mà các bộ kit sử dụng công nghệ CE không phân biệt được Điều này đã khẳng định rằng, công nghệ giải trình tự thế hệ mới có thể là một công cụ ứng dụng hiệu quả trong giám định ADN hình sự để tăng khả năng truy nguyên cá thể [30, 31]
Trang 34Năm 2018 Mỹ cũng đã công bố bảng tần suất các alen của 27 locus thuộc bộ kit ForenSeqTM DNA Signature Prep được khảo sát từ tổng số 1036 người Mỹ thuộc 4 nhóm dân tộc: 361 người Mỹ da trắng, 342 người Mỹ gốc Phi, 97 người Mỹ gốc Á và 236 người Mỹ gốc Tây Ban Nha Locus D3S1353
có tỷ lệ dị hợp tử trong các quần thể lớn nhất (khoảng 10%) Các locus có tỉ lệ
dị hợp tử từ 10% đến 5% bao gồm (theo thứ tự giảm dần: D9S1122, D13S317, D8S1179, D21S11, D5S818, D12S391 và D2S441) 19 locus còn lại có tỉ lệ dị hợp tử ít hơn 5% Bảng tần suất alen từ 1036 cá thể theo khảo sát này được cung cấp để sử dụng trong các phòng thí nghiệm giám định ADN hình sự của Mỹ [32]
1.5.2 Tình hình nghiên cứu trong nước
Ở Việt Nam, giám định gen được triển khai từ tháng 4 năm 1999 tại Viện Khoa học hình sự - Bộ Công an với công nghệ điện di bằng gel polyacrylamide trên hệ thống ABI Prism 377 DNA Sequencer Năm 2000, đề
tài cấp Bộ "Nghiên cứu, khảo sát và xây dựng tần suất các alen của các gen
trong hệ NinePlex II (9 locus gen) trên đối tượng người Kinh" được triển khai
và năm 2002 được nghiệm thu, kết quả là bảng tần suất các alen của người Kinh được sử dụng để tính toán trong các bản kết luận giám định truy nguyên
cá thể, xác định quan hệ huyết thống giúp các cơ quan tố tụng giải quyết có hiệu quả rất nhiều vụ việc [23]
Năm 2004, Việt Nam đã thông báo bảng tần suất các alen của các locus gen hệ Nineplex II trên đối tượng người Kinh cho Interpol, đây là một cột mốc đánh dấu sự phối hợp toàn cầu trong đấu tranh phòng chống tội phạm dựa vào lĩnh vực giám định ADN
Năm 2006, Viện Khoa học hình sự đưa vào triển khai hệ Identifiler (15 locus: D8S1179, D21S11, D7S820, CSF1PO, D3S1358, THO1, D13S317, D16S539, D2S1338, D19S433, vWA, TPOX, D18S51, D5S818 và FGA) trong giám định ADN với công nghệ điện di mao quản Với bộ kit và công nghệ điện di mới này, công tác giám định đạt hiệu quả cao hơn so với bộ kit 9 locus Nineplex II Cũng như các phòng thí nghiệm giám định ADN khác trên
Trang 35thế giới, để có cơ sở pháp lý cho việc ứng dụng hệ Identifiler tại Việt Nam thì phải khảo sát để có tần suất các alen của các dân tộc khác nhau
Năm 2008, Viện Khoa học hình sự đã triển khai đề tài cấp Bộ " Khảo sát
và xây dựng cơ sở dữ liệu tần suất các alen của 15 gen hệ Identifiler trong quần thể người Việt (Kinh) ứng dụng trong giám định gen (ADN) của lực lượng Kỹ thuật hình sự " [17] Đề tài tiến hành khảo sát số mẫu là 170 cá thể
người dân tộc Kinh Đây là căn cứ khoa học để xây dựng cơ sở pháp lý vững chắc trong việc đưa ra các kết luận giám định về truy nguyên cá thể và xác định huyết thống phục vụ tố tụng hình sự và dân sự đối với những vụ án, vụ việc có liên quan đến người dân tộc Kinh
Tại Việt Nam quy trình giám định ADN hình sự sử dụng công nghệ điện di mao quản đã được ban hành kèm theo Thông tư số 46/2013/TT-BCA ngày 05/11/2013 của Bộ trưởng Bộ Công an Năm 2019, Viện Khoa học hình
sự đã có các công bố về tần suất phân bố các alen của 15 locus hệ Identifiler
từ 9 tộc người có dân số đông ở Việt Nam (người Kinh, Tày, Thái, Mường, Khmer, Hoa, Nùng, H’mông và Dao) [33] Công nghệ điện di mao quản vẫn tiếp tục được sử dụng trong giám định ADN hình sự với những lợi thế về thời gian phân tích, thao tác đơn giản và chi phí thấp
Công nghệ giải trình tự thế hệ mới - hệ thống MiSeq FGxTM của hãng Illumina được triển khai tại Viện Khoa học hình sự để giải quyết các vụ án phức tạp với số lượng mẫu lớn, mẫu khó phân tích, các vụ phát hiện hài cốt chưa rõ tung tích, các vụ việc xác định quan hệ huyết thống nhưng ADN bị đột biến mà nếu chỉ sử dụng công nghệ điện di mao quản sẽ không thể kết luận chính xác
Năm 2016, Viện Khoa học hình sự Bộ Công an kết hợp cùng Công ty
Cổ phần phân tích dịch vụ di truyền Gentis đã tiếp nhận chuyển giao công nghệ từ các chuyên gia của hãng Illumina, phân tích thử nghiệm 104 mẫu máu của 104 người Việt không có quan hệ huyết thống và đạt được một số kết quả khả quan, đánh giá tiềm năng ứng dụng hiệu quả của hệ thống MiSeq FGxTMtrong lĩnh vực giám định ADN hình sự tại Việt Nam và đã có Luận văn Thạc
sỹ khoa học của học viên Nguyễn Thị Hồng Nhung được bảo vệ thành công
Trang 36tại Trường Đại học Khoa học tự nhiên - Đại học Quốc gia Hà Nội với tên đề
tài "Đánh giá bộ kit ForenSeq trên hệ thống MiSeq FGx ứng dụng trong định
danh cá thể người Việt Nam" [34]
Hình 1.4 Hình ảnh máy giải trình tự thế hệ mới MiSeq FGxTM
Để tần suất của một alen nào đó đủ tin cậy ứng dụng tính xác suất trong lĩnh vực giám định ADN hình sự thì số lượng mẫu khảo sát phải đủ lớn để các alen đó xuất hiện nhiều lần là điều rất quan trọng Tại Việt Nam cho đến nay chưa có công trình khoa học nào công bố dữ liệu hoàn chỉnh về các alen của
27 locus STR trên nhiễm sắc thể thường thuộc bộ kit ForenSeqTM DNA Signature Prep - Mix A với số lượng mẫu đủ lớn làm cơ sở khoa học và thực tiễn để xây dựng cơ sở pháp lý, ứng dụng trong giám định ADN hình sự
Trang 37CHƯƠNG 2 VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1 VẬT LIỆU NGHIÊN CỨU
2.1.1 Đối tượng nghiên cứu
Chọn ngẫu nhiên 200 mẫu máu của 200 người dân tộc Kinh trên lãnh thổ Việt Nam, không có quan hệ huyết thống gần gũi được thu trên giấy FTA®, thuộc Dự án “Tàng thư gen tội phạm quốc gia” tại Viện Khoa học hình
sự - Bộ Công an
2.1.2 Hóa chất, thiết bị và dụng cụ nghiên cứu
2.1.2.1 Hóa chất
- Thẻ thu mẫu máu FTA® card (Hãng Applied Biosystems);
- Dung dịch Chelex100 nồng độ 5% (Hãng Sigma - Aldrich);
- Bộ kít ForenSeqTM DNA Signature Prep - Mix A (Hãng Illumina);
- Các hóa chất khác trong phòng thí nghiệm
2.1.2.2 Máy móc, thiết bị và dụng cụ
Đề tài nghiên cứu được thực hiện trên các máy móc, thiết bị và dụng cụ tại Phòng thí nghiệm giám định ADN, thuộc Trung tâm Giám định sinh học - Viện Khoa học hình sự, gồm có:
- Máy đục lỗ FTA card: BSD Punching (Hãng Applied Biosystems);
- Máy PCR GeneAmp® PCR System 9700 (Hãng Applied Biosystems);
- Máy Realtime PCR 7500 (Hãng Applied Biosystems);
- Máy giải trình tự MiSeq FGxTM (Hãng Illumina);
Trang 38- Block nhiệt khô cho ống 1,5ml (1000C) kèm nhiệt kế;
- Máy li tâm;
- Các dụng cụ và vật tư tiêu hao đi kèm
2.2 PHƯƠNG PHÁP NGHIÊN CỨU
Các bước chính trong quá trình nghiên cứu được thực hiện theo sơ đồ sau:
Hình 2.1 Sơ đồ nghiên cứu
Giải trình tự ADN
(Máy MiSeq FGxTM)
Thu thập mẫu
Xử lý số liệu thống kê
Trang 392.2.1 Phương pháp thu thập mẫu máu
Mẫu máu của 200 người dân tộc Kinh trên lãnh thổ Việt Nam được thu
thập ngẫu nhiên không có quan hệ huyết thống gần gũi Việc thu thập mẫu phục vụ nghiên cứu được căn cứ theo hồ sơ nhân thân được cung cấp bởi Cơ
quan Công an
Dựa vào danh sách cá nhân được các Cơ quan Công an cung cấp phục
vụ triển khai Dự án "Tàng thư gen tội phạm quốc gia" để lựa chọn các mẫu nghiên cứu:
- Thu mẫu ngẫu nhiên ở nhiều địa phương khác nhau;
- Kiểm tra lý lịch trích ngang (chứng minh thư nhân dân, giấy khai sinh, hồ sơ nghiệp vụ Công an Nhân dân ) Hỏi trực tiếp người được thu mẫu
để bổ sung thông tin (nếu cần) Ghi chép đầy đủ thông tin bao gồm ngày tháng năm sinh, quê quán, họ tên cha, mẹ, nguồn gốc, địa chỉ thường trú vào danh bản ADN cá nhân (hình 2.3)
- Dùng kim chích đầu ngón tay và thấm trực tiếp vào giấy thẻ FTA®(Hình 2.2);
- Để khô tự nhiên, đóng gói và bảo quản ở nhiệt độ phòng
Mẫu đạt tiêu chuẩn là mẫu có đầy đủ thông tin về nhân thân, thông tin
về bố và mẹ, đồng thời xác định bố và mẹ đều thuộc dân tộc Kinh Sàng lọc các mẫu có quan hệ huyết thống với nhau thông qua thông tin cá nhân
Hình 2.2 Thẻ FTA dùng để thu mẫu máu
Trang 40Hình 2.3 Danh bản ghi thông tin cá nhân
2.2.2 Phương pháp tách chiết ADN
200 mẫu máu người dân tộc Kinh được tách chiết ADN bằng phương
pháp vô cơ, sử dụng dung dịch chelex 5% như sau:
- Đục lỗ nhỏ trên giấy FTA có kích thước đường kính là 1,2 mm bằng
máy đục lỗ BSD Punching, cho vào ống eppendoft sạch;