LỜI CAM ĐOAN Tôi xin cam đoan mọi kết quả của đề tài: “Nghiên cứu đặc trưng tần suất alen hệ nhận dạng STR AmpFlSTR ® Identifiler ® Plus Kit của một số tộc người Việt Nam để ứng dụng tro
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_
Trịnh Tuấn Toàn
NGHIÊN CỨU ĐẶC TRƯNG TẦN SUẤT ALEN
HỆ NHẬN DẠNG STR (AMPFlSTR® IDENTIFILER® PLUS KIT) CỦA MỘT SỐ TỘC NGƯỜI VIỆT NAM ĐỂ ỨNG DỤNG
TRONG GIÁM ĐỊNH ADN
LUẬN ÁN TIẾN SĨ SINH HỌC
Hà Nội - 2019
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_
Trịnh Tuấn Toàn
NGHIÊN CỨU ĐẶC TRƯNG TẦN SUẤT ALEN
HỆ NHẬN DẠNG STR (AMPFlSTR® IDENTIFILER® PLUS KIT) CỦA MỘT SỐ TỘC NGƯỜI VIỆT NAM ĐỂ ỨNG DỤNG
TRONG GIÁM ĐỊNH ADN
Chuyên ngành : Hóa sinh học
LUẬN ÁN TIẾN SĨ SINH HỌC
1 PGS.TS Nguyễn Quang Huy
2 PGS.TS Trịnh Hồng Thái
XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ
CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN
Luận án Tiến sĩ
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan mọi kết quả của đề tài: “Nghiên cứu đặc trưng tần suất alen hệ nhận dạng STR (AmpFlSTR ® Identifiler ® Plus Kit) của một số tộc người Việt Nam để ứng dụng trong giám định ADN" là trung thực và chưa từng được công
bố trong bất kỳ công trình nào khác Nếu sai tôi xin chịu hoàn toàn trách nhiệm
Hà Nội, ngày tháng năm 2019
Tác giả luận án
Trịnh Tuấn Toàn
Trang 4LỜI CẢM ƠN
Trong thời gian thực hiện đề tài, tôi đã nhận được sự giúp đỡ của các thầy
cô Bộ môn Hóa Sinh - Sinh học phân tử, Khoa Sinh học, Trường Đại học Khoa học
Tự nhiên, Đại học Quốc gia Hà Nội, Viện Khoa học hình sự - Bộ Công an và các bạn bè, đồng nghiệp đã tạo điều kiện tốt nhất cho tôi được hoàn thành luận án Đặc biệt là sự hướng dẫn tận tình của hai thầy giáo là PGS.TS Nguyễn Quang Huy và PGS.TS Trịnh Hồng Thái - Khoa Sinh học, Trường Đại học Khoa học Tự nhiên đã giúp tôi hoàn thành tốt đề tài Các Thầy đã tận tình chỉ bảo, động viên, hướng dẫn
và giúp đỡ tôi thực hiện các nghiên cứu, tạo điều kiện để hoàn thành luận án Qua đây, tôi xin gửi lời cảm ơn sâu sắc đến sự giúp đỡ này
Tôi cũng xin gửi lời cảm ơn các thầy, cô của Bộ môn Hóa sinh học và Sinh học phân tử, Khoa Sinh học, Trường Đại học Khoa học Tự nhiên đã dạy dỗ tôi trong quá trình học tập tại Khoa, tại Trường
Tôi xin bày tỏ lòng cảm ơn chân thành tới các bạn đồng nghiệp tại Viện Khoa học hình sự - Bộ Công an đã quan tâm, giúp đỡ, hỗ trợ tôi trong quá trình thực hiện nghiên cứu và hoàn thành luận án
Tôi cũng xin gửi lời trân trọng cảm ơn tới Đảng ủy và Lãnh đạo Viện Khoa học hình sự - Bộ Công an, ban Lãnh đạo Khoa Sinh học, Phòng sau đại học, Trường Đại học Khoa học Tự nhiên
Cuối cùng tôi xin gửi lời cảm ơn chân thành đến gia đình và tất cả bạn bè đã giúp đỡ, động viên tôi trong suốt quá trình học tập và thực hiện đề tài
Hà Nội, ngày tháng năm 2019
Tác giả luận án
Trịnh Tuấn Toàn
Trang 5MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT 5
DANH MỤC CÁC BẢNG 7
DANH MỤC CÁC HÌNH 8
MỞ ĐẦU 10
1 Tính cấp thiết của đề tài luận án 10
2 Mục tiêu nghiên cứu của luận án 11
3 Nội dung nghiên cứu của luận án 12
4 Những đóng góp mới của luận án 12
Chương 1 TỔNG QUAN 14
1.1 Sơ lược về lịch sử nhận dạng cá thể người bằng ADN 14
1.2 Khái niệm các đoạn lặp STR và ứng dụng 15
1.3 Bộ kít AmpFlSTR® Identifiler® Plus 21
1.4 Cơ sở khoa học cần phải xác định tần suất alen hệ STR của các tộc người
khác nhau 24
1.4.1 Tỉ số khả dĩ (LR) áp dụng trong khoa học hình sự 24
1.4.2 Alen có tần suất thấp 26
1.4.3 Alen có tần suất cao - Alen phổ biến 26
1.5 Các phương pháp đang được áp dụng trong giám định ADN 27
1.5.1 Các phương pháp tách chiết ADN 27
1.5.2 Các phương pháp định lượng ADN 29
1.5.3 Các phương pháp nhân bản ADN - PCR 29
1.5.4 Các phương pháp điện di ADN, phát hiện sản phẩm PCR và thu dữ liệu hồ sơ ADN của mẫu giám định 30
1.6 Tìm hiểu về tộc người phục vụ quá trình thu mẫu 30
Trang 61.7 Các khu vực địa lý và các tộc người được lựa chọn nghiên cứu 31
1.7.1 Các khu vực địa lý tại Việt Nam 31
1.7.2 Các tộc người chính ở Việt Nam được lựa chọn nghiên cứu 32
1.8 Tình hình nghiên cứu về tần suất alen các locus STR của các tộc người
trên thế giới và trong nước 37
1.9 Cỡ mẫu tối thiểu trong phân tích xác định tần suất alen 44
Chương 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 45
2.1 Đối tượng nghiên cứu 45
2.2 Hóa chất và thiết bị nghiên cứu 45
2.2.1 Hóa chất 45
2.2.2 Máy móc, thiết bị và dụng cụ 45
2.3 Thời gian và địa điểm nghiên cứu 46
2.4 Phương pháp nghiên cứu 46
2.4.1 Các bước chính thực hiện nghiên cứu 46
2.4.2 Phương pháp thu mẫu máu 47
2.4.3 Cơ sở chọn lựa các tộc người trong nghiên cứu 48
2.4.4 Địa điểm thu mẫu máu của các tộc người 48
2.4.5 Phương pháp tách chiết ADN 50
2.4.6 Phương pháp định lượng ADN 51
2.4.7 Phương pháp PCR 52
2.4.8 Phương pháp điện di mao quản 52
2.5 Phương pháp tính tần suất alen, kiểm định giả thuyết thống kê và các chỉ số trong khoa học hình sự 52
2.5.1 Xác định và tính tần suất alen của tập hợp mẫu 52
2.5.2 Phương pháp kiểm định giả thiết χ2 54
2.5.3 Phương pháp tính các chỉ số sử dụng trong khoa học hình sự 54
Trang 72.6 Các chỉ số kết hợp đánh giá giá trị bảng tần suất alen 56
2.6.1 Chỉ số kết hợp khả năng loại trừ - combined power of exclusion (CPE) 56
2.6.2 Chỉ số kết hợp khả năng phân biệt - power of discrimination (CPD) 57
2.6.3 Chỉ số quan hệ huyết thống - paternity index (PI) 57
2.6.4 Nguyên tắc xác định đặc trưng tần suất của từng quần thể 58
2.6.5 Xây dựng cây phân loại di truyền (phylogenetic tree) bằng phần mềm
POPTREE 58
2.6.6 Xây dựng bảng tính ứng dụng và áp dụng vào thực tế giám định 59
Chương 3 KẾT QUẢ VÀ THẢO LUẬN 62
3.1 Phân bố số lượng mẫu thu được theo tộc người 62
3.2 Kết quả tách chiết, phân tích xác định hồ sơ ADN 64
3.3 Số lượng và tần suất alen các locus thuộc các tộc người nghiên cứu 70
3.3.1 Số lượng alen của các locus STR 70
3.3.2 Tần suất alen của các locus theo tộc người 71
3.4 Phân bố alen của các locus theo tộc người 77
3.4.1 Locus D8S1179 77
3.4.2 Locus D21S11 78
3.4.3 Locus D7S820 79
3.4.4 Locus CSF1PO 81
3.4.5 Locus D3S1358 82
3.4.6 Locus TH01 83
3.4.7 Locus D13S317 84
3.4.8 Locus D16S539 86
3.4.9 Locus D2S1338 87
3.4.10 Locus D19S433 89
3.4.11 Locus vWA 91
3.4.12 Locus TPOX 92
3.4.13 Locus D18S51 94
3.4.14 Locus D5S818 95
3.4.15 Locus FGA 96
Trang 83.5 Các alen đặc trưng theo tộc người 100
3.5.1 Các alen đặc trưng của tộc người Kinh 100
3.5.2 Các alen đặc trưng của tộc người Tày 102
3.5.3 Các alen đặc trưng của tộc người Thái 103
3.5.4 Các alen đặc trưng của tộc người Khmer 104
3.5.5 Các alen đặc trưng của tộc người Hoa 105
3.5.6 Các alen đặc trưng của tộc người H’mông 106
3.5.7 Các alen đặc trưng của tộc người Dao 108
3.6 Các chỉ số đánh giá trong giám định ADN hình sự 110
3.7 Xây dựng khoảng cách di truyền giữa các tộc người 115
3.8 Bảng tính Excel ứng dụng tần suất các tộc người 117
3.9 Một số ví dụ về ứng dụng kết quả của luận án 121
KẾT LUẬN 126
KIẾN NGHỊ 128
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ
LIÊN QUAN ĐẾN LUẬN ÁN 129
TÀI LIỆU THAM KHẢO 130 PHỤ LỤC
Trang 9DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
Hác đi - Van béc của locus
thay đổi
Trang 10Ký hiệu viết tắt tên các tộc người dùng trong các bảng tính của luận án
Trang 11DANH MỤC CÁC BẢNG
Bảng 1.1 Các bộ kít thương mại và các locus STR phổ biến 19
Bảng 1.2 Các alen của các locus có trong một số bộ kit thương mại phổ biến 20
Bảng 1.3 Các locus và alen tương ứng của bộ kít AmpFlSTR® Identifiler® Plus 23
Bảng 1.4 Khả năng phân biệt của các locus trong bộ kit Identifiler và một số
bộ kít thương mại khác 24
Bảng 3.1 Số lượng mẫu thu với mỗi tộc người dùng cho nghiên cứu 63
Bảng 3.2 Kết quả kiểm tra nồng độ ADN của một số mẫu thu được 65
Bảng 3.3 Kết quả đường cong chuẩn định lượng ADN một số mẫu nghiên cứu 65
Bảng 3.4 Hồ sơ ADN 16 locus STR của mẫu ký hiệu 19300 69
Bảng 3.5 Tổng hợp số alen được phát hiện ở mỗi locus của từng tộc người 71
Bảng 3.6 Các alen còn thiếu hoặc khác với bộ kít Identifiler Plus 73
Bảng 3.7 Tần suất các alen của 15 locus STR trong quần thể người Kinh 74
Bảng 3.8 Số lượng alen phổ biến và tỷ lệ % của các alen này trong tổng tần suất alen được phát hiện ở mỗi locus của các tộc người 98
Bảng 3.9 Thống kê các alen đặc trưng của các tộc người 109
Bảng 3.10 So sánh các alen có tần suất thấp nhất của nghiên cứu và một số
quần thể khác ở châu Á 110
Bảng 3.11 Chỉ số khả năng phân biệt (PD) của 15 locus của các tộc người
nghiên cứu 111
Bảng 3.12 Chỉ số khả năng loại trừ (PE) của 15 locus trong nghiên cứu
các tộc người 112
Bảng 3.13 Chỉ số xác định quan hệ huyết thống cha con (PI) dựa vào tần suất
alen của các tộc người 113
Bảng 3.14 Tổng hợp các chỉ số đánh giá giá trị các bảng tần suất thu được 114
Bảng 3.15 So sánh các chỉ số đánh giá giá trị CPE, CPD với nghiên cứu khác 115
Bảng 3.16 Giá trị khoảng cách di truyền giữa các tộc người 115
Trang 12DANH MỤC CÁC HÌNH
Hình 1.1 Vị trí một số locus trên NST sử dụng trong nhận dạng cá thể
của một số bộ kít sử dụng phổ biến hiện nay 17
Hình 2.1 Sơ đồ các bước chính xây dựng tần suất alen phục vụ giám định ADN 46
Hình 2.2 Thu mẫu máu trên giấy FTA và ghi thông tin trích ngang cá nhân 47
Hình 2.3 Quy trình tách chiết ADN bằng kít PrepFiler 51
Hình 2.4 Các alen trong thang alen chuẩn AmpFlSTR Identifiler™ 53
Hình 3.1 Ảnh kết quả định lượng ADN của một số mẫu nghiên cứu 64
Hình 3.2 Ảnh hồ sơ ADN dạng tập hợp các đỉnh từ mẫu ký hiệu 14301 66
Hình 3.3 Ảnh hồ sơ ADN dạng tập hợp các đỉnh từ mẫu ký hiệu 19300 67
Hình 3.4 Ảnh hồ sơ ADN dạng tập hợp các đỉnh từ mẫu ký hiệu 48123 68
Hình 3.5 Tần suất alen của tộc người Kinh 72
Hình 3.6 Phân bố alen của locus D8S1179 trong các tộc người nghiên cứu 78
Hình 3.7 Phân bố alen của locus D21S11 trong các tộc người nghiên cứu 79
Hình 3.8 Phân bố alen của locus D7S820 trong các tộc người nghiên cứu 80
Hình 3.9 Phân bố alen của locus CSF1PO trong các tộc người nghiên cứu 81
Hình 3.10 Phân bố alen của locus D3S1358 trong các tộc người nghiên cứu 83
Hình 3.11 Phân bố alen của locus TH01 trong các tộc người nghiên cứu 84
Hình 3.12 Phân bố alen của locus D13S317 trong các tộc người nghiên cứu 85
Hình 3.13 Phân bố alen của locus D16S539 trong các tộc người nghiên cứu 87
Hình 3.14 Phân bố alen của locus D2S1338 trong các tộc người nghiên cứu 89
Hình 3.15 Phân bố alen của locus D19S433 trong các tộc người nghiên cứu 90
Hình 3.16 Phân bố alen của locus vWA trong các tộc người nghiên cứu 92
Hình 3.17 Phân bố alen của locus TPOX trong các tộc người nghiên cứu 93
Hình 3.18 Phân bố alen của locus D18S51 trong các tộc người nghiên cứu 95
Hình 3.19 Phân bố alen của locus D5S818 trong các tộc người nghiên cứu 96
Hình 3.20 Phân bố alen của locus FGA trong các tộc người nghiên cứu 97
Hình 3.21 Alen 19 của locus D16S539 101
Hình 3.22 Alen 14.2 của locus D2S1338 101
Trang 13Hình 3.23 Alen số 8 của locus vWA 102
Hình 3.24 Alen 10.2 đặc trưng tộc người Kinh của locus CSF1PO 102
Hình 3.25 Alen số 14 và 15 của locus TPOX 103
Hình 3.26 Alen 9.2 của locus D18S51 104
Hình 3.27 Alen số 23 của locus D5S818 105
Hình 3.28 Alen số 19 của locus D8S1179 105
Hình 3.29 Alen số 19 của locus D21S11 106
Hình 3.30 Alen 16 của locus D13S317 107
Hình 3.31 Alen 17 của locus D19S433 107
Hình 3.32 Alen số 7 của locus D3S1358 108
Hình 3.33 Cây phân loại di truyền giữa các tộc người nghiên cứu và 3 nhóm
người Kinh 116
Hình 3.34 Hình ảnh giao diện bảng tính tính toán truy nguyên cá thể 118
Hình 3.35 Hình ảnh giao diện bảng tính tính toán mối quan hệ huyết thống
cha con 118
Trang 14MỞ ĐẦU
Vào những năm đầu thế kỷ XXI, các nhà khoa học đã thành công trong giải
mã toàn bộ hệ gen của người, việc giải mã hệ gen của người, nghiên cứu ở mức độ phân tử nhằm hiểu rõ hơn, làm sáng tỏ nhiều vấn đề liên quan tới các nghiên cứu của các nhà khoa học mà trước đây chưa giải quyết được, đặc biệt có ý nghĩa về ứng dụng trong y học liên quan đến sức khỏe, phòng và điều trị bệnh và ứng dụng vào các lĩnh vực khoa học khác
Việc ứng dụng những tiến bộ khoa học kỹ thuật vào sản xuất và phục vụ đời sống con người đã được áp dụng từ rất sớm Trong đời sống xã hội, bên cạnh sự phát triển và tiến bộ của toàn xã hội thì mặt trái, mặt tiêu cực như tình hình tội phạm
và các hành vi vi phạm pháp luật khác có xu hướng phát triển và ngày càng tinh vi hơn đòi hỏi lực lượng đấu tranh phòng, chống tội phạm cần có những công cụ có hiệu quả để bảo vệ và giữ vững an ninh chính trị và trật tự an toàn xã hội
Một trong những ứng dụng tiến bộ khoa học, kỹ thuật trong điều tra tội phạm là kỹ thuật phân tích ADN Kỹ thuật này có tính ứng dụng cao trong việc điều tra phá án, bởi nó cho phép truy nguyên cá thể người với độ chính xác cao hơn nhiều so với các phương pháp nhận dạng hoặc phân tích truyền thống Dấu vết sinh học, tế bào trong đó có ADN thu được ở hiện trường của các vụ án thường là rất ít hoặc bị biến tính, phân hủy nhưng lại là chứng cứ quan trọng giúp truy tìm thủ phạm của vụ án hoặc xác định tung tích nạn nhân chính xác, khách quan, đồng thời nó cũng là phương pháp quan trọng trong việc xác định quan hệ huyết thống cha, mẹ - con, xác định mối quan hệ anh - em, dòng tộc
1 Tính cấp thiết của đề tài luận án
Thống kê của Bộ Công an trong thời gian gần đây cho thấy, tình trạng vi phạm pháp luật trong vùng đồng bào tộc người thiểu số ở địa bàn miền núi, vùng
xa có chiều hướng gia tăng cả về số lượng và mức độ nghiêm trọng Trong các vụ phạm pháp hình sự, những vụ việc xâm hại về nhân thân như xâm hại tình dục, giết người, cố ý gây thương tích ngày càng xảy ra nhiều, có những vụ án có tính
Trang 15chất đặc biệt nghiêm trọng Thời gian qua đã xảy ra một số vụ thảm án mà đối tượng là người thuộc các tộc người có dân số ít trên lãnh thổ Việt Nam Đặc biệt nổi lên là tình hình tội phạm buôn bán, vận chuyển trái phép chất ma túy tại các địa bàn vùng sâu, vùng xa, là địa bàn của tộc người thiểu số sinh sống có xu hướng tăng đột biến và diễn biến phức tạp, kéo theo nhiều tội phạm hình sự khác ngày một gia tăng [12]
Mỗi tộc người đều có những đặc trưng sinh học nhất định, trong đó ở mức ADN trong các locus STR được thể hiện bằng sự khác nhau về tần suất các alen đối với mỗi tộc người vì vậy, không thể áp dụng cơ sở dữ liệu của tộc người này cho một tộc người khác Do đó, đối với mỗi tộc người, để đảm bảo tính khoa học, tính chính xác và khách quan trong kết luận giám định, cần thiết phải tiến hành khảo sát tần suất các alen của các locus STR, dùng trong giám định ADN hình sự
Việc khảo sát tần suất các alen của các locus STR đang được áp dụng hiện nay đối với các tộc người, trước hết là các tộc người có số dân đông, trên toàn lãnh thổ Việt Nam áp dụng trong khoa học hình sự là một việc làm cấp bách, do vậy
chúng tôi tiến hành thực hiện đề tài luận án “Nghiên cứu đặc trưng tần suất alen
hệ nhận dạng STR (AmpFlSTR ®
Identifiler ® Plus Kit) của một số tộc người Việt Nam để ứng dụng trong giám định ADN"
2 Mục tiêu nghiên cứu của luận án
D13S317, D16S539, D2S1338, D19S433, vWA, TPOX, D18S51, D5S818, FGA và một locus xác định giới tính X,Y của 9 tộc người có dân số đông ở Việt Nam (người Kinh, Tày, Thái, Mường, Khmer, H‟mông, Nùng, Hoa và Dao)
- Đánh giá tính đặc trưng tần suất alen của 9 tộc người và đưa ra được bảng tần suất alen của 15 locus STR đối với 9 tộc người tại Việt Nam
- Xây dựng được bảng tính ứng dụng dựa vào phần mềm Excel có sử dụng tần suất alen của các tộc người đã có để tính chỉ số truy nguyên cá thể và xác định quan hệ huyết thống trong giám định ADN
Trang 163 Nội dung nghiên cứu của luận án
- Thu thập mẫu của các cá thể của các tộc người, sắp xếp các mẫu thu được theo từng tộc người dựa trên hồ sơ lý lịch được quản lý bởi lực lượng Công an và chính quyền địa phương nơi người đó cư trú
- Phân tích, xác định hồ sơ ADN (DNA profile) của tất cả các mẫu đã thống
định và đánh giá một số thông số điển hình của bảng tần suất alen sử dụng trong khoa học hình sự cho từng tộc người, nhóm tộc người theo vùng địa lý hành chính
- Xác định đặc trưng tần suất alen của từng tộc người dựa vào sự phân bố
có tần suất cao, các alen có tần suất thấp của các tộc người, alen đặc trưng của từng tộc người (nếu có) Đồng thời xây dựng cây phân loại di truyền (phylogenetic trees) dựa vào tần suất các alen của các tộc người
- Xây dựng bảng tính Excel để xác định các chỉ số truy nguyên cá thể, chỉ
số quan hệ huyết thống và áp dụng các bảng tính vào thực tế công tác giám định ADN phục vụ điều tra tội phạm và xác định huyết thống cha, mẹ - con
4 Những đóng góp mới của luận án
- Đây là công trình đầu tiên thu thập và phân tích ADN bằng bộ kít
huyết thống của 9 tộc người có số dân đông nhất tại Việt Nam
- Đã phân tích, xác định được tần suất alen thuộc 15 locus STR bằng bộ kít
Việt Nam, đủ điều kiện để sử dụng cho giám định ADN hình sự, thông qua đó đã xác định được:
+ 54 alen tần suất thấp hiện chưa có trong thang alen chuẩn quốc tế trên tất
cả các tộc người được nghiên cứu khảo sát
có thể nhận xét: tộc người Kinh ba miền Bắc, Trung, Nam có quan hệ gần nhau nếu
áp dụng trong phân tích ADN trong truy nguyên cá thể và xác định huyết thống cha
Trang 17con Các tộc người Mường, Tày, Nùng thành một nhóm có quan hệ gần với người Kinh; tộc người Hoa, tộc người Thái và tộc người Khmer có khoảng cách di truyền
xa hơn Tộc người H‟mông và Dao tách thành hai nhóm riêng, khác biệt nhau và khác biệt với các tộc người còn lại
người Việt Nam là FGA, D2S1338, D18S51, D8S1179, D19S433 Các locus có hiệu quả thấp trong truy nguyên cá thể là TPOX, CSF1PO, TH01, D3S1358
- Đã xây dựng được Bảng tính chỉ số truy nguyên cá thể, quan hệ huyết thống và bước đầu áp dụng vào thực tế giám định ADN
Trang 18Chương 1 TỔNG QUAN
1.1 Sơ lược về lịch sử nhận dạng cá thể người bằng ADN
Năm 1987, kết quả phân tích ADN lần đầu tiên đã được đưa ra làm chứng cứ trong một vụ xử án tại Hoa Kỳ Ban đầu kết quả này được gọi là "DNA figerprinting - dấu vân tay ADN", giờ đây được gọi là "DNA profiling - phân tích ADN" hoặc
"DNA testing - thử nghiệm ADN" để phân biệt với việc lấy dấu vân tay bề mặt da truyền thống
Mặc dù hiện tại mới chỉ được sử dụng chưa tới 1% của tất cả các vụ việc hình sự, nhưng hồ sơ ADN (DNA profile) lại là bằng chứng trong những vụ án đặc biệt nghiêm trọng, những vụ thảm án trong thời gian gần đây [49]
Gần như mọi tế bào trong cơ thể người đều chứa ADN, vật liệu di truyền quyết định mọi hoạt động của tế bào Hai người bất kỳ có thể có ADN giống nhau tới 99,9%, có nghĩa chỉ có 0,1% ADN là khác biệt giữa các cá thể, trừ trường hợp sinh đôi cùng trứng Tuy nhiên, mỗi tế bào người chứa 3 tỷ cặp bazơ, sự khác nhau 0,1% lên tới 3 triệu cặp bazơ Số lượng này là đủ để cung cấp thông tin ứng dụng trong truy nguyên cá thể [57]
Hệ gen của người có các vùng ADN với trình tự lặp đi lặp lại Các vùng này
có tính đa hình, trong đó trình tự thay đổi theo số lượng của đơn vị lặp lại Số lượng đơn vị lặp lại được biểu thị bằng cách gán thành tên alen Ví dụ, 14 bản sao của đơn
vị lặp lại sẽ được gọi là alen 14 Vào đầu những năm 1980, các vùng này đã được nghiên cứu nhằm mục đích đánh dấu hệ gen người tuy nhiên, một trong những người sáng lập ra "DNA typing" là Alec Jeffreys, đã nhanh chóng nhận ra rằng những dấu hiệu này có thể được sử dụng cho việc nhận dạng cá thể người [29, 30]
Tới tháng 10 năm 1990, tại Mỹ - Dự án hệ gen người (Human Genome Project - HGP) chính thức được bắt đầu và đến 12/02/2001, HGP đã công bố trình tự đầy đủ của
hệ gen người Theo công bố này, số lượng gen trong bộ gen người được dự đoán có khoảng 20.000 đến 25.000 gen Nhờ có thành tựu nghiên cứu này mà trong lĩnh vực giám định ADN có tới hàng trăm locus gen và hàng nghìn SNP được nghiên cứu ứng dụng để phục vụ trong khoa học hình sự [31]
Trang 19Từ những nghiên cứu về hệ gen người, các nhà khoa học đã phát hiện có các chuỗi ADN lặp đi lặp lại nhiều lần Đoạn lặp lại chứa từ 16 -70 nucleotit, gọi đơn vị này đó là “tiểu vệ tinh” (minisatellite - VNTR) hay đơn vị lặp lại nhỏ hơn (microsatelite - STR) Các đoạn lặp đi lặp lại nhiều lần này theo trình tự chuỗi trên toàn bộ chiều dài bộ gen STR sau này là chìa khóa cho kỹ thuật giám định AND và được phát triển từ đó cho tới nay
1.2 Khái niệm các đoạn lặp STR và ứng dụng
Từ năm 1990 tới nay, các nhà khoa học hình sự sử dụng các kỹ thuật phân tích các gen có trình tự lặp lại ngắn STR Các trình tự lặp lại được phân loại như sau:
- Các trình tự có số lần lặp lại trung bình, có kích thước từ 100 kb - 1.000 kb: chiếm khoảng 25% - 40% bộ gen người Các trình tự này không tập trung mà phân tán trên toàn bộ hệ gen Chúng có thể là những trình tự không mã hoá với chức năng chưa rõ hoặc cũng có thể là những trình tự mã hoá (các gen mã hoá cho ARN riboxom, ARN vận chuyển )
- Các trình tự lặp lại nhiều lần: Chiếm 10% - 15% bộ gen Đó là những trình tự ADN ngắn (10 kb - 200 kb), không mã hoá, thường tập trung ở những vùng riêng trên nhiễm sắc thể (vùng tâm động, vùng đầu nhiễm sắc thể)
- Các đoạn ADN có cấu trúc lặp lại từ 2 bp - 6 bp được gọi là các đoạn lặp lại ngắn (STR) Số lần các đoạn lặp có thể khác nhau rất nhiều giữa các cá thể, chính đặc điểm này mang lại giá trị cao trong truy nguyên cá thể [24, 25]
Tuy nhiên, để một locus STR được sử dụng cho mục đích truy nguyên cá thể và xác định huyết thống, phải thỏa mãn những yêu cầu bắt buộc sau:
Thứ nhất, các locus STR phải có tính đa hình và mức độ dị hợp tử cao Thứ hai, các locus STR có kích thước ngắn từ 100 bp - 500 bp, do các đoạn
ADN ngắn sẽ bền vững hơn, ít bị đứt gãy hơn khi có tác động của điều kiện tự nhiên và quá trình nhân bản ADN diễn ra dễ dàng hơn, có hiệu suất cao hơn đối với các đoạn ADN dài Đối với những đoạn ADN có tính đa hình cao nhưng kích thước lớn, trong thực tế chỉ có thể thực hiện kỹ thuật PCR cho ra kết quả tốt với những mẫu dấu vết, mẫu so sánh còn mới hoặc được bảo quản trong những điều kiện tốt
Trang 20Thứ ba, các locus dùng trong hình sự phải di truyền độc lập nhau Như vậy
chúng phải nằm trên các nhiễm sắc thể khác nhau, điều này đảm bảo cho tính phân
ly độc lập của từng locus dẫn tới tính đa hình kiểu gen trong quần thể [34, 48]
Vì những lý do trên, những trình tự lặp lại chứa các đơn vị lặp lại gồm 4
bộ 4 nucleotit đã được nghiên cứu và ứng dụng trong nhận dạng do nó đáp ứng được những yêu cầu của công tác giám định ADN
Một locus STR trong nhân tế bào thường được ứng dụng nếu nó có nhiều alen khác nhau trong quần thể (nhiều hơn 5 alen) và hồ sơ ADN dị hợp tử của các cá thể trong quần thể lớn hơn 70% [28, 36] Do đó, càng nhiều locus STR được phân tích để xác định đặc trưng cá thể thì khả năng kết luận mẫu dấu vết có nguồn gốc cơ thể là của một người nào đó càng cao Vì thế, việc xác định đặc trưng và truy nguyên cá thể về phương diện ADN giữa mẫu sinh học thu được và mẫu đối chứng của một nghi can hoặc với ngân hàng dữ liệu ADN là rất quan trọng Trên thực tế, tần suất của các locus STR trong quần thể ở các nước khác nhau, các tộc người khác nhau cũng có sự khác biệt Có những alen của locus STR chỉ thấy xuất hiện ở tộc người này nhưng lại không thấy xuất hiện ở tộc người khác hoặc rất hiếm gặp ở các tộc người khác Vì thế, việc nghiên cứu tần suất alen của các tộc người khác nhau có ý nghĩa quan trọng trong việc đánh giá
và áp dụng có hiệu quả thông qua phân tích các locus STR, giúp truy nguyên cá thể một cách nhanh chóng, chính xác và đúng quy định của luật pháp cũng như quy định quốc tế [24, 26, 27, 34]
Đối với tên gọi của các locus STR, tên các locus được đặt theo tên của gen nếu locus này nằm một phần hoặc nằm toàn bộ trong gen [30] Ví dụ locus STR TH01 có nguồn gốc từ tên gen tổng hợp enzym tyrosine hydroxylase của người,
Trang 21nằm trên NST số 11 Chữ "TH" xuất phát từ chữ cái đầu tyrosine hydroxylase Số
"01" của ký hiệu "TH01" xuất phát từ vùng intron 1 của gen tổng hợp enzym này Đôi khi tiết đầu ngữ HUM (human) được thêm vào đầu tên của locus này để xác định đó là từ hệ gen người Vì vậy, locus STR này được đặt tên là HUM - TH01 hay TH01
Các trình tự ADN nằm ngoài vùng gen được định tên bằng vị trí của chúng trên NST Ví dụ, locus D5S818 và D7S820 đó là những tên gọi cho các locus STR không nằm trong vùng gen Trong trường hợp này chữ D có nghĩa là ADN Chữ số tiếp theo là số thứ tự của NST Chữ "S" là trình tự đơn lẻ (single) của locus ADN Những số cuối là vị trí trình tự đoạn ADN nằm trên mỗi NST riêng biệt Chữ số này
là duy nhất trong nhận dạng cá thể Ví dụ, locus ADN D7S820 (Hình 1.1) được giải nghĩa là D: ADN, 7: NST số 7, S: trình tự đơn lẻ (single copy sequence), 820: vị trí thứ 820 xác định trên NST số 7 [27]
Hình 1.1 Vị trí một số locus trên NST sử dụng trong nhận dạng cá thể
của một số bộ kít sử dụng phổ biến hiện nay [29]
Trang 22Các trình tự STR lần đầu tiên được sử dụng và phát triển trong phòng thí nghiệm của Thomas Laskey tại Đại học Y khoa Baylor (Mỹ) và Trung tâm Khoa học hình sự của Anh Từ những locus này, nhiều công ty đã tiến hành sản xuất thương mại các locus STR theo tiêu chuẩn đồng thời tự phát triển thêm một số locus mới
Hệ thống locus STR trong giám định ADN được chia làm bốn loại:
- Kiểu lặp lại đơn giản (simple repeats) có đơn vị ADN lặp giống nhau về chiều dài và trình tự
- Kiểu lặp phức (compound repeats) bao gồm hai hoặc nhiều hơn các đơn
vị ADN lặp lại đơn giản kế tiếp nhau
- Kiểu lặp lại phức tạp (complex repeats) có thể bao gồm các phức hợp ADN lặp có chiều dài và trình tự đơn vị lặp lại khác nhau và các trình tự không lặp lại xen kẽ
- Kiểu lặp lại siêu biến (complex hypervariable repeats) mang nhiều các alen không đồng nhất, các alen này khác nhau về cả kích thước và trình tự, do đó khó xác định hồ sơ ADN
Năm 1993, Hãng Promega (Mỹ) đưa ra thương mại bộ kít đầu tiên gồm 3 locus STR là CSF1PO, TPOX, TH01 (bộ kít CTT) phát hiện bằng phương pháp điện
di nhuộm bạc Bộ CTT cho xác suất trùng lặp ngẫu nhiên tương đối cao là 1/500, tuy nhiên ưu điểm dễ sử dụng nên đã được áp dụng tại Mỹ và nhiều nước trên thể giới [27, 31]
Bộ kít STR dành cho giám định ADN được đánh dấu huỳnh quang đầu tiên gồm 4 locus là TH01, FES/FPS, vWA và F13A01 Với bộ kít thế hệ thứ nhất, xác suất 2 cá thể trùng nhau ngẫu nhiên khi sử dụng đồng thời 4 locus là khoảng 1/10.000 Bộ kít thế hệ thứ hai gồm có 6 locus là TH01, vWA, FGA, D8S1179, D18S51 và D21S11 với xác suất hai cá thể trùng nhau ngẫu nhiên là 1/5.000.000 Những locus nêu trên đều sử dụng các phương pháp huỳnh quang để phát hiện nên chi phí về hóa chất và trang thiết bị đều khá cao và cần đầu tư đồng bộ [27, 29]
Ngày nay với sự phát triển mạnh mẽ của khoa học kỹ thuật, nhiều công ty thương mại đã phát triển các bộ kít nhận dạng có thể phân tích hàng chục locus trong một phản ứng, giúp cho việc nhận dạng cá thể có độ chính xác gần như tuyệt đối (Bảng 1.1) [27]
Trang 23Bảng 1.1 Các bộ kít thương mại và các locus STR phổ biến [29]
sản xuất
Năm phát hành
FGA, TH01, VWA, D3S1358, D8S1179, D16S539, D18S51, D21S11, D2S1338, D19S433, SE33, Amelogenin
CSF1PO, FGA, TPOX, TH01, VWA, D3S1358, D5S818, D7S820, D8S1179, D13S317, D16S539, D18S51, D21S11, D2S1338, D19S433, Amelogenin
D3S1358, D1S1656, D2S441, D10S1248, D13S317, Penta E, D16S539, D18S51, D2S1338, CSF1PO, Penta D, TH01, vWA, D21S11, D7S820, D5S818, TPOX, D8S1179, D12S391, D19S433, FGA, D22S1045, DYS391
D3S1358,vWA,D16S539,CS1FPO, D8S1179, D21S11, D18S51, D2S441, D19S433, TH01, FGA, D22S1045, D5S818, D13S317, D7S820, SE33, D10S1248, D1S1656, D12S391, D2S1338, DYS391 và Y INDEL
Hiện nay, các bộ kít thương mại ngày càng được cải tiến cho kết quả chính xác hơn so với trước đây Đồng thời quy trình phân tích và thời gian thu nhận kết quả cũng được rút ngắn nhiều lần do có thể nhân bản được nhiều locus STR trong một phản ứng (multiplex PCR) và được tự động hóa Hai bộ kít được sử dụng phổ
locus trong một phản ứng (Bảng 1.2) [27, 29]
Cho đến nay, 2 bộ kít thương mại có số lượng locus gen nhiều nhất với 24 locus gen là GlobalFiler, PowerPlex Fusion dùng để phân tích các locus gen trên nhiễm sắc thể thường Độ tin cậy của hai bộ kit này theo tính toán của các nhà chuyên môn đạt trên 99,999999% [32]
Trang 24Bảng 1.2 Các alen của các locus có trong một số bộ kit thương mại phổ biến [27, 29]
Tên locus
PP1.1 Alen#
PP2.1 Alen #
PP16 Alen #
PP ES Alen #
ProfilerPlus Alen #
COfiler Alens #
SGM Plus Alen #
Identifiler Alen #
SEfiler Alen #
Chú thích viết tắt: #: Số alen cho từng locus; PP 1.1: Bộ kít Powerplex V 1.1; PP 2.1: Bộ kít Powerplex 2.1; PP 16 Bộ kít
Powerplex 16 locus; PP ES: Bộ kít Powerplex ES
Trang 251.3 Bộ kít AmpFlSTR ® Identifiler TM Plus
Identifiler vào năm
2001 Đây là bộ kít đầu tiên sử dụng 5 màu trong hệ thống với 4 màu (6FAM, VIC, NED và PET) để đánh dấu huỳnh quang sản phẩm PCR (những bộ kít trước đây chỉ sử
dụng 3 màu - 5FAM, JOE, NED hoặc FL, JOE, TMR như kít AmpFlSTR Profiler Plus
hoặc kít Powerplex), kèm theo 1 màu (dye) dùng làm thang kích thước nội chuẩn (standard)
cho phép nhân bản trực tiếp 16 locus trong hệ nhận dạng cá thể nhưng với hiệu suất cao, giảm ảnh hưởng của các tác nhân ức chế Máu hoặc tế bào niêm mạc miệng,
PCR mà không làm giảm nhiều chất lượng phân tích ADN
Hiện nay, hầu hết các phòng thí nghiệm trên thế giới đều sử dụng bộ kít
huyết thống, truy nguyên cá thể trong khoa học hình sự Đây là bộ kít chuyên dụng cho nhận dạng cá thể sử dụng 15 locus STR và một locus xác định giới tính gồm có
13 locus CODIS (CSF1PO, D3S1358, D5S818, D7S820, D8S1179, D13S317, D16S539, D18S51, D21S11, FGA, TH01, TPOX, vWA) và 2 locus dạng 4 nucleotit (D2S1338 và D19S433) [18, 59, 66]
Bộ kít sử dụng kỹ thuật huỳnh quang 5 màu, kết hợp với phần mềm phân tích STR chuyên dụng GeneMapper - ID, đồng thời có thể tự động hóa toàn bộ quá trình
từ chuẩn bị mẫu đến phân tích kết quả, do vậy cho kết quả phân tích của bộ kít chính xác và nhanh hơn rất nhiều so với các phương pháp khác Ở Việt Nam, các trung tâm xét nghiệm như Viện Pháp y của Bộ Quốc phòng, Viện Khoa học hình sự thuộc Bộ Công an, phòng kỹ thuật hình sự một số tỉnh, thành phố… cũng đã và đang sử dụng
bộ kít này phục vụ công tác giám định ADN hoặc xác định huyết thống cha, mẹ - con Viện Khoa học hình sự cũng đã triển khai hệ thống robot tách chiết tự động (hệ thống robot của hãng Tecan - Thụy Sĩ) kết hợp với sử dụng các bộ kít thuộc hệ nhận dạng
cá thể người khác nhằm nâng cao hiệu quả và khả năng truy nguyên trong giám định ADN [12, 87]
Trang 26Hiện tại, các nước tiên tiến trên thế giới như Anh, Mỹ, Úc, Ukraina, Ba Lan
và Viện Khoa học hình sự - Bộ Công an Việt Nam vẫn đang sử dụng bộ kít này
trong công tác giám định ADN và xác định cha con
Dễ dàng phân tích ADN với số lượng lớn và xử lý mẫu tự động
Giảm thiểu nguy cơ nhiễm và sai hỏng thông qua việc giảm số thao tác trong quá trình phân tích
Tăng tốc độ phân tích, do đó giảm sự biến tính mẫu do rút ngắn thời gian thu giữ và bảo quản mẫu, đáp ứng yêu cầu công tác
Giảm thiểu chi phí thu thập và bảo quản mẫu đồng thời giảm thiểu dụng
cụ và vật tư tiêu hao trong quá trình phân tích
,
mới đây là GlobalFiler™ Kit
Tạo điều kiện so sánh với các dữ liệu và cơ sở dữ liệu ADN đã lưu trữ
Tỷ lệ thành công khi phân tích mẫu đạt trên 99%
tích: 1,0 ml/ống
tích 1,0 ml chứa các mồi gắn huỳnh quang và không gắn huỳnh quang
1 ống dung tích 50 µl (Bảng 1.3)
Trang 27Bảng 1.3 Các locus và alen tương ứng của bộ kít AmpFlSTR ® Identifiler TM
ADN chuẩn 9947A
D8S1179 8 8, 9 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 6-FAM™ 13D21S11 21q11.2-q21
17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 26.2,
27, 28, 29, 30, 30.2, 31.2, 32.2, 33.2, 42.2, 43.2, 44.2, 45.2, 46.2, 47.2, 48.2, 50.2, 51.2
23, 24
cho kết quả có độ chính xác rất cao, ví dụ về khả năng phân biệt giữa các cá thể khác nhau được thể hiện trong Bảng 1.4
Trang 28Bảng 1.4 Khả năng phân biệt của các locus trong bộ kit Identifiler
342 người
Mỹ gốc Phi
236 người
Mỹ gốc Tây Ban Nha
97 người
Mỹ gốc Á
CODIS 13 5,02 × 10-16 2,97 × 10-15 1,14 × 10-15 1,36 × 10-15 1,71 × 10-14Identifiler® 6,18 × 10-19 6,87 × 10-18 1,04 × 10-18 2,73 × 10-18 5,31 × 10-17PowerPlex® 16 2,82 × 10-19 4,24 × 10-18 6,09 × 10-19 1,26 × 10-18 2,55 × 10-17PowerPlex® 18D 3,47 × 10-22 9,82 × 10-21 5,60 × 10-22 2,54 × 10-21 7,92 × 10-20ESS 12 3,04 × 10-16 9,66 × 10-16 9,25 × 10-16 2,60 × 10-15 3,42 × 10-14
1.4 Cơ sở khoa học cần phải xác định tần suất alen hệ STR của các tộc người khác nhau
1.4.1 Tỉ số khả dĩ (LR) áp dụng trong khoa học hình sự
Trong phân tích ADN ứng dụng trong khoa học hình sự, việc xác định khả năng truy nguyên đồng nhất của một hồ sơ ADN để buộc tội một đối tượng nghi vấn là rất quan trọng Có thể xảy ra các trường hợp:
Trường hợp thứ nhất: mẫu ADN của đối tượng nghi vấn hay của nạn nhân
(mẫu đã biết) không đồng nhất với hồ sơ ADN phân tích được từ mẫu cần giám định (mẫu chưa biết), trong trường hợp này đối tượng nghi vấn được loại trừ là người để lại dấu vết thu thập được
Trường hợp thứ hai: khi mẫu ADN từ hiện trường vụ án (mẫu chưa biết) và
mẫu ADN từ đối tượng nghi vấn hay nạn nhân (mẫu đã biết) là đồng nhất về hồ sơ ADN Chính nghi phạm đã để lại dấu vết tại hiện trường hay một đối tượng nào khác trùng hồ sơ ADN?
Muốn đánh giá khả năng có hay không sự trùng hợp ngẫu nhiên hồ sơ ADN của này với cá thể khác trong quần thể Ta phải tính toán dựa trên tần suất các alen STR trong dân cư hoặc quần thể gần gũi nhất về di truyền
Câu hỏi đặt ra là: xác suất liệu có thể có một người khác ngoài nghi can, ngẫu nhiên chọn từ quần thể dân cư có hồ sơ ADN giống ngẫu nhiên với nghi can
Trang 29bằng bao nhiêu? Xác suất này càng nhỏ, càng có nhiều khả năng hai mẫu ADN này
là của cùng một người Nói cách khác, nếu xác suất là rất nhỏ, chúng ta có thể nói rằng hai mẫu này đến từ cùng một người hoặc khả năng trùng hợp một cách ngẫu nhiên là rất khó xảy ra
Để trả lời câu hỏi đó, tỷ số khả dĩ (LR) là một bằng chứng có sức thuyết phục cho giả thuyết rằng hai mẫu phân tích là của cùng một người [29]
Giả sử ta xác định được hồ sơ ADN của nghi phạm và dấu vết tại hiện trường: D13S317 là dị hợp tử hai alen 12/13
LR=
=
Trong đó:
Hp có giá trị là 1 (100% chứng cứ buộc tội cho nghi phạm)
Hd: Xác suất của hồ sơ ADN 12 - 13 trong quần thể, dựa vào tần suất alen
số khả dĩ (LR) có liên quan đến các alen có tần suất thấp, alen có tần suất cao và phân
bố của các alen trong từng tộc người cụ thể
Trang 301.4.2 Alen có tần suất thấp
Để xác định chính xác tần suất của một alen, cần phải thu thập được nhiều hơn một số lượng tối thiểu nào đó cho mẫu cá thể mang alen đó Tần suất alen tối thiểu được quy định để đảm bảo rằng một alen đã được lấy đủ mẫu trong một tập hợp mẫu ngẫu nhiên thu thập trong quá trình nghiên cứu
Alen của một locus STR của một tộc người nào đó có thể không có trong bảng tần suất cụ thể và do vậy, thuật ngữ tần suất alen hiếm đã được sử dụng Tần suất của alen hiếm được thiết lập ở mức thấp hơn tần suất alen thấp nhất trong cơ
sở dữ liệu alen "Hội đồng Viện Nghiên cứu Quốc gia, Đánh giá Chứng cứ pháp lý ADN" của Mỹ - (The National Research Council, Evaluation of Forensic DNA Evidence) đã đề xuất sử dụng tần suất alen thấp nhất nên điều chỉnh là 5/2N (trong
đó N là kích cỡ mẫu của cơ sở dữ liệu) Vì vậy, alen có tần suất thấp có giá trị thấp hơn tần suất alen thấp nhất (5/2N) theo quy ước trong cơ sở dữ liệu Trong các nghiên cứu trước đây, các alen chưa xuất hiện trong quần thể nghiên cứu được gán cho giá trị 1/2N (N là số cá thể của quần thể nghiên cứu) và được phần mềm xây dựng mã hóa cố định giá trị đó Trong một số phần mềm tính toán có thể mặc định tần suất cực tiểu là 0,001 [76, 77]
Với các locus STR sử dụng trong khoa học hình sự, tất cả các locus gen đều
là những đoạn không mang thông tin di truyền, đại đa số chúng nằm ở những đoạn intron của gen hoặc những vùng trình tự không mang gen Do đó, khái niệm alen hiếm được sử dụng trong một số trường hợp là không hoàn toàn chính xác Trong luận án này chúng tôi đưa ra tên gọi là alen có tần suất thấp khi giá trị tần suất tính được thấp hơn giá trị mặc định 0,001 (0,1%)
Những alen có tần suất thấp trong các locus STR thường có giá trị truy nguyên cao hơn các alen có tần suất cao (alen phổ biến)
1.4.3 Alen có tần suất cao - Alen phổ biến
Một trong những yêu cầu quan trọng đặt ra đối với các locus ADN - STR được sử dụng trong khoa học hình sự là mức dị hợp tử phải cao (trên 70%)
Muốn vậy, các locus STR phải hội tụ được hai điều kiện sau đây:
- Locus STR phải có tính đa hình cao, đó là số lượng các alen của locus đó phải lớn
Trang 31- Các alen phải phân bố đều trong toàn bộ bảng tần suất
Tuy nhiên, nhiều nghiên cứu cho thấy, một số alen trong các locus STR có tính phổ biến (tần suất cao) cao hơn các alen còn lại khác Ví dụ, khi nghiên cứu tần suất các alen trong các quần thể của các tộc người Việt (người Kinh, Khmer và người Mường), locus D3S1358 có ba alen là 15, 16 và alen 17 chiếm tới 90% tổng số các alen, locus TPOX với hai alen là alen 8 và alen 11 chiếm hơn 80% của tổng số các alen [4, 5, 6]
Hiện nay, các bộ kít thương mại có một số locus STR với khả năng phân biệt (PD) và khả năng loại trừ (PE) đều thấp, locus có giá trị truy nguyên thấp, ví dụ như TPOX, CSF1PO, những locus này có hai đặc điểm, một là số alen trong locus
ít, nhưng số alen có tần suất cao lại chiếm đa số, sử dụng những locus dạng này chỉ
là một giải pháp có ý nghĩa trong truy nguyên cá thể, ít có ý nghĩa trong việc xác định huyết thống cha con
Trong một số trường hơp, việc phân tích bổ sung các locus đơn lẻ là cần thiết khi cần có kết luận giám định ADN chính xác hơn, sau khi đã được phân tích bằng những bộ kít thương mại Những locus này thường không được ưu tiên sử dụng trong phân tích bổ sung Trong nghiên cứu, alen được đánh giá là phổ biến khi tần suất của alen này đạt trên 0,1 (10%) [29, 42]
1.5 Các phương pháp đang được áp dụng trong giám định ADN
1.5.1 Các phương pháp tách chiết ADN
Các dấu vết, mẫu vật có nguồn gốc cơ thể người (máu, tinh dịch, nước bọt,
mô cơ thể ) thu được ở hiện trường, hung khí, công cụ gây án, trên người, đồ vật của đối tượng, nạn nhân thường đều có chứa ADN và rất nhiều các tạp chất khác Trong tế bào, protein bao quanh ADN có tác dụng bảo vệ sợi ADN nhưng lại ngăn cản việc phân tích ADN Vì vậy bước tách chiết ADN, ngoài nhằm mục đích bộc lộ phân tử ADN để thực hiện các bước nghiên cứu tiếp theo trong quy trình giám định, tách chiết ADN còn giúp loại bỏ protein và các tạp chất khác ra khỏi phân tử ADN
Hiện nay các phòng thí nghiệm giám định ADN đang sử dụng ba phương pháp chính để tách chiết ADN: phương pháp tách hữu cơ, phương pháp tách bằng chelex và phương pháp tách từ giấy FTA [27, 29, 30, 31, 32, 35]
Trang 321.5.1.1 Phương pháp tách chiết hữu cơ (phương pháp tách chiết bằng phenol/chloroform)
Phương pháp tách chiết hữu cơ dựa trên nguyên lý độ hoà tan khác nhau của protein và axit nucleic trong các dung môi khác nhau
Phương pháp tách chiết hữu cơ có ưu điểm là tách được lượng lớn ADN, có
độ tinh sạch cao, và có hiệu quả đối với phương pháp RFLP Tuy nhiên, phương pháp này phải sử dụng hoá chất độc hại và tiến hành nhiều thao tác nên dễ bị nhiễm chéo giữa các mẫu với nhau [34, 92]
1.5.1.2 Tách chiết bằng Chelex
Chelex là một loại nhựa tạo phức có ái lực cao đối với các ion kim loại đa hoá trị Nó là hợp chất trùng ngưng styrene divinylbenzene có chứa các cặp ion
sẽ ngăn cản sự biến tính của ADN vì nó gắn được với các ion kim loại đa hoá trị
bất hoạt và do vậy mà các phân tử ADN được bảo vệ
Tách chiết ADN bằng chelex là phương pháp vô cơ, có ưu điểm thao tác đơn giản, thời gian thao tác ngắn, ít bị nhiễm chéo ADN được tách chiết theo phương pháp này rất phù hợp cho kỹ thuật PCR vì đã loại bỏ được các chất ức chế phản ứng PCR nhưng lại không hiệu quả đối với phương pháp RFLP vì chelex làm biến tính ADN sợi kép tạo ra các ADN sợi đơn [93]
1.5.1.3 Phương pháp tách chiết mẫu từ giấy FTA
Cuối những năm 1980, Lee Burgoyne (Đại học Flinder, Úc) đã tìm ra phương pháp lưu giữ ADN bằng giấy FTA Đây là loại giấy xenllulô hấp phụ có chứa 4 chất hoá học để bảo vệ phân tử ADN khỏi tác động của enzym nucleaza và ngăn ngừa sự phát triển của vi khuẩn trên giấy ADN trên giấy FTA có thể bền vững
ở nhiệt độ phòng trong nhiều năm Trong khoa học hình sự, phương pháp này được dùng chủ yếu để thu giữ mẫu máu và mẫu nước bọt
phân tích ADN tự động từ mẫu trên giấy FTA [86, 91, 92]
Trang 33Phương pháp tách chiết bằng cột ly tâm QIAamp hoặc bằng cột DNA Clean
Để tăng tính hiệu quả cho những mẫu có hàm lượng ADN ít, bị biến tính, người ta có thể sử dụng các kít tách chiết có hiệu quả cao như tách chiết bằng Prefiler PrepFiler™ Forensic DNA Extraction Kit của hãng Themor Fisher (Mỹ)
Đối với mỗi loại dấu vết (máu tươi, máu khô, lông tóc, tinh trùng, răng, xương ) có thể áp dụng những qui trình riêng biệt, cụ thể để tách chiết Việc lựa chọn phương pháp, qui trình cụ thể nào để tách chiết ADN phụ thuộc vào từng loại mẫu và vào điều kiện, khả năng của từng phòng thí nghiệm
1.5.2 Các phương pháp định lượng ADN
Việc xác định hàm lượng ADN của mẫu là rất cần thiết vì khi biết được chính xác độ tinh sạch và hàm lượng ADN trong mẫu thì sẽ tính được nồng độ tối
ưu của các thành phần trong kỹ thuật PCR và do vậy sẽ thu được kết quả tốt nhất
Có nhiều phương pháp định lượng khác nhau: Phương pháp sử dụng bộ kít định lượng phân tích trên máy real - time PCR; Phương pháp đo mật độ quang ADN bằng quang phổ kế (OD), phương pháp điện di, tuy nhiên, phương pháp định lượng ADN bằng Real - time PCR là đạt độ chính xác và đặc hiện cao nhất [31, 47]
1.5.3 Các phương pháp nhân bản ADN - PCR
Kỹ thuật PCR do Karry Mullis và các cộng sự phát minh vào năm 1985 đã tạo ra một cuộc cách mạng trong sinh học phân tử ADN thu được từ hiện trường thường ít và chất lượng không tốt do vậy nhiều mẫu sẽ không thể phân tích được
Hiện nay phần lớn các phòng thí nghiệm đều sử dụng các bộ kit nhân gen (PCR) của các hãng khác nhau Các bộ kit thông dụng hay được sử dụng trong giám
Trang 34định ADN hiện nay gồm kít Identifiler, Identifiler Plus, Identifiler Direct, Globalfiler Đây là những bộ kit phức có thể đồng thời nhân bản 16 locus hoặc 24 locus STR khác nhau [30, 32]
1.5.4 Các phương pháp điện di ADN, phát hiện sản phẩm PCR và thu dữ liệu hồ sơ ADN của mẫu giám định
Điện di trên máy điện di mao quản (Capillary Electrophoresis - CE)
Nguyên lý của điện di mao quản về cơ bản cũng cũng giống như nguyên lý của điện di bằng bản gel, tuy nhiên ở đây gel được bơm đầy trong mao quản và ADN được hút vào và chạy trong mao quản khi tạo điện trường cho gel trong mao quản, đồng thời ở "cửa sổ" trên đoạn gần cuối ống mao quản nơi tia laze dược chiếu vào sẽ kích hoạt huỳnh quang trên các đoạn ADN (sản phẩm PCR) đã được gắn huỳnh quang trong quá trình PCR thông qua các đoạn mồi để thu được các phổ quang học Điểm khác của điện di mao quản là sử dụng mao quản có chứa gel, tia laze chỉ chiếu vào một điểm cố định trên mao quản cho từng mẫu ADN [74]
Ngày nay, trong giám định ADN hình sự, việc phát hiện sản phẩm và phân tích kết quả chủ yếu vẫn bằng máy giải trình tự ADN theo nguyên lý CE với phần mềm phân tích tự động GeneMapperID cho kết quả có độ chính xác cao Kết quả không bị phụ thuộc vào thao tác kỹ thuật và ý muốn chủ quan của con người Còn
sử dụng gel agarose và polyacrylamide để phát hiện sản phẩm PCR bằng phương pháp nhuộm ethidium bromide hoặc nhuộm bạc có những hạn chế nhất định, vì kết quả hoàn toàn phụ thuộc vào thao tác kỹ thuật và điều kiện chạy máy Mặt khác, hai loại gel này chỉ áp dụng được với những gen có đoạn lặp ổn định của các locus STR, không áp dụng được với những gen có thêm đoạn chèn một hoặc hai nucleotit do độ phân giải của gel thấp và phải nhuộm bằng ethidium bromide là hóa chất độc hại ít được sử dụng hơn trong các phòng thí nghiệm [27, 31]
1.6 Tìm hiểu về tộc người phục vụ quá trình thu mẫu
Tộc người là một cộng đồng người có mối liên hệ chặt chẽ, bền vững, có sinh hoạt kinh tế chung, có ngôn ngữ riêng và những nét văn hóa đặc thù, xuất hiện sau bộ lạc, bộ tộc Với nghĩa này, tộc người là bộ phận của quốc gia và quốc gia có nhiều tộc người
Trang 35Như vậy, tộc người là một cộng đồng người mang tính quốc gia - dân tộc, bao gồm tất cả các cộng đồng đã trải qua xã hội công nghiệp như Pháp, Đức, Nga hay đã là chủ thể một quốc gia dân tộc như Hán, Kinh, Nhật Cho đến các tộc người chưa đủ sức tự mình tập hợp các tộc người khác thành quốc gia dân tộc như Tày, Nùng, Mường… cho đến các tộc người xưa vẫn được các nhà phân biệt chủng tộc gọi là thị tộc, bộ lạc…
Do vậy, mỗi một cá nhân thuộc về một quốc gia - dân tộc nhất định, đồng thời cũng thuộc về một tộc người nhất định Khái niệm dân tộc chỉ các tộc người Kinh, Tày, Mường là chưa chính xác vì không thể có dân tộc trong dân tộc như dân tộc Việt Nam, dân tộc Thái Lan… [3, 8, 17]
Luận án dựa vào quy định của Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam, công nhận một cá nhân thuộc về tộc người nào dựa vào giấy khai sinh và sơ yếu lý lịch của người đó
Việt Nam là một quốc gia đa tộc người, có những tộc người có số dân chiếm đại đa số (tộc người Kinh), có những tộc người có số dân đông (Tày, Thái, Mường, Khmer, H‟mông, Nùng, Hoa, Dao, Giarai, Êđê…) với số dân trong khoảng
1 triệu người, cùng với một số tộc người có số dân tương đối đông, có những tộc người có dân số rất ít như người Brâu (Brao) chỉ có 397 người [13]
Đặc trưng các tộc người ở Việt Nam là có lối sống quần tụ, làng xã, tập trung trên một khu vực sinh sống nhất định, nên tần suất các alen của mỗi locus gen
là tương đối ổn định và có thể mang tính đặc trưng vùng, miền
1.7 Các khu vực địa lý và các tộc người được lựa chọn nghiên cứu
1.7.1 Các khu vực địa lý tại Việt Nam
Theo địa lý tự nhiên, lịch sử và theo quy định của chính phủ, Việt Nam được chia thành 3 miền gồm miền Bắc, miền Trung và miền Nam với các tỉnh thuộc
3 miền này được chia thành 7 vùng nhỏ hơn như sau [100]:
- Bắc Bộ được chia thành 3 vùng lãnh thổ
Tây Bắc Bộ (bao gồm 6 tỉnh: Lào Cai, Yên Bái, Điện Biên, Hoà Bình, Lai
Châu, Sơn La) Vùng này chủ yếu nằm ở hữu ngạn sông Hồng Riêng Lào Cai, Yên Bái đôi khi vẫn được xếp vào tiểu vùng Đông Bắc
Trang 36Đông Bắc Bộ (bao gồm 9 tỉnh: Hà Giang, Cao Bằng, Bắc Kạn, Lạng Sơn,
Tuyên Quang, Thái Nguyên, Phú Thọ, Bắc Giang, Quảng Ninh)
Đồng bằng sông Hồng (bao gồm 10 tỉnh: Bắc Ninh, Hà Nam, Hà Nội, Hải
Dương, Hải Phòng, Hưng Yên, Nam Định, Ninh Bình, Thái Bình, Vĩnh Phúc)
- Miền Trung được chia làm 3 vùng:
Bắc Trung Bộ (gồm có 6 tỉnh: Thanh Hoá, Nghệ An, Hà Tĩnh, Quảng Bình,
Quảng Trị và Thừa Thiên-Huế)
Vùng Tây Nguyên và vùng Nam Trung Bộ Việt Nam (gồm 13 tỉnh thành
theo thứ tự bắc - nam: Đà Nẵng, Quảng Nam, Quảng Ngãi, Bình Định, Phú Yên, Khánh Hoà, Ninh Thuận, Bình Thuận, Kon Tum, Gia Lai, Đắk Lắk, Đắk Nông và Lâm Đồng)
- Nam Bộ: từ Bình Phước trở xuống phía nam và hai thành phố: thành phố
Hồ Chí Minh và thành phố Cần Thơ Khu vực này chia làm hai vùng chính:
Vùng Đông Nam Bộ: có 5 tỉnh và 1 thành phố: 5 tỉnh: Bình Phước, Bình
Dương, Đồng Nai, Tây Ninh, Bà Rịa - Vũng Tàu, thành phố Hồ Chí Minh
Vùng đồng bằng sông Cửu Long, còn gọi là Tây Nam Bộ hay miền Tây, có
12 tỉnh và 1 thành phố: 12 tỉnh: Long An, Đồng Tháp, Tiền Giang, An Giang, Bến Tre, Vĩnh Long, Trà Vinh, Hậu Giang, Kiên Giang, Sóc Trăng, Bạc Liêu, Cà Mau
là đông nhất so với các quốc gia khác [13]
Trang 37Theo Tổng điều tra dân số và nhà ở năm 2009, người Kinh ở Việt Nam có dân số 73.594.427 người, chiếm khoảng 86,2% dân số cả nước, cư trú tại tất cả 63 tỉnh, thành phố Các tỉnh, thành phố có số lượng người Kinh lớn nhất là: Thành phố
Hồ Chí Minh (6.699.124 người), Hà Nội (6.370.244 người), Thanh Hóa (2.801.321 người), Nghệ An (2.489.952 người), Đồng Nai (2.311.315 người), An Giang (2.029.888 người)
Người Kinh là tộc người đa số tại Việt Nam, tuy nhiên tại một số tỉnh miền núi phía Bắc, người Kinh lại là tộc người thiểu số ví dụ như: Lào Cai (212.528 người, chiếm 34,6% dân số toàn tỉnh, tỉnh này không có tộc người đa số), Hòa Bình (207.569 người, chiếm 26,4% dân số toàn tỉnh, người Mường là tộc người đa số ở Hòa Bình, chiếm 63,9%), Sơn La (189.461 người, chiếm 17,6% dân
số toàn tỉnh, người Thái là tộc người đa số ở Sơn La), Lạng Sơn (124.433 người, chiếm 17,0% dân số toàn tỉnh, tỉnh này không có tộc người đa số), Hà Giang (95.969 người, chiếm 13,2% dân số toàn tỉnh, tỉnh này không có tộc người đa số), Điện Biên (90.323 người, chiếm 18,4% dân số toàn tỉnh, tỉnh này không có tộc người đa số), Lai Châu (56.630 người, chiếm 15,3% dân số toàn tỉnh, tỉnh không có tộc người
đa số), Bắc Kạn (39.280 người, chiếm 13,4% dân số toàn tỉnh, người Tày là tộc người đa số ở tỉnh này), Cao Bằng (29.189 người, chỉ chiếm 5,76% dân số toàn tỉnh, tỉnh này không có tộc người đa số) [13]
1.7.2.2 Tộc người Tày
Người Tày, với các nhóm địa phương là Pa dí, Thổ, Ngạn, Phén, Thu Lao,
là một tộc người thiểu số trong số 54 tộc người tại Việt Nam
Theo Tổng điều tra dân số và nhà ở năm 2009, người Tày ở Việt Nam có dân số 1.626.392 người năm 2009, là tộc người có dân số đứng thứ hai tại Việt Nam, có mặt trên tất cả 63 tỉnh, thành phố Người Tày cư trú tập trung tại các tỉnh: Lạng Sơn (259.532 người, chiếm 35,4% dân số toàn tỉnh và 16% tổng số người Tày tại Việt Nam); Cao Bằng (207.805 người, chiếm 41,0% dân số toàn tỉnh và 12,8% tổng số người Tày tại Việt Nam); Tuyên Quang (185.464 người, chiếm 25,6% dân
số toàn tỉnh và 11,4% tổng số người Tày tại Việt Nam); Hà Giang (168.719 người,
Trang 38chiếm 23,3% dân số toàn tỉnh và 10,4% tổng số người Tày tại Việt Nam); Bắc Kạn (155.510 người, chiếm 52,9% dân số toàn tỉnh và 9,6% tổng số người Tày tại Việt Nam); Yên Bái (135.314 người, chiếm 18,3% dân số toàn tỉnh và 8,3% tổng số người Tày tại Việt Nam); Thái Nguyên (123.197 người, chiếm 11,0% dân số toàn tỉnh và 7,6% tổng số người Tày tại Việt Nam); Lào Cai (94.243 người); Đăk Lăk (51.285 người) [13]
1.7.2.3 Tộc người Thái
Theo Tổng điều tra dân số và nhà ở năm 2009, người Thái ở Việt Nam có dân số 1.550.423 người, là tộc người có dân số đứng thứ ba tại Việt Nam, có mặt trên tất cả 63 tỉnh, thành phố Người Thái cư trú tập trung tại các tỉnh: Sơn La (572.441 người, chiếm 53,2% dân số toàn tỉnh và 36,9% tổng số người Thái tại Việt Nam), Nghệ An (295.132 người, chiếm 10,1% dân số toàn tỉnh và 19,0% tổng số người Thái tại Việt Nam), Thanh Hóa (225.336 người, chiếm 6,6% dân số toàn tỉnh
và 14,5% tổng số người Thái tại Việt Nam), Điện Biên (186.270 người, chiếm 38,0% dân số toàn tỉnh và 12,0% tổng số người Thái tại Việt Nam), Lai Châu (119.805 người, chiếm 32,3% dân số toàn tỉnh và 7,7% tổng số người Thái tại Việt Nam), Yên Bái (53.104 người), Hòa Bình (31.386 người), Đắk Lắk (17.135 người), Đắk Nông (10.311 người) [13]
1.7.2.4 Tộc người Mường
Người Mường tập trung đông nhất ở tỉnh Hòa Bình và các huyện miền núi tỉnh Thanh Hóa Dân số tại Việt Nam theo kết quả Điều tra dân số năm 2009 là 1.268.963 người
Theo Tổng điều tra dân số năm 2009, người Mường sống tập trung ở các tỉnh: Hòa Bình (479.197 người, chiếm 63,3% dân số của tỉnh), Thanh Hóa (328.744 người, chiếm 9,5% dân số của tỉnh), Phú Thọ (165.748 người, chiếm 13,1% dân số của tỉnh), Sơn La (71.906 người, chiếm 8,2% dân số của tỉnh), Ninh Bình (46.539 người),
Hà Nội (khu vực Ba Vì), Yên Bái, Đắk Lắk Tổng số người Mường ở các tỉnh nói trên chiếm khoảng 98% số người Mường ở Việt Nam
Trang 39Ở Đắk Lắk số người Mường chiếm khoảng 1,5% toàn tỉnh chủ yếu tập trung ở thành phố Buôn Ma Thuột và một số huyện lân cận Người Mường ở đây di
cư từ năm 1954 và có nguồn gốc từ Mường - Phú Thọ và Hòa Bình đa số vẫn giữ được phong tục tập quán nguồn gốc và bản sắc văn hóa tộc [13]
1.7.2.5 Tộc người Khmer
Người Khmer trước đây tại Việt Nam có khi gọi là người Miên, là tộc người cư trú ở nửa phía nam bán đảo Đông Dương Dân số tại Việt Nam là 1.260.640 người
Người Khmer chiếm khoảng 90% dân số tại Campuchia, và một số tại Việt Nam, Thái Lan, Lào Ngôn ngữ của người Khmer là tiếng Khmer, một ngôn ngữ thuộc ngữ tộc Môn - Khmer trong ngữ hệ Nam Á, có mặt khắp Đông Nam Á
Tại Campuchia, chính phủ phân loại công dân làm ba nhóm Khmer Người Khmer đa số được gọi là người Khmer Kandal (Khmer trung tâm), phân biệt với các sắc tộc Khmer thiểu số là Khmer Islam (Khmer Hồi giáo) và Khmer Loeu (Khmer vùng cao)
Nhiều người Khmer định cư ở các vùng lân cận tại Thái Lan (Khmer Surin), và đồng bằng sông Cửu Long ở Việt Nam (Khmer Krom) [13]
Theo Tổng điều tra dân số và nhà ở năm 2009, người H‟mông ở Việt Nam
có dân số 1.068.189 người, đứng hàng thứ 6 trong bảng danh sách các tộc người ở Việt Nam, cư trú tại 62 trên tổng số 63 tỉnh, thành phố Người H‟Mông cư trú tập trung tại các tỉnh: Hà Giang (231.464 người, chiếm 31,9% dân số toàn tỉnh và 21,7% tổng số người H‟Mông tại Việt Nam), Điện Biên (170.648 người, chiếm
Trang 4034,8% dân số toàn tỉnh và 16,0% tổng số người H‟mông tại Việt Nam), Sơn La (157.253 người, chiếm 14,6% dân số toàn tỉnh và 14,7% tổng số người H‟mông tại Việt Nam), Lào Cai (146.147 người, chiếm 23,8% dân số toàn tỉnh và 13,7% tổng
số người H‟mông tại Việt Nam), Lai Châu (83.324 người), Yên Bái (81.921 người), Cao Bằng (51.373 người), Nghệ An (28.992 người), Đăk Lăk (22.760 người), Đăk Nông (21.952 người), Bắc Kạn (17.470 người), Tuyên Quang (16.974 người), Thanh Hóa (14.799 người) [13]
1.7.2.7 Tộc người Nùng
Người Nùng sống tập trung ở các tỉnh đông bắc Bắc Bộ như Lạng Sơn, Cao Bằng, Bắc Kạn, Thái Nguyên, Bắc Giang, Tuyên Quang (chiếm tới 84%) Hiện tại, một lượng lớn đã di cư vào các tỉnh Tây Nguyên (11%), chủ yếu tại Đăk Lăk
Người Nùng có quan hệ gần gũi với người Tày và người Choang (Zhuang) sống dọc biên giới với Trung Quốc Tại Trung Quốc, người Nùng cùng với người Tày được xếp chung vào tộc người Choang
Theo Tổng điều tra dân số và nhà ở năm 2009, người Nùng ở Việt Nam có dân số 968.800 người, là tộc người có dân số đứng thứ 7 tại Việt Nam, có mặt trên tất cả 63 tỉnh, thành phố Người Nùng cư trú tập trung tại các tỉnh: Lạng Sơn (314.295 người, chiếm 42,9% dân số toàn tỉnh và 32,4% tổng số người Nùng tại Việt Nam), Cao Bằng (157.607 người, chiếm 31,1% dân số toàn tỉnh và 16,3% tổng
số người Nùng tại Việt Nam), Bắc Giang (76.354 người), Đắk Lắk (71.461 người),
Hà Giang (71.338 người), Thái Nguyên (63.816 người), Bắc Kạn (27.505 người), Đăk Nông (27.333 người), Lào Cai (25.591 người), Lâm Đồng (24.526 người), Bình Phước (23.198 người) [13]
1.7.2.8 Tộc người Hoa
Theo Tổng điều tra dân số và nhà ở năm 2009, người Hoa ở Việt Nam có dân số 823.071 người, có mặt tại tất cả 63 tỉnh, thành phố Người Hoa cư trú tập trung tại: Thành phố Hồ Chí Minh (414.045 người, chiếm 50,3% tổng số người Hoa tại Việt Nam), Đồng Nai (95.162 người), Sóc Trăng (64.910 người), Kiên Giang (29.850 người), Bạc Liêu (20.082 người), Bình Dương (18.783 người), Bắc Giang (18.539 người) [13]