CHƢƠNG 2 NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU
2.2. Phương pháp nghiên cứu
2.2.3.5. Phân tích phương sai phân tử (AMOVA)
Khác biệt di truyền giữa các nhóm cá thể trong một lồi có thể được đánh giá thơng qua phân tích phương sai phân tử (AMOVA) [99]. Phương pháp này phân tích độ khác biệt di truyền ở các phân cấp khác nhau (giữa các nhóm quần thể, giữa các quần thể, giữa các cá thể) và xác định sự ảnh hưởng của độ khác biệt di truyền đó vào sự đa dạng di truyền chung của toàn bộ quần thể. Tỷ lệ phần trăm biến thiên của từng phân cấp sẽ cho biết mức độ đóng góp của sự đa dạng di truyền ở phân cấp đó vào sự đa dạng di truyền chung của quần thể. Mức chính xác của các độ khác biệt ở mỗi phân cấp đó được đánh giá qua các kiểm định Fisher. Theo đó, giá trị F (chỉ số F) sẽ dao động từ 0 đến 1, trong đó, F = 0 biểu thị khơng có sự khác biệt giữa các nhóm so sánh, F =1 biểu thị có sự khác biệt hồn tồn giữa các nhóm so sánh.
Trong đề tài, phần trình bày kết quả phân tích AMOVA được sắp xếp lại, chỉ số bậc tự do sẽ khơng được trình bày, chỉ số F và giá trị p của kiểm định F sẽ được trình bày chung trong bảng để dễ dàng đánh giá mức ý nghĩa (độ tin cậy) của mỗi kiểm định. Nội dung trình bày sẽ theo mẫu ở bảng dưới (Bảng 2.3).
Bảng 2.3: Mẫu trình bày kết quả phân tích AMOVA
Nguồn biến thiên Tổng bình phƣơng sai khác Độ biến thiên Tỷ lệ phần trăm biến thiên Chỉ số F Giá trị p Giữa các nhóm chó Giữa các giống chó Trong nội bộ quần thể Tổng cộng
2.2.4. Nhận định nguồn gốc của chó lưng xốy Phú Quốc
Nguồn gốc chó lưng xốy Phú Quốc được nhận định dựa trên sự tổng hợp các thông tin liên quan thu thập được. Cụ thể, các căn cứ được sử dụng trong nội dung này bao gồm:
- Thông tin chung về địa điểm, thời gian, nguồn gốc chó nhà đã được công bố trong các nghiên cứu trước đây.
- Thơng tin về kiểu hình lưng xốy đặc biệt của chó lưng xốy Phú Quốc. - Thơng tin về các haplotype thuộc haplogroup E.
- Các dữ liệu được rút ra từ kết quả nghiên cứu của đề tài.
CHƢƠNG 3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Xây dựng cơ sở dữ liệu đoạn 582 cặp base vùng HV1 DNA ty thể chó
3.1.1. Cơ sở dữ liệu đoạn 582 cặp base vùng HV1 DNA ty thể chó
Bằng cơng cụ BLAST tìm trong cơ sở dữ liệu về DNA của GenBank, 5567 trình tự nucleotide có nguồn gốc từ các cá thể thuộc lồi Canis lupus có độ tương
đồng cao với vùng trình tự HV1 của trình tự chuẩn (mã số truy cập GenBank U96639.2) được xác định và lưu trữ vào cơ sở dữ liệu. Trong số này, 1921 trình tự chỉ bao gồm một phần của đoạn trình tự 582 cặp base sẽ khơng được phân tích định loại haplotype. 3646 trình tự cịn lại được nhóm thành 804 nhóm dựa vào sự giống nhau và khác nhau của trình tự. Trong số 804 nhóm trình tự này, 319 nhóm trình tự được nhận diện là các haplotype đã được công bố, 485 trình tự cịn lại mang các bộ đột biến mới. Các trình tự DNA ty thể này thuộc về 15 phân lồi khác nhau, trong đó, 4464 trình tự thuộc về phân lồi chó nhà (Canis lupus familiaris) (Bảng 3.1).
Bảng 3.1: Các lồi/phân lồi có trình tự DNA ty thể trong cơ sở dữ liệu
S T T Loài/phân lồi Số lƣợng trình tự S T T Lồi/phân lồi Số lƣợng trình tự
1 Canis lupus 990 9 Canis lupus hodophilax 10
2 Canis lupus campestris 1 10 Canis lupus labradorius 1
3 Canis lupus chanco 41 11 Canis lupus laniger 2
4 Canis lupus desertorum 1 12 Canis lupus lupaster 10
5 Canis lupus dingo 28 13 Canis lupus lupus 3
6 Canis lupus familiaris 4464 14 Canis lupus pallipes 5
7 Canis lupus hattai 1 15 Canis lupus signatus 9
8 Canis lupus variabilis 1
Tổng cộng có 319 haplotype đã được ghi nhận bao gồm 234 haplotype thuộc haplogroup A, 49 haplotype thuộc haplogroup B, 20 haplotype thuộc haplogroup C,
9 haplotype thuộc haplogroup D, 4 haplotype thuộc haplogroup E và 3 haplotype thuộc haplogroup F (Phụ lục 6). Các haplotype trong mỗi haplogroup được đánh số liên tiếp nhau, tuy nhiên, trong các haplogroup xảy ra hiện tượng một số haplotype trong chuỗi đã khơng có. Ở haplogroup A, khơng có haplotype A37, A108, A118, A191, A211, A228-A244, A247, A250, A252, A253, A255-257, A259, A260, A263-A272, dù có haplotype nhóm A có số thứ tự cao nhất được công bố là A275. Ở haplogroup B, haplotype B55 là haplotype có số thứ tự cao nhất nhưng khơng có haplotype B31, B42, B43, B51, B53, B54. Tương tự, haplotype C9 và D9 cũng không được ghi nhận. Có lẽ do trong cộng đồng nghiên cứu thuộc lĩnh vực này khơng có cá nhân, tổ chức nào đảm nhiệm cơng việc đánh số thứ tự các haplotype nên công việc này diễn ra tự phát, hoặc người sau đánh số thứ tự của haplotype mới tiếp theo haplotype cao nhất mà họ biết, hoặc phỏng đoán số haplotype, hoặc do nhận định sai haplotype… Điều này cho thấy cần thiết phải có một cơng cụ quản lý việc đánh số các haplotype mới nhằm mang lại sự thống nhất của thông tin được chia sẻ trong cộng đồng.
3.1.2. Hiệu chỉnh dữ liệu
Trong tổng số 5567 trình tự DNA được lưu trữ trong cơ sở dữ liệu, 1921 trình tự chỉ chứa một phần của vùng trình tự 582 cặp base nên khơng đủ cơ sở để xác định haplotype. Trong số 3646 trình tự DNA cịn lại, chỉ có 414 trình tự được xác định đúng haplotype theo hệ thống chia thành 6 haplogroup từ A đến F thơng dụng hiện nay [74], 1359 trình tự có thơng tin về haplotype khơng chính xác hoặc không theo hệ thống thông dụng này, 1873 trình tự cịn lại khơng có thơng tin về haplotype.
Các trình tự DNA xác định haplotype khơng chính xác hoặc khơng theo hệ thống thơng dụng gây nhiều khó khăn cho người dùng. Việc xác định haplotype khơng chính xác sẽ làm sai lệch các nghiên cứu sau đó nếu sử dụng những trình tự này làm nguồn tham khảo. Có nhiều kiểu thơng tin sai lệch được ghi nhận trong q trình rà sốt dữ liệu và xây dựng cơ sở dữ liệu. Chẳng hạn, trình tự DNA có mã số GenBank KM262649.1 được công bố vào năm 2015 bởi nhóm tác giả là haplotype
A228, thực chất, trình tự này có độ tương đồng 100% với trình tự có haplotype A140 đã được cơng bố vào năm 2009, hoặc trình tự có mã số truy cập KF757308.1 cũng được cơng bố có haplotype A228 nhưng có độ tương đồng 100% với trình tự có haplotype A65. Tương tự, trình tự có mã số GenBank JF342836.1 được công bố là haplotype A171, tuy nhiên, trình tự này lại giống hoàn toàn với trình tự có haplotype A246 và khác với trình tự có haplotype A171. Một trường hợp khác là trình tự JF342817.1 được cơng bố có haplotype A17, tuy nhiên, haplotype A17 được cơng bố trước đó với 5 đột biến là T15620C A15627G T15639A C15814T C15955T, trong khi trình tự này chỉ mang 3 đột biến A15653G C15814T C15955T. Các trình tự có mã số GenBank JF342830.1, EU816522.1 cũng có sai sót tương tự khi cơng bố lần lượt là haplotype A22 và A151 nhưng phân tích đột biến cho thấy có những đột biến mới, khác với những haplotype đã công bố trước đây.
Bảng 3.2: Một số trường hợp trình tự cơng bố có thơng tin sai lệch
Trình tự Cơng bố Thực tế
KF757308.1 A228 A65 (T15639A C15781T
C15807T C15814T)
KM262649.1 A228 A140 (A15627G T15639A
C15814T A15931- C15959T T16025C A16033G)
JF342817.1 A17 (T15620C A15627G T15639A C15814T C15955T)
haplotype A mới (A15653G C15814T C15955T) JF342830.1 A22 (A15627G C15632T T15639A C15814T T16025C) haplotype A mới (T15505N A15506N T15507N C15508N T15509N A15627G C15632T T15639A C15814T T16025C) EU816522.1 A151 (T15522C T15523C C15531- C15532- C15533- T15534- T15625C A15627G C15632T T15639A G15652A T15665C C15814T) haplotype A mới (C15521- T15522- T15523- C15524- T15525- T15625C A15627G C15632T T15639A G15652A T15665C C15814T) JF342836.1 A171 (T15639A C15814T G15848A T16025C)
A246 (A15553G T15639A C15814T A15931-)
Trong cơ sở dữ liệu (Canis mtDNA HV1 Database - CHD), các trình tự
DNA có thơng tin sai lệch, các trình tự DNA xác định haplotype không theo hệ thống thơng dụng, các trình tự chưa xác định haplotype đều được xác định lại haplotype và xếp vào các nhóm trình tự có cùng haplotype, haplogroup để người dùng sử dụng thơng tin được chính xác hơn.
3.1.3. Công cụ xác định haplotype vùng HV1 của DNA ty thể
Các trình tự nucleotide đại diện cho các haplotype thuộc các haplogroup khác nhau được so sánh để xác định các tổ hợp đột biến (bộ đột biến) đặc trưng của từng haplogroup. Kết quả so sánh trình tự cho thấy, các haplogroup B, C, D, E, F có các tổ hợp các đột biến đặc trưng (Bảng 3.3). Tuy nhiên, haplogroup A thì khơng có tổ hợp đột biến đặc trưng cho toàn bộ haplogroup mà chỉ có những đột biến đặc trưng cho từng phân nhóm nhỏ. Trong khuôn khổ đề tài, sự phân nhóm của các haplogroup không cần thiết nên không được khảo sát. Tuy nhiên, những nghiên cứu chi tiết về quá trình hình thành và phân hóa của tồn bộ phân lồi chó nhà sẽ cần phải sử dụng những thơng tin này.
Bảng 3.3: Bộ đột biến đặc trưng của các haplogroup
Haplogroup Bộ đột biến đặc trƣng B C15526, T15612, C15632, T15639, G15652, T15800, C15814 C15955 C C15508, C15526, T15639, T15650, T15800, C15912, C15955 D T15625, C15632, T15636, T15639, T15800, C15814, T15815, G15848, C15912, C15959 E C15526, A15553, T15639, G15652, T15800, C15814, C15912, G15938 F A15490, T15523, T15611, A15627, T15628, T15639, G15652, T15800, C15814, C15912
Các bộ đột biến đặc trưng cho các haplogroup này sẽ được sử dụng cho việc nhận diện haplogroup của một trình tự có haplotype mới. Chương trình máy tính “Haplotype identifier” đã được xây dựng trên cơ sở phân tích trình tự truy vấn để xác định các đột biến, dựa trên các đột biến đặc trưng của haplotype đã biết hoặc của các haplogroup để xác định haplotype của trình tự hoặc haplogroup của trình tự (trong trường hợp là haplotype mới chưa được đặt tên).
Để đánh giá hiệu quả của công cụ định loại haplotype, 50 trình tự được lựa chọn ngẫu nhiên từ cơ sở dữ liệu sẽ được đưa vào công cụ để xác định haplotype. Đồng thời, các trình tự này cũng được sử dụng cùng với 319 trình tự có haplotype đã được cơng bố để xây dựng cây phát sinh chủng loại bằng phương pháp Neighbor-Joining với 2000 lần lặp lại. Sáu trình tự tương ứng của Canis latrans
được sử dụng làm nhóm ngoại. Trong 50 trình tự này, cơng cụ xác định haplotype nhận diện được 27 trình tự thuộc haplogroup A, trong đó có 20 trình tự có haplotype đã biết, 7 trình tự có haplotype mới; 11 trình tự thuộc haplogroup B bao gồm 7 trình tự có haplotype đã biết và 4 trình tự có haplotype mới; 5 trình tự thuộc haplogroup C bao gồm 4 trình tự có haplotype đã biết và 1 trình tự có haplotype mới; 3 trình tự có haplotype đã biết thuộc haplogroup D; 3 trình tự thuộc haplogroup E gồm 1 trình tự có haplotype đã biết và 2 trình tự có haplotype mới; và 1 trình tự có haplotype mới thuộc haplogroup F (Bảng 3.4).
Bảng 3.4: Xác định haplotype của 50 trình tự bằng cơng cụ xác định haplotype và bằng cây phát sinh chủng loại
STT Mã số
GenBank Haplotype identifier
Cây phát sinh chủng loại
1 KM061511.1 A1 Haplogroup A
2 AB605501.1 A1 Haplogroup A
3 KJ637099.1 A5 Haplogroup A
4 EU223487.1 A11 Haplogroup A
5 KM061549.1 A11 Haplogroup A
6 EF122414.1 A16 Haplogroup A
7 JF342851.1 A17 Haplogroup A
8 D83617.1 A17 Haplogroup A
STT Mã số
GenBank Haplotype identifier
Cây phát sinh chủng loại
10 JF342812.1 A18 Haplogroup A
11 HQ997449.1 A18 Haplogroup A
12 EU223687.1 A20 Haplogroup A
13 EU223655.1 A26 Haplogroup A
14 AY240089.1 A29 Haplogroup A
15 KF002332.1 A30 Haplogroup A
16 AF531684.1 A32 Haplogroup A
17 AY240100.1 A33 Haplogroup A
18 EU816489.1 A117 Haplogroup A
19 KF002304.1 A176 Haplogroup A
20 HQ452453.1 A222 Haplogroup A
21 KU290672.1 Haplogroup A Haplogroup A 22 KU290445.1 Haplogroup A Haplogroup A 23 AB605507.1 Haplogroup A Haplogroup A 24 KJ139357.1 Haplogroup A Haplogroup A 25 KM201268.1 Haplogroup A Haplogroup A 26 KF574036.1 Haplogroup A Haplogroup A 27 KU290692.1 Haplogroup A Haplogroup A
28 JF342842.1 B1 Haplogroup B 29 EU223476.1 B1 Haplogroup B 30 AF531723.1 B2 Haplogroup B 31 EU816542.1 B25 Haplogroup B 32 HM560915.1 B36 Haplogroup B 33 HQ452475.1 B40 Haplogroup B 34 JF342826.1 B41 Haplogroup B 35 HM560920.1 Haplogroup B Haplogroup B 36 EU223589.1 Haplogroup B Haplogroup B 37 JF342908.2 Haplogroup B Haplogroup B 38 KF661056.1 Haplogroup B Haplogroup B 39 EU223397.1 C3 Haplogroup C 40 KM201262.1 C5 Haplogroup C 41 EF380220.1 C7 Haplogroup C 42 EU816553.1 C13 Haplogroup C 43 KJ637138.1 Haplogroup C Haplogroup C 44 KF002323.1 D1 Haplogroup D 45 AF098138.1 D1 Haplogroup D 46 KF574016.1 D6 Haplogroup D 47 D83632.1 E1 Haplogroup E
STT Mã số
GenBank Haplotype identifier
Cây phát sinh chủng loại
48 AB480744.1 Haplogroup E Haplogroup E 49 EF380227.1 Haplogroup E Haplogroup E 50 AB499822.1 Haplogroup F Haplogroup F
Cây phát sinh chủng loại được thiết lập có hình dạng và sự phân nhóm tương tự như cây đã được cơng bố trước đây [74]. Haplogroup của các trình tự khảo sát dễ dàng được xác định nhờ vào vị trí của chúng trên các nhánh cây. Tuy nhiên, trên cây phát sinh chủng loại, haplotype chính xác của các trình tự khơng thể xác định được. Ví dụ trường hợp của trình tự JF342842.1 trên cây phát sinh chủng loại có khoảng cách gần nhất với trình tự có haplotype B25, thuộc hai nhánh khác nhau (Hình 3.1). Các phân tích thủ cơng tiếp theo cho thấy hai trình tự này giống nhau 100%, nghĩa là trình tự JF342842.1 có haplotype B25, nhưng thông tin này không thể xác định được thông qua quan sát cây phát sinh chủng loại. Kết quả định loại haplogroup của hai phương pháp đều trùng khớp với nhau. Trong khi cây phát sinh lồi chỉ có thể giúp xác định haplogroup của trình tự, Haplotype identifier cịn ưu thế hơn với khả năng xác định chính xác các haplotype đã biết.
Để xác định haplotype của một trình tự theo cách làm truyền thống bằng cách sử dụng cây phát sinh chủng loại cần rất nhiều thời gian, tùy vào phương pháp sử dụng. Với khoảng 320 trình tự có chiều dài 582 cặp base, thời gian có thể dao động từ khoảng 10 phút trong trường hợp sử dụng phương pháp Neighbor-joining đến 8 giờ trong trường hợp sử dụng phương pháp Maximum Likelihood. Trong khi đó, với cơng cụ Haplotype identifier, người dùng chỉ mất chưa đến 1 giây để có thể xác định được haplotype của trình tự truy vấn. Hơn nữa, để sử dụng công cụ Haplotype identifier, người dùng chỉ cần một thiết bị có trình duyệt Web có kết nối Internet (máy tính, điện thoại thơng minh, máy tính bảng…), và khơng phụ thuộc vào hệ điều hành của thiết bị đang sử dụng (Windows, Macintosh, Android, iOS…) trong khi với cách xây dựng cây phát sinh chủng loại, người dùng cần phải cài đặt các phần mềm chuyên dụng trên máy tính (MEGA, Paup*…) và địi hỏi phải có
diện thân thiện cũng là một ưu thế của Haplotype identifier, người dùng chỉ cần đưa trình tự cần truy vấn vào khung làm việc của công cụ và ấn "Submit", kết quả định loại haplotype sẽ hiển thị sau khoảng 1 giây.
Hình 3.1: Phân bố của các trình tự thuộc haplogroup B
Cây phát sinh chủng loại được thiết lập từ 375 trình tự vùng 582 cặp base bằng phương pháp Neighbor-Joining với 2000 lần lặp lại. Nhóm ngoại bao gồm các trình
tự của Canis latrans được lược bỏ. Các nhánh thuộc haplogroup C, D, E, F được nhóm lại (các hình tam giác màu đen). Nhánh haplogroup A khơng được thể hiện trong hình. Nhánh haplogroup B được trình bày chi tiết cho thấy bao gồm các trình
tự JF342842.1, EU223476.1, AF531723.1, EU816542.1, HM560915.1, HQ452475.1, JF342826.1, HM560920.1, EU223589.1, JF342908.2, KF661056.1.
Các ưu điểm của việc định loại haplotype bằng công cụ Haplotype identifier so với phương pháp xây dựng cây phát sinh chủng loại có thể được tóm tắt trong bảng sau (Bảng 3.5):
Bảng 3.5: So sánh việc định loại haplotype bằng Haplotype identifier và bằng xây dựng cây phát sinh chủng loại
Haplotype identifier Xây dựng cây phát sinh chủng loại Trình tự có haplotype trùng với haplotype đã công bố Xác định được chính xác haplotype Khơng xác định được Trình tự có haplotype không trùng với haplotype đã công bố
Xác định được haplogroup Xác định được haplogroup
Thời gian xác định haplotype
Nhanh (~ 1 giây/trình tự) Thời gian xác định lâu, tùy vào phương pháp sử dụng (10 phút đến 8 giờ)
Phần mềm chuyên dụng
Không cần Cần
Yêu cầu kinh nghiệm Người dùng không cần biết kỹ thuật định loại haplotype
Người dùng phải nắm được kỹ thuật xây dựng cây phát