Trước thời điểm ra đời công nghệ giải trình tự DNA, thuật ngữ cây chủng loại phát sinh hầu nhƣ chỉ đƣợc sử dụng để mô tả các mối quan hệ giữa các loài trong hệ thống học (systematic) và phân loại học (taxonomy). Ngày nay, khái niệm này đƣợc sử dụng trong hầu hết các ngành của sinh học. Ngoài việc thể hiện các mối quan hệ của các loài, cây còn có thể đƣợc sử dụng để mô tả mối quan hệ về nguồn gốc của các họ gen [58], lịch sử phát sinh quần thể [22], quá trình biến đổi dịch tễ của các tác nhân gây bệnh [32, 57], mối quan hệ của các tế bào sinh dƣỡng trong suốt quá trình biệt hóa hoặc phát triển của ung thƣ [78]. Gần đây, phân tích sự chủng loại phát sinh sử dụng công cụ phân tử đã trở thành một công cụ không thể thiếu khi so sánh các hệ gen, phân loại các trình tự metagenomics [14], để xác định gen, các yếu tố điều hòa và các RNA không mã hóa nằm trên các hệ gen sau khi đã đƣợc giải trình tự [44, 51, 65], phân tích
genome của các cá thể hiện đại và cổ đại [31, 33, 50], hoặc tái tạo lại genome tổ tiên [55].
Một cây chủng loại phát sinh sẽ bao gồm các điểm nút và từ các điểm nút đó sẽ chia ra thành các nhánh. Mỗi nhánh biểu diễn cho sự tồn tại của một đối tƣợng di truyền theo thời gian và mỗi điểm nút đánh dấu thời điểm ra của các đối tƣợng mới.
Nếu cây biểu diễn mối quan hệ di truyền giữa một nhóm các loài, mỗi điểm nút sẽ đại diện cho một sự kiện đặc biệt nào đó. Ví dụ, trong một cây đƣợc xây dựng dựa trên trình tự của các đối tƣợng cần nghiên cứu, mỗi điểm nút sẽ đại diện cho sự phát sinh của các cá thể đƣợc coi là tổ tiên của các mẫu này, trong khi đó đối với cây đƣợc xây dựng để biểu diễn một họ gen, các điểm nút sẽ đại diện cho các điểm trùng lặp gen [99].
Cây chủng loại phát sinh không đƣợc vẽ trực tiếp mà đƣợc suy ra từ các dữ liệu của trình tự hoặc các loại dữ liệu khác. Phương pháp xây dựng cây chủng loại phát sinh sẽ dựa vào khoảng cách tính toán đƣợc hoặc các đặc điểm của dữ liệu. Đối với các phương pháp sử dụng ma trận khoảng cách, tùy theo từng loại phương pháp riêng khoảng cách giữa các giữa các trình tự đƣợc tính toán lần lƣợt theo cặp, sau đó ma trận sẽ tổng hợp các kết quả khoảng cách lại và sử dụng chúng để dựng cây. Ví dụ, phương pháp Neighbor joining áp dụng thuật toán gộp nhóm vào tính toán ma trận khoảng cách để xác định sự chủng loại phát sinh [76]. Các phương pháp phân tích dựa trên các đặc điểm của dữ liệu phân tích nhƣ Maximum parsimony, Maximum likelihood và Bayesian. Những phương pháp này sẽ đồng thời so sánh tất cả các trình tự đã được sắp xếp, xem xét các đặc điểm tại cùng một vị trí sắp xếp, cùng một thời điểm để tính toán ra một loại chỉ số gọi là điểm số của cây. “Điểm số của cây” đƣợc tính toán theo công thức khác nhau tùy theo phương pháp, đối với Maximum parsimony là giá trị thay đổi nhỏ nhất, đối với Maximum likelihood là log của khả năng xảy ra (log-likelihood) và đối với Bayesian là xác suất hậu nghiệm. Theo lí thuyết, cây có điểm số cao nhất đƣợc xác định bằng cách so sánh điểm số của tất cả các cây có khả năng xảy ra. Tuy nhiên
trong thực tế, do số lƣợng cây có thể xảy ra rất lớn, việc tìm kiếm toàn bộ là không khả thi ngoại trừ trường hợp đối với lượng dữ liệu nhỏ. Thay vào đó, các thuật toán tìm kiếm cây mô phỏng được sử dụng. Cách tiếp cận này thường tạo ra các cây ban đầu bằng các thuật toán nhanh, sau đó thực hiện sắp xếp lại tại các vị trí để tăng điểm số của cây lên. Cách tìm kiếm cây mô phỏng sẽ không đảm bảo tìm ra đƣợc cây tốt nhất theo lý thuyết nhưng đó là một phương pháp khả thi khi phân tích lượng dữ liệu lớn.
Để biểu diễn số liệu, cả phương pháp ma trận khoảng cách, Maximum likelihood và Bayesian đều sử dụng những mô hình thay thế đƣợc đặt ra trong khi Maximum pasrsimony không có một mô hình rõ ràng và các giá trị của nó đƣợc ẩn đi [99].
1.5.2. Phương pháp Bayesian
Cơ sở cho phân tích Bayesian cũng là các phương pháp chung của suy luận thống kê. Tuy nhiên phương pháp này khác với Maximum likelihood ở các tham số được sử dụng, chúng là các biến ngẫu nhiên đối với phương pháp Bayesian và là các hằng số cố định chưa biết đối với phương pháp Maximum likelihood. Trước khi phân tích các dữ liệu, các tham số đƣợc gắn cho một phân bố tiền nghiệm, sau đó kết hợp với các dữ liệu để tìm ra phân bố hậu nghiệm. Hiện này phân tích Bayesian trở nên phổ biến nhờ những tiến bộ trong phương pháp tính toán, đặc biệt là thuật toán Markov chain Monte Carlo (MCMC) [99].
Cả hai phương pháp Bayesian và likelihood đều sử dụng hàm “khả năng có thể xảy ra” và do đó chúng có chung nhiều ƣu điểm thống kê nhƣ tính thống nhất và hiệu quả [98]. Tuy nhiên, cách suy luận thống kê của hai phương pháp này là đối lập, do đó điểm mạnh và điểm yếu của phương pháp sẽ phụ thuộc vào của từng loại phương pháp.
Điểm mạnh của phân tích Bayesian là phương pháp này có thể đưa ra câu trả lời trực tiếp và hiệu quả các kết quả thông qua việc biểu diễn xác suất hậu nghiệm, đó đơn giản chỉ là xác suất để cây đó là chính xác, biểu diễn nó dưới dạng dữ liệu và mô hình.
Ngƣợc lại, trong khi việc phân tích chủng loại phát sinh vẫn chƣa thể xác định một
thể gây khó khăn cho người sử dụng. Việc áp dụng phổ biến phương pháp bootstrap trong Maximum likelihood có thể gây khó khăn cho người sử dụng giải thích [12, 24, 87].
Tuy nhiên, Bayesian cũng có yếu điểm, xác suất hậu nghiệm tính toán theo Bayesian thường quá cao [68]. Xác suất tiền nghiệm mặc dù cho phép kết hợp các dữ liệu ban đầu để sử dụng cho chúng, tuy các dữ liệu này thường không có sẵn và việc tính toán chúng gây khó khăn cho người sử dụng. Do đó, hầu như tất cả các phân tích dữ liệu đều đƣợc thực hiện bằng cách sử dụng các dữ liệu ban đầu “mặc định” của chương trình tính toán [15, 69].
1.6. Định hướng nghiên cứu
Trong nghiên cứu này chúng tôi tập trung vào việc tiến hành tách và khuếch đại toàn bộ hệ gen ty thể của đối tượng lợn Ỉ bằng phương pháp PCR. Sản phẩm khuếch đại sẽ được giải trình tự bằng phương pháp Sanger. Trình tự hoàn chỉnh của hệ gen ty thể thu đƣợc sẽ đƣợc sử dụng phân tích nhằm tìm ra mối quan hệ di truyền của lợn Ỉ với một số giống lợn trên thế giới.