CHƢƠNG 2 : VẬT LIỆU VÀ PHƢƠNG PHÁP NGHIÊN CỨU
2.5. Phƣơng pháp đánh giá chất lƣợng lắp ráp hệ phiên mã
Tỷ lệ đoạn trình tự gióng hàng lại với hệ phiên mã vừa lắp ráp là một chỉ số quan trọng để đánh giá chất lượng lắp ráp. Nếu tỷ lệ cao các đoạn trình tự ánh xạ ngược lại hệ phiên mã, điều này có nghĩa mức độ tin cậy của bản lắp ráp càng cao và ngược lại. Trong thí nghiệm này, nhằm đánh giá chất lượng hệ phiên mã được lắp ráp de novo bằng phần mềm Trinity chúng tơi tiến hành gióng hàng dữ liệu trình tự đọc đã tinh sạch vào tập unigene cuối cùng bằng phần mềm Bowtie2 [38]. Sau đó kết quả chi tiết về số lượng đoạn trình tự gióng hàng được tính tốn sử dụng phần mềm SAMtools [44].
Các bản lắp ráp được thống kê sử dụng cơng cụ TrinityStat.pl được tích hợp trong phần mềm Trinity [30]. Phần mềm nhận đầu vào là tệp tin Fasta lắp ráp được, sau đó thống kê và đánh giá chất lượng của dữ liệu trình tự dựa trên một số tiêu chí như sau:
- Số lượng contig: TrinityStat.pl thống kê số lượng theo 2 mức: mức độ transcript và unigene.
- Tổng độ dài của các transcript và unigene: Tương tự như số lượng contig, kết quả đầu ra thống kê tổng độ dài transcript và unigene.
- N50: Trên một tập contig đã được sắp xếp theo thứ tự độ dài giảm dần, N50 được định nghĩa bởi độ dài của contig mà tại đó chia tập contig thành 2 phần, trong đó các contig ở phần thứ nhất có tổng độ dài đạt ít nhất một nửa tổng độ dài của toàn bộ tập contig. N50 được sử dụng phổ biến để đánh giá các bản lắp ráp, với giá trị N50 càng lớn tương đương với khả năng chất lượng của bản lắp ráp càng cao.
Hình 2.2. Cách tính N50.
Trong ví dụ ở Hình 2.2, tổng độ dài của các contig là: 200K + 140K + 110K + 70K + 65K + 50K + 35K + 18K + 12K + 3K = 703K. 50% tổng độ dài các contig là 351,5K. Vì 200K + 140K + 110K > 351,5K, vậy chỉ số N50 là 110K.