Trong suốt quá trình giải trình tự, phần mềm Real-time Analysis sẽ tạo ra các file dữ liệu bao gồm thông số được sử dụng cho phần mềm Miseq Reporter để phân tích thứ cấp. Cả hai phần mềm này đều được cài tích hợp sẵn trong hệ thống giải trình tự Miseq. Các chỉ số bao gồm: các cluster đạt tiêu chuẩn, chất lượng trình tự
nucleotide đạt độ chính xác 99,999% (Q30), giá trị phasing và pre-phasing trong quá trình giải trình tự [77].
Chúng tôi sử dụng phần mềm Miseq Reporter phiên bản 2.6 để phân tích dữ liệu giải trình tự thứ cấp. Quá trình này bao gồm: phân tách dữ liệu của các mẫu trong cùng 1 lần chạy thành các file dữ liệu riêng, chuyển dữ liệu dạng ảnh chụp thành file trình tự chữ có dạng FASTQ file, so sánh và căn chỉnh theo trình tự tham chiếu và gọi tên các nucleotide hoàn chỉnh và các đa hình nucleotide. Trong nghiên cứu này, chúng tôi sử dụng các chức năng của phần mềm Miseq Reporter như sau [77]:
- Phân tách dữ liệu (chức năng mặc định): Một lần chạy giải trình tự đối với qui trình PGS trên hệ thống Miseq có thể chạy tối đa 24 mẫu, do vậy sau khi giải trình tự xong, phần mềm sẽ phân tách các dữ liệu của các mẫu về các file riêng lẻ. Quá trình phân tách này có nguyên lý dựa trên việc sử dụng các trình tự nhãn đã được gắn vào các mẫu trong quá trình chuẩn bị thư viện.
- Tạo file dữ liệu chữ dạng FASTQ (chức năng mặc định): file dữ liệu chữ này được tạo ra sau khi loại bỏ các đoạn trình tự nhãn ở các mẫu, các trình tự không đạt độ tin cậy và độ chính xác. Các dữ liệu được xuất ra đều phải đạt độ chính xác 99,999%.
- So sánh và căn chỉnh theo trình tự tham chiếu (chức năng lựa chọn): Khi có trình tự tham chiếu được khai báo, phần mềm sẽ so sánh và đối chiếu các trình tự dạng file FASTQ trên với trình tự tham chiếu để căn chỉnh và đưa ra trình tự phù hợp nhất dưới dạng BAM file. Trình tự tham chiếu mà chúng tôi sử dụng là trình tự hệ gen người GRCh37 (hg19).
File dữ liệu BAM này được chuyển vào phần mềm BlueFuse Multi phiên bản 4.4 (cài trên máy tính) để tiến hành phân tích chuyên sâu. Đây là phần mềm được thiết kế và phát triển để dành riêng cho việc phân tích các kết quả PGS-NGS và kết quả lai array của hãng Illumina. Phần mềm có thể cài đặt ở dạng một người dùng hoặc dạng máy chủ. Đây là phần mềm kết hợp việc phân tích kết quả tự động và quản
lý dữ liệu đầu vào. Hơn thế nữa, phần mềm còn có khả năng quản lý chất lượng mẫu đầu vào dựa trên các chỉ số đi kèm theo mẫu phân tích. Đặc biệt, phần mềm còn tích hợp để liên kết với các cơ sở dữ liệu về di truyền, y khoa như: Ensembl, UCSC (University of California Santa Cruz), OMIM (Online Mendelian Inheritance in Man), DGV (Database of Genomic Variants), Decipher.Từ đó giúp người dùng có thể liên kết các dữ liệu về bất thường nhiễm sắc thể của mình tới các thông tin khoa học liên quan với nhau.
Đối với phần mềm này, chúng tôi cũng sử dụng một cơ sở dữ liệu tham chiếu là BG_Annotation_Ens71_20160909.db đây là kho cơ sở dữ liệu chứa thông tin về hê gen của con người mới nhất (GRCh37). Dữ liệu chú thích này bao gồm vị trí của các gen, các vùng bệnh và các dữ liệu công khai về tần số các bản sao được bố trí dưới dạng các bin trình tự (1 bin tương ứng với khoảng 1 MB trên nhiễm sắc thể). Các đoạn đọc đã được lựa chọn (đạt tiêu chuẩn) ở các mẫu được ánh xạ vào khoảng tương ứng trên nhiễm sắc thể tương ứng với các bin. Đồng thời dữ liệu sẽ đếm số đoạn đọc ở mỗi vị trí bin và chuẩn hóa thông qua các vùng dữ liệu GC và so sánh với trình tự tham chiếu để tránh sai lệch thông tin. Số lượng bin được chuẩn hóa trong 1 lần trượt là 13 bin và số bản sao được tái hiện bằng cách giả định rằng số lượng đoạn đọc trung bình của các NST thường, tương ứng với 2 bản sao. Kết luận cuối cùng về số lượng bản sao của mỗi nhiễm sắc thể được xác định bằng cách sử dụng phân phối Gauss (số lượng bản sao từ 0 - 4 và độ lệch chuẩn là 0,33) và giá trị ngưỡng. Trạng thái số lượng nhiễm sắc thể có xác suất cao nhất sẽ được sử dụng [17]. Phần mềm Bluefuse Multi tự động đọc kết quả hoặc người dùng có thể đọc và chỉ ra các bất thường về số lượng, cấu trúc nhiễm sắc thể đồng thời xuất ra báo cáo dưới nhiều dạng như: pdf, ảnh , text…Để đánh giá chất lượng dữ liệu sau phân tích, phần mềm đưa ra các chỉ số đánh giá cho từng mẫu: chất lượng giải trình tự, độ tin cậy khi gọi tên bất thường cho từng nhiễm sắc thể, độ nhiễu. Chúng tôi chỉ lựa chọn các dữ liệu đạt chất lượng dưới đây: Phải có tổng số trên 700 000 đoạn đọc, trong đó có trên 250 000 đoạn đọc được gắn sau khi lọc. Các dữ liệu này đều phải đạt tiêu chuẩn độ chính xác
99,999% . Độ nhiễu của mẫu phân tích phải nhỏ hơn 0.4 và độ tin cậy khi đọc cho từng vùng của NST là > 0,7.
Các kết quả trên báo cáo được chúng tôi nhập vào hệ thống cơ sở dữ liệu của đề tài bằng cách mã hóa theo các mã vạch cho từng bệnh nhân, từng phôi và lưu trong file dưới dạng file excel. Các số liệu này sau khi thu thập sẽ được xử lý theo các thuật toán thống kê trên máy vi tính có sử dụng phần mềm STATA 14. Đây là phần mềm thống kê được phát triển từ năm 1985, phần mềm là một bộ chương trình sử dụng để quản lí dữ liệu, phân tích thông kê, đồ họa, mô phỏng và hiệu chỉnh chức năng. Trong nghiên cứu này, chúng tôi sử dụng các thuật toán về phân tích thống kê mô tả, thống kê suy luận và phân tích tương quan (các thuật toán có ý nghĩa thống kê khi p < 0,05). Trong đó, phân tích thông kê mô tả đối với biến định tính được thực hiện thông qua dưới dạng tần số và tỷ lệ phần trăm, dạng độ tập trung (trung bình, trung vị) và độ phân tán (biên độ, độ lệch chuẩn, phương sai) với các biến định lượng [2] .
Đối với thống kê suy luận, chúng tôi sử dụng ước lượng khoảng với khoảng tin cậy 95% và kiểm định giả thuyết. Trong kiểm định giả thuyết, có 2 giả thuyết được đưa ra: giả thuyết của nhà nghiên cứu – Ha và giả thuyết chống lại giả thuyết của nhà nghiên cứu – Ho. Giả thuyết Ho luôn cho rằng không có sự khác biệt về hiện tượng, sự việc nghiên cứu. Trong khi đó Ha luôn luôn cho rằng có sự khác biệt về hiện tượng, sự vật nghiên cứu. Ở phân tích này, chúng tôi quan tâm tới giá trị anpha là điểm cắt để quyết định chấp nhận hay bác bỏ giả thuyết Ho. Anpha thường được chọn là 5%. Giá trị p là mức xác suất để chấp nhận giả thuyết Ho là đúng. Nếu p < 0,05 có nghĩa là chấp nhận giả thuyết Ha, hay giả thuyết Ha đúng là trên 95% đồng nghĩa với xác suất để giả thuyết Ho đúng là < 5%. Dựa vào từng mục tiêu phân tích và đối tượng nghiên cứu, chúng tôi sử dụng linh hoạt các test thống kê như: test phi tham số, Khi bình phương, Binomial test, vẽ biểu đồ chấm dải rác, tính toán hệ số tương quan, hồi quy tuyến tính và tỷ suất chênh (hoặc nguy cơ tương đối).
Khi so sánh tìm sự khác biệt biến định tính của 1 nhóm (1 tỷ lệ) chúng tôi sử dụng binomial test vì test này có hiệu lực mạnh hơn z test nhất là đối với trường hợp cỡ mẫu nhỏ.
Xác định tương quan, liên quan giữa các biến định lượng qua hệ số tương quan và hồi quy tuyến tính. Sử dụng hệ số tương quan Pearson r để đánh giá mối tương quan giữa các biến định lượng có phân phối chuẩn.
- Hệ số tương quan r có giá trị (-1) → (+1) - r > 0 tương quan là đồng biến
- r < 0 tương quan là nghịch biến. - r < 0,3: tương quan yếu
- 0,3 ≤ r < 0,5: tương quan trung bình - 0,5 ≤ r < 0,7: tương quan chặt - r ≥ 0,7: tương quan rất chặt.
Đối với phân tích hồi quy tuyến tính: xây dựng phương trình toán học thể hiện mối quan hệ giữa 1 biến số định lượng với một hay nhiều biến khác (biến độc lập): Y = a + bx1 + cx2 + dx3 + …
- Y: biến số phụ thuộc (là biến định lượng, phân bố chuẩn) - X: biến độc lập (có thể là biến định lượng hoặc định tính) - a: hằng số
- b, c, d: hệ số
Một số tham số chính trong mô hình hồi quy tuyến tính cần quan tâm như sau: - Prob > F: giá trị p của mô hình đang xây dựng < 0.05 thì có thể kết luận
mô hình có ý nghĩa thống kê
- R-squared: Hệ số xác định thể hiện % giải thích của mô hình - Hệ số (Coef) và p của hệ số
Trước khi bắt đầu phân tích thống kê, chúng tôi thực hiện bước phân tích các số liệu để xác định số liệu phân bố chuẩn hay không chuẩn từ đó lựa chọn test thống kê phù hợp. Để xác định sự phân bố của số liệu chúng tôi sử dụng phương pháp: So sánh trung bình và trung vị của số liệu. Nếu trung bình và trung vị càng gần nhau thì số liệu càng chuẩn.