Xử lý số liệu và tính tốn thống kê

Chƣơng 2 ĐỐI TƢỢNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU

2.3. PHƢƠNG PHÁP NGHIÊN CỨU

2.3.7. Xử lý số liệu và tính tốn thống kê

Trình tự các đoạn DNA khuếch đại gen AhR và gen AIP đƣợc so sánh, phân tích với các trình tự tham chiếu gen AhR (số hiệu ENSG00000106546) và gen AIP

(số hiệu ENSG00000110711) đƣợc công bố trên cơ sở dữ liệu Ensemble

(https://www.ensembl.org/ ). Kết quả đọc trình tự gen đƣợc phân tích bằng phần mềm Expasy 2.5 và BioEdit v7.0. Để phân tích và dự đốn ảnh hƣởng của các đa hình gen AIP lên cấu trúc cũng nhƣ chức năng của protein, chúng tôi sử dụng phần mềm Swiss-PdbViewer và cấu trúc 3D protein AIP của ngƣời với mã số 2LKN và 4APO trên ngân hàng dữ liệu protein PDB (Protein Data Bank). Phần mềm Swiss- PdbViewer cho phép xây dựng hình mơ phỏng cấu trúc không gian protein, biểu hiện các liên kết trong phân tử protein và phân tích thay đổi trong cấu trúc protein khi có sự thay thế các amino acid. Đối với protein AhR, trên ngân hàng dữ liệu protein PDB (Protein Data Bank) mới chỉ có cấu trúc 3D protein AhR của ngƣời ở các vùng bHLH (basic Helix-Loop-Helix) và PAS (Per-Arnt-Sim) với mã số 5NJ8 và 5VOL. Hiện nay chƣa có dữ liệu cấu trúc 3D của protein AhR của ngƣời ở vùng hoạt hóa phiên mã (tƣơng ứng exon 10 gen AhR). Protein AhR ở các lồi sinh vật có trình tự tƣơng đồng cao với protein AhR của ngƣời cho đến nay cũng chƣa có cấu

Tần suất đa hình các gen AhR và AIP trong nghiên cứu đƣợc phân tích so

sánh với tần suất các đa hình tƣơng ứng ở các quần thể ngƣời trên thế giới, dựa trên cơ sở dữ liệu biến thể di truyền ngƣời (HGVD - Human Genetic Variation Database, w.w.w.hgvd.genome.med-u.acjp). Tần suất các allele và kiểu gen của các đa hình đƣợc kiểm định cân bằng Hardy - Weinberg bằng phần mềm Haploview. Các biến đổi di truyền trong nghiên cứu đƣợc coi là đột biến mới khi chƣa đƣợc công bố trên cơ sở dữ liệu đa hình đơn nucleotide (dbSNP - Single Nucleotide Polymorphism Database, https://www.ncbi.nlm.nih.gov/snp/) của Trung tâm Quốc gia về Thông tin công nghệ sinh học, Mỹ (NCBI - National Center for Biotechnology Information) và cơ sở dữ liệu đột biến gen ngƣời (HGMD - Human Gene Mutation Database, http://www.hgmd.cf.ac.uk/). Sử dụng chƣơng trình MS Excel 2013 và phần mềm thống kê SPSS. 23 với các kiểm định thống kê thƣờng dùng để phân tích số liệu, kết quả nghiên cứu.

Dữ liệu thô thu đƣợc từ giải trình tự tồn bộ hệ gen biểu hiện (WES) đƣợc phân tích tin sinh học, phát hiện và chú giải các biến thể di truyền. Bộ công cụ GATK sử dụng phát hiện các biến thể di truyền. Phần mềm SnpEff sử dụng để phân chia các biến thể thành các nhóm theo mức độ ảnh hƣởng chức năng của biến thể. Để dự đoán ảnh hƣởng của các biến thể di truyền đến chức năng của protein, sử dụng công cụ SIFT (Sorting intolerant from tolerant) và Polyphen-2 (Polymorphism phenotyping V2). Với cơng cụ SIFT có thể dự đốn xem một thay thế amino acid có thể ảnh hƣởng đến chức năng của protein hay không dựa trên sự tƣơng đồng về trình tự và đặc tính giữa các amino acid thay thế. Công cụ Polyphen dự đoán ảnh hƣởng của amino acid thay thế lên cấu trúc và chức năng của protein dựa trên sự tƣơng đồng về trình tự, cấu trúc 3D. Các biến thể di truyền có chỉ số Polyphen trong khoảng 0,957 đến 1 là có hại, giá trị trong khoảng 0,453 đến 0,956 là có thể gây hại và các biến thể có điểm đánh giá trong khoảng 0 đến 0,452 là khơng có hại.

Xử lý số liệu và tính tốn thống kê

TỔNG QUAN VỀ GEN AhR

TỔNG QUAN VỀ GEN AIP