3.2.3.1. Phân tích dữ liệu
Dữ liệu về trình tự nucleotide của gene 16S và 23S rRNA gồm có hai thực thể chính cần quan tâm là Trình tự (Sequence) và Sinh vật (Organism). Nhƣ vậy, ta có thể xác định đƣợc sơ đồ đối tƣợng nhƣ sau:
Sơ đồ các đối tượng chính trong CSDL hai gene 16S và 23S rRNA
Bảng 3.1.Các đối tượng phụ dựa trên đối tượng chính sinh vật (Organism)
Tên đối tƣợng
Ý nghĩa của
đối tƣợng Thuộc tính Ý nghĩa của thuộc tính
Organism Chứa các đặc điểm về các loài, thông tin về quan hệ họ hàng
Organism_name Chứa tên của các loài vi khuẩn
Nucleic acid Mô tả về trạng thái DNA và kích thƣớc genome
Taxonomy Đặc điểm phân loại học
Acc
Chứa số truy cập trên
NCBI
Acc_no Các số truy cập
Mối quan hệ của các thông tin này là: một sinh vật có thể có nhiều gene (mỗi trình tự thì chỉ có một accession number) và một sinh vật có những đặc điểm (phân loại…) riêng biệt.
Bảng 3.2.Các đối tượng phụ dựa trên đối tượng chính trình tự (sequence)
Mối quan hệ của các thông tin này là một trình tự của đối tƣợng Sequence chỉ có một accession number, một thông tin chung về trình tự đó. Nhƣng có một hay nhiều tác giả cũng nhƣ một hay nhiều bài báo về trình tự đó.
3.2.3.2. Thiết kế CSDL dạng bảng
Theo các mô tả trong mô hình đối tƣợng, ta chuyển từ mô hình đối tƣợng sang mô hình quan hệ nhƣ sau:
– Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình quan hệ. – Mỗi thuộc tính trong mô hình đối tƣợng là thuộc tính trên quan hệ tƣơng ứng. – Khóa của đối tƣợng là khóa của quan hệ tƣơng ứng.
Tạo các quan hệ nhƣ sau:
1:1 đặt khóa chính của quan hệ thứ nhất thành khóa ngoại của quan hệ thứ hai và ngƣợc lại.
Tên đối
tƣợng Ý nghĩa của đối tƣợng Thuộc tính Ý nghĩa của thuộc tính
Gene_seq Chứa trình tự nucleotide
Gene_name Chứa tên trình tự nucleotide Gene_seq Chứa trình tự nucleotide Length Chứa chiều dài của gene Accession
number
Chứa số truy cập của
các trình tự trong CSDL Acc_no Là các số truy cập
NCBI
Các thông tin chung cho trình tự
Các thông tin về tác giả giải trình tự và những bài báo của tác giả về các trình tự đó
Definition Định nghĩa của trình tự Pubday Ngày công bố trình tự Author Tác giả của trình tự
Title Bài báo của tác giả về trình tự
1: n đặt khóa chính của quan hệ ở đầu một thành khóa ngoại của quan hệ ở đầu n.
Ta có sơ đồ chi tiết của các bảng quan hệ nhƣ sau:
Sơ đồ chi tiết các bảng quan hệ
Bƣớc tiếp theo là thiết kế các bảng này ở mức vật lý, nghĩa là đƣa vào hệ quản trị CSDL quan hệ MySQL bằng các ngôn ngữ truy vấn SQL nhƣ tạo CSDL, tạo bảng… 1 1 1 1 1 1 1 ACCS_TABLE acc_id <PK> acc_no species_id <FK> gi DEFINITION_TABLE definition_id <PK> definition seq_id <FK> SPECIES_TABLE species_id<PK> species SEQS_TABLE seq_id <PK> seq length acc_id <FK> gene_id <FK> NCBI_TABLE ncbi_id <PK> author title journal pub_day seq_id <FK> TAXONOMY_TABLE taxonomy_id <PK> taxonomy seq_id <FK> GENE_TABLE gene_id <PK> gene_name seq_id <FK> n 1 1 1 1
Hình 3.7.Thiết kế CSDL ở mức vật lý
3.2.3.3. Lƣu trữ các thông tin vào CSDL
Sau khi CSDL đƣợc thiết kế ở mức vật lý, ta thực hiện việc đƣa các dữ liệu vào CSDL. Công việc này đƣợc thực hiện tự động cùng một lúc tất cả các quan hệ bằng Perl script và thông qua hai gói DBI, DBD::MySQL để kết nối với CSDL.
– Lƣu trữ các trình tự, thông tin chung, tác giả và bài báo…
Một mẫu tin về trình tự gene 16S hay 23S rRNA đƣợc trình bày nhƣ Hình3.6. ta có thể rút trích các thông tin trong mẫu tin để đƣa vào CSDL.
Trong phần LOCUS: lấy ngày tháng “02-MAR-2000 “ cho vào trƣờng pubday trong bảng ncbi_table, lấy chiều dài “1524” cho vào trƣờng length trong bảng seqs_table.
Trong phần DEFINITION: lấy toàn bộ phần này cho vào trƣờng definition trong bảng definition_table.
Phần ACCESSION: lấy số truy cập này cho vào trƣờng acc_no của bảng accs_table.
Phần ORGANISM: tách lấy dòng đầu tiên để cho vào trƣờng species trong bảng species_table và các dòng còn lại cho vào trƣờng taxonomy trong bảng taxonomy_table.
Phần AUTHOR, TITLE, JOURNAL lần lƣợt cho vào trƣờng author, title, journal của bảng ncbi_table.
Phần ORIGIN: cho vào trƣờng seq của bảng seqs_table. – Lƣu trữ thông tin trong bảng gene_name
Vì chúng ta xây dựng CSDL cho 2 gene 16S rRNA và 23S rRNA nên trong trƣờng gene_name ở bảng gene_table ta sẽ có 2 thông tin đó là “16S rRNA” và “23S rRNA” và trƣờng gene_id là “1” cho gene 16S rRNA và “2” cho gene 23S rRNA.
3.2.4. Tích hợp CSDL gene 16S rRNA và 23S rRNA với trang web
Nhằm mục đích cung cấp giao diện cho ngƣời sử dụng truy xuất thông tin, chia sẻ CSDL trực tuyến, CSDL gene 16S rRNA và 23S rRNA đƣợc tích hợp với web bằng giao thức CGI. Bên cạnh đó, việc tích hợp với web cũng nhằm cung cấp một vài công cụ phân tích trình tự sinh học để hỗ trợ cho việc truy xuất thông tin tốt hơn.
Tiến trình ngƣời sử dụng lấy thông tin từ CSDL về hai gene trên đƣợc thực hiện ở hình 3.6 gồm các bƣớc nhƣ sau:
Thông qua giao thức truyền siêu văn bản HTTP, trình chủ web Apache nhận thông tin từ yêu cầu trình duyệt, sau đó xử lý và chuyển đến script CGI.
Từ yêu cầu đƣa vào, sử dụng ngôn ngữ truy vấn SQL và các hàm trong module DBI, DBD::MySQL để lấy kết quả trong CSDL của hai gene trên.
Kết quả đƣợc script CGI chuyển đến trình chủ Apache. Sau đó Apache chuyển thông tin kết quả lên trình duyệt của ngƣời sử dụng.
Hình 3.8. Tiến trình lấy thông tin từ CSDL hai gene ở vi khuẩn
3.3. Thiết kế mồi cho phản ứng PCR phát hiện vi khuẩn viêm màng não
Chúng tôi sử dụng trình tự của gene 16S và 23S rRNA để thiết kế mồi thông qua chƣơng trình thiết kế mồi Primrose, cụ thể để phát hiện Streptococcus pneumoniae
(tác nhân chiếm khoảng 17%) trong nhóm các vi khuẩn viêm màng não mủ.
Trình duyệt client CSDL HAI GENE Trình chủ web Apache * Nhận và xử lý yêu cầu * Tƣơng tác CSDL * Trả kết quả PERL DBI, CGI DBD::MySQL Kết quả Yêu cầu
3.3.1 Thiết kế mồi dựa trên trình tự gene 16S rRNA
Từ cửa sổ chính của chƣơng trình Primrose thực hiện từng bƣớc cụ thể nhƣ sau – Tạo CSDL: Đƣa vào các file chứa trình tự của tất cả các vi khuẩn viêm
màng não mủ ở định dạng fasta (.fas).
Hình 3.9.Tạo CSDL trình tự gene 16S rRNA ở các vi khuẩn viêm màng não
– Chọn trình tự đích: ở đây chúng ta muốn phát hiện Streptococcus pneumoniae nên chọn trình tự đích là file Strepcococcus pneumoniae.fas
Hình 3.10. Chọn trình tự đích trong thiết kế mồi phát hiện Streptococcus pneumoniae dựa trên gene 16S rRNA.
– Tạo mồi: chúng ta xác định các thông số nhƣ chiều dài mồi, số base đƣợc cho phép biến đổi trong mồi…Chọn thẻ “Find oligonucleotide” để chƣơng trình tìm ra các mồi có thể có.
Hình 3.11. Xác định các thông số cho mồi và số lượng mồi được tạo ra trên trình tự đích 16S rRNA
– Kiểm tra lại tất cả các mồi với các trình tự trong CSDL đƣợc tạo ở bƣớc đầu tiên. Chƣơng trình sẽ loại bỏ các mồi bắt cặp với trình tự ngoài trình tự đích và trình bày danh sách các mồi thích hợp.
Hinh 3.12. Danh sách các mồi thiết kế được trên 16S rRNA
Việc tổ hợp các mồi đơn này thành một cặp mồi để thực hiện các phản ứng PCR phụ thuộc vào nhiều yếu tố nhƣ chiều dài sản phẩm PCR, tính chuyên biệt của cặp mồi và sự tƣơng thích giữa hai mồi…
Ở đây chúng tôi chọn một cặp mồi cho đoạn sản phẩm có kích thƣớc vào khoảng 300-400 bp.
Mồi xuôi: đoạn oligonnucleotide 68 trong danh sách.
Forward primer 16S 5‟-AGAGGGGAGAGTGGAATTCC-3‟(sense) Mồi ngƣợc: đoạn oligonnucleotide 166
Reverse primer 16S 5‟-TTGACATCCCTCTGACSRCT-3‟ (sense) Trong đó S = (G hoặc C)
R = (A hoặc G)
Nhấp đúp chuột vào trình tự từng mồi để biết đƣợc các thông tin chi tiết nhƣ vị trí bắt cặp của mồi trên trình tự đích, số base trong mồi không bắt cặp (mismatch)…
Hình 3.14. Vị trí bắt cặp của mồi ngược trên trình tự đích 16S rRNA
Kiểm tra lại sự bắt cặp của cặp mồi này trên trình tự đích
Hinh 3.15. Kiểm tra sự bắt cặp của mồi ngược và mồi xuôi trên trình tự đích 16S rRNA
Hình 3.16. Kết quả kiểm tra sự bắt cặp mồi xuôi và mồi ngược trên trình tự đích gene 16S rRNA
3.3.2. Thiết kế mồi dựa trên trình gene 23S rRNA
– Tạo CSDL: chọn các file trình tự gene 23S rRNA ở vi khuẩn viêm màng não mủ.
– Xác định trình tự đích: tƣơng tự nhƣ ở gene 16S rRNA ta chọn trình tự gene 23S rRNA ở Streptococcus pneumoniae.
– Các bƣớc tạo mồi, kiểm tra mồi tƣơng tự các bƣớc đã tiến hành cho gene
16S rRNA.
Sau khi kiểm tra loại bỏ các mồi bắt cặp với trình tự ngoài trình tự đích (gene
Hình 3.17. Danh sách các mồi thiết kế được cho trình tự gene 23S rRNA ở Streptococcus pneumoniae
Chúng tôi chọn một cặp mồi cho đoạn sản phẩm có kích thƣớc vào khoảng 300-400 bp.
Mồi xuôi: đoạn oligonnucleotide 190 trong danh sách.
Forward primer 23S 5‟-AAGCGATTGCCTTAGTAGCG -3‟(sense) Mồi ngƣợc: đoạn oligonnucleotide 426
Reverse primer 23S 5‟-CGGGAGGGGAGTGAAATAGA-3‟ (sense)
Nhấp đúp chuột vào trình tự từng mồi để biết đƣợc các thông tin chi tiết nhƣ vị trí bắt cặp của mồi trên trình tự đích, số base trong mồi không bắt cặp (mismatch),…
Hình 3.18. Vị trí bắt cặp của mồi xuôi trên trình tự đích 23S rRNA
Hình 3.19. Vị trí bắt cặp của mồi ngược trên trình tự đích 23S rRNA
Kiểm tra lại sự bắt cặp của cặp mồi tổ hợp với trình tự đích (gene 23S rRNA trên
Hình 3.20. Kiểm tra sự bắt cặp của mồi ngược và mồi xuôi trên trình tự đích 23S rRNA
Hình 3.21. Kết quả kiểm tra sự bắt cặp mồi xuôi và mồi ngược trên trình tự đích gene 23S rRNA
3.3.3. Nhiệt độ nóng chảy của mồi
Sử dụng chƣơng trình TmCheck đi kèm trong Primrose để tính nhiệt độ nóng chảy của mồi theo phƣơng pháp “Nearest Neighbour”.
Hình 3.22. Tính nhiệt độ nóng chảy của mồi xuôi 16S
PHẦN 4: KẾT QUẢ VÀ THẢO LUẬN
4.1. Kết quả thu nhận các mẫu tin chứa trình tự và thông tin liên quan của hai gene 16S và 23S rRNA
Sau khi thực hiện các bƣớc tìm kiếm bằng từ khóa, tách mã số truy cập, viết mã script tải các mẫu tin trên trang NCBI. Kết quả chúng tôi đã thu nhận đƣợc 2825 mẫu tin chứa trình tự và thông tin liên quan đến gene 16S rRNA và 305 mẫu tin liên quan đến gene 23S rRNA.
4.2. CSDL gene 16S và 23S rRNA
CSDL chứa 1616 loài vi khuẩn, 2825 trình tự gene 16S rRNA và 305 trình tự gene 23S rRNA.
Trong CSDL ngoài hai đối tƣợng chính thì còn chứa đối tƣợng phụ nhằm cung cấp các thông tin khác để bổ sung cho hai đối tƣợng chính nhƣ: tên tác giả, tên bài báo, phân loại…
CSDL về hai gene 16S rRNA và 23S rRNA, rất tiện ích cho việc truy xuất, nghiên cứu các thông tin liên quan đến trình tự DNA, các đặc trƣng của từng loài chứa hai gene này, tiết kiệm thời gian tìm hiểu, nắm bắt thông tin nhanh. CSDL này đƣợc xây dựng trên hai gene khá bảo tồn ở vi khuẩn nên chúng ta có thể dựa vào các thông tin trong CSDL để nghiên cứu các hiện tƣợng biến chủng trong họ, giúp đƣa ra các kết luận chính xác về các biến chủng xảy ra ở trên hai gene này. Nhƣng CSDL nhỏ, chứa lƣợng thông tin ít và chƣa có chế độ bảo mật. Ở cấp độ phòng thí nghiệm, cơ quan nghiên cứu hay trƣờng đại học thì việc xây dựng CSDL cho từng đối tƣợng (về một gene, một sinh vật…) thì rất tiện ích để phục vụ cho các nghiên cứu về một đối tƣợng nhất định.
4.3. Trang web thể hiện thông tin CSDL gene 16S và 23S rRNA.
Sơ đồ cấu trúc các trang web thể hiện thông tin CSDL gene 16S và 23S rRNA 16S and 23S rRNA gene DATABASE WEB PAGE HOME PAGE ABOUT PAGE LINK PAGE TOOL PAGE BLAST ALIGNMENT SEARCH PAGE SPECIES ACCESSION NUMBER MENINGITIDIS
4.3.1. Trang thông tin chung về CSDL gene 16S và 23S rRNA (Home Page)
– Nội dung trang web: thể hiện số lƣợng trình tự của từng gene chứa trong CSDL. Từ trang Home Page này có thể xem tất cả các thông tin tổng quát của từng gene bằng cách nhấp chuột vào các liên kết đến từng trang CSDL 16S rRNA hoặc 23S rRNA.
– Hình thức thể hiện (Hình 4.1)
4.3.2. Trang tìm kiếm (Search Page)
Cung cấp cho ngƣời dùng 2 công cụ tìm kiếm trình tự và các thông tin liên quan của 2 gene có trong CSDL.
– Trang tìm kiếm khi biết mã số truy cập (accession number)
Ngƣời dùng có thể nhập một hoặc nhiều mã số này, để tìm các trình tự nucleotide có mã số tƣơng ứng (Hình 4.2).
Ngƣời dùng có thể tùy chọn các phần sẽ hiển thị trong kết quả tìm kiếm nhƣ phần định nghĩa trình tự (definition), tên loài (species), chiều dài của trình tự cần tìm (Hình 4.3)
Hình 4.3.Trang kết quả tìm kiếm bằng mã số truy cập
– Trang tìm kiếm khi biết tên loài (species name)
Tất cả tên của vi khuẩn có trong CSDL đƣợc thể hiện trong menu SPECIES NAME(s). Chúng ta có thể chọn một hoặc nhiều tên để tìm kiếm trình tự và các thông tin liên quan đến gene 16S và 23S rRNA ở sinh vật đó (Hình 4.4).
Ngƣời dùng có thể tùy chọn các phần sẽ hiển thị trong kết quả tìm kiếm (Hình 4.5).
Hình 4.4.Trang tìm kiếm theo tên loài (species name)
4.3.3. Trang công cụ (Tool Page)
– Nội dung trang web: trang này cung cấp hai công cụ chủ yếu để phân tích trình tự sinh học, đó là sắp gióng cột (alignment) và tìm kiếm trình tự tƣơng đồng (BLAST).
Sắp gióng cột (alignment) hai hay nhiều trình tự là một công cụ khá thông dụng để khảo sát sự tƣơng đồng, đột biến, nghiên cứu chức năng của gene. Mặt khác để tìm trình tự tƣơng đồng với một trình tự quan tâm, các nhà sinh học thƣờng sử dụng công cụ BLAST. Do nhu cầu đó, chúng tôi đã tích hợp hai công cụ này vào trang web CSDL gene 16S và 23S rRNA.
– Hình thức thể hiện:
Với công cụ Alignment: ngƣời sử dụng có thể nhập vào một hay nhiều trình tự DNA thông qua ô nhập văn bản hay một tập tin chứa trình tự DNA dƣới định dạng FASTA. Chọn một hay nhiều trình tự trong CSDL gene 16S và 23S rRNA để thực hiện sắp gióng cột (có thể thực hiện Alignment giữa các gene trong CSDL) (Hình 4.6).
Hình 4.7.Trang kết quả sắp gióng cột hai trình tự
Với công cụ BLAST: ngƣời dùng có thể nhập vào một trình tự DNA. Trình tự này sẽ đƣợc so sánh tƣơng đồng cục bộ với CSDL của trình tự gene 16S và 23S rRNA. (Hình 4.8).
4.3.4. Trang Meningitidis
– Nội dung trang web: liệt kê các vi khuẩn viêm màng não mủ. Ngƣời dùng có thể chọn một hoặc nhiều trình tự của các vi khuẩn này cho việc thiết kế mồi.
– Hình thức thể hiện: Hình 4.9
Hình 4.9.Trang Meningitidis
4.4. Kết quả thiết kế mồi phát hiện các tác nhân viêm màng não mủ
Theo các bƣớc tiến hành nhƣ phần 3.3. chúng ta thu đƣợc hai cặp mồi cho phản ứng PCR phát hiện Streptococcus pneumoniae dựa trên hai gene 16S và 23S rRNA. Tuy nhiên các mồi ngƣợc đều đƣợc viết theo chiều 5‟-3‟ trên sợi sense. Do đó, chúng ta phải chuyển các mồi này theo chiều 5‟-3‟ trên sợi antisense bằng cách dịch sang trình tự ngƣợc và bổ sung (Reverse complement).
Trình tự các cặp mồi thiết kế đƣợc cho từng gene nhƣ sau
Gene 16S rRNA Gene 23S rRNA