Lƣu trữ các thông tin vào CSDL

Sau khi CSDL đƣợc thiết kế ở mức vật lý, ta thực hiện việc đƣa các dữ liệu vào CSDL. Công việc này đƣợc thực hiện tự động cùng một lúc tất cả các quan hệ bằng Perl script và thông qua hai gói DBI, DBD::MySQL để kết nối với CSDL. Tuy nhiên, để việc trình bày này đƣợc mạch lạc rõ ràng, chúng tôi chia ra thành từng phần nhƣ sau:

o Lƣu trữ các trình tự (chỉ có chứa trình tự gene và protein hsp-70 và RT- RNaseH), thông tin chung, tác giả, bài báo, definition, locus, tên sinh vật,…(các thành phần này đã có trong mẫu tin của NCBI).

o Lƣu trữ các đoạn gene và protein RT-RNaseH, mà chúng nằm trong bộ genome hay các gene khác trong ORF (dữ liệu của phần này cần đƣợc xác định qua nhiều bƣớc và đã đƣợc trình bày ở phần 3.2.2) và các thông

tin khác (ký chủ, vùng phân bố, triệu chứng,…) đƣợc tham khảo và thu nhận từ các trang web trên Internet [21, 22].

Lƣu trữ các trình tự, thông tin chung, tác giả và bài báo,…

Một mẫu tin về trình tự gene hsp-70 hay RT-RNaseH đƣợc trình bày nhƣ hình 4.2 ta có thể rút trích các thông tin để đƣa vào CSDL.

 Trong phần LOCUS: ta lấy phần đầu “SPO010920“ cho vào trƣờng locus trong bảng ncbi_table, phần ngày tháng “02-MAR-2000 “ ta cho vào trƣờng pubday cũng trong bảng ncbi_table.

 Trong phần DEFINITION: lấy toàn bộ phần này cho vào trƣờng definition trong bảng ncbi_table.

 Phần ACCESSION: lấy số truy cập này cho vào trƣờng acc_no của bảng acc_table.

 Phần ORGANISM: tách lấy các phần tên loài, họ, giống và RNA_stage.  Phần AUTHOR, TITLE: lần lƣợt cho vào trƣờng author, paper của bảng author_table

 Phần gene:lấy độ dài của đoạn gene.  Phần note: lấy tên của gene.

 Phần product: lấy tên protein.

 Phần translation: cho vào trƣờng pro_seq của bảng pro_table.  Phần ORIGIN: cho vào trƣờng gen_seq của bảng gen_table.

Lƣu trữ các thông tin gen, protein, morphylogy,…

Tất cả các trình tự gene, protein đƣợc xác định trong mục 3.2.2 đƣợc đƣa tự động vào CSDL gen_seq và pro_seq bằng Perl script. Đồng thời các dữ liệu về morphology, triệu chứng,… cũng đƣợc đƣa vào CSDL tự động bằng Perl script hay bằng các thao tác bằng tay. Gồm có các thông tin sau:

 Trình tự gene và protein của virus có số ACCESSION tƣơng ứng.  Độ dài của gene.

 Các đặc điểm sinh lý, sinh hóa, hình thể, vùng phân bố,…

Do quan hệ của các bảng đƣợc xác định ngay từ đầu, nên việc đƣa dữ liệu vào phải đƣợc thực hiện tuần tự nhƣ sau:

 Đầu tiên là đƣa vào bảng organism_table

 Rồi lần lƣợt đến acc_table, gen_table, pro_table, char_table.  Cuối cùng vào các bảng ncbi_table, author_table.

Gene Hsp-70 và Reverse transcriptase-RNaseH

Thiết kế CSDL dạng bảng