Bài viết tiến hành dự đoán các gene biểu hiện cao ở chủng E. coli K-12 MG1655 dựa trên các bộ tham chiếu là gene mã hóa protein ribosome được sử dụng phổ biến hiện nay và những gene có độ phiên mã cao từ dữ liệu microarray do chúng tôi đề xuất.
Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1068-1077 Bài Nghiên cứu Open Access Full Text Article Nghiên cứu dự đoán gene biểu cao cho Escherichia coli dựa liệu mRNA microarray Võ Trí Nam1,2,3 , Phạm Trung Nghĩa1,3 , Trương Hà Minh Nhật1,3 , Trần Linh Thước3,4 , Nguyễn Đức Hoàng1,3,4,* TÓM TẮT Use your smartphone to scan this QR code and download this article Các gene biểu cao (Highly expressed genes – HEG) gene có sẵn sinh vật, mang codon ưa thích hệ thống biểu Việc xác định gene biểu cao giúp tìm codon ưa thích sử dụng tối ưu hóa gene nhằm biểu protein mục tiêu với mức độ mong muốn Hiện nay, HEG-DB sở liệu (CSDL) lưu trữ liệu gene biểu cao nhiều chủng vi sinh vật, nhiên liệu khơng cịn cập nhật trì Vì chúng tơi tiến hành dự đoán gene biểu cao chủng E coli K-12 MG1655 dựa tham chiếu gene mã hóa protein ribosome sử dụng phổ biến gene có độ phiên mã cao từ liệu microarray đề xuất Kết dự đốn phân tích cách so sánh tham chiếu so sánh với gene biểu cao thu nhận từ CSDL HEG-DB Kết cho thấy tham chiếu gồm 69 gene mã hóa protein ribosome 100-mRNA cho kết hồn tồn trùng khớp dự đốn gene biểu cao nhiều có độ tin cậy cao so với liệu từ CSDL HEG-DB thể qua gene dự đốn có giá trị CAI cao số lượng gene tham gia vào đường chuyển hóa tế bào, đặc biệt đường chuyển hóa quan trọng cao Nghiên cứu đề xuất sử dụng tham chiếu từ liệu microarray E coli thay cho tham chiếu protein ribosome Từ khoá: gene biểu cao, Escherichia coli, protein ribosome, mRNA microarray, CAI Trung tâm Khoa học Công nghệ sinh học, Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM, Việt Nam Phịng Thí nghiệm Cơng nghệ sinh học phân tử, Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM, Việt Nam Đại học quốc gia thành phố Hồ Chí Minh, Việt Nam Khoa Sinh học – Công nghệ Sinh học, Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM, Việt Nam Liên hệ Nguyễn Đức Hoàng, Trung tâm Khoa học Công nghệ sinh học, Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM, Việt Nam Đại học quốc gia thành phố Hồ Chí Minh, Việt Nam Khoa Sinh học – Công nghệ Sinh học, Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM, Việt Nam Email: ndhoang@hcmus.edu.vn Lịch sử • Ngày nhận: 25-8-2020 • Ngày chấp nhận: 22-3-2021 • Ngày đăng: 30-4-2021 DOI : 10.32508/stdjns.v5i2.945 MỞ ĐẦU Trong năm gần đây, kỹ thuật sản xuất protein tái tổ hợp ngày phát triển ứng dụng rộng rãi nhiều lĩnh vực y tế, công nghiệp, nông nghiệp nghiên cứu khoa học khác Các protein tái tổ hợp dùng để tổng hợp vắc xin, hỗ trợ điều trị bệnh (như insulin), sản xuất enzyme công nghiệp Bên cạnh đó, protein tái tổ hợp cịn dùng để cải thiện giống trồng, tạo loài thực vật động vật chuyển gene… Tuy nhiên, gene thu nhận từ sinh vật ban đầu đưa vào hệ thống biểu vật chủ thường khơng tương thích, dẫn đến giảm khả biểu protein mục tiêu Thấy hạn chế việc sản xuất protein tái tổ hợp, nhiều nghiên cứu thiết kế gene đưa nhằm tăng mức độ biểu protein tái tổ hợp thay cho gene tự nhiên biểu thấp sinh vật 1–3 Một nguyên lý để thiết kế lại gene thay đổi số codon trình tự gene sẵn có codon đồng nghĩa để cải thiện đặc trưng trình tự số thích nghi codon, thành phần GC, trình tự lặp lại, khả hình thành cấu trúc bậc mRNA Các đặc trưng chứng minh có ảnh hưởng đến độ biểu protein mục tiêu 3–5 Những gene biểu cao (HEG- Highly expressed genes) gene có sẵn, mang đặc trưng trình tự phù hợp để biểu mức cao sinh vật Vì việc dự đoán gene biểu cao bước quan trọng để từ đó, tìm đặc trưng phù hợp cho hệ thống biểu codon ưa thích, số phần trăm GC, độ dài trình tự lặp lại, lượng tự cấu trúc bậc hai mRNA hay số khác ảnh hưởng đến độ biểu protein mục tiêu Các kết ứng dụng vào trình thiết kế gene để gia tăng độ biểu hệ thống biểu cụ thể 6,7 Năm 2007, Pere Puigbò cộng thiết lập CSDL HEG-DB, chứa thông tin gene biểu cao gần 200 chủng vi sinh vật Nhưng đến thời điểm tại, CSDL HEG-DB chưa cập nhập tính từ lúc thành lập Các thơng tin liệu cũ, khơng cịn xác để làm sở cho nghiên cứu khác Hiện liệu gene biểu cao chủng vi sinh vật CSDL HEG-DB không cập nhật trì tốt, liệu gene biểu cao chủng Bacillus subtilis 168 không truy cập được, thơng tin hiển thị khơng cịn đầy đủ Bên cạnh đó, phương pháp dự đốn gene biểu cao CSDL HEG-DB chưa nêu rõ, đặc biệt thông số sử dụng q trình dự đốn Một Trích dẫn báo này: Nam V T, Nghĩa P T, Nhật T H M, Thước T L, Hồng N D Nghiên cứu dự đốn gene biểu cao cho Escherichia coli dựa liệu mRNA microarray Sci Tech Dev J - Nat Sci.; 5(2):1068-1077 1068 Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1068-1077 Bản quyền © ĐHQG Tp.HCM Đây báo công bố mở phát hành theo điều khoản the Creative Commons Attribution 4.0 International license nghiên cứu khác đưa nhóm tác giả Kim Chi cộng vào năm 2016 sử dụng thuật toán phân cụm PAM CLARA để dự đoán gene biểu cao cho B subtilis Tuy nhiên, kết dự đoán đánh giá thông qua số thuật toán chưa đánh giá mặt sinh học nên cần thêm minh chứng phản hồi từ nghiên cứu khác Từ thực tế đó, chúng tơi đặt mục tiêu nghiên cứu phương pháp dự đoán gene biểu cao đề xuất Puigbò cộng cách rõ thông số đưa tiêu đánh giá cho kết dự đốn để chủ động việc dự đốn, từ xây dựng CSDL để lưu trữ thông tin gene biểu cao vi sinh vật tiến hành thu nhận gene mã hóa cho protein ribosome để dùng làm tham chiếu ban đầu; (i.2) Các gene có giá trị biểu mRNA trung bình cao (từ liệu microarray) Dựa liệu microarray thu nhận từ E COLI EXPRESION2, chọn 100, 200 300 gene có giá trị biểu trung bình cao làm tham chiếu ban đầu cho trình dự đoán; (ii) Bước Lần lượt dựa tham chiếu ban đầu bước 1, tiến hành tính giá trị wi từ tính giá trị CAI cho gene tồn gene theo cơng thức: VẬT LIỆU VÀ PHƯƠNG PHÁP Trong đó: i, j codon đồng nghĩa, mã hóa cho amino acid, f[i] tần số codon i, f[j] tần số codon có tần số cao nhất, L chiều dài gene (đơn vị codon); (iii) Bước So sánh ngưỡng giá trị CAI, chọn gene có giá trị CAI cao ngưỡng làm tham chiếu quay lại bước Giá trị ngưỡng CAI khảo sát chọn dựa phân tích giá trị CAI gene HEG thu nhận từ CSDL HEG-DB Quá trình lặp lại thực thuật tốn viết ngơn ngữ lập trình Python tham chiếu thu lần cuối giống với lần trước Bộ tham chiếu lần cuối gene biểu cao dự đoán Thu nhận xử lý liệu Dữ liệu trình tự gene hoàn chỉnh chủng vi sinh vật E coli K-12 MG1655 thu nhận từ NCBI với mã số [GeneBank: U00096.3] Dữ liệu sau lọc bỏ gene giả (pseudogenes), gene mã hóa RNA mà khơng dịch mã (ncRNA), gene mã hóa tRNA gene mã hóa rRNA Tiếp theo tiến hành lọc bỏ gene có trình tự khơng chẵn ba gene khơng có mã mở đầu mã kết thúc Dữ liệu độ phiên mã gene E coli - K-12 thu nhận từ CSDL E COLI EXPRESSION2 10 Dữ liệu sau thu nhận tiến hành loại bỏ liệu chủng đột biến Đối với liệu lần lặp lại thí nghiệm với điều kiện mơi trường, tiến hành tính giá trị trung bình để đại diện cho liệu Sau đó, sử dụng ngơn ngữ R gói Package preprocessCore để áp dụng phương pháp chuẩn hóa “Quantile normalization” cho tất giá trị biểu trung bình điều kiện vừa tính cuối tính trung bình cho tất giá trị biểu cho gene Dữ liệu gene biểu cao E coli - K-12 thu nhận từ CSDL HEG-DB Dữ liệu dùng cho bước đánh giá kết dự đoán gene biểu cao phía sau DỰ ĐỐN GENE BIỂU HIỆN CAO Quy trình dự đốn Q trình dự đốn gene biểu cao thực phương pháp nêu nghiên cứu Pere Puigbò cộng năm 2007 có thay đổi tham chiếu tiêu chí chọn kết quả, cụ thể theo quy trình sau: (i) Bước Chọn tham chiếu độc lập nhau: (i.1) Gene mã hóa ribosomal protein dựa theo phương pháp nêu báo Puigbò cộng sự, dựa thông tin gene thu nhận từ NCBI 1069 wi = f [i] max f [ j] [ ]1 CAI = ∏Li=1 wi L Đánh giá tham chiếu Kết từ tham chiếu, gene mã hóa cho protein ribosome gene có mức biểu cao từ liệu microarray [100 gene, 200 gene 300 gene] so sánh với dựa tiêu chí bao gồm: Số lượng gene biểu cao, số lượng gene mã hóa protein ribosome có gene biểu cao, tỉ lệ gene mã hóa protein ribosome gene biểu cao dự đoán được, khoảng giá trị CAI thấp đến cao Đồng thời, việc so sánh đặc trưng codon hai tham chiếu protein ribosome 100 gene từ liệu microarray tiến hành cách sử dụng giá trị wi hai tham chiếu để vẽ biểu đồ So sánh kết dự đoán với liệu từ HEGDB So sánh kết gene biểu cao dự đoán với gene biểu cao thu nhận từ CSDL HEGDB Nội dung so sánh bao gồm: (i) Các thông số trình dự đốn, bao gồm: khoảng giá trị CAI nhóm gene biểu cao, số lượng gene biểu hiện, số lượng gene mã hóa cho protein ribosome tỉ lệ gene mã hóa protein ribosome gene biểu Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1068-1077 cao; (ii) Độ phiên mã mRNA: dùng Excel để vẽ biểu đồ Boxplot thể độ phân bố độ biểu mRNA nhóm, 4021 gene trùng khớp với liệu microarray, gene biểu cao dự đoán được, gene biểu cao từ CSDL HEG-DB gene mã hóa protein ribosome; (iii) Số lượng gene tham gia vào đường chuyển hóa: thơng tin liệu đường chuyển hóa lấy từ CSDL DAVID 11,12 Dựa vào tên gene biểu cao để tìm đường chuyển hóa mà gene tham gia Sau thu nhận liệu số lượng đường chuyển hóa mà nhóm gene biểu cao tham gia số lượng gene có đường Cuối so sánh số lượng gene hai nhóm gene biểu cao tham gia vào 08 đường chuyển hóa quan trọng, gồm có RNA polymerase, Oxidative phosphorylation, Glycolysis, Pentose phosphate pathway, Pyrimidine metabolism, Purine metabolism, TCA cycle Carbon metabolism KẾT QUẢ VÀ THẢO LUẬN Thu nhận xử lý liệu Dữ liệu gene E coli K-12 sau thu nhận từ NCBI xử lý lọc bỏ gene giả, gene mã hóa rRNA, tRNA ncRNA gene không biểu thành protein Đồng thời gene khơng có mã mở đầu mã kết thúc loại bỏ Từ thu nhận 4238 gene Các gene dùng vào dự đoán gene biểu cao Đối với liệu độ phiên mã gene thu nhận từ CSDL E COLI EXPRESION2 bao gồm 213 liệu tương ứng với 71 môi trường biểu (mỗi thí nghiệm lặp lại lần) Sau tính trung bình cho thí nghiệm lọc bỏ liệu chủng đột biến, liệu chuẩn hóa phương pháp Quantile để đảm bảo tính đồng khoảng giá trị thí nghiệm với Kết thu 35 liệu biểu với 7312 mẫu dò Trong số mẫu dị, có mẫu dò nằm gene mẫu dị khơng nằm gene, từ tiến hành so khớp với liệu 4238 tên gene E coli kết thu 4021 gene trùng Giá trị trung bình 35 liệu gene sử dụng độ biểu đại diện gene Kết hợp lại chúng tơi thu nhận 4021 gene với độ biểu chúng Dữ liệu sử dụng cho xác định tham chiếu dựa độ biểu mRNA đánh giá kết dự đoán gene biểu cao Bộ gene biểu cao E coli K-12 thu nhận từ CSDL HEG-DB bao gồm tên gene giá trị CAI chúng Kết thu 253 gene HEG chủng E coli K-12 Dự đoán gene biểu cao Nghiên cứu sử dụng phương pháp nhóm tác giả Puigbị cộng cơng bố năm 2007 để dự đoán gene biểu cao Trong phương pháp nhóm tác giả trên, gene mã hóa cho protein ribosome sử dụng làm tham chiếu ban đầu để từ tìm kiếm gene có xu hướng sử dụng codon tương tự thơng qua tính tốn giá trị CAI Lý tác giả lựa chọn gene mã hóa protein ribosome cho gene biểu cao tế bào Tuy nhiên, đơi việc xác định gene mã hóa protein ribosome gặp khó khăn gene chưa thích thích chưa đầy đủ Trong nghiên cứu này, bên cạnh tham chiếu protein ribosome tác giả đề xuất, sử dụng thêm tham chiếu dựa liệu mRNA microarray thể mức độ phiên mã gene, yếu tố góp phần quan trọng vào lượng protein tạo Cụ thể sử dụng tham chiếu gồm 69 gene mã hóa protein ribosome từ thơng tin gene E coli thu nhận (gọi tham chiếu RP) với 03 tham chiếu chứa 100, 200 300 gene có độ biểu mRNA cao (gọi tham chiếu 100-mRNA, 200-mRNA 300-mRNA) cho quy trình dự đốn gene biểu cao Phân tích giá trị CAI gene HEG thu nhận từ CSDL HEG-DB, khoảng giá trị nhận dao động từ 0,662 đến 0,857 (Hình 1) Do đó, nghiên cứu tiến hành dự đốn gene biểu cao với ngưỡng giá trị CAI từ 0,650 đến 0,860 Đánh giá tham chiếu Kết dự đoán gene biểu cao từ 04 tham chiếu thể Bảng Đối với kết tham chiếu, so sánh để chọn kết có độ tin cậy cao Tiêu chí xem xét số lượng gene HEG dự đoán kết Số lượng gene biểu cao chủng vi khuẩn tùy thuộc vào ngưỡng xét, mức độ biểu cao, mức độ biểu thấp Do đó, khơng có quy tắc chung đưa để xác định xác số lượng gene biểu cao E coli Trong nghiên cứu này, để chọn lựa kết dự đoán dựa số lượng gene biểu cao trả ra, dựa số lượng gene biểu cao E coli hai công bố: công bố HEG-DB 5% nghiên cứu Karlin cộng năm 2000 8% Từ đó, chúng tơi chọn kết cho số lượng gene biểu cao khoảng từ 4% đến 9% tổng số gene gene, tương ứng từ 170 đến 381 gene Như vậy, tham chiếu RP tham chiếu 100-mRNA cho kết chấp nhận với ngưỡng giá trị CAI giao động từ 0,688 đến 0,692 hai 1070 Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1068-1077 Hình 1: Đồ thị biểu diễn giá trị CAI 253 gene biểu cao từ CSDL HEG-DB tham chiếu 200-mRNA 300-mRNA khơng có kết chấp nhận Điều lý giải chọn tham chiếu có số lượng gene lớn (200 300 gene) làm cho đặc trưng codon gene không tập trung làm ảnh hưởng đến q trình dự đốn nên không cho kết tốt Tiếp theo, kết chọn tiếp dựa số lượng gene mã hóa ribosome gene có khả biểu cao tế bào Kết tương ứng ngưỡng CAI 0,688 0,689 với số gene mã hóa protein ribosome nhiều 44 gene Cuối cùng, chúng tơi chọn kết dự đốn HEG với ngưỡng CAI 0,689 có tỉ lệ gene mã hóa protein ribosome cao (14,2%) Khi so sánh gene biểu cao thu từ tham chiếu RP tham chiếu 100-mRNA, kết cho thấy trùng khớp 100% hai kết Để lý giải trùng khớp này, tiến hành so sánh giá trị wi đại lượng đặc trưng cho tần suất sử dụng codon nhóm gene hai tham chiếu (Hình 2) Kết so sánh Hình cho thấy tần suất sử dụng codon hai tham chiếu có tương đồng cao Trong đó, 16 20 amino acid có trật tự tần suất codon hoàn toàn giống hai tham chiếu Đối với 04 amino acid lại, codon có tần suất cao giống hai tham chiếu, khác biệt xảy codon lại chênh lệch tần suất codon tham chiếu khơng nhiều (Bảng 2) Chính tương đồng cao tần suất sử dụng codon hai tham chiếu dẫn đến trùng khớp kết dự đoán gene biểu cao Việc tương tự tần suất sử dụng codon hai tham chiếu cho thấy có mối liên hệ chặt chẽ mức độ biểu mRNA độ biểu protein cho thấy tính khả thi việc sử dụng liệu mRNA microarray thay cho gene mã hóa protein ribosome để làm tham chiếu ban đầu dự đoán gene biểu cao 1071 So sánh kết dự đoán với liệu từ HEGDB Kết dự đoán gene biểu cao từ nghiên cứu dựa liệu gene E coli cập nhật vào năm 2018 với mã số U00096.3 [4238 gene với 69 gene mã hóa protein ribosome], khác với liệu tác giả Puigbò sử dụng vào năm 2007 [4243 gene với 54 gene mã hóa protein ribosome] Đồng thời ngưỡng giá trị CAI khảo sát lại với tiêu chí chọn kết đề xuất Chính vậy, kết dự đốn thu có khác biệt so với kết cơng bố CSDL HEG-DB Do đó, chúng tơi tiến hành so sánh 310 gene biểu cao dự đoán với 253 gene biểu cao thu nhận từ CSDL HEGDB để đánh giá hiệu dự đoán nghiên cứu Các tiêu chí dùng để so sánh bao gồm thơng số q trình dự đoán gene biểu cao, độ phiên mã gene biểu cao [dựa vào liệu microarray] với số lượng gene tham gia vào đường chuyển hóa Các thơng số q trình dự đốn gene biểu cao Bảng thể kết so sánh thông số cho thấy dự đoán nhiều 57 gene so với gene biểu cao từ CSDL HEG-DB Kết cho thấy dự đoán thêm gene biểu cao khác mà CSDL HEG-DB khơng có Trong đó, số gene mã hóa protein ribosome hai liệu ngang [44 gene]cho thấy độ tin cậy tiêu chí ngang Tuy nhiên, tính tỉ lệ gene mã hóa protein ribosome CSDL HEG-DB cao 3,2% so với kết thu được, điều số lượng gene dự đoán nhiều giữ nguyên số gene mã hóa protein ribosome, tiêu chí khơng ảnh hưởng đến độ tin cậy kết Ở tiêu chí Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1068-1077 Bảng 1: Kết dự đoán gene biểu cao E coli Các kết cho số lượng gene dự đoán khoảng 4%–9% gạch Kết chọn cuối tô đậm Bộ tham chiếu Ngưỡng giá trị CAI Gene biểu cao [4% - 9% = 170 - 381] Gene mã hóa protein ribosome Tỉ lệ RP 100-mRNA ≤ 0,687 ≥ 507 50 9,9% 0,688 324 44 13,6% 0,689 310 44 14,2% 0,690 244 42 17,2% 0,691 235 42 17,9% 0,692 198 41 20,7% ≥ 0,693 ≤ 32 13 40,63% ≤ 0,693 ≥ 451 50 11,09% ≥ 0,694 ≤ 31 12 38,7% ≤ 0,693 ≥ 451 50 11,07% ≥ 0,694 ≤ 31 12 38,7% 200-mRNA 300-mRNA Hình 2: Biểu đồ thể giá trị wi hai tham chiếu RP 100-mRNA khác quan trọng hơn, khoảng giá trị CAI gene biểu cao chúng tơi dự đốn [0,689 – 0,879] cao so với CSDL HEG-DB [0,662 – 0,848] Giá trị CAI cao cho thấy gene nhóm gene biểu cao có chung xu hướng sử dụng codon, gene sử dụng codon ưa thích hệ thống biểu tế bào, có lượng tRNA tương ứng dồi dào, hoạt động hiệu Vì vậy, kết dự đốn có độ tin cậy cao kết CSDL HEG-DB Độ phiên mã gene biểu cao dựa liệu microarray Tiếp theo, hai gene biểu cao so sánh dựa độ biểu mức phiên mã Hình cho thấy tổng số gene thu nhận từ liệu microarray (4021 gene) có khoảng phân bố tập trung giá trị độ phiên mã gene thấp nhóm liệu cịn lại Điều chứng minh rằng, thời điểm tế bào, gene có mức biểu trung bình thấp chiếm nhiều nhất, gene biểu cao có số lượng Đối với gene mã hóa protein ribosome, khoảng tập trung giá trị độ phiên mã gene cao hẳn so với độ phiên mã tổng số gene liệu microarray [NCBI], nhóm gene biểu cao dự đoán CSDL HEG-DB Phần lớn gene mã hóa protein ribosome tập trung mức độ phiên mã cao, điều phù hợp với vai trị gene mã hóa protein ribosome gene thường biểu hiệu cao tế bào, sử dụng để làm tham chiếu dự đoán gene biểu cao So sánh kết dự đoán nghiên với liệu microarray tất gene thu nhận từ NCBI cho thấy hầu hết gene dự đoán có độ 1072 Tạp chí Phát triển Khoa học Công nghệ – Khoa học Tự nhiên, 5(2):1068-1077 Bảng 2: So sánh giá trị wi amino acid Leu, Ser, Ala Arg hai tham chiếu RP 100-mRNA Những codon có thứ tự khác tham chiếu tô đậm Amino acid Codon Protein ribosome Microarray Amino acid Codon Protein ribosome Microarray Leu CTG 1 Ser TCT 1 CTC 0,1076 0,0885 AGC 0,8944 0,6727 TTG 0,0934 0,0935 TCC 0,7826 0,6623 CTT 0,087 0,0957 AGT 0,2298 0,2312 TTA 0,0791 0,0827 TCA 0,1739 0,2416 CTA 0,019 0,0151 TCG 0,1739 0,1922 CGT 1 GCT 1 CGC 0,5696 0,5583 GCA 0,6585 0,7194 CGA 0,0267 0,0367 GCG 0,6192 0,7326 CGG 0,0229 0,0446 GCC 0,3636 0,4604 AGA 0,0133 0,0393 AGG 0,0038 0,0131 Arg Ala Bảng 3: Kết so sánh thông số q trình dự đốn gene biểu cao Tiêu chí HEG dự đoán HEG-DB Khoảng giá trị CAI 0,689 – 0,879 0,662 – 0,848 Số gene biểu cao 310 253 Số gene mã hóa protein ribosome 44 44 Tỉ lệ gene mã hóa protein ribosome 14,2% 17,4% phiên mã cao 75% gene từ NCBI [giá trị Q1 cột HEG cao Q3 cột NCBI] Điều cho thấy kết dự đoán gene hầu hết thuộc nhóm có độ phiên mã cao Kết tương tự thu so sánh liệu từ HEG-DB với liệu gene từ NCBI So sánh nhóm gene biểu cao dự đốn nhóm gene biểu cao từ CSDL HEG-DB, khoảng tập trung giá trị độ phiên mã gene biểu cao từ CSDL HEG-DB nhỏ hơn, giá trị trung bình trung vị mức độ phiên mã gene từ CSDL HEG-DB cao so với kết nghiên cứu, điều số lượng gene dự đoán nghiên cứu nhiều số gene HEG sở liệu HEG-DB Bằng chứng lấy giá trị độ phiên mã gene từ CSDL HEG-DB so với số lượng tương ứng (253 gene) từ kết dự đoán cho thấy khoảng tập trung giá trị kết từ nghiên cứu (14,373 – 5,469) tập trung so với kết từ HEG-DB (14,373 – 1,692) Tương tự, giá trị trung bình giá trị trung vị từ kết dự đoán (10,584 10,468) cao so với kết 1073 từ HEG-DB (9,712 10,418) Các số liệu độ phiên mã nhóm gene thể phụ lục So sánh số gene tham gia vào đường chuyển hóa Để thu nhận thơng tin đường chuyển hóa mà gene biểu cao dự đoán CSDL HEG-DB tham gia vào, chúng tơi sử dụng CSDL DAVID để tìm kiếm thu nhận gene tham gia vào đường chuyển hóa tế bào Từ kết biểu thị Bảng 4, nhận thấy số gene tham gia vào đường chuyển hóa nhóm gene biểu cao dự đoán 166 gene tham gia vào 22 đường chuyển hóa, nhiều so với nhóm gene biểu cao CSDL HEG-DB 122 gene tham gia vào 16 đường chuyển hóa Vậy nghiên cứu dự đoán gene biểu cao có nhiều gene tham gia vào đường chuyển hóa gene biểu cao CSDL HEG-DB Tiếp theo tiến hành so sánh cụ thể đường chuyển hóa quan trọng tế bào (Hình 4) Đây đường tham gia vào chu trình Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1068-1077 Hình 3: Biểu đồ Boxplot biểu diễn mức độ dao động độ phiên mã nhóm gene E coli NCBI tổng 4021 gene E coli thu nhận từ NCBI có liệu microarray HEG 309/310 gene từ kết dự đoán nghiên cứu (gene ypdK khơng có liệu microarray) HEG-DB 253 gene HEG thu nhận từ CSDL HEG-DB Protein ribosome 68/69 gene mã hóa protein ribosome dùng tham chiếu RP (gene ykgO khơng có liệu microarray) Bảng 4: Kết phân tích gene tham gia vào đường chuyển hóa Tiêu chí Gene biểu cao dự đoán Gene biểu cao từ HEG-DB Tổng số lượng gene 310 gene 253 gene Có liệu CSDL DAVID 306 gene 238 gene Số gene tham gia vào đường chuyển hóa 166 gene 122 gene Số lượng đường chuyển hóa 22 16 chuyển hóa carbon, chuyển đổi lượng cung cấp nguyên liệu tổng hợp DNA, RNA tế bào Vì cần thiết cho sinh trưởng phân chia tế bào vi khuẩn Tám đường chuyển hóa bao gồm: RNA polymerase, Oxidative phosphorylation, Glycolysis, Pentose phosphate pathway, Pyrimidine metabolism, Purine metabolism, TCA cycle (Citrat cycle) Carbon metabolism Kết thể biểu đồ cho thấy gene biểu cao dự đốn có tham gia vào đường chuyển hóa quan trọng Trong đó, gene biểu cao thu nhận từ CSDL HEG-DB tham gia vào 6/8 đường chuyển hóa quan trọng, đường chuyển hóa khơng tham gia là: oxidative phos- phorylation pyrimidine metabolism Cả hai nhóm gene có gene tham gia vào đường chuyển hóa RNA polymerase tổng số gene đường chuyển hóa CSDL DAVID Đối với đường chuyển hóa cịn lại (glycolysis, pentose phosphate pathway, purine metabolism, TCA cycle carbon metabolism), số gene thuộc nhóm gene biểu cao chúng tơi dự đốn tham gia đường nhiều so với nhóm gene biểu cao thu từ CSDL HEG-DB Tóm lại, nhóm gene biểu cao nghiên cứu dự đoán tham gia vào đường chuyển hóa quan trọng nhiều so với kết từ CSDL HEG-DB Từ chứng minh kết dự đoán gene biểu cao nghiên 1074 Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1068-1077 Hình 4: Kết so sánh số lượng gene tham gia đường chuyển hóa quan trọng cứu có độ tin cậy cao xác so với CSDL HEG-DB KẾT LUẬN Nghiên cứu dự đoán gene biểu cao cho chủng E coli K-12 MG1655 phương pháp đề xuất tác giả Puigbò với ngưỡng giá trị CAI tự khảo sát tiêu chí chọn kết tự đề xuất với sử dụng tham chiếu ban đầu dựa liệu độ biểu mRNA bên cạnh tham chiếu đề xuất tác giả dựa gene mã hóa protein ribosome Kết dự đoán với ngưỡng giá trị CAI = 0,689 cho kết thống hoàn toàn hai tham chiếu RP 100-mRNA cho thấy khả ứng dụng tham chiếu dựa liệu mRNA microarray vào dự đoán gene biểu cao Nghiên cứu so sánh kết dự đoán với liệu thu nhận từ CSDL HEGDB cho thấy kết dự đốn có số lượng gene biểu cao nhiều hơn, giá trị CAI cao số lượng gene tham gia vào đường chuyển hóa tổng chuyển hóa quan trọng cao so với liệu từ HEG-DB Mặc dù tiến hành chủng E coli K-12 MG1655 nên cần đánh giá sâu chủng loài khác, kết nghiên cứu giúp chi tiết hóa quy trình dự đốn gene biểu cao từ xác định ngưỡng giá trị CAI đến tiêu chí chọn lọc kết đưa lựa chọn việc chọn tham chiếu ban đầu Bộ gene biểu cao dự đốn có độ tin cậy cao ứng dụng phân tích nghiên cứu sâu ảnh hưởng đặc trưng gene lên độ biểu thiết kế gene 1075 LỜI CẢM ƠN Nghiên cứu tài trợ Đại học Quốc gia Thành phố Hồ Chí Minh [ĐHQG-HCM] khuôn khổ đề tài mã số C2017-18-17 DANH MỤC TỪ VIẾT TẮT HEG: Highly expressed genes [gene biểu cao] CSDL: Cơ sở liệu CAI: Codon adaptation index [chỉ số thích nghi codon] CAM KẾT XUNG ĐỘT LỢI ÍCH Các tác giả tun bố khơng có xung đột lợi ích liên quan đến việc xuất viết ĐÓNG GÓP TỪNG TÁC GIẢ Tác giả Phạm Trung Nghĩa Trương Hà Minh Nhật tiến hành thu nhận xử lý liệu; tác giả Võ Trí Nam tiến hành tất phân tích cịn lại báo; tác giả Trần Linh Thước Nguyễn Đức Hồng định hướng, góp ý nhận xét cho nghiên cứu; tất tác giả xem xét đồng ý với thảo báo TÀI LIỆU THAM KHẢO Yu K, Ang KS, Lee D-Y Synthetic genee design using codon optimization on-line [COOL] Methods Mol Biol 2017;1472:1334;PMID: 27671929 Available from: https://doi.org/10.1007/ 978-1-4939-6343-0_2 Grote A, Hiller K, Scheer M, Münch R, Nörtemann B, Hempel DC, et al JCat: a novel tool to adapt codon usage of a target genee to its potential expression host Nucleic Acids Res 2005 1;33[Web Server issue]:W526-531;PMID: 15980527 Available from: https://doi.org/10.1093/nar/gki376 Tạp chí Phát triển Khoa học Cơng nghệ – Khoa học Tự nhiên, 5(2):1068-1077 Raab D, Graf M, Notka F, Schödl T, Wagner R The GeneeOptimizer Algorithm: using a sliding window approach to cope with the vast sequence space in multiparameter DNA sequence optimization Syst Synth Biol 2010 ;4[3]:215-25;PMID: 21189842 Available from: https://doi.org/10.1007/s11693010-9062-3 Sharp PM, Li WH The codon adaptation index–a measure of directional synonymous codon usage bias, and its potential applications Nucleic Acids Res 1987 11;15[3]:1281-95;PMID: 3547335 Available from: https://doi.org/10.1093/nar/15.3 1281 Gaspar P, Moura G, Santos MAS, Oliveira JL mRNA secondary structure optimization using a correlated stem-loop prediction Nucleic Acids Res 2013;41[6]:e73;PMID: 23325845 Available from: https://doi.org/10.1093/nar/gks1473 Puigbò P, Romeu A, Garcia-Vallvé S HEG-DB: a database of predicted highly expressed genees in prokaryotic complete geneomes under translational selection Nucleic Acids Res 2008;36[Database issue]:D524-527;PMID: 17933767 Available from: https://doi.org/10.1093/nar/gkm831 Karlin S, Mrázek J Predicted highly expressed genees of diverse prokaryotic geneomes J Bacteriol 2000;182[18]:523850;PMID: 10960111 Available from: https://doi.org/10.1128/ JB.182.18.5238-5250.2000 Chi DTK, Lang TV, Hiep HX Dự đoán gene biểu cao cho thiết kế gene dùng tái tổ hợp Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX -Nghiên cứu ứng dụng Công nghệ thông tin [FAIR’9] 2016; Puigbò P, Guzmán E, Romeu A, Garcia-Vallvé S OPTIMIZER: a web server for optimizing the codon usage of DNA sequences Nucleic Acids Res 2007;35[Web Server issue]:W126131;PMID: 17439967 Available from: https://doi.org/10.1093/ nar/gkm219 10 Lewis NE, Cho B-K, Knight EM, Palsson BO Genee Expression Profiling and the Use of Geneome-Scale In Silico Models of Escherichia coli for Analysis: Providing Context for Content Journal of Bacteriology 2009;191(11):3437 PMID: 19363119 Available from: https://doi.org/10.1128/JB.00034-09 11 Huang DW, Sherman BT, Lempicki RA Systematic and integrative analysis of large genee lists using DAVID bioinformatics resources Nat Protoc 2009;4(1):44–57 PMID: 19131956 Available from: https://doi.org/10.1038/nprot.2008.211 12 Huang DW, Sherman BT, Lempicki RA Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large genee lists Nucleic Acids Res 2009;37[1]:113;PMID: 19033363 Available from: https://doi.org/10.1093/ nar/gkn923 1076 Science & Technology Development Journal – Natural Sciences, 5(2):1068-1077 Research Article Open Access Full Text Article Study on predicting highy expressed genes for Escherichia coli based on mRNA microarray data Nam Tri Vo1,2,3 , Trung-Nghia Pham1,3 , Minh-Nhat Truong-Ha1 , Thuoc Linh Tran3,4 , Hoang Duc Nguyen1,3,4,* ABSTRACT Use your smartphone to scan this QR code and download this article Highly expressed genes [HEG] are genes available in the organism, which carry the preferred codons for the expression system Identifying HEG helps to find preferred codons and use them in the gene optimization to express target proteins Currently, HEG-DB is the only database storing HEG data of many strains of microorganisms, but the data is not updated and maintained Therefore, our research is carried out to predict HEG in the E coli K-12 MG1655 strain based on reference sets that are the mostly used ribosomal protein coding genes and genes with high transcription levels from microarray data proposed by the research Next, the results of HEG from the two above reference sets, HEG-RP and HEG-mRNA, were compared Finally, we analyzed and compared the HEG that the project predicted with HEG from HEG-DB database The results from RP and 100-mRNA reference sets were completely identical and were better than data from HEG-DB in the number of HEGs, CAI values and the number of genes contributing to important metabolic pathways The results showed that it was possible to use reference sets from mRNA microarray data instead of ribosomal protein reference sets in HEG prediction Key words: highly expressed genes, Escherichia coli, ribosomal protein, mRNA microarray, CAI Center for Bioscience and Biotechnology, University of Science, VNU-HCMC, Vietnam Laboratory of Molecular Biotechnology, University of Science, VNU-HCMC, Vietnam Vietnam National University, Ho Chi Minh City, VNU-HCM, Vietnam Faculty of Biology -Biotechnology, University of Science, VNU-HCMC, Vietnam Correspondence Hoang Duc Nguyen, Center for Bioscience and Biotechnology, University of Science, VNU-HCMC, Vietnam Vietnam National University, Ho Chi Minh City, VNU-HCM, Vietnam Faculty of Biology -Biotechnology, University of Science, VNU-HCMC, Vietnam Email: ndhoang@hcmus.edu.vn History • Received: 25-8-2020 • Accepted: 22-3-2021 • Published: 30-4-2021 DOI : 10.32508/stdjns.v5i2.945 Cite this article : Vo N T, Pham T, Truong-Ha M, Tran T L, Nguyen H D Study on predicting highy ex-pressed genes for Escherichia coli based on mRNA microarray data Sci Tech Dev J - Nat Sci.; 5(2):1068-1077 1077 ... trung bình cho tất giá trị biểu cho gene Dữ liệu gene biểu cao E coli - K-12 thu nhận từ CSDL HEG-DB Dữ liệu dùng cho bước đánh giá kết dự đốn gene biểu cao phía sau DỰ ĐỐN GENE BIỂU HIỆN CAO Quy... thay cho gene mã hóa protein ribosome để làm tham chiếu ban đầu dự đoán gene biểu cao 1071 So sánh kết dự đoán với liệu từ HEGDB Kết dự đoán gene biểu cao từ nghiên cứu dựa liệu gene E coli cập... số lượng gene biểu cao E coli Trong nghiên cứu này, để chọn lựa kết dự đoán dựa số lượng gene biểu cao trả ra, dựa số lượng gene biểu cao E coli hai công bố: công bố HEG-DB 5% nghiên cứu Karlin