Bài viết này đề xuất một hướng tiếp cận mới để phân cụm dữ liệu ứng dụng để xác định nhóm các gen có đặc trưng giống nhau về xu hướng sử dụng codon để dự đoán HEG. Các thực nghiệm được triển khai trên hai thuật toán PAM (Partitioning Around Medoids), CLARA (Clustering for Large Applications) cho việc phân cụm dự đoán HEG. Các kết quả thu được cho thấy CLARA vượt trội hơn PAM về thời gian, chất lượng phân cụm.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00017 DỰ ĐOÁN GEN BIỂU HIỆN CAO CHO THIẾT KẾ GEN DÙNG TRONG TÁI TỔ HỢP Dương Thị Kim Chi1, Trần Văn Lăng2, Huỳnh Xuân Hiệp3 Khoa Công nghệ Thông tin, Trường Đại học Thủ Dầu Một Viện Cơ học Tin học ứng dụng, Viện Hàn lâm Khoa học Công nghệ Việt Nam Khoa Công nghệ Thông tin Truyền thông, Trường Đại học Cần Thơ chidtk@tdmu.edu.vn, langtv@vast.vn, hxhiep@ctu.edu.vn TĨM TẮT—Dự đốn gen biểu cao HEG (Highly Expressed Gene) công đoạn quan trọng việc tìm gen tối ưu cho trình tái tổ hợp Các gen biểu cao tế bào thường có xu hướng có đặc trưng tương tự nhau, chủ yếu đặc trưng xu hướng sử dụng codon Bài viết đề xuất hướng tiếp cận để phân cụm liệu ứng dụng để xác định nhóm gen có đặc trưng giống xu hướng sử dụng codon để dự đoán HEG Các thực nghiệm triển khai hai thuật toán PAM (Partitioning Around Medoids), CLARA (Clustering for Large Applications) cho việc phân cụm dự đoán HEG Các kết thu cho thấy CLARA vượt trội PAM thời gian, chất lượng phân cụm Từ khóa— DNA tái tổ hợp, gen B.subtilis, PAM, CLARA, HEG, HSCU (Relative Synonymous Codon Usage) I GIỚI THIỆU Dự đoán gen, phân loại gen để hiểu rõ cấu trúc chức gen phục vụ cho mục đích nghiên cứu sinh học phân tử, chẩn đoán bệnh, sản xuất dược phẩm, cải tạo môi trường, cải tạo giống trồng Một ứng dụng khác phân loại gen quan tâm chọn lựa gen tốt cho công nghệ tái tổ hợp Việc sản xuất protein tái tổ hợp thường bắt đầu việc lựa chọn gen mong muốn, phân lập gen cắt gen enzyme hạn chế Gen tách gắn vào véctơ tạo dòng (plasmid) đưa vào vật chủ, đoạn gen dịch mã thành protein đặc biệt gọi protein tái tổ hợp Để chọn đoạn gen mong muốn, gen phải dự đốn có khả nâng cao biểu gen mục tiêu Gen với đặc tính gọi gen biểu cao HEG Có hai phương án dự đốn HEG sử dụng: Phương án 1: dựa vào số thích nghi codon CAI (Codon Adaptation Index) dùng thống kê để xác định HEG, phương pháp đề xuất Pere Puigbị cộng năm 2007 [4] Có thể tổng quan phương pháp sau: (1) Tính giá trị CAI gen nhóm gen biểu cao thu nhận từ sở liệu HEG-DB (2) Dùng biểu đồ Boxplot thống kê khoảng tập trung giá trị CAI nhằm loại bỏ giá trị cá biệt (3) Thực dự đoán gen biểu cao với giá trị ngưỡng CAI khoảng tập trung giá trị CAI từ bước 2, khoảng cách giá trị khảo sát 0,05 (4) Đánh giá kết dự đoán gen biểu cao để chọn ngưỡng CAI thích hợp theo hai tiêu chí: - Số lượng gen biểu cao: khoảng 5% số gen gen - Độ nhạy (sensitive): Tỉ lệ số gen mã hóa cho Protein Ribosome tập gen biểu cao dự đoán tổng số gen mã hóa cho Protein Ribosome Phương án 2: dựa vào số sử dụng codon đồng nghĩa RSCU (Relative Synonymous Codon Usage) [5] gen phân cụm gen dựa tiêu chí Các gen biểu cao tế bào thường có xu hướng có đặc trưng tương tự nhau, chủ yếu đặc trưng xu hướng sử dụng codon Phương pháp dựa gen vốn biết HEG, đặt tên “kernel”, khái quát phương pháp sau: (1) Tính RSCU cho gen (2) Áp dụng thuật tốn phân cụm liệu tìm bước (1), hình thành cụm tìm nhân “kernel mới” (3) Đánh giá nhóm phân cụm có nhiều kernel chứng tỏ nhóm gần với kernel Do đó, nhóm có khả cao HEG Bài viết tiếp cận theo phương án để tìm HEG, thuật tốn chọn để áp dụng PAM CLARA để phân cụm liệu nhằm tìm HEG cho trình thiết kế gen cho tái tổ hợp Các phần lại viết bao gồm: phần giới thiệu toán tìm HEG, cách tính số RSCU độ đo dùng thuật toán phân cụm, phần giới thiệu hai thuật toán PAM CLARA thực nghiệm, phần trình bày kết thực nghiệm gen B.subtilis cuối phần kết luận Dương Thị Kim Chi, Trần Văn Lăng, Huỳnh Xn Hiệp 135 II BÀI TỐN TÌM HEG Bài tốn tìm HEG cho thiết kế gen tái tổ hợp DNA tái tổ hợp: DNA tái tổ hợp phân tử DNA tạo thành từ hai hay nhiều trình tự DNA loài sinh vật khác Trong kỹ thuật di truyền, DNA tái tổ hợp thường tạo thành từ việc gắn đoạn DNA có nguồn gốc khác vào véctơ tách dòng Những véctơ tách dịng mang DNA tái tổ hợp biểu hành protein tái tổ hợp sinh vật [7] Codon đồng nghĩa (Synonymous Condon) Cơ sở khoa học việc chọn lựa gen biểu cao dựa tượng codon đồng nghĩa Một codon gồm ba nucleotide, nên có 43 = 64 codon Nhưng có 20 amino acid, nên amino acid mã hóa hai codon khác nhau, codon gọi codon đồng nghĩa [9] Ví dụ: Như minh họa hình 1- đóng khung đỏ, Amino acid Ala (hay A) có bốn codon đồng nghĩa GCA, GCC, GCG, GCU Hình Minh họa codon đồng nghĩa Codon hiếm: Trong q trình tiến hóa, lồi khác có tính thiên vị với loại mã ba định số codon đồng nghĩa mã hóa cho amino acid Do codon ưu tiên sử dụng loài lại trở thành codon lồi khác Ví dụ tần suất sử dụng AGG, AGA mã hoá cho Arg người 11,2%, đó, giá trị E coli 2,1% 2,4% [8] Chỉ số sử dụng codon đồng nghĩa RSCU: Chaperon protein giúp hỗ trợ phân tử peptide gấp cuộn xác để tạo thành protein có hoạt tính Các protein thường tồn tế bào với số lượng lớn Cả ribosomal chaperone protein gen HEG có xu hướng sử dụng codon cao [5,11] Ý tưởng việc dự đốn HEG dựa HEG có quan hệ gần gũi nhau, gen lại khơng Đặc trưng cho gen sử dụng số RSCU codon gen [4]: ( ) (1) ̅̅̅̅̅ ∑ Trong đó: rac: RSCU codon c mã hoá cho amino acid a Oac: tần suất xuất codon c trình tự gen; Ca: tập hợp codon mã hoá cho amino acid a; Ka: số lượng loại codon c mã hóa cho amino acid a Các gen biểu cao tế bào thường có xu hướng có đặc trưng tương tự nhau, chủ yếu đặc trưng xu hướng sử dụng codon Do đó, phương pháp phân cụm liệu ứng dụng để xác định nhóm gen có đặc trưng giống xu hướng sử dụng codon nhằm dự đốn HEG Bên cạnh đó, việc tính tốn RSCU cho codon kết thúc (UAA,UGA,UGA) codon khơng có codon đồng nghĩa (AUG – mã hóa cho Methionine, UGG – mã hóa cho Trytophan) khơng cần thiết Do đó, gen biểu diễn lại véctơ RSCU 59 chiều có dạng sau: r(g)={ r1, r2, r3…r59}T (2) Hình mơ tả cho việc biểu diễn tập gen tập RSCU Hình Minh họa cho biểu diễn gen với RSCU Bài tốn tìm HEG Trong học máy, phép phân tích cụm thường dựa học khơng giám sát Khơng giống phân loại, phân cụm không dựa lớp định nghĩa trước mẫu liệu huấn luyện gắn nhãn lớp [6] Nguyên tắc DỰ ĐOÁN GEN BIỂU HIỆN CAO CHO THIẾT KẾ GEN DÙNG TRONG TÁI TỔ HỢP 136 phân cụm cho độ giống cụm cao độ giống cụm thấp [6] Do viết chọn phương pháp phân hoạch để phân cụm với mục đích chọn nhóm gen có xu hướng sử dụng codon vào nhóm chọn HEG có khuynh hướng gần nhân nhóm Độ đo khoảng cách Ma trận liệu: Tập liệu phân cụm n gen biểu diễn p biến RSCU gen tập liệu cấu trúc có dạng bảng quan hệ, hay ma trận n x p với n gen; p biến gọi phép đo hay thuộc tính Tập liệu gen biểu diễn lại ma trận liệu có dạng: (3) [ ] Ma trận phân biệt: Để biểu diễn khoảng cách hai gen không gian liệu gồm n gen theo thuộc tính RSCU ta dùng ma trận phân biệt: ( ( ) ) ( ) [ ( ) ( ) (4) ] d(i, j) khoảng cách gen i gen j; khoảng cách tính theo công thức (5) Độ đo khoảng cách Euclidean [11]: ( ) √(| | | | | | ) (5) Chỉ số Silhouette Giả sử HEG chia thành k cụm Với cụm gen i, đặt: - a(i) khoảng cách trung bình từ i tới tất gen cụm với i - b(i) khoảng cách trung bình ngắn từ i tới cụm không chứa i Cụm tương ứng với b(i) gọi cụm hàng xóm i Khi số Silhouette s(i) định nghĩ sau: () () () * ( ) ( )+ (6) Với số s(i) nằm đoạn [-1,1] cho thấy s(i) gần gen I phù hợp với cụm mà phân vào, s(i) = xác định gen i nên thuộc cụm cụm cụm hàng xóm nó, s(i) gần -1 chứng tỏ i bị phân sai cụm, nên thuộc cụm hàng xóm khơng phải cụm III THUẬT TỐN PAM VÀ CLARA TRONG THỰC NGHIỆM Các phương pháp phân chia tiếng thường dùng k-means (MacQueen 1967), k-medoids (Kaufman Rousseew 1987) dạng biến đổi chúng [6] Đối với phương pháp k-means thường áp dụng trung bình cụm xác định Đối với số gen có loại codon có codon khơng sử dụng tất tập gen nên gây khó khăn cho việc tính trung bình cụm Hơn nữa, nhạy cảm với điểm liệu nhiễu vào outlier, số lượng nhỏ liệu có ảnh hưởng tới giá trị trung bình Nên chọn lựa PAM hay CLARA vào toán dự đốn HEG có thuận lợi định A Thuật toán PAM PAM (partition around medoids) - phân chia xung quanh medoid – trung tâm: Đây giải thuật phân cụm kiểu k-medoids Tìm k cụm n gen cách: trước tiên tìm gen đại diện gp hay PHEG (Predicted Highly Expressed Gene) hay medoid cho cụm Tập medoid ban đầu lựa chọn tuỳ ý Sau lặp lại thay số medoid số đối tượng medoid miễn tổng khoảng cách kết phân cụm cải thiện [6] Gọi gp gọi gen mediod Gọi gi: gen khác với gp ( i = n ) Thuật toán PAM Đầu vào: Tập hợp chuỗi gen G = {g1,g2,…,gn}, số cụm k Đầu ra: Tập hợp gen phân vào k cụm (1) Chọn tùy ý k gen giữ vai trò gp ban đầu (2) Lặp lại Dương Thị Kim Chi, Trần Văn Lăng, Huỳnh Xuân Hiệp 137 Với gp Lần lượt xét gen gi khơng gp Tính S độ lợi hoán đổi gp với gi S = Egp - E1gi (4) If S < then hoán vị gi với gp (5) Cho đến không thay đổi gi với gp (3) B Thuật toán CLARA Đối với gen lớn việc dùng PAM để phân cụm tốn thời gian chất lượng phân cụm thấp quan trọng khó xác định tập HEG; thuật toán CLARA khắc phục nhược điểm thuật toán PAM trường hợp CLARA tiến hành trích mẫu cho tập liệu có n phần tử, áp dụng thuật tốn PAM cho mẫu tìm đối tượng trung tâm medoid cho mẫu trích từ liệu Nếu mẫu liệu trích theo cách ngẫu nhiên, medoid xấp xỉ với medoid toàn tập liệu ban đầu Để tiến tới xấp xỉ tốt hơn, CLARA đưa nhiều cách lấy mẫu thực phân cụm cho trường hợp, sau tiến hành chọn kết phân cụm tốt thực phân cụm mẫu Để đo xác, chất lượng cụm đánh giá thông qua độ phi tương tự trung bình tồn đối tượng liệu tập đối tượng liệu ban đầu [6] Sau thuật toán CLARA: Gọi S kích thước mẫu trích từ tập gen G = {g1, g2, …, gn}, đó: k: số cụm, n: số gen S: tập hợp gen đưa vào cụm Thuật toán CLARA Đầu vào: Tập hợp chuỗi gen G = {g1, g2,…, gn}, số cụm k Đầu ra: Tập hợp gen phân vào k cụm (1) For i = to S (2) Lấy mẫu có Sj gen ngẫu nhiên từ tập liệu G Áp dụng thuật toán PAM cho mẫu liệu nhằm để tìm gen medoid đại diện cho cụm (3) Đối với đối tượng tập liệu ban đầu, xác định gen medoid tương tự số k đối tượng medoid (4) Tính độ phi tương tự trung bình cho phân hoạch đối tượng thu bước trước Nếu giá trị bé giá trị tối thiểu thời sử dụng giá trị thay cho giá trị tối thiểu trạng thái trước, vậy, tập k đối tượng medoid xác định bước tốt thời điểm (5) EndFor IV THỰC NGHIỆM Bài viết sử dụng phần mềm Rstudio gói thư viện Cluster có chứa thuật tốn PAM CLARA Thuật toán thử nghiệm máy tính cá nhân có RAM GB, Intel Core i3 Tiến hành thực nghiệm liệu B.Subtilus mô tả với tùy chọn k = đến ˆ = 12 cho hai thuật toán PAM CLARA Kết phân cụm thu từ hai thuật toán sau: A Thu nhận, xử lý số liệu thực nghiệm Bên cạnh E.coli, vi khuẩn chủng Bacillus subtilis gọi B.subtilis số hệ thống biểu quan tâm nghiên cứu sử dụng lĩnh vực sản xuất protein tái tổ hợp Hiện nay, hệ thống biểu B subtilis thu hút nhà nghiên cứu thuộc lĩnh vực protein tái tổ hợp tính an toàn sử dụng trực tiếp lĩnh vực y dược, mỹ phẩm trình thực nghiệm Q trình chuẩn bị liệu mơ tả sau: (1) Bộ gen B.subtilis tải từ NCBI (2) Tách thành gen (số lượng 4062) (5)Tạo bảng liệu gồm : - số gen n: 3543 dòng - số chiều : 59 cột (4)Tính số RSCU gen (3) Xử lý liệu thu nhận u được: 3543 Hình Quy trình xử lý liệu tổng quát Egp, Egi giá trị hàm mục tiêu trước sau thay gp gi E=∑ Cơng thức tính (5) ∑ ( ) DỰ ĐOÁN GEN BIỂU HIỆN CAO CHO THIẾT KẾ GEN DÙNG TRONG TÁI TỔ HỢP 138 Dữ liệu sau tải từ ngân hàng gen quốc tế NCBI, tách thành gen, loại bỏ gen không bắt đầu codon khởi đầu phiên mã (ATG, GTG, TTG) gen có chiều dài khơng phải bội số ba để thu nhận tập gen có khả HEG Số lượng mẫu thu 3543 gen Từ trình tự thu gen tính RSCU cho gen, tạo bảng liệu cho mẫu gồm 3543 gen 59 codon mơ tả B Áp dụng thuật tốn PAM, CLARA cho liệu B Subtilus Các tiêu chí để nhận dạng chất lượng thuật toán phân cụm dựa vào việc đánh giá chọn kết gom cụm tối ưu như: Độ nén (compactness) đối tượng cụm nên gần có nghĩa gen cụm nên gần điều thể qua số Silhouette (Silhouette Index) cho ước lượng tính chia cắt chặt phân chia cụm Độ phân tách (separation): Tiêu chí cho cụm nên xa Ngồi cịn có tham số khác để so sánh mức độ hiệu phân cụm như: hàm mục tiêu, thời gian thực thi thuật toán So sánh hàm mục tiêu Áp dụng PAM, CLARA cho với k = đến k = 12, thu hai cụm với số lượng tương đồng với độ Chất lượng phân cụm đánh giá thông qua hàm mục tiêu, chất lượng phân cụm tốt hàm mục tiêu đạt giá trị tối thiểu Như thống kê hình bảng số liệu bảng 1, ta thấy giá trị hàm mục tiêu cụm giảm dần, hai đạt giá trị phân nhóm k = 8, k = 12 Bảng Bảng thống kê giá trị hàm mục tiêu cuả hai thuật tốn PAM CLARA Nhóm k2 k3 k4 k5 k6 k7 k8 Thuật toán 604.4944 315.5504 270.2221 225.8861 194.2379 164.3636 152.7764 PAM 464.702 320.3063 258.0315 219.5571 193.5844 168.9772 155.3532 CLARA k9 k10 k11 k12 142.1114 132.9562 124.7681 120.5503 148.2193 142.772 132.9559 125.8634 Thống kê số hàm mục tiêu k nhóm với PAM - CLARA 800 600 400 build_Pam 200 build_Clara k2 k3 k4 k5 k6 k7 k8 k9 k10 k11 k12 Hình Thống kê số hàm mục tiêu ứng với số phân nhóm k hai thuật toán Thời gian thực thi PAM-CLARA liệu B.subtilis Tiêu chí thời gian thực nghiệm quan tâm chọn lựa thuật tốn áp dụng tính tốn với liệu lớn Qua thực nghiệm nhận thấy áp dụng CLARA gen B Subtilis gần thực tức đồng tham số k (xem bảng 2) Khi áp dụng PAM lên liệu gen B Subtilis có thay đổi thời gian thực biến thiên theo xu hướng tăng theo k (xem hình 5) Bảng Thống kê thời gian thực thi PAM CLARA tập gen B Subtilis Nhóm k2 k3 k4 k5 k6 k7 k8 k9 k10 k11 k12 PAM 2 10 12 13 18 19 24 21 27 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 CLARA 0.5 Thời gian thực liệu B.Subtilis PAM - CLARA thời gian (s) 30 20 Pam 10 clara k2 k3 k4 k5 k6 k7 k8 k9 k10 k11 k12 Hình Thống kê thời gian thực thi PAM-CLARA Dương Thị Kim Chi, Trần Văn Lăng, Huỳnh Xuân Hiệp 139 Chỉ số Silhouette (Silhouette Index)[4] Nằm nhóm độ đo đánh giá nội (internal validation measures) [10], với k = 8, ta thấy PAM cho kết tốt cụm với số silhouette s(i)3 đạt cao có nghĩa giá trị gen cụm tương đồng nhất, có khả tìm HEG gần tâm hai cụm nhiều (xem hình 6) Hình Minh họa thơng số Silhouette PAM với k = Với thơng tin hình 7, cung cấp góc nhìn tổng quan hình dạng cụm qua thông số số lượng gen cụm số Silhouette trung bình cụm với thuật tốn PAM Những thơng tin hỗ trợ việc định chọn giá trị k phù hợp cho việc phân cụm Theo thực nghiệm cho thấy kết phân cụm ổn định với k = 11, thời gian thực thi với thấp so với k = 10, k = 12 (xem bảng 2) Series1 2000 Series2 Series3 1500 Series4 1000 Series5 Series6 500 Series7 Series8 Series9 K11size K12 Series10 K11size k2 k2size k3 k3size k4 k4size k5 k5size k6 k6size k7 k7size k8 k8size k9 k9size k10 k10size k11 Số lượng gen nhóm Hình dáng phân cụm với độ rộng cụm tham số Silhouette PAM Series11 Series12 Hình Minh họa hình dáng tổng quan cụm qua thông số Silhouette PAM với k=2 đến k=12 Bài viết tiến hành thống kê tương tự cho thực nghiệm với CLARA thu kết hình Với CLARA chất lượng cụm cải tiến rõ nét chất số lượng cho cụm số Silhouette tốt tập trung k = 7, k = Giá trị cao tham số đạt cao tập số Silhouette PAM CLARA Bên cạnh HEG tốt đề xuất CLARA có xu hướng hội tụ với hai giá trị k (xem hình 9) với số lượng HEG thu giống 90% s(i) tính cơng thức DỰ ĐỐN GEN BIỂU HIỆN CAO CHO THIẾT KẾ GEN DÙNG TRONG TÁI TỔ HỢP 140 Bảng Thống kê độ rộng cụm số Silhouette cụm với k = 7, k = CLARA STT size_k7 Sil_k7 size_k8 Sil_k8 509 0.5405087 449 0.6346691 451 0.7187359 425 0.6254570 584 0.4536771 562 0.5724334 490 0.5168400 355 0.5705324 469 0.4569732 476 0.5089383 490 0.5226611 493 0.3738123 50 0.4344639 459 0.4973842 324 0.3717753 Hình hình dạng cụm qua thơng số số lượng gen cụm số Silhouette cụm với thuật tốn CLARA Với thơng tin nhận từ thống kê ta thấy chất lượng phân cụm với CLARA ổn định với k = 6, k = 7, k = với số HEG thu ba tập giống 90% số Silhouette có giá trị cao Hình dáng phân cụm với độ rộng cụm số Silhouette Với CLARA Số gen cụm Series1 2000.00 Series2 1500.00 Series3 Series4 1000.00 Series5 500.00 Series6 0.00 Series7 Series8 Series9 Series10 Hình Minh họa hình dáng tổng quan cụm qua thông số Silhouette CLARA với k=2 đến k=12 (a) HEG với k=7 (b) HEG với k=8 Hình Hình dáng gen dự đốn HEG tốt với k = 7, k = thuật tốn CLARA Hình 10 minh chứng khác để khẳng định hiệu việc áp dụng thuật toán CLARA so với PAM Dương Thị Kim Chi, Trần Văn Lăng, Huỳnh Xuân Hiệp 141 So sánh số average silhouette PAM CLARA với k = đến k = 12 0.8 0.6 0.4 0.2 clarak12 pamk12 pamk11 clarak11 clarak10 pamk10 clarak9 pamk9 clarak8 pamk8 clarak7 pamk7 pamk6 clarak6 clarak5 pamk5 clarak4 pamk4 clarak3 pamk3 clarak2 pamk2 Hình 10 Minh họa hình dáng tổng quan cụm qua thông số Silhouette CLARA với k = đến k = 12 Và theo thống kê từ liệu cơng bố gen HEG-DB tỉ lệ HEG gen thường vào khoảng 5% [11] Như áp dụng thuật toán PAM với tùy chọn k = đến 12, cho chất lượng phân cụm tốt với k = 12 Nhưng thuật toán khơng giá trị cụ thể HEG Và thời gian thực thi liệu B.Subtilus cho kết chậm khoảng 20 lần với k = 12 so với thuật toán CLARA Bên cạnh ưu điểm tốc độ thực phân cụm CLARA đề xuất kết mẫu tốt HEG với k = 54 Nếu nâng giá trị k lên k = 75, số gen tốt đề nghị 190 tổng số 3543 gen chiếm khoảng 5,3% cho phù hợp với số lượng HEG cần tìm Hình 11 Minh họa kết thực nghiệm tìm HEG CLARA với k=75 V KẾT LUẬN Bài báo trình bày cách thức thiết kế gen tái tổ hợp, việc tìm HEG công đoạn quan trọng để thiết kế gen tái tổ hợp đạt hiệu cao Cả ribosomal gen chaperone protein gen HEG có xu hướng sử dụng codon cao Nên việc phân nhóm loại gen dựa đặc tính sử dụng condon tương đồng RSCU chọn để việc xác định gen có khả HEG Dựa vào tập liệu HEG này, báo áp dụng hai thuật toán phân cụm PAM CLARA để phân hoạch tìm gen có xu hướng gần gũi để gom vào cụm từ cụm để dự đoán HEG Bằng thực nghiệm với k = 10 đến k = 11 PAM giá trị độ lớn nhóm khơng thay đổi lớn dịch chuyển vị trí mediod hàm mục tiêu giảm chậm Trong viết chọn k = 11 cho việc biểu diễn kết phân cụm gen Đối với CLARA gian thực nghiệm liệu giảm rõ rệt khoảng 20 lần so sánh với PAM chọn giá trị k = 11 Chất lượng phân cụm thời gian thực thi CLARA tốt tập liệu B.subtilis, CLARA thuật tốn khuyến khích nên áp dụng cho tốn tìm HEG VI TÀI LIỆU THAM KHẢO [1] Menzella, H.G., "Comparison of two codon optimization strategies to enhance recombinant protein production in Escherichia coli", Microbial cell factories, 2011 [2] The R Development Core Team, "R: A Language and Environment for Statistical Computing", 2014 [3] Gupta, S., "Project report Codon optimization", 2003 [4] Pere Puigbo, E.G., Antoni Romeu1 and Santiago Garcia-Vallve, "A web server for optimizing the codon usage of DNA sequences" Nucleic Acids Research, p W126–W131, 2007 142 DỰ ĐOÁN GEN BIỂU HIỆN CAO CHO THIẾT KẾ GEN DÙNG TRONG TÁI TỔ HỢP [5] Sharp, P M, Tuohy, TM, Mosurski, K R, "Codon usage in yeast: cluster analysis clearly differentiates highly and lowly expressed gene", Nucleic Acids Res , 1987 [6] Jiawei HanUniver sity of Illinois, Micheline Kamber Jian Pei, "Data Mining Concepts and Techniques"., Elsevier, p 443-494, 2012 [7] N A.CampBell, J.B.R.y., L.A Urry, M L C, Rain, S A.Wasserman, P.V.Minorsky, R.B Jackson, "Sinh Học", GDVN, p 1015, 2014 [8] Võ Viết Cường , L T H., Đỗ Thị Huyền, Lê Quỳnh Giang, Nguyễn Thị Quý, Trương Nam Hải, "Biểu gen ha5.1 cải biến mã có hoạt tính sinh học nấm men pichia pastoris x3" Tạp chí sinh học, p 35, 2013 [9] A Carbone, A Zinovyev, and F Képès, "Codon adaptation index as a measure of dominating codon bias" Oxford University Press, 2003 [10] Y Liu, Z Li, H Xiong, X Gao, J Wu "Understanding of internal clustering validation measures'' In: Proc of the 2010 IEEE International Conference on Data Mining, pp 911-916, 2010 [11] Puigbò, P., Guzmán, E., Romeu, A and Garcia-Vallvé, S “OPTIMIZER: a web server for optimizing the codon usage of DNA sequences”, Nucleic Acids Research, 35(suppl 2), W126–W131,(2007) PREDICTING HIGH EXPRESSION GENE FOR RECOMBINANT DNA DESIGN Duong Thi Kim Chi, Tran Van Lang, Huynh Xuan Hiep ABSTRACT— Predicting high expression gene HEG (Highly Expressed Gene) is an important step in finding the optimal gene recombination process The high expression gene in normal cells tend to have similar characteristics, mainly featured on codon usage trends This article proposes a new approach to clustering application data to identify groups of genes with similar characteristics on codon usage trends to predict HEG The experiment was deployed on two algorithms PAM (Partitioning Around Medoids), CLARA (Clustering for Large Applications) for clustering predicted HEG The results showed that beter CLARA than PAM on time, the quality of clustering ... tốn tìm HEG cho thiết kế gen tái tổ hợp DNA tái tổ hợp: DNA tái tổ hợp phân tử DNA tạo thành từ hai hay nhiều trình tự DNA loài sinh vật khác Trong kỹ thuật di truyền, DNA tái tổ hợp thường tạo... liệu tổng quát Egp, Egi giá trị hàm mục tiêu trước sau thay gp gi E=∑ Cơng thức tính (5) ∑ ( ) DỰ ĐOÁN GEN BIỂU HIỆN CAO CHO THIẾT KẾ GEN DÙNG TRONG TÁI TỔ HỢP 138 Dữ liệu sau tải từ ngân hàng gen. .. trước mẫu liệu huấn luyện gắn nhãn lớp [6] Ngun tắc DỰ ĐỐN GEN BIỂU HIỆN CAO CHO THIẾT KẾ GEN DÙNG TRONG TÁI TỔ HỢP 136 phân cụm cho độ giống cụm cao độ giống cụm thấp [6] Do viết chọn phương pháp