Ruồi giấm Drosophila là một mẫu sinh vật được dùng để nghiên cứu sự phát triển của phôi thai trong sinh học. Zinzen và các cộng sự [71] đề xuất sử dụng phương pháp ChIP (Chromatin Immunoprecipitation) để thu được dữ liệu của yếu tố phiên mã quan trọng của ruồi giấm Drosophila (Twist, TinMan, Mef2, Bagpipe và Biniou) tại 5 thời điểm trong quá trình phát triển phôi. Các dữ liệu được chuẩn hóa và trích được 15 đặc trưng biểu thị tính tích cực của CRM về điều chỉnh gen như được minh họa trong hình 5.1. Sau đó Zinzen dùng cơ sở dữ liệu gồm 310 CRM lấy từ cơ sở dữ liệu REDFly [39] để nghiên cứu sự ảnh hưởng của mối liên kết yếu tố phiên mã trên biểu hiện gen.
Mỗi CRM được xếp vào một nhóm biểu hiện hoạt động: Mesoderm – trung bì, Somatic muscle – cơ soma, Visceral muscle – cơ nội tạng, lần lượt gọi là Meso, SM và VM). Ngoài ra, có một số CRM thuộc loại hỗn hợp như trung bì và cơ soma (gọi là Meso_SM) hoặc cơ soma và cơ nội tạng (gọi là SM_VM). Như vậy, mỗi CMR có thể được xếp vào một trong năm nhóm biểu hiện:
Meso
SM
VM
Meso_SM
SM_VM.
Cơ sở dữ liệu đã nêu được dùng để huấn luyện bộ nhận dạng theo phương pháp SVM để dự đoán hoạt động điều tiết gen thông qua xác định nhãn cho các CMR dựa trên các đặc trưng đã biết.
114
Hình 6.1: Dự đoán hoạt động điều tiết gen dựa trên liên kết phiên mã
Để rõ hơn cách tiếp cận mới, luận án giới thiệu tóm tắt phương pháp của Zinzen và cộng sự đã sử dụng SVM cho bài toán dự đoán điều tiết này.