Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
654,93 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HOÀNG VĂN THÀNH XÁC ĐỊNH ĐOẠN ĐIỀU HỊA GEN TRÊN TRÌNH TỰ ADN BẰNG PHƯƠNG PHÁP TÍNH TỐN Chun ngành: Mã số: Khoa học máy tính 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Từ Minh Phương Phản biện 1: …………………………………………………………………… ………………………………………………………………………………… Phản biện 2: …………………………………………………………………… ………………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Trải qua nhiều thập kỉ, khoa học máy tính có bước phát triển vượt bậc Ngày nay, khoa học máy tính khám phá khả lĩnh vực đầy hứa hẹn tin sinh học Sinh học nguyên lý liên quan vùng đất màu mỡ để nhà nghiên cứu tiếp tục đào sâu tìm hiểu Tin sinh học hay sinh học tính tốn liên quan đến việc sử dụng kỹ thuật từ toán học ứng dụng, tin học, thống kê… để giải vấn đề sinh học Một số mảng nghiên cứu phát triển phân tích chuỗi, phân tích biểu diễn gen, dự đoán cấu trúc ADN protein, thuật toán dùng cho tin sinh học… Công nghệ sinh học phân tử đại cho phép thu thập nhiều loại liệu, thơng tin liên quan tới gen protein Có vấn đề đặt sau xác định chức gen, phát gen có nằm chuỗi ADN, làm để ta xác định hoạt động hay không? Đây vấn đề sinh học, có vai trị quan trọng việc tìm hiểu chế hoạt động trình sinh học Một tác nhân quan trọng tác động lớn đến hoạt động gen vùng tăng cường Vì vậy, tốn xác định hoạt động gen đưa toán nhỏ xác định chuỗi ADN chứa gen có chứa vùng tăng cường tương ứng hay khơng Nhưng làm để tìm vùng tăng cường tương ứng với gen? Công việc này, trước đây, thực thơng qua q trình thực nghiệm Phương pháp xác, nhiên, chậm tốn nhiều công Đặc biệt với tình hình nay, mà số lượng gen tìm ngày nhiều, yêu cầu đặt cần tìm phương pháp nhanh rẻ hơn, phương pháp tính tốn (tin sinh học) phương pháp đáp ứng yêu cầu Đã có nhiều phương pháp tính tốn đưa để giải tốn, phương pháp có ưu điểm, nhược điểm riêng Luận văn tập trung nghiên cứu nhóm phương pháp sử dụng máy vector hỗ trợ định SVM để xác định vùng tăng cường (enhancer) từ trình tự ADN động vật bậc cao Do đặc trưng SVM, ta áp dụng hàm kernel khác kết trả khác Luận văn nghiên cứu số phương pháp để xây dựng hàm kernel dùng để biểu diễn trình tự ADN sử dụng với SVM thử nghiệm số liệu thực Phương pháp đề xuất có kết tốt, cho phép cải thiện độ xác so với phương pháp có Các kết cơng bố báo “Enhancer prediction using distance aware kernels” Bài báo chấp nhận đăng kỷ yếu hội nghị RIVF 2013 diễn vào tháng 11/2013 3 CHƯƠNG 1: CÁC KHÁI NIỆM VÀ VẤN ĐỀ LIÊN QUAN ĐẾN BÀI TOÁN XÁC ĐỊNH VÙNG TĂNG CƯỜNG Nội dung chương giới thiệu khái niệm tin sinh học liên quan đến toán xác định vùng tăng cường hoạt động gen, điều hòa hoạt động gen, nhân tố phiên mã (transcription factor), vùng tăng cường (enhancer) trình bày nhóm phương pháp tìm kiếm vùng tăng cường có 1.1 Các khái niệm 1.1.1.Sự hoạt động gen Các gen đơn vị mang thông tin di truyền sinh vật Tùy vào loại tế bào điều kiện môi trường cụ thế, gen hoạt động hay khơng hoạt động Sự hoạt động gen trình tổng hợp thành sản phẩm gen từ thông tin mã hóa gen Các sản phẩm gen thường protein, tồn gen khơng mã hóa thông tin cho protein rARN, tARN hay snARN, sản phẩm gen ARN chức Quá trình hoạt động gen bao gồm giai đoạn phiên mã giải mã Phiên mã q trình chép thơng tin di truyền mã hố dạng trình tự nucleotide gen thành dạng trình tự ribonucleotide ARN thơng tin (mARN) để mARN trực tiếp thực chức truyền đạt thông tin di truyền đến cấu trúc phân tử protein q trình giải mã nhờ mà tổng hợp protein đặc thù cho gene Còn trình dịch mã, tế bào phải “phiên dịch” trình tự bazơ phân tử mARN thành trình tự axit amin chuỗi polypeptit Vị trí diễn dịch mã ribosome; phức hệ dạng hạt tạo điều kiện thuận lợi cho kết nối axit amin theo trật tự định để hình thành nên chuỗi polypeptit Sau đó, từ chuỗi polypeptit này, tạo thành protein đơn giản (chỉ bao gồm chuỗi polypeptit) protein phức tạp (ngồi chuỗi polypeptit cịn có thêm số thành phần phi protein như: axit nucleic, lipit, cacbonhidrat) 1.1.2.Điều hòa hoạt động gen Sự hoạt động gen khác tế bào Đây kết trình gọi điều hịa hoạt động gen Q trình định phát triển phản ứng gen mơi trường Ở q trình phiên mã, hoạt động gen bị điều khiển nhân tố phiên mã (transcription factor – TF) Các TF tác động đến gen dựa vào việc nhận diện chuỗi nucleotide đặc trưng gen đó, chuỗi nucleotide gọi mơ típ Những mơ típ gọi với tên chung vùng liên kết nhân tố phiên mã (transcription factor binding site – TFBS) Các TFBS thường có vị trí gần chuỗi ADN Những TFBS gần gen mà tác động gọi module điều hịa phía (cis-regulatory module – CRM), cịn TFBS xa gen gọi vùng tăng cường (enhancer) Chính xác hơn, ta xem vùng tăng cường CRM tăng cường khả hoạt động gen từ xa Việc xác định vùng tăng cường giải mã quy luật liên quan đến chức cung cấp cho ta thơng tin cần thiết để lý giải cách thức điều hòa hoạt động gen diễn tế bào 1.1.3.Nhân tố phiên mã (transcription factor) Nhân tố phiên mã (TF) thành phần quan trọng q trình điều hịa hoạt động gen giai đoạn phiên mã Chúng thường protein, bao gồm đoạn ARN ngắn, khơng mã hóa Những TF có liên quan đến thường nhóm lại thực tương tác lẫn để điều khiển trình phiên mã theo mức độ khác Các gen ln có vùng có mơ típ đặc trưng riêng biệt (được gọi chung CRM) nhận diện nhiều loại TF Các TF liên kết, tác động lên loạt TF khác tạo thành chuỗi tác động phức tạp Cuối tác động đến enzim ARN polymerase, từ bắt đầu (hoặc gây ức chế) trình phiên mã 5 1.1.4.Vùng tăng cường (enhancer) Vùng tăng cường (enhancer) đoạn ADN ngắn liên kết với TF để tăng cường khả phiên mã gen nhóm gen (gene cluster – tập gồm hai nhiều gen dùng để mã hóa sản phẩm (sản phẩm gen gồm protein ARN) giống tương tự nhau) Nhưng khác với CRM khác, vùng tăng cường không cần phải vị trí gần với gen mà tác động đến, chí số trường hợp cịn khơng nằm sợi nhiễm sắc thể 1.2 Các nhóm phương pháp xác định vùng tăng cường Để xác định vùng tăng cường, ta dựa vào ràng buộc mặt khơng gian (nghĩa vùng tăng cường phải gần vùng ADN khác liên kết với nó) ràng buộc mặt hệ thống loài (nghĩa vùng tăng cường tồn nhiều lồi có mối liên quan chặt chẽ đến nhau) Hiện có nhiều phương pháp đưa để tìm kiếm vùng tăng cường Những phương pháp chia cách tương đối thành nhóm sau: phân nhóm cửa sổ (windows clustering), mơ hình xác suất (probabilistic modeling), dựa vào mơ hình hệ thống sinh vật (phylogenetic footprinting) mơ hình phân biệt (discriminative modeling) 1.3 Kết luận chương Ở chương 1, luận văn giới thiệu khái niệm tin sinh học liên quan đến toán xác định vùng tăng cường hoạt động gen, q trình điều hịa hoạt động gen, yếu tố ảnh hưởng đến điều hịa q trình phiên mã nhân tố phiên mã (transcription factor), vùng tăng cường (enhancer) trình bày nhóm phương pháp tìm kiếm vùng tăng cường có Trong nhóm phương pháp nhóm phương pháp mơ hình phân biệt có điểm trội so với nhóm phương pháp khác Chính thế, phương pháp đề xuất luận văn thuộc nhóm tương tự với phương pháp trình bày [3] [5] có sử dụng thêm thơng tin vị trí vùng tăng cường chuỗi liệu xây dựng hàm kernel, từ giúp cho kết thu có độ xác cao 6 CHƯƠNG 2: PHƯƠNG PHÁP XÁC ĐỊNH VÙNG TĂNG CƯỜNG DỰA TRÊN SVM Nội dung chương nói nhóm phương pháp xác định vùng tăng cường dựa máy vector hỗ trợ định SVM, giới thiệu hàm kernel sử dụng để giải toán đề xuất cách xây dựng hàm kernel hàm kernel dựa entropy hàm kernel phân cấp (hierarchical kernel) để đạt kết tối ưu 2.1 Phương pháp xác định vùng tăng cường dựa SVM 2.1.1 Giới thiệu SVM 2.1.2 Giới thiệu hàm kernel SVM 2.1.3 Phương pháp xác định vùng tăng cường dựa SVM SVM phương pháp học máy đánh giá cao sử dụng rộng rãi nhiều lĩnh vực khác Điểm mạnh phương pháp tính xác linh hoạt, làm việc với nguồn loại liệu khác nhau, chí với liệu không biểu diễn dạng vector đặc trưng Điều thực hữu ích chuỗi gen sinh vật thường liệu không biểu diễn dạng vector Đối với phương pháp xác định vùng tăng cường dựa SVM, toán đưa dạng toán phân loại nhị phân, nghĩa xác định xem chuỗi ADN vùng tăng cường hay không dựa vào phân loại huấn luyện trước Lúc này, phân loại kiểm tra chuỗi gen đầu vào xác định chuỗi vùng tăng cường mà ta cần tìm kiếm Như giới thiệu trên, trình tìm phân loại dựa vào SVM, q trình ta định nghĩa hàm kernel 𝐾(𝑥, 𝑦) tính độ tương tự hai đối tượng x y Hàm kernel định nghĩa nên phản ánh miền tri thức mà ta sử dụng điều quan trọng, ảnh hưởng đến mức độ hiệu phương pháp Dưới đây, luận văn giới thiệu số hàm kernel giới thiệu sử dụng phương pháp xác định vùng tăng cường dựa vào SVM có 2.1.4 Một số hàm kernel sử dụng để giải toán a Hàm spectrum kernel Hàm spectrum kernel hàm kernel giới thiệu Leslie [6] xem hàm kernel đơn giản dễ dàng sử dụng tính tốn Hơn nữa, phù hợp với nhiều mơ hình liệu khác nhau, áp dụng hàm kernel vào SVM thời gian để phân loại liệu đầu vào dạng tuyến tính Đối với liệu dạng chuỗi, hàm kernel lại sử dụng rộng rãi ưu điểm Leslie đưa định nghĩa k-mer tất đoạn có độ dài k tạo từ tất ký tự thuộc tập Ʃ (Ʃ = {A, C, T, G} chuỗi ADN) Khi đó, vector đặc trưng cho chuỗi x có độ dài l (trong chuỗi x có chứa ký tự thuộc tập Ʃ) biểu diễn sau: Φ𝑘 (𝛼) = (𝜙𝛼 (𝑥)) 𝛼 ∈ Ʃ𝑘 (2.13) Trong đó, 𝜙𝛼 (𝑥) số lần k-mer 𝛼 xuất chuỗi x Đối với trường hợp ADN, vector đặc trưng có 4𝑘 trường, tương ứng với 4𝑘 k-mer Lúc này, hàm spectrum kernel trở thành sau: 𝐾𝑘 (𝑥, 𝑥′) = 〈Φ𝑘 (𝑥), Φ𝑘 (𝑥′)〉 (2.14) Sau tiến hành huấn luyện máy vector hỗ trợ SVM, ta có tập trọng số 𝜏𝑖 , nghiệm toán tối ưu bậc hai, với 𝑖 = 1, … , 𝑚, tương ứng với tập liệu dùng để huấn luyện gồm m vector Trong đó, vector huấn luyện 𝑥𝑖 tương ứng với trọng số 𝜏𝑖 có giá trị khác gọi vector hỗ trợ Như ta biết phân loại có cặp giá trị đặc trưng (𝑤, 𝑏) Chúng xác định dựa vào giá trị trọng số 𝜏𝑖 vector hỗ trợ 𝑥𝑖 tương ứng Khi áp dụng hàm spectrum kernel vào SVM Leslie lấy giá trị 𝑏 = 0, vector w trở thành 𝑤=( ∑ 𝑣𝑒𝑐𝑡𝑜𝑟 ℎỗ 𝑡𝑟ợ 𝑥𝑖 𝜏𝑖 𝑦𝑖 𝜙𝛼 (𝑥𝑖 )) (2.17) 𝛼∈Ʃ𝑘 Dựa vào vector w này, thực gán nhãn cho chuỗi cần kiểm tra, ta xây dựng vector đặc trưng ứng với chuỗi có chứa số lần k-mer 𝛼 xuất Sau đó, nhãn chuỗi đầu vào xác định dựa vào giá trị 𝑓(𝑥) tính từ hàm tích nội vector w vector đặc trưng chuỗi b Những hàm kernel mở rộng từ hàm spectrum kernel Từ hàm spectrum kernel, Leslie mở rộng để tạo thành hàm kernel ghép đơi bất đối xứng (mismatch kernel) [7], ký hiệu (𝑘, 𝑚), đó, k dộ dài k-mer, cịn m quy định số lượng ký tự tối đa khác đếm số lần xuất k-mer chuỗi Nghĩa là, với k-mer 𝛼 = 𝑎1 , 𝑎2 , … , 𝑎𝑘 𝑣ớ𝑖 𝑎𝑖 ∈ Ʃ, đếm số lần xuất 𝛼 chuỗi, ta tính thêm số lần xuất chuỗi 𝛽 khác cho 𝛽 khác 𝛼 tối đa m ký tự Điều cho phép q trình so sánh chuỗi ghi nhận mơ típ bị biến đổi trình phát triển tiến hóa Cũng mở rộng từ hàm spectrum kernel, có hàm kernel khác đánh giá cao hàm kernel Lee et al., giới thiệu [5] Như ta biết, chuỗi ADN tạo thành từ bazơ A, T, G, C, bazơ bắt cặp theo quy tắc: A bắt cặp với T ngược lại, G bắt cặp với C ngược lại Do đó, ứng với kmer, ta có k-mer khác dạng đảo ngược với Ví dụ ta có chuỗi TTGCGAT, dạng đảo ngược ATCGCAA Khi xây dựng vector đặc trưng cho hàm kernel mới, Lee et al [5] xem k-mer k-mer khác dạng đảo ngược sử dụng k-mer khác biệt hoàn toàn để làm giảm độ lớn khơng gian đặc trưng, từ giúp cho q trình tính tốn trở nên dễ dàng đồng thời thu kết tốt 9 2.2 Các hàm kernel đề xuất 2.2.1 Hàm kernel dựa entropy Hàm spectrum kernel hàm mở rộng hàm kernel ghép đơi bất đối xứng (mismatch kernel) dựa xuất k-mer chuỗi khác mà khơng quan tâm đến vị trí k-mer Vì thế, nhiều k-mer thường xuất với vị trí gần giống chuỗi đầu vào hàm kernel ghi nhận đặc điểm Trong thực tế, để q trình liên kết diễn ra, vài trường hợp, TFBS TF cần phải nằm gần (khoảng cách chúng thường khoảng 10 bp) Như hình 2.2a, ta có hai chuỗi, chuỗi có trường hợp mơ típ Ở chuỗi đầu tiên, hai trường hợp có vị trí gần xem vùng liên kết với TF tương ứng Nhưng chuỗi thứ 2, chúng lại cách xa nên TF nhận diện chúng (a) H=0, fe=1.0 H=1.0, fe=0.37 (b) Hình 2.2 Hình minh họa cho hàm kernel dựa entropy (a) hàm kernel phân cấp (b) Trong phần này, luận văn giới thiệu hàm kernel có kết hợp với thông tin khoảng cách k-mer giống Khi xem xét đến số lần mà k-mer xuất chuỗi đầu vào, luận văn sử dụng đơn vị đo lường để mô tả mức độ tập trung nó, nghĩa xem xét xuất gần trải toàn chuỗi Đơn vị đo lường chọn entropy 10 Cách thức tính entropy sau: cho chuỗi có độ dài l, ta chia chuỗi thành n phần có độ dài (các phần chồng lên để đảm bảo k-mer quan trọng không bị bỏ qua chúng nằm vùng ranh giới phần) Tiếp đó, với k-mer, ta đếm số lần mà xuất n phần này, sau ta chuẩn hóa số thu để tổng chúng = 1, giả sử đó, giá trị thu 𝑐1 , 𝑐2 , … , 𝑐𝑛 Nếu vị trí xuất k-mer chuỗi nằm gần nhau, có một vài 𝑐𝑖 (𝑖 = 1, … , 𝑛) có giá trị khác Ngược lại, giải giá trị 𝑐𝑖 gần với giải giá trị chuẩn Để lượng hóa đặc trưng phân bố này, ta tính entropy sau: 𝑛 𝐻 (𝐶 ) = − ∑ 𝑐𝑖 log 𝑐𝑖 (2.20) 𝑖=1 Giá trị entropy trải từ 𝐻𝑚𝑖𝑛 = (khi k-mer xuất phần), đến 𝐻𝑚𝑎𝑥 = log 𝑛, k-mer trải toàn n phần Từ giá trị entropy này, ta tính giá trị đặc trưng 𝑓𝑒 cho k-mer theo công thức sau: 𝑓𝑒 = 𝐻𝑚𝑎𝑥 − 𝐻(𝐶) 𝐻𝑚𝑎𝑥 (2.21) Từ công thức trên, ta thấy rằng, giá trị 𝑓𝑒 nằm đoạn [0, 1] Hình 2.2a minh họa ví dụ entropy cách tính giá trị 𝑓𝑒 cho chuỗi Mỗi chuỗi chia thành phần có độ dài tương đương nhau, hình vng tượng trưng cho vị trí mà k-mer xuất chuỗi Với chuỗi thứ nhất, kmer xuất tập trung phần nên ta có 𝐻 = 𝐻𝑚𝑖𝑛 = 0; 𝑓𝑒 = 𝑓𝑒𝑚𝑎𝑥 = 1.0 Cịn với chuỗi thứ hai ta có 𝐻 = 1.0; 𝑓𝑒 = log2 3−1.0 log2 = 0.37 Sau đó, giá trị đặc trưng 𝑓𝑒 kết hợp với đặc trưng hàm spectrum Có nhiều cách để kết hợp hai đặc trưng với nhau, ta tính hàm kernel cho đặc trưng riêng lẻ, sau cộng hàm kernel lại với Ở đây, luận văn đơn giản 11 nối vector đặc trưng dựa entropy với đặc trưng spectrum để tạo thành vector đặc trưng Tiếp đó, hàm kernel tính hàm tích nội vector đặc trưng kết hợp 2.2.2 Hàm kernel phân cấp (hierarchical kernel) Đặc trưng dựa entropy giới thiệu phần trước ghi nhận thơng tin vị trí tương đối vị trí xuất k-mer Tuy nhiên, thực tế, có nhiều vùng tăng cường chứa nhiều nhóm TFBS khác TFBS thường vị trí gần Đặc trưng dựa entropy chưa thể ràng buộc khoảng cách TFBS khác Trong phần này, luân văn giới thiệu loại đặc trưng hàm kernel khác ghi nhận thơng tin Ý tưởng phương pháp là: 1) chia chuỗi đầu vào thành phần có độ dài tương tự nhau; 2) đếm số lần xuất k-mer phần; 3) chia phần thành phần lặp lại trình độ dài phần nhỏ để chứa k-mer Khi q trình kết thúc, ta thu số chúng dùng đặc trưng để tạo thành hàm kernel Kết trình thể theo phân cấp đặc trưng mà đó, đặc trưng mức thấp ghi nhận thông tin xuất k-mer thường có vị trí gần nhau, đặc trưng mức cao cho thấy xuất k-mer chuỗi đầu vào với ràng buộc vị trí yếu Với trường hợp phân cấp mức lớp, trường hợp mà luận văn sử dụng để thực nghiệm, đặc trưng hàm kernel tính sau Đầu tiên, ta chia chuỗi đầu vào thành n phần có độ dài giống với trường hợp đặc trưng dựa entropy Tiếp đó, ta đếm số lần xuất k-mer toàn chuỗi phần (hình 2.2b) Như vậy, ta có 𝑛 + vector chứa số lần xuất k-mer chuỗi đầu vào phần Để làm giảm ảnh hưởng việc chuỗi đầu vào có độ dài khác nhau, ta chuẩn hóa vector 𝑥𝑖 dạng 12 đơn vị, tức cho ‖𝑥𝑖 ‖ = Khi đó, giá trị kernel hai chuỗi x x’ tính tổng 𝑛 + kernel, với kernel tương ứng với vector đếm số lần xuất k-mer chuỗi x x’, sau: 𝑛 𝐾(𝑥, 𝑥 ′ ) = ∑ К(𝑥𝑖 , 𝑥𝑖′ ) (2.1) 𝑖=1 Trong đó, К(𝑥𝑖 , 𝑥𝑖′ ) hàm kernel vector đếm từ hai chuỗi x x’ Nếu К(𝑥𝑖 , 𝑥𝑖′ ) hàm kernel tuyến tính, nghĩa К(𝑥𝑖 , 𝑥𝑖′ ) = 〈𝑥𝑖 , 𝑥𝑖′ 〉, hàm kernel tính cách nối tất n + vector đếm vào vector dài, tính hàm tích nội vector dài chuỗi Ta gọi chúng đặc trưng hàm kernel phân cấp, chúng xây dựng dựa quy tắc phân cấp chia chuỗi đầu vào thành phần bé tiếp tục chia nhỏ phần Một điểm ý cuối xác định k-mer, tương tự phương pháp Lee đưa [5], phương pháp này, k-mer k-mer dạng đảo ngược xem sử dụng k-mer khác biệt Ví dụ, AACTTG CAAGTT xem 6-mer giống Vì với phương pháp cài đặt với 𝑘 = 6, có 2080 6-mer khác biệt sử dụng, thay 46 6-mer hàm spectrum kernel 13 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Nội dung chương nói cách thức xây dựng liệu mẫu, trình cài đặt phương pháp xác định vùng tăng cường giới thiệu chương 2, tiêu chí để đánh giá tính hiệu phương pháp, đánh giá kết quả, so sánh kết với phương pháp khác, đưa nhận xét phương pháp hướng phát triển tương lai 3.1 Cài đặt phương pháp 3.1.1 Xây dựng liệu mẫu Để đánh giá phương pháp, luận văn sử dụng liệu vùng tăng cường nhiều loại TF khác người loài giun tròn Cụ thể luận văn sử dụng liệu có sẵn từ phương pháp ChIP-chip ChIP-seq để tạo tập vùng tăng cường (enhancer) cho TF sau: TAL1 (được lấy từ [9]), HNF4A, GATA6, CDX2, H3K4me2 (được lấy từ [21]) PHA-4 (được lấy từ [25]) Trừ liệu TF PHA-4 liệu lồi giun trịn, liệu khác người Để có tập liệu dương (tức tập liệu chứa vùng tăng cường), luận văn thực bước tương tự cách thức sử dụng Yanez-Cuna [23] Dữ liệu thô ChIP-seq lấy từ [21], [9] [25] ánh xạ lên trình tự hệ gen người giun tròn lấy từ UCSD Genome Browser (http://genome.ucsd.edu) Công đoạn ánh xạ thực chương trình Bowtie giới thiệu [4] Bằng cách sử dụng MACS [24], ta lấy danh sách peak ChIP (peak vùng mang tín hiệu để định danh vùng chức ADN trình liên kết protein) Sau đó, TF người, ta lấy 1000 peak có giá trị p-value cao nhất, cịn với lồi giun trịn 500 peak Với peak bị trùng lên nhau, peak mà khoảng cách chúng cách tầm khoảng 300bp, ta lấy peak, vùng khác nhóm bị loại Sau xác định peak, ta mở rộng 14 phía gen với độ dài khoảng từ 300 đến 500 bp để có chuỗi vùng tăng cường có độ dài xấp xỉ 1000 bp Độ dài phần mở rộng chọn theo cách để đảm bảo vị trí peak khơng vị trí trung tâm chuỗi vùng tăng cường, điều làm cho việc dự đốn trở nên khó khăn hơn, giúp cho q trình đánh giá phương pháp xác Để tạo tập liệu âm (nghĩa tập liệu gồm chuỗi xác định vùng tăng cường), luận văn sử dụng thuật toán tương tự phương pháp Lee [5] Ứng với tập liệu dương có trước, luận văn sử dụng thuật toán lấy mẫu – loại bỏ để chọn ngẫu nhiên chuỗi gen lồi sinh vật tương ứng, từ tạo thành tập liệu âm tương ứng với tập liệu dương Các tập liệu tạo cho phù hợp với phân bố độ dài chuỗi trị số lặp lại (repeat fraction) thành phần tập liệu dương tương ứng Để có trị số lặp lại, ta dựa vào liệu chuỗi lặp lại (repeat sequence) lấy từ UCSD Genome Browser Dưới thuật toán để có tập liệu âm, gồm bước sau: i Lấy ngẫu nhiên chuỗi dương (là chuỗi vùng tăng cường) có độ dài l ii Lấy ngẫu nhiên chuỗi có độ dài l từ gen tương ứng với chuỗi dương có trước tính trị số lặp 𝑟 iii Xác suất để chuỗi có bước chọn vào tập liệu ɀ𝑝(𝑟)/𝑞(𝑟), đó, 𝑝(𝑟) 𝑞(𝑟) xác suất mà 𝑟 có khả xuất chuỗi enhancer chuỗi gen tương ứng, ɀ số tiêu chuẩn iv Lặp lặp lại bước từ 1-3 số lượng chuỗi âm gấp đôi số lượng chuỗi dương Dữ liệu chuỗi thuộc tập liệu âm dương lưu định dạng file fasta để làm đầu vào cho chương trình cài đặt nhằm kiểm tra tính hiệu phương pháp 15 3.1.2 Cài đặt phương pháp Phương pháp đề xuất cài đặt ngơn ngữ Python có sử dụng công cụ hỗ trợ học máy Shogun [15], phiên 0.10.0 Luận văn sử dụng hàm nhân CommWordStringKernel có sẵn công cụ Shogun để cài đặt hàm spectrum kernel Hàm nhân đề xuất cài đặt hoàn toàn Luận văn sử dụng thư viện SVM Shogun với giá trị 𝐶 = Dựa kết phương pháp Lee [5], ta thu kết tốt với 𝑘 = 6, tức sử dụng 6-mer, luận văn sử dụng 6-mer mà không tiến hành thực nhiệm với độ dài khác Môi trường cài đặt chạy chương trình thử nghiệm: - Bộ xử lí: Intel Core i5-2450M (2.5GHz) - Bộ nhớ trong: 2GB - Dung lượng ổ đĩa cứng: 15GB - Hệ điều hành: Ubuntu 10.04 LTS 3.2 Tiêu chí đánh giá Lâu nay, đường cong ROC (Receiver Operating Characteristics) sử dụng để đánh giá thuật toán học máy Ở phương pháp đánh giá này, ta biểu diễn kết thu từ thử nghiệm đồ thị hai chiều với chiều độ đặc trưng (specificity) độ nhạy (sensitivity) (hình 3.1) Khi đó, điểm tạo thành đường cong, gọi đường cong ROC Tuy nhiên, thông thường, so sánh hiệu thuật toán, phân biệt hai đường cong ROC tương ứng với chúng đồ thị khơng rõ ràng Chính thế, để so sánh xác hơn, người ta đưa phép đo khác dựa đường cong ROC, AUC (area under the ROC curve) Giá trị AUC diện tích vùng nằm đường cong ROC (area under the ROC curve), số thể hiệu thuật toán [8] Giá trị AUC nằm khoảng (0, 1) Nếu giá trị AUC = ta khẳng định phân loại đưa hoạt động hoàn hảo, nghĩa tất chuỗi vùng tăng cường tách biệt với chuỗi vùng 16 tăng cường, giá trị AUC = 0.5 tương ứng với trình lựa chọn ngẫu nhiên, cịn AUC bé 0.5 phân loại bị đánh giá khơng có hiệu (hình 3.1) Thơng thường, SVM sử dụng mức ngưỡng = để định nhãn mà liệu đầu vào nhận Tuy nhiên, vài trường hợp, phải thay đổi giá trị ngưỡng để cân độ nhạy độ đặc trưng Trong trường hợp đó, AUC tiêu chí phù hợp tổng hợp hiệu phân loại (mà SVM) toàn dải giá trị mức ngưỡng ta không cần phải chọn ngưỡng giới hạn cụ thể Hơn nữa, ta sử dụng phân phân loại để gán nhãn cho tập liệu đầu vào, độ đo AUC tương đương với xác suất mà phân loại xếp liệu dương vị trí cao liệu âm khác [2] Và [8] chứng minh, xây dựng phân loại tối ưu theo AUC, khơng giá trị AUC, mà độ xác cao so với phân loại khác tối ưu theo độ xác Để tính giá trị AUC, luận văn sử dụng thuật tốn sau [2]: Thuật tốn: Tính AUC Đầu vào: L, tập liệu kiểm tra; f(i), xác suất phân loại xác định liệu thứ i dương; P and N, số lượng liệu dương âm Kết quả: A, độ đo AUC Yêu cầu: P > and N > 1: Lsorted (Sắp xếp L theo thứ tự giảm dần giá trị f) 2: FP TP 3: FPprev TPprev 4: A 5: fprev - ∞ 6: i 17 7: while 𝑖 ≤ |𝐿𝑠𝑜𝑟𝑡𝑒𝑑 | 8: if 𝑓 (𝑖) ≠ 𝑓𝑝𝑟𝑒𝑣 then 9: A A + TRAPEZOID_ AREA (FP, FPprev, TP, TPprev) 10: fprev f(i) 11: FPprev FP 12: TPprev TP 13: end if 14: if (i liệu dương) then TP TP + 15: 16: else /* i liệu âm */ 17: FPprev FP + 18: end if 19: ii+1 20: end while 21: A A + TRAPEZOID_ AREA (N, FPprev, N, TPprev) 22: A A/(P × N) /* đưa giá trị AUC khoảng (0,1) */ 23: end 1: function TRAPEZOID_ AREA (X1, X2, Y1, Y2) 2: Base |𝑋1 − 𝑋2| 3: Heightavg (Y1 + Y2)/2 4: return Base × Heightavg 5: end function 18 3.3 Đánh giá kết Để đánh giá hiệu phương pháp, luận văn sử dụng phương thức năm lần xác nhận chéo (five-fold cross-validation) Nghĩa tập liệu chia ngẫu nhiên thành tập có số lượng chuỗi dương âm gần Một tập giữ lại để làm tập liệu kiểm tra, tập lại sử dụng để huấn luyện SVM, sau SVM dùng để dự đốn tập liệu kiểm tra Q trình lặp lặp lại lần cho tất tập chọn làm tập liệu kiểm tra Độ đo AUC tính trung bình từ giá trị có từ lần lặp Đầu tiên, luận văn so sánh hai hàm kernel đề xuất hàm kernel phân cấp hàm kernel dựa entropy Để so sánh hai hàm kernel này, luận văn thay đổi số lượng phần n từ đến 11 phần phần không chồng lên Giá trị AUC ứng với hàm kernel phân cấp hàm kernel dựa entropy tổng kết bảng 3.1 bảng 3.2 Bảng 3.1 Giá trị AUC (× 𝟏𝟎𝟎%) hàm kernel phân cấp ứng với số lượng phần khác phần không chồng lên Giá trị AUC cao ứng với TF bôi đậm TF n=3 n=4 n=5 n=6 n=7 n=8 n=9 n=10 n=11 TAL1_erythroid 89.01 86.57 92.48 89.35 93.50 90.83 93.67 91.28 93.17 HNF4A_prolCell 82.16 79.83 84.50 82.45 85.31 83.13 85.60 83.81 84.79 GATA6_prolCell 97.99 96.48 98.53 97.09 98.46 97.23 98.37 97.76 97.97 CDX2_prolCell 88.00 86.96 90.55 89.16 90.11 90.10 90.05 90.15 89.65 PHA4_embryo 89.68 87.36 93.15 90.40 93.46 92.22 93.45 92.97 92.96 H3K4me2_prolCell 78.90 78.67 81.77 80.62 82.74 82.10 82.40 83.16 82.13 Trung bình 87.62 85.97 90.16 88.18 90.60 89.27 90.59 89.86 90.11 19 Bảng 3.2 Bảng giá trị AUC (× 𝟏𝟎𝟎%) hàm kernel dựa entropy ứng với số lượng phần khác phần không chồng lên TF n=3 n=4 n=5 n=6 n=7 n=8 n=9 n=10 n=11 TAL1_erythroid 86.22 86.14 86.05 86.00 85.87 85.80 85.62 85.57 85.65 HNF4A_prolCell 78.27 78.21 78.20 78.08 78.13 78.12 78.08 77.94 77.85 GATA6_prolCell 94.85 94.89 94.71 94.86 94.62 94.85 94.54 94.82 94.29 CDX2_prolCell 85.15 85.17 85.08 85.10 84.93 85.01 84.86 84.71 84.54 PHA4_embryo 86.34 86.34 86.38 86.19 86.27 86.32 86.00 86.10 86.09 H3K4me2_prolCell 79.89 79.85 79.84 79.83 79.98 79.73 79.58 79.58 79.60 Trung bình 85.12 85.1 85.04 85.01 84.96 84.97 84.78 84.78 84.67 Từ kết có được, ta thấy hai phương pháp đề xuất có điểm số AUC trung bình cao với 85% cho hàm kernel dựa entropy 90% cho hàm kernel phân cấp Tuy nhiên, khoảng cách điểm số hai phương pháp đáng kể điểm hàm kernel dựa entropy thấp khoảng 5% so với hàm kernel phân cấp Nguyên nhân tập liệu sử dụng chứa vùng tăng cường khác TF, hàm kernel dựa entropy thiết kế cho toán xác định vùng tăng cường TF Điểm số AUC trung bình hàm kernel phân cấp vào khoảng 90.6% điểm cao 98.53%, đạt kiểm tra với tập liệu vùng tăng cường liên kết TF GATA6 nhân tố phối hợp (co-factor) Ta nhận thấy rằng, điểm số AUC tốt mà phương pháp đạt số phần từ đến phân, tương đương với độ dài phần vào khoảng từ 100 bp đến 200 bp 20 Bảng 3.3 Bảng giá trị AUC (× 𝟏𝟎𝟎%) hàm kernel phân cấp ứng với số lượng phần độ dài vùng chồng lên khác TF L=0 L = 10 L = 20 L = 30 L = 40 TAL1_erythroid 93.50 93.11 92.39 91.70 91.09 HNF4A_prolCell 85.31 85.08 84.66 84.17 83.52 GATA6_prolCell 98.46 98.51 98.52 98.35 98.17 CDX2_prolCell 90.11 90.46 90.36 90.33 89.95 PHA4_embryo 93.46 93.48 93.06 92.33 91.66 H3K4me2_prolCell 82.74 82.37 82.15 81.47 80.87 Trung bình 90.59 90.50 90.19 89.72 89.21 Tiếp theo, luận văn đánh giá hiệu phương pháp hàm kernel phân cấp với cách chia có độ dài vùng chồng lên khác Với bước đánh giá này, kết có hàm kernel phân cấp có điểm số AUC cao n có giá trị từ đến nên phép so sánh này, luận văn lấy số phần n = 7, độ dài L phần chồng lên thay đổi từ (tức phần không chồng lên nhau) đến 40 bp Những điểm số AUC thu ứng với trường hợp có độ dài L thay đổi tổng kết bảng 3.3 Như ta thấy, hầu hết trường hợp, việc chia thành phần có độ dài phần chồng lên lớn 10 bp làm giảm hiệu phương pháp Vì thế, sử dụng hàm kernel phân cấp, ta nên chia phần với vùng chồng lên có độ dài hoặc bé 10 bp 3.4 So sánh kết với phương pháp khác Để chứng minh tính hiệu phương pháp đề xuất so với phương pháp có, luận văn so sánh kết với phương pháp đưa Lee et al 21 [5], phương pháp đánh giá có hiệu tốt đến áp dụng cho toán tương tự toán đặt luận văn Bảng 3.4 Bảng giá trị AUC (× 𝟏𝟎𝟎%) hàm kernel phân cấp ứng với số lượng phần phương pháp đưa Lee et al [5] TF Lee et al [5] n=7 TAL1_erythroid 86.26 93.50 HNF4A_prolCell 78.29 85.31 GATA6_prolCell 94.88 98.46 CDX2_prolCell 85.18 90.11 PHA4_embryo 86.33 93.46 H3K4me2_prolCell 79.88 82.74 Trung bình 85.14 90.60 Đối với phương pháp đề xuất, luận văn chọn đại diện tiêu biểu hàm kernel phân cấp với số phần n = phần khơng có vùng chồng lên Với phương pháp Lee et al [5], chương trình cài đặt cơng khai nên luận văn chạy chương trình với cài đặt khác để mặc định Kết trình so sánh tổng kết bảng 3.4 Từ bảng kết quả, ta thấy rằng, kết phương pháp đề xuất có điểm số AUC cao phương pháp Lee et al [5] tất trường hợp, với mức chênh lệch khoảng 5% Đây thực bước cải tiến tuyệt vời phương pháp Lee et al [5] phương pháp đánh giá cao 3.5 Nhận xét kết hướng phát triển Từ kết thu từ thực nghiêm, ta thấy rằng, hàm kernel đề xuất để giải tốn hàm kernel phân cấp hiệu so 22 với hàm kernel dựa entropy Đối với cách chia phần chuỗi đầu vào, ta nên chia thành phần với vùng chồng lên bé 10bp, khơng nên lớn thế, hiệu phương pháp bị giảm xuống Và so sánh với phương pháp khác, phương pháp đề xuất chứng tỏ hiệu cao so với phương pháp Lee et al [5], phương pháp đánh giá có hiệu tốt đến tại, mức chênh lệch khoảng 5% với liệu người lồi giun trịn Các hàm kernel đề xuất dựa đặc điểm chuỗi gen đơn giản để cài đặt, tính tốn, không cần thêm thông tin khác thư viện mơ típ, giải CRM (là thông tin CRM cấu trúc chức sinh học - CRM annotation), trình chuẩn bị liệu đầu vào đơn giản, không phức tạp Điều giúp cho phương pháp đề xuất áp dụng vào nhiều tốn khác 23 KẾT LUẬN Luận văn trình bày đặc điểm bản, khái niệm liên quan đến toán xác định vùng tăng cường chuỗi gen nhân tố phiên mã (TF), vùng tăng cường (enhancer), nghiên cứu đánh giá nhóm phương pháp xác định vùng tăng cường có Từ đó, luận văn nghiên cứu nhóm phương pháp xác định vùng tăng cường dựa SVM Phương pháp nhiều nhà nghiên cứu áp dụng cách sử dụng nhiều hàm kernel khác thu kết tốt Sau nghiên cứu vài hàm kernel tiêu biểu giới thiệu, luận văn đề xuất hai hàm kernel sử dụng tập liệu chuỗi gen ghi nhận thơng tin vị trí TFBS hàm kernel dựa entropy hàm kernel phân cấp Khi tiến hành thực nghiệm, tập liệu sử dụng chứa vùng tăng cường khác TF, hàm kernel dựa entropy thiết kế cho toán xác định vùng tăng cường TF nên kết hàm kernel phân cấp cao so với hàm kernel dựa entropy Khi áp dụng hàm kernel vào thực tế, tùy vào loại liệu đầu vào, ta chọn hàm kernel phù hợp để thu kết tốt Kết thực nghiệm chứng tỏ phương pháp đề xuất có hiệu cao so với phương pháp khác liệu người lồi giun trịn Hơn nữa, phương pháp đề xuất sử dụng liệu chuỗi gen mà không cần thông tin liệu khác thư viện mơ típ, giải CRM nên đơn giản dễ dàng tính tốn, cài đặt, khơng phức tạp khâu chuẩn bị liệu Điều giúp cho phương pháp áp dụng vào nhiều toán thực tế khác tương lai Kết luận văn tóm tắt báo “Enhancer prediction using distance aware kernels” Bài báo chấp nhận đăng kỷ yếu hội nghị RIVF 2013 diễn vào tháng 11/2013 ... 1.1.2 .Điều hòa hoạt động gen Sự hoạt động gen khác tế bào Đây kết q trình gọi điều hịa hoạt động gen Quá trình định phát triển phản ứng gen môi trường Ở trình phiên mã, hoạt động gen bị điều khiển... có Trong nhóm phương pháp nhóm phương pháp mơ hình phân biệt có điểm trội so với nhóm phương pháp khác Chính thế, phương pháp đề xuất luận văn thuộc nhóm tương tự với phương pháp trình bày [3]... mẫu, trình cài đặt phương pháp xác định vùng tăng cường giới thiệu chương 2, tiêu chí để đánh giá tính hiệu phương pháp, đánh giá kết quả, so sánh kết với phương pháp khác, đưa nhận xét phương pháp