Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đỗ Thị Nương NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM CHO DỮ LIỆU GENE MICROARRAY KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin HÀ NỘI- 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đỗ Thị Nương NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM CHO DỮ LIỆU GENE MICROARRAY KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: Ths Nguyễn Thị Hậu HÀ NỘI-2010 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Lời cảm ơn Trước tiên, muốn gửi lời cảm ơn sâu sắc đến Nguyễn Thị Hậu người tận tình bảo tơi suốt q trình thực khóa luận Tôi xin chân thành cảm ơn thấy cô giáo trường Đại Học Công Nghệ, người tận tình bảo dạy dỗ trang bị cho kiến thức quý báu suốt năm học trường Tôi muốn gửi lời cảm ơn tới bạn lớp K51CD người đồng hành suốt năm tháng giảng đường đại học Các bạn động viên giúp đỡ nhiều thời gian làm khóa luận Cuối cùng, tơi muốn gửi lời cảm ơn vơ hạn đến gia đình bạn người bên động viên để tơi hồn thành tốt khóa luận Hà Nội, ngày 17 tháng năm 2010 Sinh Viên Đỗ Thị Nương i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Tóm tắt nội dung Dữ liệu microarrays bước đột phá sinh học phân tử Nó cho phép kiểm tra mơ tả gene khoảng mười nghìn gene đồng thời Kết thí nghiệm sử dụng cơng nghệ microarray đem phân tích mức thấp cho tập liệu gọi liệu gene micrarray Dữ liệu sử dụng cho việc phân tích mức cao hay cịn gọi phân tích cụm (Cluster analysis) Phân cụm gene tức nhóm gene thành cụm với đặc tính tương đồng Mới xuất từ đầu năm 1990 đến có nhiều phịng thí nghiệm, cơng trình khoa học nghiên cứu vấn đề phân cụm cho liệu gene micoarray vấn đề ngày quan tâm đầu tư nhiều hơn, ứng dụng vô to lớn kết nghiên cứu vấn đề nhiều lĩnh vực như: y học “chuẩn đoán điều trị bệnh, khoa học môi trường “ xác định vi sinh vật” ”, nơng nghiệp… Khóa luận giúp tìm hiểu số phương pháp phân cụm cho liệu gene microarray bao gồm “Hierarchical”, “Kmeans”, “SOM”, “PAM” phương pháp phân cụm dựa khoảng cách “intra-cluster” Đánh giá ưu nhược điểm phương pháp phân cụm cuối phát triển chương trình có chức “phân cụm”cho “dữ liệu microarray gene” mà sử dụng phương pháp phân cụm “tối ưu cả” ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Mục lục Lời cảm ơn i Tóm tắt nội dung .ii Mục lục .iii Danh mục hình vẽ bảng biểu iv Mở đầu Chương 1: Giới thiệu toán phân cụm cho liệu gene microarray 1.1 Bài tốn phân cụm nói chung .7 1.1.1 Khái niệm 1.1.2 Các kiểu phân cụm khác 1.1.3 Những loại cụm khác 1.2 Phân cụm cho liệu gene microarray .9 1.2.1 Giới thiệu công nghệ DNA microarray 1.2.2 Thí nghiệm microarray 1.3 Ứng dụng toán phân cụm cho liệu gene microarray 13 Chương 2: Một số phương pháp phân cụm cho liệu gene microarray .14 2.1 Cơ sở toán học .14 2.1.1 Biểu diễn liệu gene microarraay 14 2.1.2 Vector mô tả 14 2.1.3 Ma trận mô tả gene .14 2.1.4 Khoảng cách hay tương đồng 15 2.2 Một số phương pháp phân cụm 17 2.2.1 Phân cụm Hierarchical 17 2.2.2 K-Means Clustering (KMC) 19 2.2.3 Self-Organizing Maps(SOMs) 20 2.2.4 Principal Components Analysis-(PCA) 21 2.3 Phương pháp phân cụm intra-cluster 22 Chương 3: Đề xuất hướng giải toán phân cụm cho liệu gene microarray 24 3.1 Phương pháp phân cụm .24 3.1.1 Lý chọn K-means .24 3.1.2 Lý chọn “intra-cluster” 24 3.2 Một số phương pháp khắc phục nhược điểm k-means .25 3.2.1 Lọc liệu 25 3.2.2 K-medians .25 3.2.3 Xữ lý liệu khuyết: 25 3.2.4 Tìm giải pháp tối ưu “toàn cục” 26 3.2.5 Việc xác định số cụm k 26 Chương 4: Phát triển ứng dụng cho toán phân cụm liệu gene microarray 27 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only 4.1 Các chức ứng dụng 27 4.1.1.Mơ hình tương tác module 27 4.1.2 Tải, Lưu file, lọc, điều chỉnh liệu xử lý liệu khuyết 28 4.1.3 Phân cụm K-means .31 4.3 Định dạng liệu vào, 32 4.3.1 Dữ liệu tải vào 32 4.3.2 Định dạng liệu 33 4.4 Ngơn ngữ lập trình 33 4.4.1 Một số ưu điểm ngôn ngữ lập trình Java 33 4.5 Mơi trường phát triển ứng dụng 35 Chương 5: Thực nghiệm đánh giá 36 5.1 Cài đặt ứng dụng “Gene Cluster” .36 5.1.1 Cài đặt ứng dụng 36 5.2.1 Mô tả tập liệu thực nghiệm 36 5.2.2 Thực nghiệm “Cluster 3.0” “Gene Cluster” 37 5.3 Kết đánh giá .38 5.3.1 Kết 38 5.3.2 Đánh giá 40 Tổng kết 42 Tài liệu tham khảo 43 Danh mục hình vẽ bảng biểu Hình 1: Thí nghiệm microarray 11 Hình 2: Minh họa việc tính liệu mơ tả gene 12 Hình 3: Ví dụ vector mô tả gene log 14 Hình 4: Ví dụ ma trận mô tả gene .15 Hình 5: Mơ tả phương pháp linkage khác 19 Hình : Sơ đồ DFD mô tả tương tác liệu chức .28 Hình 7: Giao diện cho menu chương trình 29 Hình 8: Giao diện cho chức filter data 29 Hình 9: Giao diện minh hoa cho chức adjust data 30 Hình 10: Giao diên chức xử lý liệu khuyết 31 Hình 11: Giao diện chương trình phân cụm “Gene Cluster” .32 Hình 12 : Mơ tả định dạng liệu tải vào 32 Hình 13: Mơ hình thực thi chương trình Java .34 Hình 14: Hình ảnh phóng to số gene kết phân cụm K-means “Cluster 3.0” 39 Hình 15: Hình ảnh phóng to số gene kết phân cụm K-means “Gene Cluster” không sử dụng chức sử lý liệu khuyết .39 Hình 15: Hình ảnh phóng to số gene kết phân cụm K-means “Gene Cluster” sử dụng chức sử lý liệu khuyết 40 Hình 16: Kết thời gian chạy Kmeans “dataset1” 40 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Mở đầu Hầu hế tế bào quan sinh vật nhân thực-eukaryota chứa bổ xung đầy đủ gene mà tạo lên tồn hệ gene quan Những gene biểu cách chọn lọc tế bào phụ thuộc vào loại tế bào, loại mô, điều kiện bên lẫn bên tế bào Do phát triển kỹ thuật sinh học phân tử tái tổ hợp gene mà đưa kết luận kiện quan trọng đời sống tế bào quy định nhân tố mà làm thay đổi miêu tả gene chúng Vì việc hiểu mơ tả gene trở thành lĩnh vực quan trọng việc nghiên cứu sinh học đại Hai câu hỏi đặt quản lý việc miêu tả gene là: Việc mơ tả gene làm cách phát chức tế bào bệnh lý tế bào? Những câu hỏi phân chia chi tiết sau: Mức độ mô tả gene tế bào trạng thái khác khác nào? Những chức genes khác gì? Và mô tả gene thay đổi thể tương ứng với thay đổi vật lý bên môi trường tế bào Mô tả gene bị tác động loại bệnh nào? Những gene quy định tính di truyền bệnh Những gene bị tác động trình điều trị bệnh Những thay đổi giá trị mô tả gene theo chuỗi thời gian tiến hành thí nghiệm Trước phát triển cơng nghệ DNA microarray có số phương pháp sử dụng để phân tích mẫu mơ tả gene Tuy nhiên phương pháp có hạn chế thực số mẫu gene khơng đem lại hiệu cao Khi có xuất cơng nghệ micoarray, đưa bước chuyển biến mạnh mẽ việc phân tích mẫu mơ tả hàng chục nghìn gene cách nhanh chóng hiệu Để trả lời cách xác thỏa đáng câu hỏi tốn đặt “ tìm phương pháp để phân cụm cho liệu gene microarray cách hiệu quả” Khóa luận giúp tìm hiểu số phương pháp cụm cho phổ biến Tìm ưu nhược điểm phương pháp nghiên cứu giải pháp khắc phục ưu nhược điểm Ngồi phần MỞ ĐẦU KẾT LUẬN, kết cấu khoá luận bao gồm chương sau: Chương 1: Giới thiệu toán phân cụm cho liệu gene microarray Giới thiệu cơng nghệ DNA microarray, Thí nghiệm microarray ứng dụng Trình bày thí nghiệm sử dụng cơng nghệ DNA microarray sau việc phân tích kết LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only thí nghiệm mức thấp mức cao Đưa ứng dụng cụ thể sử dụng công nghệ Chương 2: Một số phương pháp phân cụm cho liệu gene microarray Tìm hiểu số phương pháp phân cụm phổ biển Đánh giá ưu nhược điểm, tìm hiểu đưa hướng tiếp cận để khắc phục số nhược điểm phương pháp Trình bày ứng dụng thực tế việc phân cụm cho liệu gene microarray Chương 3: Hướng giải toán phân cụm cho liệu gene microarray Chương đưa phương pháp phân cụm chọn để cài đặt số phương pháp khắc phục nhược điểm phương pháp Chương 4: Phát triển ứng dụng phân cụm cho liệu gene microarray Chương 5: “Thực nghiệm, đánh giá kết luận” Thực nghiệm phần mềm phân cụm số tập liệu đánh giá kết LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Chương 1: Giới thiệu toán phân cụm cho liệu gene microarray 1.1 Bài toán phân cụm nói chung Trước thảo luận việc phân cụm cho liệu gene microarray ta tìm hiểu khái niệm phân cụm nói chung Đầu tiên, ta định nghĩa phân tích cụm, chứng minh khó giải thích mối quan hệ với kỹ thuật nhóm liệu khác Sau khai thác chủ đề quan trọng: (1) cách nhóm tập đối tượng thành tập cụm (2) loại cụm 1.1.1 Khái niệm Phân cụm nhóm đối tượng dựa thơng tin mà tìm thấy liệu miêu tả đối tượng mối quan hệ chúng Mục đích việc phân cụm để đạt đối tượng cụm giống khác với đối tượng cụm khác Tính tương đồng nhóm nhiều khác nhóm lớn cụm phân biệt hơn.[12] Việc đưa cụm tốt phụ thuộc vào chất liệu kết mong muốn Phân tích cụm liên quan đến kỹ thuật mà để phân chia đối tượng thành nhóm Ví dụ, phân cụm xem dạng phân lớp tạo việc gán nhãn cho đối tượng nhãn lớp(cụm) Tuy nhiên dẫn xuất nhãn từ liệu đối tượng Trái lại, việc phân lớp xem phân lớp có quan sát; ví dụ, đối tượng mới, chưa gán nhãn gán cho nhãn lớp sử dụng mơ hình phát triển từ đối tượng mà biết trước nhãn lớp chúng Vì lý phân cụm đơi biết đến phân lớp khơng có quan sát Cũng vậy, thuật ngữ phân mảnh phân vùng sử dụng với nghĩa tương tự phân cụm, thuật ngữ thường sử dụng cho tiếp cận bên ngồi phạm vi truyền thơng việc phân tích cụm Ví dụ, việc phân vùng thường sử dụng liên quan đến kỹ thuật phân chia đồ thị thành đồ thị không liên quan nhiều đến việc phân cụm Phân mảnh thường đến việc phân chia liệu thành nhóm sử dụng kỹ thuật đơn giản ví dụ hình ảnh có phân chia thành mảnh dựa cường độ điểm ảnh mầu sắc hay người chia thành nhóm dựa thu nhập họ Tuy nhiên có vài cơng việc liên quan đên phân vùng đồ thị phân mảnh thị trường liên quan đến phân cụm 1.1.2 Các kiểu phân cụm khác Trong phân trước tơi trình bày định nghĩa phân cụm, phần trình bày kiểu phân cụm khác nhau: Phân cụm Cấu trúc với Phân vùng (Hierarchical vs Partitional) [12] LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Kiểu phân cụm thảo luận nhiều số kiểu phân cụm tập cụm “lồng nhau” hay “không lồng nhau” hay theo thuật ngữ truyền thống “cấu trúc” hay “phân vùng” Phân cụm phân vùng đơn giản phân chia tập đối tượng liệu thành tập (những cụm) không gối trồng lên đối tượng liệu tập Nếu cho phép cụm có cụm thu phân cụm cấu trúc, chúng tập cụm lồng mà tổ chức Mỗi nút (cụm-cluster) ngoại trừ nút hợp (những cụm con) nó, gốc cụm mà chứa tất đối tượng Phân cụm mức đỉnh (exclusive), gối chồng (overlapping) mờ (fuzzy)[12] Phân cụm “mức đỉnh”: Gán đối tượng tới cụm đơn Có nhiều trường hợp mà đối tướng phù hợp cho nhiều cụm, trường hợp gọi non-exclusive Theo nghĩa chung overlapping hay non-exclusive thường sử dụng để đến đối tượng mà đồng thời thuộc nhiều cụm Phân cụm non-exclusive đối tượng hay nhiều cụm gán cho cụm số cụm Trong phân cụm fuzzing đối tượng phụ thuộc vào cụm với ‘trọng số thành viên ‘ nằm tức tuyệt đối không phụ thuộc, tức tuyệt đối phụ thuộc Theo nghĩa khác, cụm xem tập ‘mờ’ hay fuzzy ( Theo toán học tập mờ tập mà đối tượng phụ thuộc vào tập với trọng lượng nằm Trong phân cụm mờ thường cho thêm ràng buộc tổng trọng lượng đối tượng phải Trong thực tế, phân cụm mờ thường chuyển thành phân cụm mức đỉnh việc gán đối tượng tới cụm mà trọng lượng thành viên cao Phân cụm phần với đầy đủ(complete vs patial)[12]: Việc phân cụm đầy đủ gán đối tượng tới cụm phân cụm phần khơng Động lực cho phân cụm phần vài đối tượng tập liệu khơng thuộc vào nhóm hồn tồn xác định Tức đơi đối tượng tập liệu có biểu diễn khác 1.1.3 Những loại cụm khác Mục tiêu phân cụm tìm cụm hữu ích tức phù hợp với mục đích việc phân tích liệu Dưới trình bày số loại cụm nhiên hiệu cho số loại liệu Phân chia rõ ràng (Well-Separated)[12] Cụm tập đối tượng mà đối tượng cụm giống đối tượng cụm khác Dựa mẫu(Prototype – Based)[12] Một cụm mà tập đối tượng đối tượng cụm gần với “mẫu” cụm gần với mẫu cụm khác Với liệu có thuộc tính liên tục “mẫu” cụm thường “trọng tâm” hay LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Điều chỉnh liệu Chức cho phép bạn thực số biến đổi liệu đầu vào Bao gồm: Log Transfom Data: Thay giá trị x log2x Điều giúp thuận tiện cho việc tính toán sau Center genes: Trừ giá trị hàng cho giá trị [mean or median] hàng Sau ta thu giá trị mean or median hàng Center arrays: Trừ giá trị hàng cho giá trị [mean or median] hàng Sau ta thu giá trị mean or median hàng Nomalize genes: Nhân tất giá trị hàng với S để tổng bình phương hàng Nomalize arrays: Nhân tất giá trị cột với S để tổng bình phương cột Hình 9: Giao diện minh hoa cho chức adjust data Xử lý liệu khuyết (Processing Missing Val) Chức có tác dụng điền vào giá trị mô tả bị khuyết gene giá trị mà tính thơng qua giải thuật: o K nearest neighbor (KNN) o Row average Mặc định liệu bị khuyết coi có giá trị 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Hình 10: Giao diên chức xử lý liệu khuyết 4.1.3 Phân cụm K-means Chức thực việc phân cụm cho liệu microarray gene sử dụng giải thuật K-means (như trình bày chương trước), Việc phân cụm kỳ vọng cho kết tốt Cluster 3.0 có thêm chức xử lý liệu khuyết Hình sau minh họa cho giao diện chương trình “Gene Cluster” 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Hình 11: Giao diện chương trình phân cụm “Gene Cluster” 4.3 Định dạng liệu vào, 4.3.1 Dữ liệu tải vào File liệu tải vào thường file text (file txt) Cịn liệu file giống ma trận gồm n hàng m cột Hình 12 : Mơ tả định dạng liệu tải vào Ở đây, liệu mầu xanh định danh cho tên gene, giá trị trống gọi “missing values” Hàng mầu xanh trời xác định điều kiện thí 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only nghiệm ví dụ nhãn thời gian khác Khi tải liệu vào phần mềm số hàng số cột tương ứng liệu vào Thường n số gene, cịn m số thí nghiệm tiến hàng tập gene 4.3.2 Định dạng liệu Với chức “Save file” Dữ liệu file dạng text có định dạng giống với liệu tải vào Với chức “K-means” Dữ liệu giải thuật K-means lưu file: File thứ nhất: Tên file: JobName_K_GKg_Aka.cdt ‘JobName’: người dùng đặt, ‘K’: số cụm người dùng chọn chức K-means, ‘GKg’: người dùng chọn phân cụm cho gene cịn khơng ‘Aka’ File chứa liệu mô tả gene tổ chức theo cụm việc xếp lại hàng cột tương ứng Vì dạng file giống dạng liệu tải vào File dùng file liệu vào-input cho phần mềm “TreeView”ii để hiển thị kết phân cụm giải thuật phân cụm K-means File thứ 2: Tên file: JobName_K_GKg.kgg ‘JobName’: người dùng đặt, ‘K’: số cụm người dùng chọn chức K-means, ‘GKg’ ‘kgg’: người dùng chọn phân cụm cho gene cịn khơng ‘Aka’ ‘kag’ tương ứng File chứa danh sách gene hay mảng cụm mà chúng gán cho 4.4 Ngơn ngữ lập trình Chương trình tơi xây dựng ngơn ngữ lập trình Java Java ngơn ngữ lập trình hướng đối tượng (tựa C++) Sun Microsystem đưa vào thập niên 90.Chương trình viết ngơn ngữ lập trình java chạy hệ thống có cài máy ảo java (Java Virtual Machine) 4.4.1 Một số ưu điểm ngơn ngữ lập trình Java Độc lập nền: Độc lập ưu điểm bật Java Một chương trình viết ngơn ngữ Java chạy nhiều máy tính có hệ điều hành khác (Windows, Unix,Linux, …) có cài đặt máy ảo java (Java Virtual Machine) Viết lần chạy nơi (write once run anywhere) ii Đây phần mềm phát triển để hiển thị số kết phân cụm.[8] 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Điều chương trình biên dịch tạo mã byte (bytecodes) không phụ thuộc hệ thống máy sử dụng (bytecodes tập hợp câu lệnh tương tự lệnh mã máy (machine code), tạo chương trình Java biên dịch) Hướng đối tượng: Hướng đối tượng Java tương tự C++ Java ngơn ngữ lập trình hướng đối tượng hoàn toàn Tất thứ đề cập đến Java liên quan đến đối tượng định nghĩa trước, chí hàm chương trình viết Java (đó hàm main) phải đặt bên lớp Hướng đối tượng Java tính đa kế thừa (multi inheritance) C++ mà thay vào Java đưa khái niệm interface để hỗ trợ tính đa kế thừa Đa nhiệm - đa luồng (MultiTasking - Multithreading): Java hỗ trợ lập trình đa nhiệm, đa luồng cho phép nhiều tiến trình, tiểu trình chạy song song thời điểm tương tác với Hỗ trợ mạnh cho việc phát triển ứng dụng: Công nghệ Java phát triển mạnh mẽ nhờ vào “đại gia Sun Microsystem” cung cấp nhiều cơng cụ, thư viện lập trình phong phú hỗ trợ cho việc phát triển nhiều loại hình ứng dụng khác cụ thể như: J2SE (Java Standard Edition) hỗ trợ phát triển ứng dụng đơn, ứng dụng client-server; J2EE (Java Enterprise Edition) hỗ trợ phát triển ứng dụng thương mại, J2ME (Java Micro Edition) hỗ trợ phát triển ứng dụng thiết bị di động, khơng dây, … Trình thơng dịch java Trình biên dịch java File nguồn java Formatted: Font: 13 pt, Bold, Font color: Red Formatted: Font: 14 pt, Font color: Red Formatted: Font: 13 pt Hình 13: Mơ hình thực thi chương trình Javaiii iii Nguồn Hồng Bảo Duy Từ http://cione.com.vn 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only 4.5 Môi trường phát triển ứng dụng Chương trình “Gene Cluster” tơi phát triển môi trường NetBean IDE NetBean IDE môi trường phát triển-một cơng cụ dành cho lập trình viên để viết, biên dịch, gỡ lỗi(debug) triển khai(deploy) chương trinh Chương trình viết Java hỗ trợ ngơn ngữ lập trình NetBean IDE lựa chọn tốt để viết Java Phiên NetBean IDE 6.9 Ứng dụng cài đặt NetBean IDE 6.8 tải cài đặt miễn phí địa chỉ: http://netbeans.org/downloads/start.html?platform=windows&lang=en&option=java& version=6.8 Lưu ý: Nếu bạn tải chương trình theo địa bao gồm JDK, trường hợp bạn cài JDK khơng cần cài JDK nữa, cần bấm “next” để cài NetBean IDE 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Chương 5: Thực nghiệm đánh giá Trong chương trước giới thiệu cho bạn khái niệm cho toán phân cụm cho liệu microarray gene, phương pháp phân cụm phổ biến đưa ưu nhược điểm phương pháp Tôi giới thiệu việc cài đặt ứng dụng phân cụm việc chọn phương pháp phân cụm Kmeans phương pháp dựa khoảng cách “intra-distance” để cài đặt cho chương trình phân cụm “Gene Cluster” Chương trình bày việc thực nghiệm đánh giá kết phân cụm thực chương trình “Gene Cluster” phần mềm phân cụm phổ biến “Cluster 3.0”(tải từ http://rana.lbl.gov/EisenSoftware.htm.) 5.1 Cài đặt ứng dụng “Gene Cluster” 5.1.1 Cài đặt ứng dụng Phần giới thiệu cách cài đặt ứng dụng “Gene Cluster” WinXP : Ứng dụng “Gene Cluster” đóng gói dạng file JAR với folder lib chứa thư viện mà cần dùng cho việc chạy ứng dụng phân phối đến cho người dùng Vì để cài đặt ứng dụng người dùng cần làm việc sau: Tải file JA R thư mục lib (chứa thư viện mà tác giả dùng thêm cho việc chạy ứng dụng) đặt chúng thư mục Cài đặt jdk phiên 1.3 trở lên bấm vào cài đặt theo hướng dẫn Bạn download phiên java.sun.com/download Tải phần mềm TreeView từ http://rana.lbl.gov/EisenSoftware.htm cài đặt theo hướng dẫn 5.2 Thực nghiệm phương pháp phân cụm Như giới thiệu, “Cluster 3.0” chương trình có chức phân cụm cho liệu gene microarray mà xây dựng trước Trong phần thực nghiệm thực nghiệm chương trình phân cụm “Cluster 3.0” “Gene Cluster” 5.2.1 Mô tả tập liệu thực nghiệm Bài báo cáo thực nghiệm tập liệu dataset1 (từ http://arep.med.harvard.edu/ExpressDB/EDS2/EDS2data.txt dataset2 (từ http://rana.lbl.gov/data/dlcl/dlcl_figureplus.txt) Mô tả tập liệu dataset1[9] Dữ liệu thu thập dựa thí nghiệm sử dụng cơng nghệ DNA microarrays Những mô tả gene budding yeast Saccharomyces cerevisiae nghiên cứu suốt chu kỳ phân chia tế bào giảm phân (mitotic cell division cycle) chu kỳ dịch chuyển lưỡng sinh trưởng (diauxic shift), hình thành bào tử(sporulation), nhiệt độ giảm nhiệt độ mạnh (temperature and reducing shocks) ie heat shock (he), 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only reducing shock (re), cold shock (co), chúng xem điều kiện thực thí nghiệm Dữ liệu biểu diễn ma trận mô tả gene với n=2467 hàng tương đương với 2467 gene m=79 cột tương đương với 79 thí nghiệm Dữ liệu có dạng sau: Mơ tả tập liệu dataset2[5] Dữ liệu mô tả gene dataset2 lấy từ thí nghiệm sử dụng 40 mẫu B-DLCL 13412 gene biết đến chưa biết B-DLCL (B cell diffuse large cell lymphoma) loại tế bào lym phô phổ biển lym phơ người Lyphoma loại bệnh có tên u lym phơ hay ung thư hạch Có dạng phân biệt B-DLCL thường sử dụng đến là: germinal center B cell-like DLCL activated B cell-like Những bệnh nhân mang dạng thấy có chuẩn đoán khác nhau: Những bệnh nhân mang germinal center B cell-like DLCL có khả sống bệnh nhân mang activated B celllike DLCL Bản thân thí nghiệm sử dụng để phân cụm mẫu DLCL gene Dữ liệu có dạng sau: 5.2.2 Thực nghiệm “Cluster 3.0” “Gene Cluster” Giới thiệu phần mềm phân cụm Cluster 3.0 Phiên phần mềm Cluster viết Michael Eisen ông làm việc trường đại học Stanford Cluster 3.0 viết Michiel de Hoon với Seiya Imoto Satoru Miyano trường đại học Tokyo Human Genome Center tháng năm 2002 Các phiên phần mềm download địa chỉ: http://rana.lbl.gov/EisenSoftware.htm Cluster 3.0 Tree View chương trình cung cấp mơi trường tính tốn mơi trường đồ họa cho việc phân tích liệu từ thí nghiệm DNA hay tập liệu thuộc gene khác Cluster tổ chức phân tích liều theo nhiều cách khác TreeView cho phép liệu tổ chức trực quan hóa Bạn tải cài đặt miễn phí phần mềm Treeview địa chỉ: http://rana.lbl.gov/EisenSoftware.htm 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Các thực nghiệm Các thực nghiệm tiến hành tập liệu “dataset1” “dataset2” phần mềm thực phân cụm K-means cho tập liệu “dataset1” với tham số đầu vào chung Cụ thể sau: Với tập liệu “dataset1”: Tiến hành phân cụm gene có điều chỉnh liệu chọn tham số chung cho K-means là: o Số lần chạy 100 o Phương pháp phân cụm k-Means o Ma trận khoảng cách “Euclidean distance” Ta tiến hành thực nghiệm sau: Một là: Thực phân cụm K-means Cluster 3.0 Hai là: Thực phân cụm K-means “Gene Cluster” không sử dụng chức xử lý liệu khuyết Ba là: Thực phân cụm K-means “Gene Cluster” sử dụng chức xử lý liệu khuyết Với việc chọn giá trị k (số cụm) lần khác là: Lần 1: Chọn số cụm k=10 Thực thực nghiệm Lần 2: Chọn số cụm k=15 Thực thực nghiệm Lần 3: Chọn số cụm k=20 Thực thực nghiệm Với tập liệu “dataset2”: Với tập liệu thực thực nghiệm “Lần 1” với tập liệu “dataset1” 5.3 Kết đánh giá 5.3.1 Kết Sau thực thực nghiệm thu file kết giải thuật K-means (các file mô tả chương 4) Tôi lưu trữ file vào folder để thực việc đánh giá sau Sau vài hình ảnh hiển thị kết thí nghiệm “TreeView”: 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Hình 14: Hình ảnh phóng to số gene kết phân cụm Kmeans “Cluster 3.0” Hình 15: Hình ảnh phóng to số gene kết phân cụm K-means “Gene Cluster” không sử dụng chức sử lý liệu khuyết 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Hình 15: Hình ảnh phóng to số gene kết phân cụm K-means “Gene Cluster” sử dụng chức sử lý liệu khuyết Thời gian chạy tập liệu “dataset1” Khởi tạo Lần 1: k=10, số Lần 2: k=15, số Lần 3: k=20, số lần lặp n=100 lần lặp n=100 lần lặp n=100 Phần mềm Trên “Cluster 3.0” 00’46 01’00 00’46 Trên“Gene Cluster” 01’24 01’50 02’17 Hình 16: Kết thời gian chạy Kmeans “dataset1” 5.3.2 Đánh giá Việc đánh giá kết việc phân cụm sử dụng số phương pháp Trong khóa luận tơi giới thiệu phương pháp Phương pháp thứ dựa vào thời gian chạy giải thuật Phương pháp thứ phương pháp đánh giá kết giải thuật phân cụm (các file liệu kết quả) dựa phép đo là: đo “chỉ số tương đồng sinh học”-“biological homogeneity index” (BHI) đo “chỉ số ổn định sinh học”-“biological stability index” (BSI) 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Phương pháp dựa thời gian Phương pháp giúp đánh giá hiệu giải thuật phân cụm đánh giá thơng qua thời gian chạy giải thuật phân cụm Nhìn thời gian chạy giải thuật phân cụm hình 14 thấy: Thời gian chạy phần mềm “Cluster 3.0” nhanh ổn định (khi số cụm tăng) so với “Gene Cluster” Nguyên nhân: Là việc tối ưu hóa liệu tơi q trình cài đặt phần mềm “Gene Cluster” cịn chưa tốt Tuy nhiên kỳ vọng vào phần đánh giá chất lượng cụm kết Phương pháp đánh giá dựa số “BSI” “BHI” Với phương pháp giải thuật phân cụm đánh giá tốt có giá trị “BHI” “BSI” cao.[16] Tuy nhiên chưa đủ điều kiện để thực phương pháp nên tơi trình bày ý tưởng kỳ vọng giới thiệu phương pháp đánh giá Thứ dựa phép đo số tương đồng sinh học (biological homogeneity index) (BHI) [16] Phép đo độ tương đồng mặt sinh học cụm Phép đo sử dụng để đánh giá hiệu giải thuật phân cụm đánh giá hiệu nhiều giải thuật phân cụm mà áp dụng cho tập liệu Thứ hai dựa phép đo số ổn định sinh học(biological stability index) (BSI) Với giải thuật phân cụm tập liệu cho trước, phép đo đo “tính quán” kết phân cụm áp dụng lặp lặp lại vài lần cho tập liệu [16] Những kỳ vọng sử dụng phương pháp đánh giá muốn tiến hành so sánh: Với tập liệu “dataset1” o So sánh khác kết phân cụm thực nghiệm lần o So sánh khác kết phân cụm thực nghiệm lần o So sánh khác kết phân cụm thực nghiệm lần o So sánh kết phân cụm “Cluster 3.0” lần Để tìm số cụm tốt o So sánh kết phân cụm TN2 lần Để tìm số cụm tốt Với tập liệu “dataset2” o So sánh khác kết phân cụm thực nghiệm lần 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Tổng kết Trong khóa luận giới thiệu công nghệ microarray công nghệ mà xuật giúp cho việc giảm thời gian phân tích chuỗi gene tăng số lượng chuỗi phân tích Đặc biệt khóa luận tập trung vào việc nghiên cứu phương pháp phân cụm cho liệu gene Hiearchical, K-means, SOM PAM phương pháp phân cụm truyền thống sử dụng phổ biến phần mềm phân cụm Trong khóa luận tơi ưu nhược điểm phương pháp phân cụm ví dụ Hierarchical, K-means SOM, PAM không hiệu với tập liệu có liệu khuyết, hay K-means phụ thuộc vào tham số đầu vào số cụm k SOM phụ thuộc vào tham số đầu vào Tuy nhiên có ưu điểm K-means SOM hiệu với tập liệu lớn (do giải thuật có độ phức tạp thấp) K-means đơn giản để cài đặt Ngồi ra, Trong khóa luận giới thiệu phương pháp phân cụm dựa khoảng cách “intra-cluster” mà khắc phục nhược điểm phương pháp phân cụm phụ thuộc vào tham số đầu vào Trong khóa luận tơi trình bày việc phát triển ứng dụng có tên “Gene Cluster” sử dụng phương pháp K-means intra-cluster cài đặt phương pháp để khắc phục nhược điểm K-means sở lý thuyết nghiên cứu Tuy nhiên ứng dụng gặp số nhược điểm là: Thời gian chạy chức năng: “Process Missing Val” “K-means” chậm vấn đề xử lý tập liệu lớn chưa tốt Ngoài ra, phương pháp phân cụm “Intra-distance” chưa hoạt động tốt tơi cịn gặp số vấn đề xử lý giải thuật Vì vậy, hướng phát triển cho ứng dụng muốn giải nhược điểm ứng dụng để đưa ứng dụng phân cụm cho gene hoàn thiện 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only Tài liệu tham khảo [1] Anja von Heydebreck Cluster analysis for microarray data Tải từ http://lectures.molgen.mpg.de/Microarray_WS0304/anja_02_12_03.ppt [2] Alexander I Saeed TIGR's TM4 Software Team Pathogen Functional Genomics Resource Center Introduction to Microarray Data Analysis and MeV The Institute for Genomic Research October 28, 2005 Từ jbpc.mbl.edu/GenomesCourse/media/200510280830-braisted.pdf [3] Hedenfalk Gene-Expression Profiles in Hereditary Breast Cancer, 2001, issue of the New England Journal of Medicine, 244:539-548 Từ www.ncbi.nlm.nih.gov/pubmed/11207349 [4] Hong-min Wang, Wen-li Ma, Hai Huang, Wei-wei Xiao, Yan Wang and Wen-ling Zheng DNA Microarray Probe Preparation by Gel Isolation Nested PCR Từ http://www.ncbi.nlm.nih.gov/pubmed/15469719 [5] Izidore S Lossos, Ash A Alizadeh, Michael B Eisen, Wing C Chan, Patrick Brown, David Botstein, Louis M Staudt, and Ronald Levy Ongoing immunoglobulin somatic mutation in germinal center B cell-like but not in activated B cell-likediffuse large cell lymphomas, 2000 Từ www.pnas.org/cgi/doi/10.1073/pnas.180316097 [6] Kasturi Bhattacharjee, Soumyadeep Chatterjee, Amit Konar, R.Janarthanan Novel Clustering Method for Gene Microarray Data Based on Intra-Cluster Distance IEEE International Publication Date: 6-7 March 2009 On page(s): 20 - 25 Location: Patiala Print ISBN: 978-1-4244-2927-1 [7] Li Qin, Luis Rueda, Adnan Ali and Alioune Ngom Spot Detection and Image Segmentation in DNA Microarray Từ http://www.ncbi.nlm.nih.gov/pubmed/16000008 [8] Michael Eisen Manual “Cluster 3.0” Updated in 2002 by Michiel de Hoon, University of Tokyo, Human Genome Center Từ http://bonsai.ims.utokyo.ac.jp/~mdehoon/software/cluster/manual/index.html [9] Michael B Eisen, Paul T Spellman, Patrick O Brown, David Botstein Cluster analysis and display of genome-wide expression patterns, 1998 [10] Nguyễn Xuân Hưng Ứng dụng kỹ thuật array lĩnh vực môi trường, từ http://www.sinhhocvietnam.com [11] Olga Troyanskaya, Michael Cantor, Gavin Sherlock, Pat Brown, Trevor Hastie, Robert Tibshirani, David Botstein and Russ B Altman Missing value estimation methods for DNA Microarrays http://bioinformatics.oxfordjournals.org/ 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only [12] Pang-Ning Tan, Michael Steinbach Introduction to Data Mining Addison-Wesley, 2002, tr 490-495 [13] Pascale F Macgregor and Jeremy A Squire Application of Microarrays to the Analysis of Gene Expression in Cancer, 2002 Từ http://www.clinchem.org/cgi/content/full/48/8/1170 [14] Prof Abraham B Korol Microarray cluster analysis and applications Institute of Evolution, University of Haifa, 2003 Từ www.science.co.il/enuka/Essays/Microarray-Review.pdf [15] DNA Microarray Technology National Human Genome Research Institute, từ http://www.genome.gov/10000533 [16] Methods for evaluating clustering algorithms for gene expression data using a reference set of functional classes Department of Bioinformatics and Biostatistics, University of Louisville, Louisville, KY 40202, USA Tải từ http://www.biomedcentral.com/1471-2105/7/397 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... dụng cho toán phân cụm liệu gene microarray Trong chương trước tơi trình bày vấn đề phân cụm cho liệu gene microarray, phương pháp phân cụm cho liệu gene microarray hướng giải cho tốn phân cụm. .. giải toán phân cụm cho liệu gene microarray Hiện có nhiều phần mềm có chức phân cụm cho liệu gene, ví dụ điển hình cho phần mềm có chức phân cụm cho liệu gene mà sử dụng phương pháp phân cụm: Hierarchical,... việc phân cụm cho liệu gene microarray Chương 3: Hướng giải toán phân cụm cho liệu gene microarray Chương đưa phương pháp phân cụm chọn để cài đặt số phương pháp khắc phục nhược điểm phương pháp