Dự đoán chức năng gene sử dụng kỹ thuật phân loại phân cấp (tt)

25 2 0
Dự đoán chức năng gene sử dụng kỹ thuật phân loại phân cấp (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Trần Xuân Thanh DỰ ĐOÁN CHỨC NĂNG GENE SỬ DỤNG KỸ THUẬT PHÂN LOẠI PHÂN CẤP Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Người hướng dẫn khoa học: PGS.TS Từ Minh Phương TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 MỞ ĐẦU Hiện nay, kỹ thuật phân loại liệu sử dụng rông rãi hầu hết lĩnh vực khác trí tuệ nhân tạo phân loại văn bản, phân loại chữ viết tay, phân loại hình ảnh, phân loại chức gene,… Trong thực tế có nhiều phương pháp phân loại liệu, phương pháp lại có đặc điểm riêng phù hợp với đối tượng liệu cần phân loại Luận văn trình bày phương pháp phân loại phân cấp đa nhãn (hierarchical multi-label classification - HMC) để giải toán dự đoán chức gene Việc xác định chức gene có ý nghĩa quan trọng nghiên cứu sinh học y học Bài toán dự đoán chức gene thực chất toán phân loại Chức gene thể dạng phân cấp Mỗi gene đảm nhận chức có mối liên hệ với gene khác Xác định chức gene xác định vị trí tương đối chúng với gene khác Do đó, việc giải vấn đề xác định chức chức gene phân loại gene dựa vào chức chúng Bài toán xác định chức gene lúc quy toán phân loại gene dạng phân cấp Do tổ chức phân cấp GO term, xác định chức gene thuật tốn phân loại cần tính tới phân cấp Đã có số nghiên cứu tập trung vào việc phát triển kỹ thuật phân loại có tính tới đặc thù phân cấp Gene Ontology (GO) Mục tiêu nội dung luận văn tập trung vào việc nghiên cứu áp dụng phân loại phân cấp cho toán xác định chức gene đánh giá kết thực nghiệm Đối tương nghiên cứu đề tài liệu mô tả chức gene người có sẵn để xây dựng tập huấn luyện Phạm vi nghiên cứu luận văn tập trung vào dự đoán, xác định chức gene sử dụng phương pháp phân loại phân cấp dựa liệu cho Bố cục luận văn gồm: Chương 1: Trình bày khái niệm gene, chức gene Tiếp đến khái niệm gene ontology (GO) Chương 2: Trình bày phần luận văn Trước tiên giới thiệu sơ phân loại phương pháp phân loại liệu sử dụng toán dự đoán chức gene Tiếp theo trình bày khái niệm định phương pháp phân loại dựa vào định Quan trọng phần này, sâu trình bày phương pháp phân cấp phân loại liệu Chương 3: Mơ tả q trình kiểm thử chạy hệ thống CLUS Đầu tiên giới thiệu sơ hệ thống CLUS, sau tìm hiều định dạng liệu đầu vào đầu hệ thống CLUS Cuối đánh giá kết tiến hành chạy hệ thống với liệu gene nấm men Chương 1: TỔNG QUAN VỀ GENE VÀ DỰ ĐOÁN CHỨC NĂNG GENE 1.1.1 Chức gene phân loại chức gene 1.1.2 Một số khái niệm gene Nhiễm sắc thể chứa DNA (deoxyribonucleic acid) mang gene Gen truyền từ bố mẹ sang xem đơn vị di truyền, ảnh hưởng lên cấu trúc chức thể Ở người có khoảng từ 30.000-40.000 gene cấu trúc (gene mã hóa cho RNA protein) 1.1.3 Chức gene Thơng thường, gene mã hóa protein tương ứng Các protein đảm nhiệm vai trò hay chức khác thể sinh vật Các chức gene/protein đa dạng, từ đóng vai trị phản ứng sinh hóa tế bào, tới tương tác điều hòa hoạt động gen khác Việc xác định chức gene sản phẩm gene nhiệm vụ quan trọng sinh học phân tử tin sinh học 1.1.4 Gene ontology (GO) Các nghiên cứu gene cho thấy cấu trúc gene phức tạp đặc biệt gene người Để sử dụng liệu chức gene cho hệ thống phân loại phân cấp liệu gene phải trừu tượng hóa, định dạng lại theo chuẩn đầu vào hệ thống phân loại Phương pháp phân loại sử dụng đề tài phân loại phân cấp đa nhãn dựa định cài đặt cho hệ thống CLUS sử dụng liệu theo chuẩn chung Bộ liệu gene sinh vật hoàn thiện dần qua nghiên cứu gần đây, tạo nên chuẩn biểu diễn Các phương pháp học máy để dự đốn chức gene nói chung dựa sở liệu chức gene co sẵn, chẳng hạn chức gene ontology (GO) hay FunCat Mỗi gene thể Gene ontology (GO), gene có chức gần gom thành nhóm (GO term) Các GO term tổ chức dạng phân cấp Chức gene thể dạng phân cấp, gene đơn lẻ có nhiều chức năng, chức tổ chức hệ thống cấp bậc một: gen có liên quan đến chức số chức “gene tổ tiên” (gọi hạn chế phân cấp) Khi ta xác định chức gene (X) tức ta ta xác định xem X có GO term cách đưa vào phân loại với tập huấn luyện xác định ta GO term gene Do tổ chức phân cấp GO term, xác định chức gen thuật tốn phân loại cần tính tới phân cấp 1.2 Bài tốn xác định chức gene Từ góc độ khoa học máy tính, tốn xác định chức gene phát biểu tốn phân loại học máy Theo đó, gene đối tượng, nhận nhãn phân loại Mỗi nhãn phân loại tương ứng với GO term Mỗi gene biểu diễn số đặc trưng định, trích rút từ liệu sinh học di truyền khác Tập liệu huấn luyện cho thuật toán phân loại tạo thành từ gene biết nhãn phân loại, tức xác định chức từ trước phương pháp sinh học Để phân loại GO term theo phân cấp ta xây dựng tập huấn luyện từ tập gene (Xi | i = 1,2,3, …n) biết chức năng, Gene biểu diễn vector Khi ta xác định chức gene (X) tức ta ta xác định xem X có GO term cách đưa vào phân loại với tập huấn luyện xác định ta GO term gene Do tổ chức phân cấp GO term, xác định chức gen thuật tốn phân loại cần tính tới phân cấp Đã có số nghiên cứu tập trung vào việc phát triển kỹ thuật phân loại có tính tới đặc thù phân cấp GO 1.3 Kết luận chương Bộ liệu gene đặc biệt chức gene phương tạp, chức gene có ý nghĩa quan trong nghiên cứu sinh học y học Các nghiên cứu thực nghiện chứng minh phương pháp phân loại phân cấp nhãn phù hợp với toán phân loại dự đoán chức gene Chương 2: PHÂN LOẠI PHÂN CẤP SỬ DỤNG CÂY QUYẾT ĐỊNH 2.1 Giới thiệu chương Chương tập trung trình bày phân loại liệu sử dụng định Phương pháp sử dụng định để phân loại liệu tỏ hiệu sử dụng rông rãi thực tế Dựa tảng định kết hợp với đặc tính phân cấp chức gene để hình thành lên phân loại phân cấp 2.2 Một số phương pháp phân loại liệu a Phân loại liệu (classification) Phân loại liệu toán quan trọng lĩnh vực cơng nghệ thơng tin nói chung trí tuệ nhân tạo nói riêng Phân loại liệu (classification), việc phân tích liệu nhằm trích rút mơ hình mơ tả lớp liệu dự đốn xu hướng liệu b Phân loại phương pháp phân loại liệu Có nhiều phương pháp phân loại liệu khác Sự khác phương pháp phân loại xuất phát từ sở lý toán học khác đặc điểm riêng liệu Chẳng hạn, dựa vào lý thuyết thống kê có phương pháp phân loại Bayes; với liệu dạng số sở toán học khoảng Eclide có phương pháp phân loại K-mean; với cấu trúc có phương pháp phân loại dựa vào định… Dựa vào tính đơn nhãn hay đa nhãn liệu có phương pháp phân loại đơn nhãn đa nhãn; dựa vào phân cấp diệu có phương phấp phân cấp phân loại Từ phương pháp phân loại loát thuật toán đời C4.5, J48, CART, R8, CLUS… 2.3 Cây định 2.3.1 Khái niệm định Cây định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng Mỗi nút (internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút 2.3.2 Một số thuật tốn học định tiêu biểu Có nhiều thuật tốn phân lớp ID3, J48, C4.5, CART (Classification and Regression Tree),… Việc chọn thuật tốn để có hiệu phân lớp cao thuộc vào nhiều yếu tố, cấu trúc liệu ảnh hưởng lớn đến kết thuật toán Chẳn hạn thuật toán ID3 CART cho hiệu phân lớp cao trường liệu số (quantitative value) thuật tốn 10 J48, C4.5 có hiệu liệu Qualititive value (ordinal, Binary, nominal) 2.4 Sự khác phân loại thông thường phân loại phân cấp Các phương phân loại thông thường thường dựa số thuộc tính tương đồng để phân loại, phân loại theo phương pháp khơng tính đến tính phân cấp chức gene Phương pháp phân loại phân cấp dựa đặc tính phân cấp chức gene Phương pháp phân loại phân cấp trường hợp phương pháp phân loại gom cụm Phương pháp gom cụm gom đối tượng liệu với đối tượng khác cụm không tương tự với đối tượng cụm khác Có thể chia thuật toán gom cụm thành thuật toán sau: phương pháp phân cấp, phương pháp dựa mật độ, phương pháp dựa lưới phương pháp dựa mơ hình Phân loại phân cấp tạo phân cấp cụm, phân hoạch đơn đối tượng, không quan tâm đến số cụm gom cụm Việc phân cấp cụm thường tạo cụm, biểu diễn đối tượng riêng lẻ, nút biểu diễn cụm 11 Trong thực tế người ta chia làm hai phương pháp phân cụm, phân cụm từ lên phân cụm từ xuống - Phương pháp phân cụm từ xuống: Bắt đầu cụm lớn chứa tất đối tượng Phân chia cụm phân biệt thành cụm nhỏ xử lý co n cụm hay thỏa điều kiện kết thúc - Phương pháp phân cụm từ lên: Đưa đối tượng vào cụm (cluster) riêng Trộn bước hai cụm tương tự cụm hay thỏa điều kiện kết thúc 2.5 Kỹ thuật sử dụng định cho toán phân loại phân cấp 2.5.1 Khảo sát số phương pháp phân loại phân cấp a Giới thiệu chung Phân loại phân cấp ? Xác định lớp phân loại cấu trúc Cấu trúc hiểu hệ thống phân cấp xác định tập có thứ tự (C, ≺) Trong C tập hữu hạn liệt kê tất thuộc tính lĩnh vực ứng dụng, ≺ đại diện cho mối quan hệ “is – a” 12 - Chỉ có phần tử lớn "R" gốc -  ci, cj -  ci -  ci, cj , ck C, if ci ≺ cj then ci cj C, ci ci C, ci ≺ cj cj ≺ ck suy ci ≺ ck Bất phân loại có cấu trúc đáp ứng tính chất coi phân loại phân cấp Tuy nhiên thực tế lớp phân cấp việc phân loại có thể khác miễn tính chất thỏa mãn Phân loại phân cấp có tiếp cận cấu trúc cấu trúc đồ thị có hướng khơng chu trình (DAG) Sự khác biệt cấu trúc DAG thể mối quan hệ liệu b Biểu diễn toán Bài toán xác định chức gene thực chất toán phân loại Chức gene thể dạng phân cấp Mỗi Gene đảm nhận chức có mối liên hệ với gene khác Xác định chức gene xác định vị trí tương đối chúng với gene khác Do đó, việc giải vấn đề xác định chức chức gene phân loại gene dựa vào chức 13 chúng Bài toán xác định chức gene lúc quy toán phân loại gene dạng phân cấp Kết q trình dự đốn có độ tin cạy cao kiểm tra lại phịng thí nghiệm 2.5.2 Thuật toán phân loại phân cấp nhãn (HMC) a Giới thiệu định phân loại phân cấp đa nhãn Phương pháp phân loại phân cấp đa nhãn (HMC) xây dựng dựa cấu trúc định thiết lập phạm vi cụm dự đốn (PCT) Chúng ta coi hệ thống định HCM hệ thống cụm phân cấp: nút tương ứng với phân cụm có chứa tất mẫu huấn luyện, sử dụng phương pháp đệ quy để chia thành phân cụm nhỏ từ xuống Các PCT sử dụng cho việc phân cụm dự đoán chức gene Hệ thống PCT thực chương trình CLUS b Sử dụng tập hợp dự đoán cho HMC Trước giải thích phương pháp cụ thể, xét ví dụ phân cụm dự đốn để dự đoán chức gene chủng S.cerevisiae dựa liệu tương đồng Các chức tương đồng xác định tương tự 14 trình tìm kiếm gene mấm men tất gene SwissProte Các chức lấy từ chương trình FunCat Mỗi nút có chứa mẫu thử nghiệm liệu nguồn Ở thuộc tính nhị phân hóa, sử dụng sau tiền xử lý quan hệ liệu tương đồng Tập hợp PCT Phương pháp tập hợp (ensemble) phương pháp học cách xây dựng tập phân loại cho nhiệm vụ dự đoán đưa phân loại mẫu cách kết hợp dự đoán phân loại Kỹ thuật học sử dụng dựa định Các thuật tốn đóng gói PCT có đầu vào tham số k, số tập hợp Để dự đoán, với mức trung bình tất lớp vector dự đốn k tập hợp tính tốn, sau áp dụng ngưỡng trước Điều đảm bảo giới hạn phân cấp c Thuật toán Clus-HMC Thủ tục CLUS_HMC(T) trả 1: (t*, h* , P* ) = (none, 2: Duyệt với mẫu t 3: P= Phân vùng tạo t T 15 4: 5: h= I f (h < h* ) 6: 7: Có thể chấp nhận (t,P) (t*, h* , P* ) = (t, h, P) if t* 8: none for each Tk 9: P* treek = CLUS_HMC(Tk) 10: 11: Var(Tk) return node(t* , k {treek}) else 12: return leaf( ) 2.6 Kết luận chương Phương pháp phân loại phân cấp đa nhãn (HMC) thức chất phân loại liệu dựa vào định với cấu trúc dạng phân cấp DAG Phương pháp phân loại tạo cho việc dự đoán chức gene 16 Chương 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Giới thiệu chương Chương tác giả tiến hành cài đặt chạy thử nghiệm với hệ thông CLUS với liệu đầu vào gene biết chức Kết sau thực hệ thống đưa dự đoán gấn chức gen Thơng qua q trình cài đặt thử nghiệm tác giả tiến hành đánh giả hiểu việc dự đoán độ phức tạp giải thuật đề 3.2 Dữ liệu thử nghiệm 3.2.1 Định dạng liệu cho hệ thống CLUS - Định dạng liệu Giống hệ thống học máy khác, CLUS học từ liệu dạng bảng Dữ liệu mặc định chứa tệp tin định dạng ARFF, định dạng sử dụng công cụ khai phá liệu Weka Trong bảng liệu dạng ARFF, hàng đại diện cho thực thể, cột tượng trưng cho thuộc tính hay trường Mỗi thuộc tính có tên miền giá trị (miền giá trị tập hợp giá trị mà thuộc tính lấy) Trong định dạng ARFF, tên, miền giá trị thuộc tính khai báo trước liệu đưa vào 17 - Tệp tin thiết lập (Setting file) Mỗi thuật tốn hệ thống CLUS có thơng số nhằm xác định cách rõ hoạt động chúng Hầu hết thông số thiết lập mặc định; giá trị thông số không bắt buộc Các thông số thiết lập tệp tin kiểu “.s” (Ví dụ: FunCat.s) Tệp tin thiết lập cấu trúc thành mục Từng thông số mục riêng biệt Các đầu mục đặt dấu ngoặc vuông không bắt buộc, chúng dùng để giải thích khối thơng số liên quan Để sử dụng thuật toán phân loại phân cấp đa nhãn, tên tin thiết lập cần bổ sung thêm thông số phân cấp (hierarchical) - Tên tin chứa kết (filename.out) Dựa vào thông số thiết lập, hệ thống CLUS chạy kết Kết trình chạy hệ thống CLUS chứa tên tin có phần mở rộng out (Ví dụ: filename.out) Tổng thể tệp tin chứa kết thực phân loại phân cấp với hệ thống CLUS gồm phần: 18 - Phần thứ chứa thông số thiết lập, chứa thông tin thiết lập ban đầu hệ thống Dữ liệu phần copy từ tệp tin thiết lập ban đầu 3.2.2 Phân tích liệu gene Bộ liệu thử nghiệm phương pháp phân loại phân cấp sử dụng đề tài liệu gene nâm men (D0_yeast_GO) Với liệu gene nấm men không làm tính tổng quát thể đầy đủ đặc trưng phương pháp phân loại phân cấp Dữ liệu gene nấm mem có kích thước hợp lý cho việc thử nghiệm Bộ liệu sử dụng phổ biến để mô tả nhiều phương pháp phân loại liệu nói chung phương pháp đốn chức gene nói riêng Bộ liệu D0_yeast_GO gồm: 1- Tệp tin thiết lập (D0_yeast_GO.s) (Hình 4.10) Chứa thơng số thiết lập ban đầu cho hệ thống Nội dung chi tiết trình bày phần Phụ lục 2- Các tệp tin dạng ARFF + Tệp tin D0_yeast_GO.test.arff.zip + Tệp tin D0_yeast_GO.train.arff.zip 19 + Tệp tin D0_yeast_GO.valid.arff.zip 3- Tệp tin kết (: D0_yeast_GO.out) (Hình 4.11) Dữ liệu tệp tin đầu trích mẫu trình bày phần phụ lục 3.3 Cài đặt ứng dụng 3.3.1 Giới thiệu hệ thống CLUS CLUS định nguyên tắc hệ thống học, cơng việc thực khn khổ cụm đốn (predictive clustering) Trong hầu hết định quy phân loại truy hồi CLUS tổng quát tiếp cận huấn luyện, hiểu chúng cụm phân cấp Chúng ta gọi cụm phân cấp cụm dư đoán cụm PCTs Phân loại truy hồi trường hợp đặc biệt PCT Qua thực nghiệm, hệ thống CLUS cho thấy nhiều ưu điểm vượt trội CLUS thành công với phương pháp phân loại khác như: Phân loại đa nhãn, phân loại phân cấp, phân loại với chuỗi thời gian, … Các tệp tin đầu vào đầu hệ thống CLUS đọc hệ thống WAKE 20 3.3.2 Cài đặt hệ thống Hệ thống CLUS chạy môi trường thực thi Java (JRE) Chúng ta thay đổi mã nguồn hệ thống công cụ phát triển Java (JDK) Hệ thống CLUS tham khảo trang web: http://www.cs.kuleuven.be/~dtai/clus/ 3.4 Chạy thử đánh giá 3.4.1 Chạy hệ thống CLUS với liệu D0_yeast_GO Chạy hệ thống CLUS với mâu trường windows7 tiến hành sau: - Chạy trình giả hệ điều hành MS-DOS - Chuyển thư mục hành thư mục chứa liệu D0_yeast_GO - Thực thi câu lệnh: java -jar \ \Clus.jar D0_yeast_GO.s 21 Hình 3.1: Tệp tin vào hệ thống CLUS 3.4.2 Đánh giá kết Kết kiểm nghiệm hệ thống CLUS sử dụng phương pháp phân loại phân cấp để dự đoán chức gene nấm men tốt so với phương pháp khác trước Thuật tốn phân loại phân cấp đa nhãn cài đặt hệ thống CLUS (CLUS-HMC) có số ưu điểm bật, thuật toán giải vấn để gặp phải phương pháp phân loại khác sử dụng để dự đoán chức gene 22 Kết nhận sau thực thi hệ thống CLUS-HMC tệp tin: D0_yeast_GO.out D0_yeast_GO.model So sánh kết có tệp tin D0_yeast_GO.out với liệu tệp tin xác thực (D0_yeast_GO.valid.arff.zip) cho kết tương đồng 3.5 Kết luận hướng phát triển Sử dụng hệ thống CLUS-HMC để giải toán dự đoán chức gene mang lại hiệu cao Dữ liệu đầu nhận từ hệ thống sử dụng cách phù hợp cho nghiên cứu chuyên sâu gene, liệu đầu đa tuân theo tiêu chuẩn quy định chung Hệ thống CLUS xây dựng ngơn ngữ lập trình mã nguồn mở Java cài đặt chạy hai hệ điều hành dùng phổ biến Windows Linux Xem xét tệp tin kết nhận với kết có phịng thí nghiệm số nghiên cứu cho thấy, hệ thống CLUS-HMC cho kết đáng tin cậy, hệ thống đánh giá cao so với hệ thống nghiên cứu trước 23 Trong đề tài này, liệu thử nghiệm liệu gene nấm men, liệu sử dụng nhiều nghiên cứu tương tự Bộ liệu gene nấm men có kích thước tương đối nhỏ, dễ dàng kiểm thử, thích hợp cho nghiên cứu mang tính thực nhiệm Trên sở kết đạt luận văn phát triển đề tài để giải toán thực tế chẳng hạn dự đoán chức gene người sinh vật có gene phức tạp Cũng dựa kết nghiên cứu tiến hành dự đoán với liệu khác thuộc lĩnh vực khác 24 Kết luận Khi thực luận văn tác giả mong muốn đóng góp làm sáng tỏ thêm ứng dụng quan lĩnh vực Công nghệ thông tin cho lĩnh vực khác đặc biệt lĩnh vực sinh học công nghệ sinh học Cũng qua đề tài với hướng dẫn tận tình thầy PGS.TS Từ Minh Phương tác giả định hướng nghiên cứu sâu ứng dụng cụ thể trí tuệ nhân tạo đặc biệt phương pháp phân loại liệu ứng dụng thực tế Tuy có nhiều cố gắng thời gian kinh nghiệm nhiên cứu khoa học hạn chế nên luận văn khơng thể tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp Thầy, cấc cô bạn đồng nghiệp để luận văn hoàn thiện 25 ... tương đồng để phân loại, phân loại theo phương pháp khơng tính đến tính phân cấp chức gene Phương pháp phân loại phân cấp dựa đặc tính phân cấp chức gene Phương pháp phân loại phân cấp trường hợp... pháp phân loại phân cấp nhãn phù hợp với toán phân loại dự đoán chức gene Chương 2: PHÂN LOẠI PHÂN CẤP SỬ DỤNG CÂY QUYẾT ĐỊNH 2.1 Giới thiệu chương Chương tập trung trình bày phân loại liệu sử dụng. .. toán phân loại gene dạng phân cấp Do tổ chức phân cấp GO term, xác định chức gene thuật toán phân loại cần tính tới phân cấp Đã có số nghiên cứu tập trung vào việc phát triển kỹ thuật phân loại

Ngày đăng: 19/03/2021, 17:48

Tài liệu cùng người dùng

Tài liệu liên quan