Dự đoán chức năng protein bằng phương pháp phân cụm dữ liệu

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	14
Dung lượng	368,48 KB

Nội dung

Dựa trên giả thuyết “các protein có tương tác với nhau thường có chung một số chức năng nào đó”, trong nghiên cứu này, tác giả đưa ra một phương pháp dự đoán chức năng của protein dựa vào mạng tương tác protein và dữ liệu chú giải chức năng trong từ điển genes. Phương pháp của chúng tôi dựa trên các thuật toán phân cụm (clustering) proteins.

JOURNAL OF SCIENCE OF HNUE FIT., 2011, Vol 56, pp 3-16 DỰ ĐOÁN CHỨC NĂNG PROTEIN BẰNG PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU Nguyễn Quỳnh Diệp, Trần Đăng Hưng(∗) Trần Thị Thu Bình Phạm Thọ Hồn Khoa Cơng nghệ Thông tin - Trường Đại học Sư phạm Hà Nội (∗) E-mail: hungtd@hnue.edu.vn Tóm tắt Dự đốn chức protein toán quan trọng sinh học phân tử Bằng nhiều phương pháp khác người ta dự đoán chức nhiều protein Tuy nhiên, có lượng khơng nhỏ protein lồi sinh vật cịn chưa biết chức Các nhà sinh học thường sử dụng phương pháp hố sinh để phân tích tìm chức protein riêng lẻ Ngày nay, với hỗ trợ máy tính điện tử phương pháp khai phá liệu hiệu quả, nhà tin học kết hợp với nhà sinh học đưa phương pháp tính tốn hiệu để đưa chức protein Dựa giả thuyết “các protein có tương tác với thường có chung số chức đó”, nghiên cứu này, đưa phương pháp dự đoán chức protein dựa vào mạng tương tác protein liệu giải chức từ điển genes Phương pháp dựa thuật tốn phân cụm (clustering) proteins Mở đầu Có nhiều cách tiếp cận khác để thu chức protein chưa biết chức năng, tất dựa thông tin thu nhận từ chuỗi gene Mục đích chúng tơi, báo này, tìm cách gán chức cho protein dựa vào việc phân nhóm (clustering) protein Để phân nhóm protein dựa vào mạng tương tác protein Chúng ta biết protein có tương tác với nhiều protein khác, nghiên cứu [3] cho thấy protein tương tác với thường có vài chức giống Cách tiếp cận chúng tơi dựa vào tương tác protein-protein coi đồ thị mà protein đỉnh, tương tác cạnh Dựa vào đồ thị tương tác tính độ đo giống protein, sau phân nhóm protein thuật tốn phân nhóm phù hợp Những protein nhóm có chức chung [3] Vì vậy, việc phân nhóm protein có ý nghĩa phân loại theo chức Về nguyên tắc protein gán vào nhiều lớp chức khác Một cách làm bình Nguyễn Quỳnh Diệp, Trần Đăng Hưng, Trần Thị Thu Bình Phạm Thọ Hồn thường gán chức cho protein chưa biết chức cách dựa chức chung mà hầu hết protein nhóm có Bằng nghiên cứu thực nghiệm [3] người ta phát có từ 70%-80% cặp protein có tương tác với có chung chức Phân cụm (clustering) liệu kỹ thuật quan trọng phân tích liệu áp dụng nhiều ngành khoa học khác như: sinh học, tâm lý học, y học [4] Phân cụm chia liệu thành nhóm (groups) mà đối tượng (objects) nhóm giống (similary) theo nghĩa khác (dissimilary) với đối tượng nhóm khác Mỗi nhóm gọi cluster Mỗi đối tượng mô tả tập độ đo mối quan hệ với đối tượng khác Phân cụm liệu chủ đề nghiên cứu tích cực lĩnh vực nhận dạng học máy Trong nghiên cứu này, đưa lược đồ dựa thuật tốn phân cụm liệu để nhóm protein thành nhiều nhóm khác nhau, sau dựa thơng tin chức protein biết nhóm để dự đốn chức cho protein khác Chúng cài đặt thử nghiệm phương pháp đề xuất liệu protein loài Yeast Nội dung nghiên cứu 2.1 2.1.1 Phương pháp Bài tốn Việc tìm chức Protein dựa mạng tương tác toán quan trọng Bài toán nhiều tác giả giới giải Tuy nhiên, tham khảo cách giải tác giả, chúng tơi nhận thấy tốn hồn tồn mở thu kết từ nhiều phương pháp khác Vấn đề quan trọng tốn tìm độ đo để đánh giá "gần nhau" protein phương pháp dùng để phân nhóm protein Điểm tựa lớn cách giải toán nhận xét "những protein tương tác với thường có chúng số chức đó" Bài tốn phát biểu sau: Hình Bài tốn dự đốn chức Protein Dự đoán chức protein phương pháp cụm liệu 2.2 Phân cụm liệu Phân cụm (clutering) tiến trình nhóm đối tượng CSDL vào lớp cụm cho đối tượng lớp giống so với đối tượng khác lớp Sự giống khác đối tượng thường mô tả dựa giá trị thuộc tính đối tượng Sự giống khác dùng nhiều độ đo khoảng đối tượng Phân cụm kỹ thuật sử dụng nhiều lĩnh vực khác như: khai phá liệu, học máy, phân tích liệu, sinh học, Có nhiều hướng tiếp cận để xây dựng cluster, cụ thể báo chúng tơi trình bày số hướng tiếp cận sau đây: 2.2.1 Phương pháp phân cấp Phương pháp phân nhóm theo kiểu phân cấp (hierarchical) thủ tục biến đổi ma trận độ đo thành chuỗi phần lồng Một thuật toán kiểu phân cấp dãy thao tác để thực phương pháp phân cấp Một cách phân nhóm theo kiểu phân cấp dãy phép chia nhóm cho phép chia trước lồng phép chia sau Có hai thuật tốn phân nhóm theo kiểu phân cấp là: chất đống (agglomerative) phân rã (divisive) Ý tưởng thuật toán chất đống là: ban đầu ta coi đối tượng nhóm, có n nhóm Bước vào độ đo nhóm tìm cách trộn hai nhiều nhóm thành nhóm Lặp lại q trình cịn nhóm chứa n đối tượng Ý tưởng thuật tốn phân rã hồn tồn ngược lại với thuật toán chất đống Nghĩa là, ban đầu ta coi n đối tượng nằm nhóm, sau tìm cách chia dần đối tượng nhóm thành nhóm Tiếp theo, ta chia dần đối tượng nhóm thành nhiều nhóm Q trình lặp lại đối tượng nhóm đạt điều kiện đặt 2.2.2 Phương pháp phân hoạch Kỹ thuật phân nhóm phân cấp dùng phổ biến ngành khoa học khác sinh học, xã hội học, tâm lý học, đưa cấu trúc phân loại Cịn kỹ thuật phân nhóm phân hoạch sử dụng ứng dụng kỹ thuật Phương pháp có hiệu tốt việc biểu diễn nén sở liệu lớn Vì khơng thể biểu diễn dendrogram Bài tốn đặt cho kiểu phân nhóm phân hoạch phát biểu sau: Cho n mẫu khơng gian d chiều, tìm cách chia mẫu vào k nhóm (cluster) cho đối tượng nhóm giống so với đối tượng nhóm khác Số nhóm k biết trước khơng biết trước Khi phân nhóm phân hoạch tiêu chuẩn phân nhóm phải định nghĩa rõ ràng, chẳng hạn tiêu chuẩn sai số bình phương (square-error) Tiêu chuẩn phân nhóm chia làm hai loại: Tiêu chuẩn toàn cục biểu diễn cluster nguyên mẫu (prototype) phân nhóm việc gán đối tượng giống với nguyên mẫu Tiêu chuẩn cục xác định cấu trúc phần tử nhóm Nguyễn Quỳnh Diệp, Trần Đăng Hưng, Trần Thị Thu Bình Phạm Thọ Hồn Tuy nhiên, khơng có tiêu chuẩn tốt [5] Vì nhóm có hình dạng bất kì, tùy thuộc vào lĩnh vực nghiên cứu Một tiêu chuẩn phân nhóm phân cấp dựa tiêu chuẩn sai số bình phương Mục đích tạo cluster mà tổng sai số bình phương mẫu nhỏ Nói chung, thuật tốn phân cụm phân hoạch áp dụng tiêu chuẩn sai số bình phương thường có bước sau: • Khởi tạo phân hoạch: Chọn K mẫu vào K cluster, K mẫu lấy K mẫu lấy cách ngẫu nhiên Coi lúc cluster có mẫu Và trọng tâm cluster mẫu vừa chọn Sau đó, tính khoảng cách theo cơng thức sai số bình phương mẫu cịn lại K mẫu chọn, gán mẫu vào cluster mà có khoảng cách đến mẫu nhỏ Khi đó, ta phân hoạch Phân hoạch gọi phân hoạch khởi tạo • Hiệu chỉnh phân hoạch: Bước thực hiệu chỉnh lại phân hoạch cách: tính lại trọng tâm nhóm Gán lại mẫu vào nhóm dựa vào khoảng cách theo tiêu chuẩn sai số bình phương Sau bước này, ta phân hoạch với xu giảm tổng sai số bình phương Như vậy, bước ta thấy có trộn (merge) chia (split) cluster phân hoạch thời Nếu sau bước mà phân hoạch tạo khơng có sai khác nữa, hay nói cách khác tổng sai số bình phương khơng thay đổi chuyển sang bước kết thúc Ngược lại lặp lại bước • Kết thúc: Thuật tốn kết thúc phân hoạch thời kết thuật tốn Có nhiều thuật tốn tiếng theo hướng tiếp cận này, k-means, k-medoids, CLARA [8], CLARANS [9], 2.2.3 Phương pháp mật độ Các thuật toán phân cụm theo kiểu phân hoạch phân cấp làm việc tốt với cụm có hình dạng xác định hình vng, hình trịn, hình cầu, Tuy nhiên, nhiều CSDL, cụm lúc có hình dạng xác định Nhất CSDL không gian, liệu thu nhận từ ảnh vệ tinh từ thiết thu thập liệu khác Chẳng hạn, CSDL quan sát trái đất cụm dân cư dọc theo hai bờ sơng có hình dạng Ngày nay, CSDL liệu không gian giới ngày lớn, ứng dụng CSDL khơng gian địi hỏi thuật tốn phân cụm phải thỏa mãn số yêu cầu: • Thứ nhất: Tối thiểu hóa tri thức miền để xác định tham số đầu vào, giá trị tham số thích hợp khơng xác định trước làm việc với CSDL khơng gian • Thứ hai: Phát cụm với hình dạng (arbitrary shape), hình dạng cụm CSDL khơng gian hình cầu, hình thon dài, khơng có hình dạng cụ thể Dự đốn chức protein phương pháp cụm liệu • Thứ ba: Có hiệu cao CSDL lớn, tức thực thời gian cho phép CSDL lớn Với yêu cầu thuật tốn phân cụm thời khơng đáp ứng hướng tiếp cận dựa mật độ (density-based method) đối tượng CSDL đời Ý tưởng hướng tiếp cận dựa vào mật độ cao điểm CSDL để gom chúng vào cụm với lý luận đơn giản hai điểm thuộc cụm ta từ điểm sang điểm với bước đủ nhỏ Tư tưởng phương pháp mật độ Jain đưa lần vào năm 1988 [5] Dựa vào mật độ điểm, Jain xác định cụm tập điểm k-chiều Nhưng Ester người phát triển đưa thuật toán phân cụm dựa mật độ [10] Một số thuật toán phân cụm theo hướng tiếp cận mật độ DBSCAN, DENCLUE 2.3 Lược đồ giải toán Nghiên cứu đưa lược đồ giải toán đặt phần 2.1.1., tư tưởng chủ đạo chúng tơi dựa vào nguồn thơng tin có protein để phân nhóm dự đốn chức cho protein Bài toán giải theo lược đồ bước hình vẽ Hình Lược đồ tốn • Bước 1: Xử lý liệu Từ file liệu download trang web, viết tools để làm giữ lại thông tin cần thiết cho toán: - Liệt kê danh sách protein gồm ID, tên Alias protein Nguyễn Quỳnh Diệp, Trần Đăng Hưng, Trần Thị Thu Bình Phạm Thọ Hồn - Xử lý file từ điển để đưa danh sách protein với ba loại từ điển biologicl process, molecular function cellular component - Liên kết file danh sách protein file interactions Alias protein để đưa danh sách protein có tham gia tương tác với protein khác Vì mục đích chúng tơi dự đốn chức dựa vào tương tác protein, nên protein khơng tham gia tương tác loại từ đầu - Xây dựng danh sách tương tác dựa file interactions ban đầu cách giữ lại tên ID protein Đây file sử dụng để xây dựng ma trận độ đo protein • Bước 2: Xây dựng mạng tương tác từ file liệu tương tác Đặt ngưỡng tương tác, để hạn chế protein có tương tác, với ngưỡng T hreshold = 4, nghĩa xem xét protein có bốn protein khác tương tác với giữ lại Do vậy, sau đặt ngưỡng, từ danh sách protein ban đầu lại 2003 protein Từ file tương tác protein-protein xây dựng Bước 1, xây dựng đơn đồ thị vô hướng Mỗi protein đỉnh đồ thị, tương tác cạnh Đồ thị xây dựng dạng ma trận quan hệ • Bước 3: Xây dựng độ đo protein có tham gia tương tác Độ đo xây dựng nhằm đánh giá “gần nhau" protein, gần hai protein A B hiểu số lượng protein chung mà hai protein A B tương tác Độ đo có tính đối xứng Kết bước ma trận hai chiều D, mà D(i, j) = D(j, i) độ đo gần protein i protein j Tạm gọi ma trận D ma trận khoảng cách • Bước 4: Phân nhóm protein Sử dụng phương pháp clustering để phân nhóm protein theo ma trận khoảng cách xây dựng Bước Trong bước này, sử dụng chương trình phân nhóm có sẵn để phân nhóm protein nhiều phương pháp phân nhóm khác nhau, nhằm so sánh tìm cách phân nhóm tốt Kết bước danh sách nhóm protein, số lượng protein nhóm khác • Bước 5: Dự đốn chức - Dựa vào danh sách nhóm protein đưa Bước 4, danh sách protein với tên đầy đủ xây dựng Bước kết hợp với từ điển giải ba loại chức protein lấy từ GO, đưa danh sách chi tiết protein gồm: tên, ID, chức - Dựa vào danh sách chi tiết này, chúng tơi phân tích gán cho protein chưa biết chức theo chức protein nhóm Ở bước này, chúng tơi xây dựng tool để xử lý kết Bước Dự đoán chức protein phương pháp cụm liệu Để dự đốn chức năng, chúng tơi thống kê tỉ lệ chức nhóm, phân tích xem chức chiếm tỉ lệ đa số nhóm Nếu nhóm có chức mà 50% protein nhóm có, gán chức cho protein chưa biết chức nhóm 2.4 Định nghĩa độ đo Protein Một vấn đề quan trọng lược đồ giải tốn chúng tơi cách tính độ đo protein Độ đo nhằm đánh giá "gần nhau" protein danh sách protein Trong mục Mở đầu, chúng tơi nói việc so sánh tập hợp protein chung mà hai protein tương tác cho phép tìm chức giống protein Phương pháp dựa nguyên tắc: protein có nhiều tương tác chung chúng dễ có chức chung Trong phương pháp sử dụng độ đo Czekanowski-Dice Giả sử, gọi khoảng cách protein i j D(i, j), thì: D(i, j) = |Int(i) △ Int(j)| |Int(i) ∪ Int(j)||Int(i) ∩ Int(j)| (2.1) Trong đó: Int(i) : số lượng tương tác protein i Int(j) : số lượng tương tác protein j Int(i) △ Int(j) : tổng số tương tác hai protein i j sau loại tương tác chung (tương tác chung tương tác mà hai protein tương tác với protein khác) Như vậy: Khi i j khơng có tương tác chung khoảng cách lớn Còn i j khơng có tương tác riêng khoảng cách cực tiểu Ví dụ: Giả sử có protein X, Y, Z, T, U tương tác biểu diển hình vẽ sau: Hình Ví dụ tương tác protein Nguyễn Quỳnh Diệp, Trần Đăng Hưng, Trần Thị Thu Bình Phạm Thọ Hồn Theo cơng thức tính khoảng cách ta có: D(X, Y ) = 8+3 11 |Int(X) △ Int(Y )| = = = 0.58 |Int(X) ∪ Int(Y )||Int(X) ∩ Int(Y )| + 15 19 Tương tự ta có ma trận khoảng cách D sau: X Y Z T U 2.5 X 0.58 0.27 0.44 0.60 Y 0.58 0.5 0.46 0.87 Z 0.27 0.5 0.37 0.77 T 0.44 0.46 0.37 1.00 U 0.60 0.87 0.77 1.00 - Lựa chọn phương pháp clustering Chúng tơi sử dụng chương trình CLUTO đại học Minnesota để lựa chọn phương pháp phân nhóm phù hợp CLUTO chương trình phân nhóm với nhiều tham số đầu vào khác Chúng thử nghiệm nhiều phương pháp phân nhóm số lượng nhóm khác ma trận khoảng cách xây dựng từ nguồn liệu chuẩn bị Dữ liệu cần phân nhóm ma trận khoảng cách, nên chúng tơi lựa chọn phương pháp phân nhóm theo kiểu k − medoid, phương pháp phân nhóm cho cụm liệu tương đối đồng Chúng tơi thử nghiệm phương pháp phân nhóm theo hướng mật độ hướng không cho kết tốt tập liệu này, số lượng nhóm có mật độ cao ít, protein chưa biết chức tập trung vào số nhóm 3.1 Kết thảo luận Dữ liệu Dữ liệu tốn chúng tơi lấy trang web công cộng dành cho việc nghiên cứu lĩnh vực genome Đây kho liệu khổng lồ cập nhật hàng ngày miễn phí tất người giới Trong tốn cụ thể này, chúng tơi lấy liệu từ hai trang web sau: http://www.yeastgenome.org (1) http://www.genontology.org (2) (1) trang web chứa thông tin giải protein loài Yeast Các giải bao gồm thông tin chuỗi gene, chuỗi protein Trên trang chứa file tương tác protein Các thông tin nhằm mục đích phục vụ cho nhà nghiên cứu, không dùng thư viện để tra cứu bệnh tật (2) trang từ điển chức protein Đây dự án bắt đầu vào năm 1998, dự án nhằm xây dựng hệ thống từ điển chức protein nhiều loài sinh vật khác 10 Dự đoán chức protein phương pháp cụm liệu Sơ đồ file liệu xử lý sử dụng chương trình Hình Sơ đồ file liệu 3.2 Cài đặt thử nghiệm chương trình Trên sở tìm hiểu tốn phân tích, tổng hợp liệu, chúng tơi xây dựng chương trình thực nghiệm giải tốn Chương trình cho phép từ liệu đầu vào (mạng tương tác protein danh sách chức protein số protein), cho kết dự đoán chức protein tương tác Giao diện chương trình sau: Hình Giao diện chương trình Chương trình cài đặt gồm bước sau: 11 Nguyễn Quỳnh Diệp, Trần Đăng Hưng, Trần Thị Thu Bình Phạm Thọ Hồn • Bước 1: Tính ma trận khoảng cách Hình Giao diện tính ma trận khoảng cách Với liệu đầu vào tập danh sách protein mạng tương tác protein, danh sách tên protein, cho kết ma trận chiều chứa thông tin khoảng cách (độ đo) protein • Bước 2: Sử dụng chương trình CLUTO để phân cụm liệu với số thuật toán phân cụm cổ điển Dữ liệu cần phân cụm ma trận khoảng cách protein (kết Bước 1) Sau bước này, kết nhận file liệu chứa danh sách cụm liệt kê theo thứ tự protein xếp tập liệu đầu vào • Bước 3: Tổng hợp tất liệu có liên quan đến protein thành tập liệu để dự đoán chứa protein chưa biết chức Hình Giao diện gán chức chương trình 12 Dự đốn chức protein phương pháp cụm liệu Dữ liệu vào gồm danh sách tên protein, kết phân cụm protein (Bước 2) file danh sách protein biết chức • Bước 4: Thống kê chức protein nhóm dựa vào tỉ lệ thống kê để “gán” chức trội (đạt tỷ lệ % cao nhóm) cho protein chưa biết chức cịn lại nhóm Hình Giao diện dự đốn chức chương trình Dữ liệu đầu vào cho Bước file kết thu sau thực Bước Chương trình cịn cho phép người sử dụng xem file liệu đầu vào file kết tương ứng 3.3 Kết thảo luận Như chúng tơi trình bày trên, vấn đề quan trọng để giải tốn tìm độ đo để đánh giá "gần nhau" protein phương pháp dùng để phân nhóm protein Về độ đo, sử dụng độ đo Czekanowski-Dice đưa ma trận vuông mô tả hình sau: Hình Ma trận khoảng cách 13 Nguyễn Quỳnh Diệp, Trần Đăng Hưng, Trần Thị Thu Bình Phạm Thọ Hoàn Từ ma trận khoảng cách này, tiến hành phân cụm protein cách sử dụng chương trình CLUTO nhóm tác giả George Karypis trường đại học Minnesota [6] Chương trình gồm tập tin: vcluster.exe (file chạy chương trình), libcluto.lib (file thư viện chương trình) Để chạy chương trình, cần chép tập tin tập ma trận khoảng cách sang thư mục gốc ổ đĩa C Sau đó, vào Start/run/ gõ cmd Tại thư mục gốc ổ đĩa C, gõ lệnh vcluster với tham số cần thiết Từ tập gồm n đối tượng (đã xác định ma trận khoảng cách chúng), với yêu cầu cần phân chia k cụm, chương trình cần tham số: Tham số −clmethod cho phép lựa chọn thuật toán phân cụm, tham số −clf un cho phép lựa chọn hàm tiêu chuẩn phân cụm, Tham số −sim cho phép lựa chọn cách tính độ đo, hai tham cuối tên tệp ma trận khoảng cách số cụm Các tham số sử dụng sau: −Clmethod = string Tham số lựa chọn phương pháp sử dụng cho cụm đối tượng Các giá trị là: rb: Với thuật toán này, k-cụm tạo thành cách chia đôi liên tiếp k − lần tập đối tượng Tập đối tượng ban đầu chia thành nhóm, sau nhóm lựa chọn chia đơi sau Q trình tiếp tục số cụm đạt yêu cầu Tại bước chia, kết đạt dựa theo hàm tiêu chuẩn lựa chọn tham số −clf un direct: Từ tập gồm n đối tượng ban đầu, chia ngẫu nhiên để k-cụm Phương pháp hiệu phương pháp rb trường hợp k tương đối nhỏ (10 - 20), nhiên k tăng phương pháp rb lại tỏ ta hiệu agglo: Phương pháp dựa theo thuật toán chất đống nêu Mục 2.1.1 −sim = string Lựa chọn chức tương tự sử dụng cho clustering, giá trị là: cos: Sự tương đồng đối tượng tính toán cách sử dụng hàm cosin Đây thiết lập mặc định corr: Sự tương đồng đối tượng tính tốn cách sử dụng hệ số tương quan Như vậy, có tham số cần quan tâm để đánh giá chương trình Chúng tơi thực chương trình với thuật tốn đạt kết sau (trong thuật tốn chúng tơi giữ lại kết có tỉ lệ dự đoán ≥ 20%): -Clmethod = rb -sim=cos matrankhoangcach.txt 50 YPL246C cell wall organization and biogenesis* -Clmethod = rb -sim=cos matrankhoangcach.txt 100 YDR091C translational initiation 14 30.8% 60.0% Dự đoán chức protein phương pháp cụm liệu YPL246C actin filament organization* -Clmethod = direct -sim=cos matrankhoangcach.txt 100 YNL132W processing of 20S pre-rRNA YML056C meiotic recombination YLR096W establishment of cell polarity (sensu Fungi)* YDL105W chromosome segregation -Clmethod = direct -sim=corr matrankhoangcach.txt 100 YEL005C chromatin silencing at telomere* YNL132W processing of 20S pre-rRNA YCR030C protein biosynthesis YBR162C ER to Golgi transport* -Clmethod = agglo -sim=cos matrankhoangcach.txt 100 YER047C cell wall organization and biogenesis* YDR091C translational initiation YJR070C gluconeogenesis* YNL132W processing of 20S pre-rRNA YGL068W chromatin assembly or disassembly YDR032C actin filament organization* 33.3% 35.7% 50.0% 40.0% 31.3% 75.0% 39.4% 50.0% 61.9% 36.4% 66.7% 50.0% 33.3% 66.7% 50.0% Kết luận Trong nghiên cứu này, đưa phương pháp dự đoán chức protein dựa thuật toán phân cụm (clustering) Phương pháp chúng tơi đề xuất gồm bước, nhằm tích hợp thông tin từ nhiều nguồn liệu khác (như PPIs, Gene Ontology) để dự đoán chức protein Chúng tơi xây dựng chương trình thử nghiệm liệu giải gene mạng tương tác protein lồi Yeast Việc tích hợp nguồn liệu cho phép chúng tơi dự đốn chức protein với độ xác cao REFERENCES [1] http://www.yeastgenome.org [2] http://www.genontology.org [3] Alexei, 2003 Global protein function prediction from protein-protein interaction networks Nature Biotechnology, 21, 697-700 [4] Anthony K.H.Tung, Jean Hou, Jiawei Han, 2001 Spatial Clustering in the Presence of Obstacles Proceedings of 17th International Conference on Data Engineering, 359-367 [5] Anil K.Jain, Richard C Dubes, “Algorithms for clustering data”, Prentice Hall, 1988 [6] George Karypis, 2003 CLUTO – A Clustering Toolkit University of Minnesota, Department of Computer Science Minneapolis, November 28 15 Nguyễn Quỳnh Diệp, Trần Đăng Hưng, Trần Thị Thu Bình Phạm Thọ Hoàn [7] Kaufman and Rousseeuw, 1987 Clustering by Means of Medoids Statistical Data Analysis based on the L1 Norm”, Elsevier, Berlin [8] Raymond T Ng, Jiawei Han, 1994 Efficient and Effective Clustering Methods for Spatial Data Mining Proceedings of the 20th International Conference on Very Large Data, 145-156 [9] Raymond T Ng, Jiawei Han, 2002 CLARANS: a method for clustering objects for spatial data mining IEEE Transaction on Knowledge and Data Engineering, 14(5), 1003-1016 [10] Ester M., Kriegel H., Sander J., Xu X., 1996 A density-based algorithm for discovering clusters in large spatial databases with noise Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), 125-131 ABSTRACT Prediction of protein functions by a clustering-based algorithm Prediction of protein function is one of the most important problems in the molecular biology research By using different methods, the function of most proteins are revealed However, some of the remains still are unknown proteins The biologists usually use the bio-technical methods to find out the function of one by one protein Nowadays, with support from the strong computers and the modern data mining methods, efficient computational methods have been proposed for discovering protein functions Based on the assumption that if two proteins interact with each other, they may have the same functions In this research we propose a novel method that incorporates the protein-protein interaction network and the protein annotations to infer the new protein functions The method is based on a clustering algorithms 16 ... biểu sau: Hình Bài toán dự đoán chức Protein Dự đoán chức protein phương pháp cụm liệu 2.2 Phân cụm liệu Phân cụm (clutering) tiến trình nhóm đối tượng CSDL vào lớp cụm cho đối tượng lớp giống so... chức - Dựa vào danh sách chi tiết này, chúng tơi phân tích gán cho protein chưa biết chức theo chức protein nhóm Ở bước này, xây dựng tool để xử lý kết Bước Dự đoán chức protein phương pháp cụm. .. tập liệu đầu vào • Bước 3: Tổng hợp tất liệu có liên quan đến protein thành tập liệu để dự đoán chứa protein chưa biết chức Hình Giao diện gán chức chương trình 12 Dự đốn chức protein phương pháp

Ngày đăng: 25/11/2020, 22:25