Các kỹ thuật phân loại Protein

Một phần của tài liệu Các thuật toán phân cụm dữ liệu và ứng dụng trong phân loại protein (Trang 59 - 64)

CHƯƠNG 3. CHƯƠNG TRÌNH THỬ NGHIỆM

3.1. Protein và các kỹ thuật phân loại Protein

3.1.2. Các kỹ thuật phân loại Protein

Năm 1960, myoglobin và hemoglobin, hai cấu trúc đầu tiên đƣợc phát hiện ở cấp độ phân tử khi sử dụng tia X, có cấu túc tương tự mặc dù trình tự là có sự khác biệt. Hai protein có chức năng tương tự, như chúng được tham gia lưu trữ và vận chuyển oxy tương ứng. Kể từ đó, việc tìm kiếm các điểm tương đồng về cấu trúc các protein và chia sẻ về chức năng

51

mà không thể phát hiện bởi các thông tin trình tự. Một hệ quả hợp lý của sự quan tâm này là phát triển của hệ thống phân loại cấu trúc protein, đó là định dạnh và nhóm các protein chia sẻ các cấu trúc tương tự để tìm ra mối quan hệ tiến hóa.

Hình 3.3. Sự phát triển của cấu trúc dữ liệu protein

Phân loại cấu trúc protein đã trở lên cấp thiết bởi vì khối lƣợng dữ liệu cấu trúc sẵn có (hình 3.3). Tất cả các phương pháp phân loại cấu trúc là cơ sở cho sự sắp xếp có hệ thống tương tự: Cấu trúc protein được chia thành các lĩnh vực rời rạc, hình cầu, sau đó đƣợc phân loại ở mức độ cấp 1(“lớp”), cấp 2 “nếp gấp”, cấp 3 “superfamily”, cấp 4 “families”. Sự khác biệt giữa các chương trình hiện có đến từ các phương pháp xác định các miền và các thủ tục phân loại. Sau khi xem xét các trình tự xác định một phân loại, có 3 phương pháp phân loại cấu trúc protein chính: SCOP, CATH và DALI Domain Dictionary (DDD). Các liên kết tới cơ sở dữ liệu và các dịch vụ liên quan đƣợc liệt kê trong bảng 3.1.

52

Bảng 3.1. Nguồn tài nguyên cho phân loại cấu trúc protein

Thứ tự Mô tả chi tiết Nguồn

SCOP Phân loại cấu trúc của Protei:

thủ công

http://scop.mrc- lmb.cam.ac.uk/scop/

index.html CATH Lớp, kiến trúc, hình trạng,

tính tương đồng, phân loại bán tự động cấu trúc protein

http://www.biochem.ucl.ac.u k/bsm/cath

DALI Nếp gấp

Classification

Tự động phân loại sử dụng miền DALI sử dụng DALI, thay thế FSSP

http://www.bioinfo.biocente r.helsinki.fi:8080/dali/index.

html

ASTRAL Cơ sở dữ liệu và các công cụ phận tích cấu trúc từ SCOP

http://astral.berkeley.edu/

HOMSTRAD Cấu trúc 3D tính tương đồng protein

http://www-

cryst.bioc.cam.ac.uk/data/ali gn

Ba phương pháp phân loại cấu trúc protein phổ biến thường thấy là:

- SCOP là phương pháp gần như hoàn toàn làm bằng thủ công - Miền DALI dựa trên cơ sở đƣợc làm hoàn toàn tự động

- CATH là trung gian giữa 2 sự phân cụm và sử dụng các thủ tục tự động bổ sung các biện pháp can thiệp của con người.

53 3.1.2.1 Phân loại cấu trúc với SCOP

Phân loại cấu trúc với SCOP là một phương pháp phân cụm chủ yếu là hướng dẫn sử dụng miền cấu trúc protein dựa trên sự tương tự của cấu trúc và chuỗi acid amin. Một động lực cho sự phân cụm này là xác định mối quan hệ tiến hóa giữa các protein. Protein với các hình dạng tương tự nhưng có ít trình tự hoặc chức năng tương tự được đặt trong các

"superfamilies" khác nhau, và đƣợc cho là có tổ tiên duy nhất phổ biến rất xa. Protein có hình dạng giống nhau và giống nhau một số trình tự và/hoặc chức năng đƣợc đặt trong "family", và đƣợc giả định có một tổ tiên chung gần gũi.

3.1.2.2 Phân loại cấu trúc với CATCH

Phân loại cấu trúc Protein CATH là bán tự động, phân cấp phân cụm các lĩnh vực protein đƣợc xuất bản vào năm 1997 bởi Christine Orengo, Janet Thornton và các đồng nghiệp của họ. CATH chia sẻ nhiều tính năng mở rộng với các đối thủ chính của nó, SCOP, tuy nhiên cũng có nhiều lĩnh vực, trong đó phân loại chi tiết khác rất nhiều.

Bảng 3.2 Các cấp độ chính của CATH

STT Cấp Mô tả

1 Class (Lớp) Cấu trúc tổng thể nội dung của tên miền 2 Architecture (Kiến

trúc)

Cấu trúc tương tự cao nhưng không có bằng chứng tương đồng. Tương đương với một lần trong SCOP

3 Topology (Tô pô) Một nhóm quy mô lớn của cấu trúc liên kết chia sẻ các tính năng cấu trúc đặc biệt 4 Homologous (tương

đồng)

Dấu hiệu của một mối quan hệ tiến hóa có thể chứng minh. Tương đương mức độ siêu họ SCOP.

54

CATH định nghĩa bốn lớp: đa số alpha, đa số beta, alpha, và một số cấu trúc beta thứ cấp. Để hiểu rõ hơn về hệ thống phân loại CATH là hữu ích, để biết làm thế nào nó đƣợc xây dựng nhiều quá trình đƣợc thực hiện bằng phương pháp tự động, tuy nhiên có những yếu tố quan trọng hướng dẫn sử dụng để phân loại.

Bước đầu tiên là để tách các protein vào các miền. Điều này là khó khăn để đƣa ra một định nghĩa rõ ràng của một miền và điều này là một trong những phần mà CATH và SCOP khác nhau.

Các miền sẽ đƣợc tự động sắp xếp vào các lớp (C) và các nhóm trên cơ sở tương đồng trình tự. Các nhóm này hình thành nên mức độ phân loại (H). Các cấp độ cấu trúc liên kết (T) đƣợc hình thành bằng cách so sánh cấu trúc của các nhóm tương đồng. Cuối cùng, mức Kiến trúc (A) được phân định thủ công. Cấp lớp phân cụm đƣợc thực hiện trên cơ sở 4 tiêu chí:

 Nội dung cấu trúc cấp hai;

 Các cách tiếp cận cấu trúc cấp hai;

 Các chỉnh sửa cấu trúc cấp hai;

 Phần trăm các thành phần song song.

3.1.2.3 Phân loại cấu trúc với phân loại miền Dali (DDD)

DDD, còn được gọi là phân loại miền Dali, đƣợc mô tả bởi các phương thức xác định tự động và các miền phân loại. Khi so sánh hai cấu trúc protein, Dali tính toán một biện pháp tương tự hoặc qua điểm S, Có nghĩa và độ lệch chuẩn của các điểm S nằm trên tất cả các cặp của các protein đƣợc đánh giá. Chuyển các điểm S bởi nghĩa của chúng và thay đổi tỷ lệ của độ lệch chuẩn mang lại ý nghĩa thống kê với các điểm Z

Chương trình Dali ban đầu được sử dụng để tạo ra dòng họ cơ sở dữ liệu các protein tương tự (FSSP). Trong FSSP, các cặp so sánh được thực hiện giữa các protein của tập hợp đại diện, trong đó không có hai protein có

55

nhận dạng chuỗi lớn hơn 25%. Đối với mỗi thành viên của đại diện thiết lập một tập tin đƣợc tạo ra có chứa tất cả các cặp cấu trúc với điểm Z lớn hơn 2.0. Các thủ tục tương tự tạo thành một phân loại hoàn chỉnh của tất cả miền protein trong cơ sở dữ liệu PDB90, DDD PDB90 là một tập con các đại diện của PDB, nơi mà không có 2 chuỗi chia sẻ hơn 90% trình tự nhận dạng. Một liên kết trung bình công nghệ phân cụm phân cấp tạo ra một cây nếp gấp gồm các dữ liệu PDB90. Sự sắp xếp cấu trúc đƣợc chia với điểm Z cắt của 2, 4,8,16,32 và 64, tạo ra sáu chỉ số ký tự cho mỗi miền. Cấp độ thứ nhất (Z>2) đƣợc sử dụng nhƣ một sự hoạt động của các nếp gấp. Cấp độ thấp hơn không đƣợc nhầm lẫn với siêu họ và các cấp độ họ của CATH và SCOP, nhƣ chúng không dựa trên mối quan hệ trực tiếp về chức năng hay tiến hóa. Cả hai FSSP và DDD đƣợc cập nhật liên tục, điều này có thể vì chúng đƣợc bắt nguồn từ một thủ tục tự động hoàn chỉnh.

Một phần của tài liệu Các thuật toán phân cụm dữ liệu và ứng dụng trong phân loại protein (Trang 59 - 64)

Tải bản đầy đủ (PDF)

(82 trang)