Xây dựng cơ sở dữ liệu (CSDL) hệ protein huyết tha- 123docz.net

1.2.T ối ưu hóa các phương pháp xử lý và phân tích mẫu

1.4. Xây dựng cơ sở dữ liệu (CSDL) hệ protein huyết thanh người Việt Nam bằng các phần mềm chuyên dụng

bằng các phần mềm chuyên dụng

Hiện nay, trên Ngân hàng Dữ liệu protein Quốc tế, các dữ liệu về hệ protein huyết thanh phần lớn là từ các đối tượng người châu Âu, Mỹ và Đông Bắc Á. CSDL hệ protein người Việt Nam hiện còn chưa có. Từ các kết quả nghiên cứu của đề tài, chúng tôi đã tiến hành xây dựng CSDL hệ protein huyết thanh người Việt Nam đầu tiên.

Các CSDL hệ protein huyết thanh người Việt Nam được xây dựng dựa trên:

1. Kết quả phân tích các hệ protein trong huyết thanh (hệ protein tổng thể, hệ protein bền nhiệt, hệ glycoprotein) các mẫu nghiên cứu bằng phương pháp điện di 2 chiều (2-DE) kết hợp với hệ sắc kí lỏng nano đa chiều kết nối với hệ khối phổ liên tục (nanoLC-ESI-MS/MS) trong tổng số 90 mẫu huyết thanh: (i) người bình thường (30 mẫu); (ii) người bệnh ĐTĐ2 (ở cả 3 trạng thái bệnh: sớm, nhẹ và nặng): 30 mẫu và (iii) mẫu bệnh nhân leukemia (dạng cấp và mãn): 30 mẫu.

2. Các dữ liệu phổ protein nhận được được phân tích và xử lí bằng phần mềm Mascot v1.8 (Perkin DN et al, 1999). CSDL NCBInr với trên 7 triệu trình tựđược sử dụng để nhận dạng các protein/peptide trên hệ thống máy chủ Workstation XW BASE UNIT. Các dữ liệu tiếp đó được loại bớt những protein trùng, phân mảnh của cùng một protein. Các protein được đưa vào CSDL phải có số peptide bắt cặp (matched) ≥ 2.

3. Các protein được tìm kiếm theo các thông tin (vị trí, chức năng, khả năng liên quan đến bệnh, các biến đổi sau dịch mã) từ cơ sở dữ liệu UniProt (http://www.uniprot.org/) và sử dụng một số công cụ tin sinh chuyên dụng (ID Mapping, http://www.uniprot.org/mapping/; NetNGlyc 1.0 Server,

http://www.cbs.dtu.dk/services/NetNGlyc/) cũng như các phần mềm xử lý, phân tích số liệu thống kê (Microsoft Excel).

66 4. CSDL được thể hiện dưới dạng bảng số liệu với danh sách các protein được sắp

xếp như sau đối với mỗi protein: số thứ tự, sốđăng kí của protein, tên protein được xếp theo thứ tự ABC, số đăng kí Uniprot của protein (được kết nối/link với trang web có đầy đủ các thông số và kết quả nghiên cứu về protein này), chức năng của protein, vị trí của protein trong tế bào, các biến đổi của protein (nếu có) và liên quan đến bệnh (nếu có). Từ CSDL này có thể tìm ra các thông số, các kết quả nghiên cứu liên quan đến từng protein trong đó.

Trên cơ sở đó, đề tài đã xây dựng được 3 Ngân hàng dữ liệu về hệ protein huyết thanh người Việt Nam bình thường, người bệnh ĐTĐ2 và người bệnh leukemia. Mỗi ngân hàng lại gồm 3 CSDL được tách riêng của: hệ protein tổng thể, hệ protein bền nhiệt và hệ glycoprotein. Riêng đối với người bệnh leukemia lại được tách thành 2 phần là người bệnh

leukemia cấp và mãn. Như vậy tổng số chúng tôi đã xây dựng được 12 CSDL khác nhau. Mỗi CSDL chứa từ hàng trăm đến hàng ngàn protein các loại (Bảng 10).

Bảng 10. Các cơ sở dữ liệu hệ protein huyết thanh người bình thường và người bệnh ĐTĐT2 và leukemia đã được xây dựng

Số lượng protein có trong các CSDL TT Cơ sở dữ liệu

Số

lượng

mẫu Htệổ protein ng thể Hbệề protein n nhiệt Glycoprotein Hệ

Ghi chú 1 Người bình thường 30 3696 1386 385 2 Người bệnh ĐTĐT2 30 4044 1110 468 3 NgLeukemia cười bệnh ấp 22 3081 2912 248 4 NgLeukemia mãn ười bệnh 8 1994 1506 141 Minh họa về trang Web cơ sở dữ liệu được xây dựng bởi đề tài được thể hiện trong Hình 44.

Xây dựng cơ sở dữ liệu (CSDL) hệ protein huyết thanh người Việt Nam bằng các phần mềm chuyên dụng

Hệ glycoprotein trong huyết thanh bệnh nhân leukemia