Phương pháp, thiết bị nghiên cứu

Một phần của tài liệu Bước đầu xây dựng cơ sở dữ liệu các hợp chất thiên nhiên việt nam phục vụ cho việc sàng lọc ảo (Trang 24 - 31)

CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.2. Phương pháp, thiết bị nghiên cứu

Việc thu thập số liệu được tiến hành theo phương pháp thủ công. Thông tin trong CSDL được thu thập tại thư viện Quốc gia, thư viện đại học Dược Hà Nội, thư viện Viện hàn lâm Khoa học Công Nghệ Việt Nam, tạp chí Dược học... ngoài các tạp chí có ở thư viện, quá trình nghiên cứu còn tham khảo thêm các số báo qua hệ thống thông tin CSDL nội bộ của thư viện để thu thập đầy đủ nhất các số đã được xuất bản của các tạp chí Dược học, Dược liệu, Hóa học, Khoa học công nghệ, Nghiên cứu dược và thông tin thuốc.

Đối với các bài báo quốc tế, thông tin được tìm kiếm sử dụng hệ thống tìm kiếm của Pubmed (http://www.ncbi.nlm.nih.gov/pubmed), và trang chủ của các nhà xuất bản (Taylor & Francis, Wiley Interscience, Springerlink, ACS Publications, Sience Direct, Oxford Journals, Nature Journals).

Mục tiêu các thông tin cần thu thập: tên hợp chất, công thức cấu tạo, cấu trúc hóa học dạng 2D, tên nguồn phân lập (tên dân gian, tên khoa học), họ, tên bộ phận dùng, thông tin địa điểm thu hái, thời gian thu hái, tác dụng dân gian, tác dụng dược lý đã được chứng minh, tài liệu tham khảo.

2.2.2. Phương pháp xử lý số liệu 2.2.2.1. Tổ chức CSDL

CSDL ban đầu đã được phát triển bằng cách tổng hợp và lưu trữ các thông tin từ dữ liệu thực nghiệm trong một định dạng bảng. Các thông tin được nhập trực tiếp, chỉnh sửa và bổ xung vào CSDL một cách thủ công. CSDL được tổ chức theo các bước sau (mô phỏng theo Hình 2.1):

Bước 1: Thống kê các hợp chất trên Excel về những thông tin sau: tên hợp chất (tên thông thường, tên IUPAC); công thức; tên nguồn dược liệu (tên thông thường, tên khoa học); địa điểm và thời gian thu hái mẫu; bộ phận sử dụng; tác dụng dân gian; tác dụng dược lý đã được chứng minh (nếu có); tài liệu tham khảo.

Bước 2: Biểu diễn hợp chất hóa học dưới dạng biểu diễn dòng (Line Notation). Vì dạng SMILES, InChi, InChikey cho mỗi hợp chất không có sẵn trong các bài báo đã được công bố nên cấu trúc hóa học của hợp chất được biểu diễn lại một cách thủ công trên phần mềm ChemBioDraw 13.0. Với mỗi hợp chất hóa học ta thu được 1 SMILES, 1 InChi, 1 InChikey.

Bước 3: Trong CSDL, mỗi hợp chất sẽ được chỉ định gán cho một định danh (số đăng ký) để cho việc tìm kiếm và quản lý các hợp chất trong CSDL được thuận tiện hơn. Chuỗi số định danh duy nhất cho các hợp chất hóa học trong CSDL được đặt tên là số VNPD_ID (Vietnam Natural Products Database_Identification).

Bước 4: Sử dụng phần mềm Endnote để trích xuất các tài liệu tham khảo tương ứng của mỗi hợp chất hóa học trong CSDL, mỗi hợp chất đều được liên kết với một tài liệu tham khảo để đảm bảo độ chính xác của thông tin.

Hình 2.1: CSDL ban đầu với các thông tin được thu thập và trình bày trên Excel 2.2.2.2. Làm sạch CSDL

 Tìm kiếm các hợp chất trùng nhau: Sắp xếp theo trường InChi và InChiKey để đưa những hợp chất giống nhau khu trú lại gần nhau hơn.

 Lọc các hợp chất trùng nhau: So sánh InChiKey, SMILES, InChi của các hợp chất.

Các trường giống nhau sẽ được gộp lại thành một trường lớn chung.

2.2.2.3. Phân loại các nhóm chất

Phân loại các nhóm chất bằng ClassyFire, một ứng dụng để phân loại cấu trúc tự động của các hợp chất hóa học. ClassyFire giúp phân loại hóa học theo phân cấp của các cấu trúc. Các phân loại hóa học và phân cấp cấu trúc của nó được cung cấp

bằng cách sử dụng định dạng Ontology sinh học và Biomedical mở (OBO) [5, 16].

Định dạng chính được sử dụng để biểu diễn cấu trúc hóa học trong thuật toán phân loại là định dạng SMARTS (SMiles ARbitrary Target Specification) [12]. SMARTS là một định dạng phù hợp với ngôn ngữ phân tử SMILES, có thể được sử dụng để xác định mô hình cấu trúc tiểu phân trong các phân tử. ClassyFire kết hợp nhiều phương pháp để phát hiện mẫu kết cấu. Hầu hết các tính năng được phát hiện thông qua tìm kiếm cấu trúc thượng tầng, được thực hiện trên thư viện của hơn 9.000 mẫu thiết kế SMARTS theo cách thủ công [50]. Mỗi thuật ngữ đã được xác nhận qua việc lặp lại các thử nghiệm và cải tiến (nếu cần) đối với các bộ hợp chất nhỏ. Thư viện được tích hợp vào cơ sở JChem của ChemAxon. Việc xác định các phân loại mới được hỗ trợ bởi lược đồ phân loại được cung cấp bởi các cơ sở dữ liệu khác như LIPID MAPS [32], ChEBI [24] và DrugBank [27]. Kết quả thu được khi tiến hành phân tích một hợp chất được mô tả trong Phụ lục 2.

2.2.2.4. Tính toán một số thông số lý hóa

Sử dụng phần mềm CDK Descriptor Calculator [15] để tính toán một số thông số lý hóa của các hợp chất: Khối lượng phân tử; XlogP; Số liên kết cho Hydro; Số liên kết nhận Hydro; Số vi phạm quy tắc Số 5 của Lipinski; Số liên kết xoay đồng vị; Diện tích bề mặt hạt mang điện và MACCS, được mô tả trong Phụ lục 3.

2.2.3. Thiết lập giao diện website

Hợp chất

- Tên thông thường - Tên IUPAC - Công thức - SMILES - InChi - InChiKey - VNPD_ID

Các thông số lý hóa

-Khối lượng phân tử -XlogP

-Số liên kết cho Hydro -Số liên kết nhận Hydro -Số vi phạm quy tắc Số 5 của Lipinski

-Số liên kết xoay đồng vị

Nguồn dược liệu

- Tên thông thường -Tên khoa học -Họ

-Địa điểm thu hái mẫu -Thời gian thu hái mẫu -Bộ phận sử dụng -Tác dụng dân gian

-Tác dụng dược lý đã được chứng minh

Hình 2.2: Mô tả nội dung và các trường lớn của CSDL

CSDL được xây dựng trên ứng dụng MySQL server – một dạng mã nguồn mở. MySQL là cơ sở dữ liệu tốc độ cao, ổn định và dễ sử dụng, hoạt động trên nhiều hệ điều hành cung cấp một hệ thống lớn các hàm tiện ích rất mạnh. Với tốc độ và tính bảo mật cao, MySQL rất thích hợp cho các ứng dụng có truy cập CSDL trên internet. MySQL quản lý dữ liệu thông qua các cơ sở dữ liệu, mỗi cơ sở dữ liệu có thể có nhiều bảng quan hệ chứa dữ liệu.

CSDL được xây dựng được bằng ngôn ngữ lập trình Pythonframework Django với web server: Apache.

Câu hỏi truy vấn

Phân tích dữ liệu đầu vào Phản hồi thông tin từ CSDL

Hệ thống câu trả lời Kết quả sàng lọc

Hình 2.3. Quá trình đưa ra dữ liệu hiển thị cho thông tin truy vấn

Giao diện web được xây dựng dựa trên các trường lớn được mô tả ở Hình 2.2. Từ CSDL được thống kê ban đầu trên các tệp file Exel, mỗi tệp quản lý một trường thông tin nhỏ được tổng hợp lại và được kiểm soát bằng một hệ thống quản lý dữ liệu web. Giao diện đưa ra cho người tương tác các khả năng khai thác dữ liệu qua những thanh tìm kiếm thông tin được hiển thị trên màn hình. Nếu muốn tìm kiếm ở dạng dữ liệu nào, người dùng có thể kích vào thanh dữ liệu đấy, hệ thống web sẽ tự động đưa ra một trường tìm kiếm thông minh và có hướng dẫn định dạng tìm kiếm hợp lý ở mỗi khung tìm kiếm. Với mỗi truy vấn, hệ thống CSDL sẽ đưa ra kết quả một cách nhanh chóng thông qua các bước như Hình 2.3.

2.2.4. Thiết bị nghiên cứu

- Máy tính Asus X552LDV-SX750D với bộ sử lý:

Hãng CPU Intel

Công nghệ CPU Core i5

Loại CPU 4210U

Tốc độ CPU 1.7 Ghz

- Phần mềm:

Phần mềm

Microsoft Excel 2013 MySQL server EndNote X7

ChemBioDraw 13.0 MarvinSketch CDKDescUI-1.4.6 ClassyFire Version 1.0

Một phần của tài liệu Bước đầu xây dựng cơ sở dữ liệu các hợp chất thiên nhiên việt nam phục vụ cho việc sàng lọc ảo (Trang 24 - 31)

Tải bản đầy đủ (DOCX)

(57 trang)
w