Mô hình QSAR là mô hình biểu thị mối liên hệ định lượng giữa cấu trúc và hoạt tính của các hợp chất. Mô hình QSAR được biểu diễn dưới dạng một phương trình toán học (1.4.2). QSAR sử dụng các TSPT, các kỹ thuật xác suất thống kê và trí tuệ nhân tạo để xây dựng các mô hình. QSAR được xây dựng dựa trên giả thuyết là cấu trúc của một phân tử phải chứa những đặc điểm cấu trúc liên quan tới tính chất hóa học, vật lý, sinh học và dựa trên khả năng các mô tả phân tử. Bởi các mô hình QSAR, hoạt tính sinh học của một phân tử mới hoặc chưa được kiểm nghiệm có thể được suy ra từ cấu trúc của các hợp chất tương tự trong đó tính chất của ch ng đã được kiểm nghiệm [37].
Phương pháp QSAR xây dựng các mô hình toán học nhằm dự đoán hoạt tính của các hợp chất dựa trên cấu trúc hóa học của chúng, là các kỹ thuật nhằm dự đoán các kết quả trước khi các thử nghiệm được tiến hành trong phòng thí nghiệm. QSAR cung cấp thông tin dự đoán về kết quả có thể có của một thử nghiệm nào đó và khả năng mới này cung cấp các yếu tố liên quan để thiết lập thứ tự ưu tiên cho một chất mới cho các thử nghiệm [35].
Như vậy, để có thể xây dựng được các mô hình này thì cả cấu trúc và hoạt tính đều phải được định lượng hóa. Trong nghiên cứu này, các cấu trúc được định lượng thông qua các TSPT (biến x), biến Y là giá trị logIC50 với IC50 là nồng độ ức chế 50% hoạt tính của enzym HDAC2, được đánh giá bằng các phương pháp nghiên cứu thực nghiệm sử dụng Kit định lượng Bioscence®). Giá trị logIC50 thu được bằng cách xử lí dữ liệu IC50 bằng phần mềm Microsoft Excell 2007. IC50 càng nhỏ hoạt tính ức chế enzym HDAC2 của chất đó càng mạnh.
- Tính toán TSPT: Tham số mô tả phân tử là một số thu được từ một quá trình toán học và lôgic chuyển đổi thông tin được mã hóa trong cấu trúc hóa học [37]. Trong nghiên cứu này, các tham số được tính toán sử dụng phần
mềm Dragon [37]. Dragon là một phần mềm được phát triển bởi công ty Talete của Italia vào năm 1993, được sử dụng rất rộng rãi hiện nay trong các nghiên cứu hóa tin và thiết kế thuốc. Dragon tính toán được hơn 5000 TSPT khác nhau . Các mô tả phân tử thường được phân loại dựa vào chiều thông tin mô tả cấu trúc. (i) Tham số 0D mô tả thành phần cấu tạo nên cấu trúc, còn được gọi là các tham số đếm nguyên tử, như số lượng C, N... (ii) Tham số 1D mô tả cấu tr c dưới dạng chuỗi, như vân tay cấu trúc (fingerprint), hay số lượng các mảnh cấu tr c, như số lượng nhân thơm, nhóm carboxylic... (iii) Tham số 2D mô tả cấu tr c dưới dạng hình học topo, cho phép xác định chính xác thứ tự, vị trí của nguyên tố hay mảnh cấu trúc trong phân tử. Các tham số 2D thường được tính toán dựa trên lý thuyết về graph. (iii) Tham số 3D mô tả đặc điểm cấu trúc của phân tử trong không gian. Các tham số 3D có thể được tính toán dựa trên các phương pháp l thuyết như MoRSE, GETAWAY, tính toán lượng tử, mô tả bề mặt hoặc thể tích phân tử...
Trong nghiên cứu này chúng tôi lựa chọn tham số phân tử 2D để mô tả cấu trúc các hợp chất. Bởi so với các mô tả phân tử 3D thì mô tả phân tử 2D không cần tới các thông tin về cấu trúc 3D của phân tử, có tính ổn định cao hơn do các hợp chất được mô tả dưới dạng 3D thường có độ linh động về cấu dạng.
Kết quả: Sử dụng phần mềm Dragon 6.0 tính toán được 3764 TSPT cho mỗi phân tử trong CSDL. Sau khi xử lí loại bỏ TSPT gây nhiễu, 1632 TSPT còn lại được kiểm tra quan hệ phi tuyến với biến đáp ứng LogIC50. Cuối cùng các hợp chất được tính toán với 534 TSPT 2D và lưu dưới dạng file.txt.
- Phân chia tập huấn luyện / tập kiểm tra
Sử dụng phương pháp phân chia ngẫu nhiên chia 45 hợp chất trong CSDL thành 34 hợp chất được phân vào tập huấn luyện, 11 hợp chất được phân vào tập kiểm tra.
- Xây dựng mô hình: Lựa chọn tham số phân tử bằng phương pháp thuật giải di truyền sử dụng phần mềm Mobydigs 1.0. Sau đó xây dựng mô hình QSAR trên tập huấn luyện bằng phương pháp MLR sử dụng phần mềm
STATISTICA 10.0 để xác định tương quan hoạt tính ức chế với tham số mô tả phân tử Dragon.
Lựa chọn TSPT thích hợp: tất cả các biến không phải được đưa hết vào mô hình. Mặc dù việc thêm biến độc lập vào làm tăng hệ số tương quan R2, nhưng nó chỉ tốt khi chúng có liên hệ mạnh với biến phụ thuộc. Mô hình được chọn ứng với mô hình có Q2
cao nhất. Thực hiện thuật giải di truyền để chọn mô hình có các biến tối ưu bằng phần mềm Mobydigs 1.0.
Thuật giải di truyền dựa trên cơ chế của chọn lọc tiến hóa trong tự nhiên: “Trong mọi thế hệ, một tập mới các sinh vật được tạo ra bằng cách lai ghép những nhân tố thích hợp nhất với môi trường của những sinh vật trong thế hệ cũ cùng với sự xuất hiện đột biến ngẫu nhiên của các cá thể trong thế hệ mới”. Vận dụng cơ chế này, đầu tiên thuật toán sẽ mã hoá tất cả các tham số của cấu tr c ban đầu trong một nhiễm sắc thế - biểu diễn bằng một vec tơ. Từ nhiễm sắc thể ban đầu này, tạo ngẫu nhiên một quần thể. Quần thể này được đánh giá và từ đó các nhiễm sắc thể thích nghi nhất (tức là có hàm mục tiêu Q2 cao nhất) được chọn làm khung để tạo ra quần thể tiếp theo. Quy trình này làm tăng Q2
của toàn bộ nhiễm sắc thể bằng cách truyền các đặc tính cấu trúc thuận lợi từ một quần thể này sang một quần thể khác. Sau một số chu kỳ tìm kiếm và đánh giá, cuối cùng ta sẽ tìm được một nhiễm sắc thể (mô hình) phù hợp với giá trị Q2 cao nhất.
Các bước thực hiện thuật giải di truyền:
(1). Khởi tạo một quần thể ban đầu (file đầu vào được lưu dưới dạng file.mdd chứa các dữ liệu về tên, các mô tả phân tử được tính toán bằng phần mềm Dragon 6.0, giá trị log IC50 của các hợp chất trong tập huấn luyện).
(2). Xác định hàm mục tiêu (fitness) cho mỗi cá thể trong quần thể. Hàm mục tiêu trong nghiên cứu này là giá trị Q2.
(3). Tạo ra quần thể mới bằng cách lai ghép chéo (crossver) từ các cá thể hiện tại có chọn lọc (selection), đồng thời tạo ra các đột biến (mutation) trong quần thể mới theo một xác suất nhất định. Quá trình này thực hiện thông qua cài đặt giải thuật di truyền (Genetic Algorithm set up).
(4). Các cá thể trong quần thể mới được sinh ra thay thế cho các cá thể trong quần thể cũ.
(5). Nếu điều kiện dừng, giải thuật dừng lại và trả về cá thể tốt nhất cùng với giá trị hàm mục tiêu của nó.
Kết quả đã lựa chọn được 6 tham số mô tả phân tử có thể xây dựng mô hình tốt nhất. Đó là ATS8m, JGI10, SM15_AEA(bo), SM08_AEA(dm), SM09_AEA(dm), B06[N-O].
Lập mô hình với số biến đã chọn bằng phương pháp hồi qui đa biến tuyến tính (MLR) bằng phần mềm STATISTICA 10.0. MLR là một trường hợp rất phổ biến trong thực tế, là tổ hợp tuyến tính giữa các biến phụ thuộc (Y) với nhiều biến độc lập (x). Trong nghiên cứu này x chính là các TSPT đặc trưng cho cấu trúc các hợp chất trong CSDL, Y là giá trị logIC50
với IC50 là nồng độ ức chế 50% hoạt tính của enzyme HDAC2. Phân tích hồi qui bao hàm cả nghĩa “ước tính” (Estimating) hay “dự đoán” (Predictive) vì sau khi sự tương quan tuyến tính giữa x và Y được thiết lập bởi một biểu thức toán học cụ thể người ta có thể ước tính hay dự đoán giá trị của Y từ một giá trị của x. Đường biểu diễn biểu thức toán học ấy được gọi là đường hồi qui của Y theo x.
Kết quả mô hình MLR xây dựng được gồm 6 biến TSPT như sau:
LogIC50 = 2.808 + 0.064×ATS8m – 230.167×JGI10 –
1.072×SM15_AEA(bo) – 2.821×SM08_AEA(dm) + 3.519×SM09_AEA(dm) – 0.700×B06[N-O]
(3.1) Trong đó ATS8m, JGI10, SM15_AEA(bo), SM08_AEA(dm), SM09_AEA(dm), B06[N-O] là các biến tham số phân tử 2D. Hệ số của biến mang dấu (+), giá trị biến TSPTcàng lớn thì logIC50 càng lớn, IC50 càng lớn chứng tỏ hoạt tính ức chế enzyme HDAC2 của chất đó càng nhỏ. Và ngược lại, hệ số biến mang dấu (-), giá trị biến TSPTcàng lớn thì logIC50 càng nhỏ, IC50 càng nhỏ, hoạt tính ức chế enzyme HDAC2 càng lớn.