1. Trang chủ
  2. » Tất cả

Luận án mở rộng các kỹ thuật xây dựng mô hình qsar và tiến hành tổng hợp các dẫn xuất flavonoid mới

231 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 231
Dung lượng 8,26 MB

Nội dung

Trang 1

1

MỞ ĐẦU

Các phương pháp phòng và trị bệnh ung thư hiện nay như phẫu thuật, xạ trị, hóa trị Tuy nhiên các phương pháp này vẫn có những tác dụng phụ nhất định đối với bệnh nhân Nhu cầu về dược chất kháng ung thư có khả năng phịng và trị bệnh đang rất lớn nhưng khả năng đáp ứng còn hạn chế [70, 71] Các nhà khoa học, dược học đã và đang quan tâm nghiên cứu, tìm kiếm các loại dược chất mới Trong đó nhóm flavone, isoflavone nói riêng là nhóm dược chất có nhiều trong thực vật với hoạt tính kháng oxi hóa, kháng ung thư, kháng viêm, … hiệu quả [45, 104] Các nghiên cứu thực nghiệm trên thế giới và Việt Nam đã cung cấp một cơ sở dữ liệu quý giá về nguồn dược chất trong tự nhiên, nhưng các nghiên cứu thực nghiệm thuần túy còn nhiều hạn chế để tạo ra hợp chất có hoạt tính kháng ung thư hiệu quả, nhanh chóng, kinh tế [41, 42] Các nghiên cứu lý thuyết trên thế giới nói chung, trong nước nói riêng về nhóm flavone và isoflavone có hoạt tính kháng ung thư cở tử cung còn khá khiêm tốn [90, 103] Nghiên cứu mối quan hệ cấu trúc - hoạt tính nhằm thiết kế các dẫn xuất flavone, isoflavone mới có hoạt tính được cải thiện; các nghiên cứu lý thuyết là rất cần thiết để thúc đẩy và làm tiền đề cho các nghiên cứu thực nghiệm, nhằm tìm kiếm các dược chất kháng ung thư hiệu quả [80, 90]

Trang 2

2

từ gừng gió, đậu nành, tía tơ, xa kê, actiso, một vài kỹ thuật phân tích hóa lý cũng được sử dụng để xác định cấu trúc phân tử các dẫn xuất flavonoid Các phân tử flavonoid đã phân lập sẽ được dự báo hoạt tính, và sử dụng làm chất mẫu để thiết kế hợp chất mới có hoạt tính cao hơn Từ các cơ sở trên, chúng tôi nghiên cứu đề tài

“Thiết kế, sàng lọc một số dẫn xuất flavonoid và đánh giá hoạt tính gây độc lên

dịng tế bào Hela dựa vào các tính tốn hóa lượng tử”

Mục tiêu của luận án

Tính tốn, sàng lọc các tham số mô tả phân tử gồm: tham số điện tích, độ dịch chuyển hóa học, tính chất hóa lý, tham số 2D, 3D của các dẫn xuất flavonoid Xây dựng các mô hình quan hệ cấu trúc – hoạt tính có khả năng dự đốn hoạt tính kháng ung thư của các dẫn xuất flavone và isoflavone có cấu trúc tương tự

Sàng lọc, phân lập, xác định cấu trúc và thử nghiệm in vitro hoạt tính kháng

ung thư 6 hợp chất flavonoid từ actiso, xa kê, đậu nành, tía tơ, gừng gió

Thiết kế, sàng lọc các dẫn xuất flavone và isoflavone và đánh giá hoạt tính kháng ung thư cở tử cung cũng như các tính chất hóa lý của các dẫn xuất flavonoid mới thiết kế từ flavonoid mẫu

Ý nghĩa khoa học của luận án

Nghiên cứu này đã sử dụng các tính tốn lý thuyết và xây dựng các mối quan hệ định lượng cấu trúc - hoạt tính (QSAR) Các flavone và isoflavone được xây dựng và tối ưu hóa bằng các phương pháp cơ học phân tử MM+ Điện tích ngun tử, độ dịch chuyển hóa học, các tính chất hóa lý và các tham số mơ tả phân tử 2D, 3D từ các phương pháp lý thuyết được sử dụng để xây dựng các mơ hình đa biến như hồi quy tuyến tính đa biến (MLR), hồi quy thành phần chính (PCR), hồi quy bình phương cực tiểu riêng phần (PLS) và mạng nơ ron nhân tạo (ANN) Các kỹ thuật thực nghiệm chụp cộng hưởng từ hạt nhân, phổ khối lượng và kỹ thuật đo nhiễu xạ tia X đơn tinh thể cũng được sử dụng để xác định cấu trúc phân tử các dẫn xuất flavonoid chiết xuất

Trang 3

3

hợp chất có hoạt tính cao Ngồi ra với kỹ thuật QSAR có thể xây dựng các mơ hình khác nhau để dự đốn các tính chất hóa lý khác của các hợp chất Từ cơng trình này, có thể ứng dụng phương pháp, kết quả nghiên cứu trong các nghiên cứu thực nghiệm, lý thuyết với sự hỗ trợ của cơng nghệ máy tính nhằm giảm thiểu đáng kể chi phí cho các nghiên cứu thực nghiệm Kết quả nghiên cứu của luận án mở ra hướng nghiên cứu mới, phù hợp với định hướng nghiên cứu trên thế giới và Việt Nam Đây là cơ sở khoa học để áp dụng trong thiết kế, sàng lọc các hợp chất hữu cơ có cấu trúc tương tự, đồng thời dự đốn hoạt tính sinh học và các tính chất hóa lý của hợp chất làm tiền đề cho các quá trình thực nghiệm một cách hiệu quả

Những đóng góp mới của luận án

Cơng trình này xác định được cấu trúc và thử hoạt tính pGI50 in vitro đối

với 6 hợp chất flavonoid phân lập từ lá tía tơ, lá xa kê, lá actiso, hạt đậu nành và củ gừng gió Đã tính tốn và sàng lọc các tham số mô tả cấu trúc phân tử như tham số điện tích, tham số độ dịch chuyển hóa học, tham số 2D, 3D ảnh hưởng chính đến hoạt tính kháng ung thư của các dẫn xuất flavonoid Đã xây dựng và đánh giá thành công khả năng dự báo của các mơ hình QSAR Các mơ hình QESAR, QSDAR, QSSR, QSARNMR, QSARANN, QSARPCA-ANN, QSARPCR, QSARPLS đã dự đốn được hoạt tính kháng ung thư và tính chất hóa lý của các hợp chất mới được thiết kế từ các chất mẫu và hợp chất tự nhiên Hoạt tính kháng ung thư của các hợp chất mới tốt hơn hoạt tính kháng ung thư của chất mẫu, hợp chất phân lập từ gừng gió, đậu nành, tía tơ, xa kê, actiso Như vậy, việc tiến hành nghiên cứu xây dựng các mơ hình QSAR trong nghiên cứu này là một định hướng hữu ích trong nghiên cứu tìm kiếm và tởng hợp các flavonoid khác nhau từ tự nhiên

Cấu trúc của luận án gồm các phần sau - Mở đầu

- Chương 1: Tổng quan tài liệu

- Chương 2: Nội dung và phương pháp nghiên cứu - Chương 3: Kết quả và thảo luận

- Kết luận và kiến nghị

Trang 4

4

CHƯƠNG 1 TỔNG QUAN TÀI LIỆU

1.1 BỆNH UNG THƯ CỔ TỬ CUNG 1.1.1 Các nguyên nhân gây ung thư

Ung thư là một tập hợp các bệnh liên quan đến sự phân chia tế bào một cách mất kiểm soát, tiếp theo là q trình các tế bào đó xâm lấn và di căn đến các mô khác qua hệ thống bạch huyết và máu [6] Giai đoạn di căn là nguyên nhân chính gây tử vong của bệnh nhân ung thư Hiện nay có trên 100 bệnh ung thư có loại từ bắp thịt và xương, có loại từ da hoặc lớp lót của các cơ quan, có loại xuất phát từ máu Ở nam giới thường gặp ung thư phổi, gan, đại trực tràng, dạ dày, vòm hầu, thanh quản, thực quản, tuyến tiền liệt, ung thư máu [58, 70] Ở nữ giới thường gặp ung thư vú, cổ tử cung, đại trực tràng, phổi, tuyến giáp, buồng trứng, gan, dạ dày, thân tử cung, da [70] Ung thư làm cho cơ thể bệnh nhân tử vong bằng nhiều cách, nhưng đa số là làm cho cơ thể suy kiệt với các bệnh cơ hội Trong đó, bệnh ung thư cở tử cung hình thành ở biểu mô cổ tử cung (cổ tử cung là cơ quan nối giữa âm đạo với buồng trứng) [57, 96]

Ung thư cổ tử cung bắt đầu ở niêm mạc cổ tử cung, tại đây các tế bào phát triển bất bình thường và khó kiểm sốt dẫn đến hình thành khối u Phụ nữ trong độ tuổi từ 30 đến 59 thường dễ mắc bệnh hơn cả Đây là căn bệnh có thể điều trị và phòng ngừa nếu phát hiện sớm [96, 112]

Triệu chứng biểu hiện bệnh: âm đạo xuất huyết bất thường, có mùi khó chịu, cơ thể bệnh nhân gầy gị, da trắng bệch, cơ thể đau nhức [32]

Điều trị bệnh: tuỳ theo giai đoạn phát triển của bệnh mà được điều trị theo phác đồ khác nhau: giai đoạn 1 ung thư khu trú tại cổ tử cung; giai đoạn 2 ung thư xâm lấn vùng lân cận; giai đoạn 3 ung thư xâm lấn xa hơn; giai đoạn 3 di căn sang các bộ phận khác của cơ thể [96]

Trang 5

5

Các yếu tố bên ngoài gây bệnh ung thư bao gồm: các tia X, chất phóng xạ, tia cực tím, hóa chất gây hư hại cấu trúc gen di truyền Các sản phẩm công nghiệp như: amiăng gây ung thư phổi; polivinylclorua gây ung thư gan; nitrosamin gây ung thư bao tử; các phẩm màu trong bánh kẹo, hay một số sản phẩm trong thuốc nhuộm tóc, các hố chất kích thích trong chăn ni nhiễm estrogen cũng gây ung thư; thuốc ngừa thai và các chất kích thích nội tiết tố như DES (diethylstilbestrol) có khả năng gây ung thư; thuốc trừ sâu, rầy như DDT cũng có khả năng gây ung thư [23, 99] Ơ nhiễm khơng khí: các hố chất gây ô nhiễm không khí như CO2, hidrocacbon, benzopiren, bụi amiăng, khói thuốc lá gây ung thư phởi [70] Ngồi ra cịn có độc tố của nấm mốc chứa aflatoxin có trong nấm Aspergillus gây ung thư [26]

Các yếu tố do lối sống có thể là nguyên nhân gây bệnh ung thư như các hoá chất trong thuốc lá gây ung thư phổi, rượu gây ung thư thực quản; chế độ ăn gây ung thư: ăn nhiều mỡ động vật, bơ, ăn nhiều calo, ăn thiếu chất xơ, uống rượu, hay sử dụng thực phẩm khơng an tồn là nguyên nhân gây ung thư [23, 62]

Yếu tố sinh học gây ung thư thể hiện ở một số ít căn bệnh ung thư ở người

được cho là do vi rút như ung thư gan, ung thư vòm họng, ung thư cổ tử cung [26] Yếu tố di truyền gây ung thư chiếm tỉ lệ thấp, một số loại như ung thư mắt, ung thư vú, có khuynh hướng dễ gặp trong cùng một gia đình Tuy nhiên, yếu tố di truyền khơng có tầm quan trọng về mặt thực tiễn [62]

1.1.2 Điều trị

Một số liệu pháp chính trong điều trị ung thư: phẫu trị là dùng lưỡi dao mổ để loại bỏ tận gốc khối u; xạ trị là phương pháp sử dụng dùng tia phóng xạ tàn tiêu diệt các tế bào ung thư; hoá trị là dùng hoá chất để tiêu diệt tế bào ung thư; liệu pháp miễn dịch là liệu pháp tăng cường khả năng đề kháng tự nhiên của cơ thể để kháng lại sự phát triển của tế bào ung thư [23, 58]

Trang 6

6

quả Liệu pháp miễn dịch chưa được nghiên cứu chuyên sâu nên chỉ là phương pháp bổ trợ trong điều trị bệnh [58, 96]

1.1.3 Phòng ngừa

Biện pháp phòng ngừa ung thư bao gồm một số biện pháp như: Giảm thiểu việc tiếp xúc với thuốc lá, rượu, hố chất cơng nghiệp; thực hiện các biện pháp bảo vệ cơ thể chặt chẽ khi tiếp xúc với tia phóng xạ; ngừa ung thư qua việc chọn lựa chế độ ăn uống an tồn như khơng nên ăn một số thức ăn được khuyến cáo có thể gây ung thư, thức ăn có chứa các hóa chất nguy hiểm và các hormon; khám sức khoẻ định kỳ, tầm soát ung thư sớm đều đặn; tiêm vacxin ngừa ung thư; lối sống lành mạnh [47, 99]

1.2 LIÊN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH

Liên hệ giữa cấu trúc – hoạt tính là nguyên tắc cơ bản nhất để xây dựng các mơ hình quan hệ cấu trúc – hoạt tính (QSAR) hay mơ hình quan hệ cấu trúc – tính chất (QSPR), mơ hình quan hệ cấu trúc - cấu trúc để dự đoán tính chất vì cấu trúc – tính chất - hoạt tính có mối quan hệ biện chứng với nhau, là các mối liên hệ nhân – quả có thể được tính tốn một cách chính xác và thiết lập theo những mơ hình tốn học rõ ràng [17, 93] Theo Testa và Kier, quan hệ định lượng cấu trúc – tác dụng là

tởng hịa các mối quan hệ thể hiện trên Hình 1.1 Trên cơ sở này nhiều kiểu mơ

hình được xây dựng với các thông tin về cấu trúc khác nhau Mô hình tởng qt dạng QSXR: X có thể là A – hoạt tính (Activity); tính chất – P (Property); cấu trúc – S (Structure) [17, 93]

Cấu trúc – tính chất khơng phải lúc nào cũng được phân định rõ ràng, nên

mối liên quan giữa chúng được biểu hiện bằng phần giao trên giản đồ Venn, Hình 1.2 [17, 93] Tính chất – tác dụng có thể là một trong một số trường hợp nên mối

Trang 7

7 Dữ liệucấu trúcHoạt tínhTính chấtMơ hìnhphân tửSàng lọc dữ liệuQSXRX=aixi+ b0

Hình 1.1 Mối liên quan định lượng cấu trúc, tính chất, độ phản ứng, hoạt tính

Hình 1.2 Giản đồ Venn mối liên quan định lượng cấu trúc và tác dụng [93]

Theo quan điểm hóa học, một phân tử có tác dụng sinh học mang hai nhóm chức: nhóm tác dụng (thường có cấu tạo đặc biệt) và nhóm ảnh hưởng (thường là các nhóm có khả năng thay đởi tính chất lý hóa của phân tử như hydroxyl, halogen, carboxyl, nitro, ) [17, 93]

Theo quan điểm sinh hóa, một phân tử có tác dụng sinh học có 2 thành phần chính: Khung phân tử đặc trưng cho tính chất lý hóa, cịn nhóm chức quyết định hoạt tính sinh học [17, 93]

Theo quan điểm hiện đại, phân tử hợp chất là một thể thống nhất (gồm các

nguyên tử tạo khung phân tử, nhóm chức ) Tác dụng sinh học khơng những do Tác dụng

Trang 8

8

cấu trúc phân tử trực tiếp quyết định mà còn gián tiếp chịu ảnh hưởng bởi các quá trình như hấp thụ, vận chuyển, phân bố hay chuyển hóa của phân tử trong cơ thể sinh vật [17, 93] Do đó, khi nghiên cứu mơ hình liên quan giữa cấu trúc với tác dụng, cấu trúc với hoạt tính người ta khơng những phải khảo sát cấu trúc mà cịn xem xét những yếu tố ảnh hưởng

Mô tả cấu trúc phân tử: cấu trúc hóa học là sự sắp xếp trong không gian của các nguyên tử trong lượng mô tả hay thông tin cấu trúc [17, 93]

Mức hình học: cấu trúc phân tử có thể được trình bày dưới dạng 2 chiều (thông tin cấu trúc gồm độ liên kết nguyên tử, cấu hình Z/E) hay 3 chiều (thơng tin cấu trúc gồm cấu hình tương đối cũng như cấu hình tuyệt đối) Các thông tin của cấu trúc 2 chiều (2D) và 3 chiều (3D) hữu ích cho nghiên cứu mối liên quan định lượng cấu trúc và tác dụng [17, 93]

Mức lập thể điện tử: đó là vật thể có thể tích và hình thù nhất định như cấu trúc lập thể có tính chất cơ động hay là cấu trúc lập thể với sự phân bố mật độ điện tử của các nguyên tử [17, 93] Các thơng tin cấu trúc bao gồm thể tích, diện tích bề mặt, sự thay đổi cấu dạng, sự phân bố điện tử, thế tĩnh điện phân tử, Các thông tin này có thể có từ tính tốn trên máy tính, đặc biệt là sử dụng các phương pháp hóa lượng tử

Mức tương tác với môi trường: cấu trúc phân tử thể hiện hoạt tính, độc tính, điểm chảy, điểm sơi, khả năng solvat hóa, tính chất sắc ký, hệ số phân bố, độ tan, áp suất tới hạn, v.v, trong môi trường sinh học [17, 93]

Trang 9

9

1.3 TÍNH TỐN THƠNG TIN CẤU TRÚC 1.3.1 Cơ học phân tử

Trong các phương pháp lý thuyết liên quan đến việc tối ưu hóa hình học của cấu trúc thì phương pháp cơ học phân tử (Molecular Mechanic - MM) khá thông dụng Phương pháp MM có thể tính tốn chính xác về cấu trúc hình học và năng lượng tương đối của các phân tử lớn vượt quá khả năng đối với các phương pháp hóa lượng tử [25]

Năng lượng của phân tử trong trường được tính theo phương trình 1.1 [25]: E = Eb + Ea + Et + Ev + Eh + Ee (1.1)

Trong đó: Eb là năng lượng do sự biến dạng liên kết; Ea là năng lượng do sự khép mở góc liên kết; Et là năng lượng do sự xoay quanh liên kết; Ev là năng lượng tương tác van der Waals; Eh là năng lượng do liên kết hydrogen; Ee là năng lượng tương tác tĩnh điện

Giữa cấu trúc và năng lượng có sự liên quan mật thiết với nhau, do đó tối ưu hóa hình học của cấu trúc sẽ dẫn đến tối thiểu hóa năng lượng của phân tử [102] Quá trình này tạo một cấu trúc ứng với trạng thái năng lượng tối thiểu (tối ưu về hình học hay bền về năng lượng) để từ đó có thể xem xét tọa độ của các nguyên tử

của phân tử Cấu trúc tối ưu về hình học hay bền về năng lượng có thể sử dụng để

tính tốn phương pháp lượng tử: phương pháp nguyên lý ban đầu (ab-initio) hay phương pháp bán thực nghiệm [60] [100]

1.3.2 Cơ học lượng tử

Trang 10

10

Ĥ = E (1.2)

Trong phương trình Schrưdinger Ĥ là tốn tử Hamiltoni,  là hàm sóng, E là

năng lượng Phương trình này được gọi là phương trình riêng  được gọi là hàm trị

riêng, E là trị riêng

Hàm sóng  là hàm xác định vị trí của electron và hạt nhân Electron được mô tả như một hàm sóng Nó mơ tả xác suất của trạng thái điện tử Như vậy, nó có thể mơ tả xác suất tìm thấy các electron ở các vị trí nhất định, nhưng nó khơng thể đốn chính xác vị trí điện tử Hàm sóng cũng được gọi là mật độ xác suất bởi vì bình phương của hàm sóng là hàm xác suất Đây là ý nghĩa chính xác của hàm sóng Để có được một giải pháp vật lý thích hợp có liên quan của phương trình Schrưdinger, hàm sóng phải liên tục, đơn trị [60, 100]

Toán tử Hamilton Ĥ 2ijˆ2ppijiiii jq qHmr   (1.3)2222222iiiixyz  (1.4)Với 2i

là toán tử Laplac đối với hạt (p) i, các hạt gồm cả điện tử và hạt nhân, mi và qi là khối lượng và điện tích hạt i, p là tổng số hạt, rij là khoảng cách giữa các hạt Số hạng đầu tiên biểu thị cho động năng của hạt trong một phương trình sóng Các số hạng bở sung có thể xuất hiện trong tốn tử Hamiltonion tương

tác với bức xạ điện từ hoặc trường được tính đến Trong phần mềm QSARIS hiện

Trang 11

11

Ở đây chỉ xét động năng của electron và lực hút giữa electron và hạt nhân và lực đẩy của các điện tử Sự chuyển động của hạt nhân có thể được mơ tả bằng cách xem xét tồn bộ tính tốn thế năng khi các hạt nhân di chuyển [60, 100]

Khi hàm sóng đã được xác định, bất kỳ thuộc tính nào của phân tử đều có thể được xác định Điều này được thực hiện bằng cách tính giá trị mong muốn của tốn tử cho tính chất đó, được biểu thị bằng dấu ngoặc vng < > Ví dụ, năng lượng là giá trị kỳ vọng của toán tử Hamilton được đưa ra bởi:

* ˆ

EH

     (1.6)

Đối với một hàm sóng gần đúng, có thể tính xấp xỉ năng lượng, đó là cơ sở cho nhiều kỹ thuật được mơ tả trong các tính tốn khác Bằng cách thay thế các tốn tử khác, có thể có được các tính chất quan sát rõ ràng, chẳng hạn như moment lưỡng cực hoặc mật độ electron Một cách khác để có được tính chất phân tử là sử dụng định lý Hellmann-Feynman Định lý này khẳng định rằng các thuộc tính năng lượng với tính chất P mong muốn được cho bởi:

dEH

dPP



 (1.7)

Mối quan hệ này thường được sử dụng để tính tốn tính chất electron Không phải tất cả phương pháp xấp xỉ tuân theo định lý Hellmann-Feynman Chỉ các phương pháp biến thể tuân theo định lý Hellmann-Feynman [60, 100]

1.3.3 Phương pháp bán thực nghiệm

Các phương pháp bán thực nghiệm sử dụng trong luận án gồm phương pháp CNDO, INDO, MNDO, AM1, PM3, TNDO (Phụ lục 60) [60, 100]

Trang 12

12

1.4 CÁC MÔ HÌNH TỐN HỌC 1.4.1 Hồi quy đa biến

Trong hồi quy, các biến số độc lập x và biến phụ thuộc y là các giá trị quan sát Tương ứng với một giá trị của x chỉ có 1 giá trị y duy nhất lúc này y là hàm của x có dạng (y = f (x)) [51, 66] Tuy nhiên, chúng ta hay gặp trường hợp cùng một giá trị x trong các thí nghiệm có thể có các giá trị y khác nhau do ảnh hưởng của các yếu tố khác Khi đó sự phụ thuộc được gọi là xác suất và các giá trị y là một hàm với các giá trị ngẫu nhiên Nếu chỉ có trường hợp Y là biến ngẫu nhiên rời rạc và X là giá trị rời rạc, để xác định y bằng cách sử dụng phân phối như ma trận sau:

Y X x1 x2 … xmy1 p1(x1) p1(x2) p1(xm) y2 p2(x1) p2(x2) p2(xm) … … … … … yNpN (x1) pN (x2) pN (xm)

Trong đó xk (k = 1, 2, …, m) là các giá trị có thể có của X, yi (i = 1, 2, , N) là các giá trị có thể có Y và pi(xk) là xác suất xuất hiện của yi nếu X = xk , với k bất

kỳ, ta có đẳng thức sau: 1)(1Nikixp (1.8)

Giả sử Y/(X = xk) là biến ngẫu nhiên tương ứng với giá trị của xk Phân bố

nằm trong cột thứ k của ma trận Các giá trị trung bình (M) của biến Y được tính:

 NikiikypxxXYM1)()]/([ (1.9)

Và các giá trị X khác nhau, được xem như hàm g(X)M[Y/X] Hàm g(X) được gọi là hàm hồi quy của Y đối với X

Trang 13

13 bằng xác suất (,,,)21 kkpkixxx

p  , vớixkj là các giá trị khác nhau của các biến X1, X2,

…, Xp Khi X1 = x1, X2 = x2, …, Xp = xp các giá trị trung bình của Y có dạng:

 NipiippxypxxxXxXxXYM1212211)()()](,,,)/([ (1.10) Các biến X1, X2, …, Xp, là hàm g(X1, X2, …, Xp): ],,/[),,(X1 X2 XpMYX1 X2 Xpg  (1.11)

Hàm g(X1, X2, …, Xp) là hàm hồi quy đa biến của Y với các biến độc lập X1, X2,

…, Xp

Để xây dựng hàm hồi quy của các biến ngẫu nhiên Y phụ thuộc X1, X2, …, Xp,

trên thực tế điều đó là khơng thể, vì xác suất pi(xk1, xk2, …, xkp) thường không xác

định Vấn đề đặt ra là xây dựng hàm toán từ hàm g(X1, X2, …, Xp), như hàmgˆ(X1,X2,Xp)được gọi là mơ hình hồi quy tương quan với hàm g cho bởi

phương trình 1.12 [51, 66]: ),,(),,(ˆ),,(X1 X2 XpgX1 X2 XpeX1 X2 Xpg  (1.12)

Với e(X1, X2, …, Xp) là sai số của mơ hình

Mơ hình hồi quy được xây dựng trên cơ sở dữ liệu thống kê giữa biến phụ

thuộc Y trên X1, X2, …, Xp Các giá trị quan sát được trình bày theo ma trận sau:

k X1 X2 … XpY

1 x11 x12 … x1py1

2 x21 x22 … x2py2

… … … … … …

N xN1xN2xNpyN

Mỗi hàng trong ma trận đại diện cho mỗi quan sát cụ thể (thí nghiệm) được gọi là mẫu hoặc trường hợp Các biến độc lập đóng vai trị là một phần của biến dự

đoán, phụ thuộc vào giá trị của chúng, giá trị quan sát Y là các giá trị ngẫu nhiên

Trang 14

14

1 Hàm mô phỏng gˆ(X1,X2,Xp) phải đại diện được cho hàm hồi quy

2 Việc tính tốn các giá trị của hàm phải dựa trên khả năng đáp ứng của nguồn dữ liệu tính tốn có sẵn

Nếu mơ hìnhgˆ(X1,X2,Xp)được chọn, giá trị của nó trong trường hợp thứ

k bằngyˆkgˆ(xk1,xk2,xkp)và được xem là giá trị dự đoán của yk Sự khác biệt giữa

ykyˆklà độ lệch (sai số): ykyˆkek

Các biến độc lập X1, X2, …, Xp ở trên đã được xác định Khi nhiều thí nghiệm được thực hiện, các biến độc lập có các giá trị khác nhau (cột trong ma trận) Vì

vậy, có thể xem các biến này là biến ngẫu nhiên và giá trị dự báo Y1, Y2, …, Yp là dựa trên các biến ngẫu nhiên [51, 66] Theo quan điểm tốn học, điều quan trọng khơng phải các giá trị dự đốn là ngẫu nhiên hay khơng Trong tất các các tính tốn, các giá trị dự đốn có tính chất tởng qt Nó giải thích các số hạng cụ thể cho các giá trị ngẫu nhiên được chuyển sang các giá trị dự đoán xác định Hơn nữa chúng ta

không chú ý đến các giá trị dự đoán sử dụng

Các giá trị dự đoán và giá trị quan sát ngẫu nhiên Y, các tham số của các mơ

hình được tìm thấy là kết quả của kinh nghiệm lấy mẫu ngẫu nhiên Vì vậy các tham số của mơ hìnhgˆ(X1,X2,Xp) cũng được coi là biến ngẫu nhiên [51, 66]

Dạng đơn giản và phổ biến nhất được sử dụng trong mơ hình hồi quy tuyến tính là: ),,(),,(),,(ˆ b0 b1 1 X1 X2 Xpb2 2 X1 X2 XpbqqX1 X2 Xpy (1.13)

Ở đây i(X1,X2,Xp) là các hàm cơ bản và bi là các hệ số (hoặc các yếu tố) tính được sao cho mơ hình được xây dựng tốt nhất

Trong thực tế, nếu có nhiều biến độc lập, mơ hình tuyến tính của dạng:

ppXbXbXbbyˆ 0  1 1 2 2  , (1.14)

Trang 15

15

Hình 1.3 Mơ hình hồi quy tuyến tính với (p = 2) [51, 66]

Việc lựa chọn các hệ số hồi quy bk đảm bảo tính thích hợp lớn nhất cho mơ hình tuyến tính được xây dựng Để giải quyết vấn đề này, phương pháp tốt sử dụng

phương pháp bình phương cực tiểu Lúc này hệ số bk được tìm kiếm từ một điều kiện để giảm thiểu tổng bình phương độ chênh lệch giữa các giá trị quan sát được và dự đoán của biến phụ thuộc:

 NiiipyyRSS12)ˆ( (1.15) Vớiyˆib0 b1xi1 b2xi2 bpxip (1.16)

Khi p = 2 minh họa hình học đơn giản của phương pháp bình phương cực

tiểu Hình 1.3 Ví dụ, hình ảnh trên cho thấy khơng gian tiếp cận sự phụ thuộc giữa

hai biến độc lập X1, X2 và biến phụ thuộc Y

Hồi quy thường là phương pháp đơn giản nhất trong phân tích hồi quy Nó được sử dụng để giải quyết các trường hợp với số lượng biến độc lập nhỏ, không tương quan chặt chẽ [51, 66] Tuy nhiên, phương pháp này tạo cơ sở để hiểu các phương pháp hồi quy khác phức tạp hơn Chúng ta hãy xem xét các ma trận sau đây đại diện cho các kết quả quan sát:

Trang 16

16

Với Xj là cột thứ j được xem là vec tơ dự đoán và Y là vec tơ biến phụ thuộc Giá trị trung bình được tính cho mỗi biến Xj theo phương trình:

 NiijjxNx11(1.17) và độ lệch chuẩn có dạng sau:  NijijjxxNs122)(11(1.18)

Hệ số tương quan được tính cho các cặp biến khác nhau dưới dạng sau:

 NkjkjikijiijxxxxsNsc1))((1(1.19) Các hệ số tương quan này tạo thành một ma trận tương quan mẫu

Cột thứ nhất X0 được đưa vào trong ma trận nếu một hệ số trong (1.14) khác

không Giả sử bỏ qua cột X0 Có thể thu được bằng cách căn giữa các dữ liệu theo cách sau:xijxijxj, với xj là giá trị trung bình của biếnxj

Cách đơn giản nhất để hiểu được bản chất của hồi quy đa biến thường là xem

xét một ví dụ đơn giản với p = 2 và N = 3 với minh họa hình học cụ thể

Xét ma trận X = (X1 X2) trong đó bao gồm các vec tơ trung tâm dự đoán và vector Y là một vec tơ trung gian dự đốn Chúng ta có:

321323122211211,yyyxxxxxxYX

Mơ hình hồi quy có dạngyˆb1X1b2X2  Xb, với b(b1 b2) Vì vậy, vec tơ yˆ trong không gian P được biểu thị qua các vec tơ X1, X2 (Hình 1.4) Véc tơ độ

lệch: eYyˆ Chiều dài của vec tơ này là:

Niiiyy12)ˆ( (1.20)

Trang 17

17 )2,1()ˆ(jYy 0,jX , hay X(YXB)0 (1.21)

VớiXj là vec tơ chuyển vị củaXj (vec tơ hàng) và X là ma trận chuyển vị

của ma trận X

Từ mối quan hệ thứ hai ta có cách tính các hệ số hồi quy:

YXXbX (1.22) Với ma trận CXX gồm các yếu tố: )2,1,(,1jixxcNkkjkiij (1.23)

Giá trị trung bình của ma trận C tỷ lệ thuận với ma trận hiệp phương sai của

ma trận vec tơ dự báoXj

Yếu tố cij của ma trận C là các yếu tố trong của ma trậnX ,iXj Vì vậy cii

bằng chiều dài của vec tơ Xi Ta có: ijijjjosiicc

c c   với φij là góc giữa hai vec tơ Xi, Xj

Vì vậy, góc giữa hai vec tơX ,iXj (Hình 1.4) nghĩa là c /ijciicjj gần 1 (tức là có tương quan mạnh mẽ giữa các giá trị dự đoán) Ngược lại, nếuX ,iXj khơng tương quan, thì các vec tơ tương ứng trực giao Trường hợp này xảy ra khi các vec tơX1,X2,,Xl,(lN) nằm trong không gian siêu phẳng (hiện tượng đa cộng

Trang 18

18 1 2 3 X1 X2 YeY-yˆ P2211ˆ XXybb

Hình 1.4 Hồi quy đa biến thường với p = 2, N = 3 [51, 66]

Nếu ma trận C không suy biến, vec tơ b được tính theo phương trình sau:

YXC

b1

(1.24)

Cơng thức cho hệ số hồi quy (1.24) đúng trong trường hợp số lượng biến

trong mơ hình bằng p Xác định hệ số bk được coi là ước lượng thống kê của các hệ

số ngẫu nhiên của hệ số bk trong mơ hình tuyến tính (1.14) Một số trường hợp bk

ước tính với giá trị nhỏ (bk 0) Điều đó chỉ ra rằng bk = 0 (biến không phụ thuộc

biến Xk) và giá trị bk khác không, được xác định từ dữ liệu nhiễu ban đầu Vì vậy,

cần kiểm tra mức độ ý nghĩa của biến Xk (hoặc của hệ số Bk) trong mơ hình được xem xét [51, 66] Theo quan điểm thống kê, có nghĩa là cần kiểm tra giả thuyết H0:

[ bk = 0] Cách đơn giản nhất để minh họa cho nguyên tắc chung của việc kiểm tra một giả thuyết như vậy là đưa ra một ví dụ về một mơ hình một chiều Yb1X1, với

X1 và Y là các giá trị trung bình có ý nghĩa [51, 66] Về mặt hình học các giá trị X1

và Y khơng tương quan có nghĩa là các vectơ X1 và Y trực giao Tuy nhiên, vì quan sát là ngẫu nhiên, các vectơ X1 và Y có thể khơng hoàn toàn trực giao, sẽ dẫn đến

một hệ số hồi quy khác khơng b1 (Hình 1.5)

Trang 19

19

Hình 1.5 Ý nghĩa của hệ số hồi quy [51, 66]

Tuy nhiên, trong thống kê, xem xét bình phương trung bình sẽ thuận tiện hơn, có nghĩa là tính tởng của bình phương theo bậc tự do được xem xét

Bậc tự do DF đặc trưng số lượng các tham số độc lập, ảnh hưởng đến độ lớn của tởng bình phương Với tởng bình phương hồi quy SS(hồi quy) độ tự do hồi quy DF(hồi quy) bằng 1, vì tởng 

 NiiNiibxy12112)(

ˆ được xác định bởi giá trị của tham số

đơn b1 Vì vậy SS(quan sát), bằng

Niiy12, độ tự do DF(quan sát) bằng N-1, bởi vì

các giá trị quan sát trung tâm được tính bởi phương trình:

Niiy10 Nghĩa là N-1 biến độc lập Ta có liên hệ sau: SS(quan sát = SS(hồi quy) + SS(dư) Từ đó ta có: DF(quan sát) = DF(hồi quy) + DF(dư) Vì vậy, SS(dư) có bậc tự do DF(dư) bằng

N-2 Do đó, độ lệch của vector Y trực giao với vector X, (tức là giả thuyết

]0[:

0 Bk

H đúng), theo thống kê sau đây [51, 66]:

() /()()

() /()() / (2)

SS hoiquyDF hoiquySS hoiquyF

SS duDF duSS duN



 (1.26)

Thống kê này được gọi là chuẩn F

Chúng ta hãy xem xét các giả định sau liên quan đến các biến ngẫu nhiên

iiiyye ˆ :

1 ei độc lập với nhau;

2 ei có phân phối chuẩn giống nhau N(0;2)

Trang 20

20

Nếu giả định H0 với b1 bằng 0 là đúng F lớn với xác xuất bé Chúng ta có thể chỉ định giới hạn DF(α), có thể vượt quá tiêu chí F chỉ với một xác suất  nhỏ Nếu

giá trị của thống kê F, được tính theo cơng thức (1.26), lớn hơn DF(α), nó có nghĩa là giả thuyết H0 sai, các hệ số hồi quy b1 có ý nghĩa [51, 66]

Kiểm tra ý nghĩa biến có thể được khái quát theo các cách khác nhau trong trường hợp có nhiều biến Một trong những biến thể của khái quát này đang xem xét

một phần thử nghiệm F-test

Hình 1.6 Giải thích F-test [51, 66]

Giả sử rằng phương trình hồi quy với hai biến thu được bằng phép chiếu

chính xác của vector Y trong khơng gian được kéo dài qua các vectơ X1, X2 (Hình 1.5) Phương trình hồi quy này như sau:

2)1(21)1(1)1(ˆ XXybb (1.27)

Trong trường hợp này, tởng bình phương các giá trị hồi quy bằng với bình phương của vector được xác định bởi các hệ số (1)

2)1(1 , bb : 22)1(21)1(12)1()1(2)1(1 , ) ˆ(bbybXbXSS    (1.28)

Nếu chúng ta xem xét mơ hình với biến đã lược bỏ X2, giá trị dự đốn sẽ có dạng sau: (2) 11)2(ˆ X

yb , với ˆy(2) thu được bằng phép chiếu của véc tơ Y đến vec tơ

X1 (Hình 1.6) Khi đó, hệ số (2)1

b khác hệ số (1)1

b Khi vec tơ X1 và X2 trực giao (tức

X1X2 0), điều đó là ngoại lệ, khi đó (1)1)2(

1 b

Trang 21

21

đoán từ hồi quy trong trường hợp thứ hai bằng với chiều dài bình phương của véc tơ )

2(

ˆy được xác định bởi hệ số (2)1

b Tởng bình phương này có dạng sau: 21)2(12)2()2(1 ) ˆ(bybXSS   (1.29)

Số bình phương phần dư bằng hiệu giữa tởng bình phương trong trường hợp thứ nhất và thứ hai (nó là hiệu bình phương yˆ(1)yˆ(2) Hình 1.6) [51, 66] Giá trị

này gọi là ‘tởng bình phương b2 và b1’ theo phương trình: 2)2()1()2(1)1(2)1(112 | ) ( , ) ( ) ˆ ˆ(bbSSbbSSbyySS (1.30)

Có nghĩa làSS(b2 |b1) mơ tả tởng dư X2 trong mơ hình hồi quy hoặc ý nghĩa

của hệ số hồi quy b2 Kiểm tra ý nghĩa thống kê của hệ số b2 (nghĩa là kiểm tra giả thuyết H0:[B2 0]) với kiểm định F-test trong trường hợp cụ thể này được gọi là một phần F2/1-test và có dạng sau [51, 66]: 2121212/1(|) /(|)(|) / (2 1)() /()() / (2)SS b bDF b bSS b bFSS duDF duSS duN (1.31)

Nói chung, hai mơ hình được xem xét tương ứng với các biến sau:

pXX

X1, 2,, và X1, X2,, Xq (q<p) Tởng bình phương bq1,,bp thu được từ qbb1,, bằng: ),,(),,(),,|,,(bq 1 bpb1 bqSSb1(1) b(p1) SSb1(2) bq(2)SS   (1.32) Giá trị F tương ứng là: !1(1, , )/(1, , )( , , ) | ( , , ) / ( )( ) / ( )qpqqpqSS bbbbpqFSS duNp (1.33)

Thống kê F(q1,,p)/(1,,q) có phân bố sau đây: F(p-q, N-p), để có thể kiểm tra

giả thuyếtH0 :[Bq1 Bp 0] tại α Giá trị BF(α) có thể được tính toán bởi một

hàm chuẩn trong Microsoft Excel FDISTINV(; p-q; N-p) F được sử dụng trong

hồi quy từng bước để thăm dò các biến quan trọng [51, 66]

Một phương pháp ước lượng các hệ số hồi quy là tính các khoảng tin cậy

Trang 22

22 )()(kkkbSEbbt  (1.34)

Với SE(bk) là độ lệch chuẩn của hệ số bk, tính tốn theo cơng thức:

( )kkk.() / ()

SE ba SS duNp (1.35)

Với akk là một phần tử chéo của ma trận A Ma trận A là ma trận nghịch đảo

của ma trậnCXX của đánh giá chéo độ lệch các biến [51, 66]

Hệ số bk là một giá trị mẫu của biến ngẫu nhiên Bk Khoảng tin cậy cho biến

ngẫu nhiên Bk có thể được tính theo biểu thức sau đây:

Với t là một phần tư của thứ tự (12) với t-distribution (phân phối Student) với độ tự do N-1

Nếu khoảng tin cậy này chứa a điểm 0, khi đó hệ số bk có nghĩa Điều kiện0[bktSE(bk);bktSE(bk)] tương đương với : t(bk)t Khi đó hệ số bk

có thể được coi là quan trọng ở một giá trị khá lớn t(bk), cụ thể là, khi chúng ta có các điều kiện sau:

tb

t( k) (1.36)

Điều kiện (1.36) được gọi là hai phía phân bố t Quan hệ giữa phân bố t và phân bố F theo (1.37) ),1,1( FNt (1.37) 1.4.2 Hồi quy thành phần chính

Trang 23

23

Giả sử X = (X1 X2 … Xp) là ma trận với cột là các vec tơXk (x1kx2kxNk) Ma trận chéo CXX đối xứng và khơng xác định được Vì vậy, có các cặp vec tơ song song z1,z2,,zp, với p là số biến số z Các vec tơ

riêng tương ứng với các giá trị dương 1,2,,p

klpklkkkpkkk,0,1,,1,0, 1 2zzzzzzXX  (1.38)

Các giá trị riêng và vec tơ riêng trong ma trận chéo được tính toán theo phương pháp Jacobi trong QSARIS

Các vector p, được gọi là các thành phần chính của quan sát: p

kk

kXz , 1,,

w (1.39)

Từ phương trình (1.38) và (1.39) và các thành phần chính trực giao và độ dài của chúng được k : kllkklklkkkkkkkkkk 2 wwzXXz  zz , wwzXXz  zz 0,w

Nếu các thành phần chính được xem như là các vector của một biến độc lập

mới Wk, các mối quan hệ đã đề cập có nghĩa là các biến này là cặp không tương quan và chúng có chênh lệch bằng k [52, 107]

Tương quan giữa các biến độc lập gốc Xk (dự báo) và các thành phần chính

Wk có thể được biểu diễn dưới dạng sau:

W=XZ hay X = WZ’ (1.40)

Trong đó W là ma trận với cộtwk (w1kw2kwNk) và Z là một ma trận trực

giao với các cột tương đương với các vec tơ riêng

)

( 1 2 

kkpk

kzzz

z , Z1 Z

Từ phương trình (1.40) các vec tơ của các biến độc lập Xk là các thành phần chính theo phương trình sau:

Trang 24

24 kkwXz hay 1,1, ,,1, ,pikijkjjwx ziN kp  (1.42)

Ý nghĩa hình học của các thành phần chính của một quan sát khi p = 2 và N

= 3 Các thành phần chính w1 và w2 nằm trong cùng mặt phẳng với các vec tơ của

biến độc lập X1 và X2 Góc giữa X1 và X2 nhỏ Điều đó có nghĩa là các vec tơ này

tương quan chặt chẽ Đồng thời, các thành phần chính w1 và w2 trực giao với nhau (khơng tương quan) và bình phương của chiều dài của chúng bằng với các giá trị

riêng tương ứng của ma trận C, Hình 1.7 [52, 107] Hồi quy riêng phần tương quan với w1 theo phương trình: yˆ(1) 1w1 và tương quan với w2 theo phương trìnhyˆ(2) 2w2 Vec tơ dự đốn có dạng:

2211)2()1( ˆˆˆ yywwy    (1.43)

Bình phương độ dài của vec tơ ảnh hưởng đến giá trị R2 và trực giao của w1 và w2

được tính tốn theo phương trình: 22222121222221212ˆ  w  w    y (1.44)

Vec tơ w1 dài, nó tương ứng với trị riêng lớn hơn1 Vec tơ này đóng góp quan trọng vào giá trị dự đốn

Hình 1.7 Hồi quy thành phần chính với p = 2, N = 3 [52, 107]

Trang 25

25

thành phần chính có giá trị riêng thấp thì không đạt yêu cầu Hệ số hồi quy thành

phần chính được tính tốn cho biến Y:

    pjpjjkkpkkkkzC11,12111CzXYzwYwkkk (1.45)

Với C là ma trận chéo mở rộng và Cp+1 là cột thứ (p+1) của ma trận mục tiêu

của biến phụ thuộc Tương quan giữa thành phần chính wk với biến phụ thuộc Y =

Xp+1 được tính: Ykkkpksr YwYwYwkkk1, (1.46)

VớisY là sai số của Y

Ý nghĩa của các thành phần chính trong mơ hình được đánh giá thơng qua

giá trị F Nó được thể hiện thơng qua giá trị RSS

 NjjyyRSS1220 Y ( ) (1.47)

Tởng bình phương độ lệch của mơ hình với k thành phần chính được tính: p

kRSS

RSSkk1 k2k, 1,, (1.48)

Với tổng giá trị hồi quy F với k thành phần chính được tính:

)1/()( 0kNRSSRSSRSSFTOTkkk (1.49) Và F của thành phần chính thứ k được tính: )1/()( 1 kNRSSRSSRSSFkkkk (1.50)

1.4.3 Bình phương tối thiểu riêng phần

Giống như PCR, bình phương tối thiểu riêng phần (PLS) tạo ra một chuỗi các mô hình và ước tính nào là tốt nhất với các biến ẩn Tuy nhiên, tập hợp các mơ hình tạo thành trình tự có trật tự, khác với các mơ hình được xây dựng bởi PCR Giả

Trang 26

26

Ma trận này đối xứng và không xác định [51, 106] Do đó, các vector riêng của cặp vector trực giao p1,p2,,pp với p số vec tơ Các vec tơ riêng tương ứng với các giá

trị riêng dương 1,2,,p, … klpklkkkpkkk,0,1,,1,0, 1 2ppppppXX (1.51) Vec tơ pkkkXp , 1,2,,t , (1.52) Là các thành phần chính tính từ (1.51) và (1.39) sau đó: '''''' , = ( )( ) ( )0, neu kk lklklkllneu klt tp XXpp X X pppkl       (1.53)

Từ 1.53 các thành phần chính là N vec tơ trực giao với tk k Nếu ma trận

pNp

(t1t2 t )

T  bao gồm các thành phần chính và ma trận T (t1t2tp)Np gồm các vec tơ riêng P (p1 p2 pp)pp, khi đó (1.39) có dạng

XPT  (1.54) Ma trận P là ma trận trực giao, tức là P1 P Vì vậy PTX  (1.55)

Theo (1.55) X gọi là thừa số của ma trận có dạng:

 pkkkp12121)( tpppptttXp

Nếu hạng của ma trận X bằng r, khi đó giá trị riêng: r1 r2 p 0 và

0

2

1     

rp

rtt

t  Trong trường hợp này:

 rkkk1ptX (1.56)

Từ (1.56) là cột của ma trận X (vec tơ Xj) có thể được trình bày dưới dạng kết hợp

Trang 27

27  rkkjkjp1tX (1.57) Ma trận:  rmkkkmtpE (1.58)

Được gọi là “phần thừa thứ m của x” Vec tơ Em trực giao với vec tơ t1, t2, …,tm-1

Để minh họa cho tk và pk, một trường hợp cho hai biến X1 và X2, trong không

gian hai chiều P được mở rộng từ hai vec tơ này, chỉ ra trong Hình 1.8 Ma trận tương quan cho vec tơ chuẩn hóa X1 và X2 là ma trận [51, 106]:

1coscos1C (1.59)

Với  là góc giữa vec tơ X1 và X2 Giá trị riêng của ma trận là



1 1cos, 2 1cos và giá trị riêng được tính:

)2/12/1(),2/12/1( 21 pp (1.60) Khi đó các thành phần chính được tính (1.52 và Hình 1.8): 2/)()(,2/)()( 1 2 1 1 2 2 2 1 2 2 1 211 XpXXpXXtXpXXpXXt 

Các vec tơ X1 và X2 được tính

2/)(,2/)( 1 2 2 1 21 ttXttX  (1.61) Hình 1.8 Thành phần chính với p = 2 [51, 106]

Trang 28

28

Các tính tốn dựa trên các mối quan hệ sau:

,;0,1,,1,/)1()1(2)()()1(jrkjkkjkjkjkkjkpEtttEp(1.62)

Các mối liên hệ từ (1.56), (1.57) và (1.58) áp dụng với ma trận ‘X’ bắt đầu

với (0)kt : XEptEEkk1 kk, 0  (1.63)

Mối liên hệ (1.62) gọi là liên hệ ngoài (outer relations), và (1.64) gọi là liên hệ trong (inner relations), liên kết các biến phụ thuộc và độc lập, cũng được xem

xét để xây dựng một mơ hình hồi quy Trong một trường hợp đơn giản, chúng có

dạng sau:  rkkkbty (1.64) Với 2/ kkt

bytk là phép chiếu của y lên tk,yˆ là giá trị dự đoán của y

Khi tiến hành PLS, khi biến phụ thuộc bị giới hạn bởi một bước lặp lại trong (1.62) các giá trị ban đầu của (0)

kt được tính: (0)k 1kktEw Với 'k k 1 k 1wEy; yk-1 là độ lệch (1.65)

Sau đó thuật tốn PLS (với X và y có ý nghĩa tương quan)

0 ; ;ˆ0 0

yy EX ylà biến độc lập X và giá trị dự đoán

Cho k = 1 đến r là một chu kỳ thành lập theo nguyên tắc thành phần chính

'11kkkwEylà các vec tơ trọng số để tính thành phần chính thứ k 11kkktEy  là giá trị gần đúng của thành phần chính 2'1 / ; /kkkkkkk

pE ttppp là giá trị gần đúng của vec tơ riêng 2

'1 /

kkkk

by tt là hệ số hồi quy giữa các thành phần

1

kkk k

Trang 29

29 1

ˆk ˆkk k

yy  b t là giá trị dự đoán của biến kế tiếp '1kkkkEE  t p là độ lệch của biến X '0kkE E là phần sai số X

Phần quan trọng của hồi quy là dự đoán sự phụ thuộc của biến phụ thuộc từ

các biến độc lập Xnew

PLS không cho biết rõ ràng về giá trị dự đoán Thay vào đó, sự phân tích các

biến độc lập X để tính tốn giá trị y

Đối với vec tơ mục tiêu pk, wk và hệ số hồi quy bk được tính cho bước tiếp

theo Các biến dự đốn mới Xnew với Nnew mẫu thay vì N

Giá trị dự đoán trong PLS được thực hiện

0 new;ˆ0 0

EXykhởi tạo độ lệch X và giá trị dự đoán Với k từ 1 đến r

0

ˆk wk

tE ; giá trị gần đúng đối với thành phần chính của biến quan sát '1ˆkkkkEE  t p là độ lệch thực tế của X 1 ˆˆk ˆkk kyy  b t là giá trị dự đốn

Sơ đồ PLS đưa ra trong Hình 1.9 Bước thứ nhất trong thuật toán độ lệch của X:

E0= X= (X1 X2) và độ lệch thứ nhất của giá trị dự đoán y0 = y được tính tốn Sau đó

vec tơ trọng số được tính:

''111''100 ' 12212coswcosXX yE yX yyXX y       (1.66)

Góc Xk và y, vec tơ t1, được tính

Trang 30

30

Trong khơng gian (P1), dọc theo vec tơX1, X2, và nó là thành phần chính thứ

nhất vec tơ riêng p1 từ thừa số tính theo phương trình 1.62:

2112112112121211011111/XXtXtXttXXtttEpttprpr(1.68)

Hệ số hồi quy b1 và mối tương quan của y0 với t1: 21101  yt/ tb (1.69) 2P1X1 X2 yy0 t1 111ˆ tyb2211ˆ ttybbP2 t2 222ˆ tyb1 2 3 )1(1X)1(1X)1(2X)1(2X1y1y1)((1)2)1(11 XXE )( 1 20 XXE

Hình 1.9 Hồi quy PLS với p = 2, N = 3 [51, 106]

Hơn nữa, độ lệch y1  y0 b1t1 và giá trị gần đúng cho biến mục tiêu 111101ˆˆ ytt

y bb được tính tốn Véc tơ (1)2)1(1 , XX để tính giá trị E1 thứ nhất của

khối X được tìm ra như là thành phần chính của X1, X2, nó trực giao với t1 Cuối cùng, kiểm tra các vec tơ (1)

2)1(1 , X

X có phải vec tơ 0 hay khơng

Bước thứ hai trong hồi quy là tìm không gian P2, trực giao với t1. Vec tơ t2, là sự tở hợp tuyến tính giữa vec tơ (1)

2)1(1 , X

X, thì trực giao với t1, và hệ số hồi quy b2 từ

phép chiếu y1 lên t2. Mơ hình hồi quy thu được sau hai bước có dạng:yˆ2 yˆ1b2t2b1t1b2t2 Độ lệch thứ E2 của nhóm X được thành lập từ các

thành phần chính của vec tơ (1)2)1(1 , X

X, nó trực giao với t2, nghĩa là vec tơ 0 Hay đẳng thức '

22 0

E E  là đúng, thuật toán đã hồn thành Sử dụng các mơ hình với giá

Trang 31

31

1.4.4 Giải thuật di truyền

Việc lựa chọn các biến độc lập tối ưu để thu được một mơ hình tốt là vấn đề chính trong mơ hình hồi quy hay mơ hình mạng thần kinh (ANN) có số lượng lớn các biến số độc lập [10, 77] Trong những năm gần đây, giải thuật di truyền

(genetic algorithm - GA) được áp dụng trong chọn lựa biến độc lập bằng phương

pháp hóa tính tốn [10] Thuật toán di truyền dựa trên các nguyên tắc sự tiến hóa của Darwin, đã được sử dụng rộng rãi để tối ưu hố tở hợp biến [10, 77] GA sử

Trang 32

32 1 Cơ chế mã hoá;

2 Định nghĩa chức năng thể trạng; 3 Tạo quần thể

4 Thao tác di truyền với quần thể

1) Mã hóa

Các chương trình mã hóa được sử dụng trong QSARIS được dựa trên gen cơ bản Các mơ hình hồi quy có thể (các giải pháp) khác nhau bằng một tập hợp các

biến đang được sử dụng Nếu tổng số các biến độc lập bằng N, thì một số tương ứng với bất kỳ giải pháp nào bao gồm một chuỗi các chữ số nhị phân N (bits) được gọi là các gen [7, 110]

Mỗi giá trị đại diện cho một biến độc lập (0 = vắng mặt, 1 = có mặt)

Ví dụ, nếu một tập tất cả các dự đốn là (X1, X2, X3, X4, X5) thì nhiễm sắc thể của

giải pháp với các dự đoán (X2, X3, X5) sẽ là (0, 1, 1, 0, 1)

Hàm mục tiêu

Mỗi mơ hình (giải pháp) có liên quan đến một giá trị mục tiêu phản ánh sự so sánh tốt với các cá thể khác trong quần thể (các giải pháp khác) [7, 110] Hai hàm

mục tiêu được sử dụng trong QSARIS Hàm chức năng thứ nhất hay Fit1 (mơ hình)

bằng R2

ad được tính bằng SWR cho mơ hình được xác định bởi nhiễm sắc thể của mơ hình Ưu tiên cho cá thể có giá trị Fit1 lớn Bất lợi của hàm Fit1 là có thể dẫn đến các mơ hình thừa biến (over-fitting) Hàm chức năng thứ hai Fit2 (mơ hình) dựa

trên cơ sở của phương trình của Friedman [7, 110]

12()()FitcatheLOF cathe (1.70) Với 2( ) /( )( 1)1pRSS catheNLOF cathed pN     (1.71)

Trong hàm LOF: p là số biến số độc lập của mơ hình; N là số lượng

Trang 33

33

RSSp (mơ hình) là tởng bình phương độ lệch của mơ hình hồi quy sử dụng các biến độc lập p, d là số yếu tố (tham số của hàm LOF, xác định bởi q trình tính tốn) Nhìn chung nếu kích thước nhỏ hơn LOF (lớn hơn Fit2) thì mơ hình tốt hơn

[7, 110] Tất cả các thuật ngữ trong phương trình (1.7.1) khá rõ ràng ngoại trừ yếu

tố d Có thể thấy rằng với giá trị cho trước d (mặc định là 2), khi N lớn, LOF gần với giá trị trung bình của RSSp [7, 110] Mơ hình tốt khi giá trị p nhỏ Như vậy, LOF tăng khi giá trị (p+1)/N đủ lớn Đối với một giá trị d nhất định của mơ hình, khi thêm biến mới vào mơ hình, RSSp giảm, nhưng khi tỷ số (p+1)/N tăng, LOF đạt giá trị nhỏ nhất Với giá trị d xác định ở giá trị tối thiểu Tuy nhiên, khi p càng nhỏ thì d càng lớn Ví dụ, nếu chúng ta giả sử rằng các hệ số hồi quy bk (dựa trên các

thành phần chính) tỉ lệ nghịch với chỉ số k, thì RSSp được tính gần đúng [7, 110]: 111111212NpconstkkconstRSSNkpkp (1.72) và 2))1(()1(pdNppNconstLOF (1.73)

Giá trị LOF nhỏ nhất khi:

  dNp981175.01(1.74)

Rõ ràng là các mô hình tối ưu với số lượng biến nhỏ tương ứng với giá trị d lớn Tham số d thường được lựa chọn bằng cách xem xét các trường hợp thực tế Các

giá trị ban đầu được đề nghị là từ 1 đến 4 Sơ đồ hoạt động khác của các phương

pháp di truyền được mô tả trong Hình 1.10 Sau đây, chúng tơi sẽ xem xét mơ tả

các tùy chọn khác nhau của GA

Tạo dữ liệu nguồn (quần thể nguồn)

Trong việc tạo ra một tập dữ liệu ban đầu, cần phải có hai quyết định: kích cỡ

Trang 34

34

nhiễm sắc thể để tạo ra một nhiễm sắc thể mới [10, 110] Ví dụ, tất cả các nhiễm sắc thể trong quần thể chứa cùng một bit ở một vị trí đặc biệt của chuỗi gen, khơng có sự kết hợp của nhiễm sắc thể có thể đưa một giá trị khác vào vị trí đó

Hình 1.10 Sơ đồ giải thuật di truyền [10]

Điều này làm giảm đáng kể chiều kích của vấn đề tìm kiếm bằng một, vì giá trị đó sẽ được cố định mãi mãi Việc giảm kích thước của vấn đề sẽ được gọi là tập trung Nếu tập dữ liệu (số lượng quần thể) đủ lớn sẽ chọn lọc được nhiễm sắc thể ban đầu có sự tương thích tương đối cao và có nhiều điểm chung với các giải pháp tối ưu Nếu tập dữ liệu ban đầu quá nhỏ, một cá thể thể ban đầu tương đối tốt có thể có nhiều giá trị chung với một giải pháp tối ưu và làm tăng khả năng của giải pháp này [10, 110] Ngược lại, nếu tập dữ liệu quá lớn, nhiễm sắc thể ban đầu có nhiều điểm chung với giải pháp tối ưu có thể bị nhiễu bởi các giải pháp khác và có thể khơng có ảnh hưởng đến tồn bộ quần thể (dữ liệu) [10, 110]

Trang 35

35

hình thành bởi các nhiễm sắc thể tương ứng với các tập con có chứa trung bình các biến của bộ dữ liệu

Thực tế trong một số trường hợp các nhiễm sắc thể này không thể đánh giá được Giải pháp áp dụng cho vấn đề này là: ở giai đoạn tạo ra quần thể ban đầu, xác suất có '1' thấp hơn nhiều so với việc có '0' Do đó, quần thể ban đầu được hình thành bởi các nhiễm sắc thể mục tiêu để tập con chứa số ít biến Với tư cách là hướng dẫn, cho mỗi gen xác suất là ‘1’ để thiết lập bộ 5 biến [10, 110] Sau đó, trung bình 5 biến sẽ được chọn trong mỗi nhiễm sắc thể Điều này có nghĩa là ở giai đoạn đầu tiên một số lượng nhiễm sắc thể cao hơn nhiều và được đánh giá và các biến "xấu" có thể được loại ra dễ dàng hơn, vì chúng không đủ tin cậy đối với nhiễm sắc thể mục tiêu, trong đó chỉ một vài biến tốt được lựa chọn Trong mỗi lần chạy, sự kết hợp của các khối nhỏ, có tính thơng tin cao sẽ dẫn đến sự gia tăng dần dần số lượng các biến được lựa chọn, cho đến khi nó được 'tối ưu' [10, 110]

Chọn thế hệ cá thể ban đầu

Lựa chọn cá thể ban đầu trong một GA là cung cấp khả năng sinh sản tốt

Trang 36

36

- Phương pháp thông thường là lựa chọn giải pháp di truyền và tiến hóa Trong đó,

chọn lựa ngẫu nhiên một tập hợp cá thể sau đó chọn ra cá thể tốt nhất

- Thuật tốn di truyền cở điển cũng sử dụng chương trình lựa chọn bánh xe lăn (roulette wheel) [10, 76], ở đây xác suất của mỗi thế hệ được lựa chọn tỷ lệ thuận

với khả năng của nó Để thực hiện loại hình lựa chọn này, các phân đoạn sau bị loại

trên trục [xk-1; xk] (k = 1, 2, …, m) Chiều dài của các đoạn này bằng với số cá thể

(Hình 1.11) Sau đó, một điểm ngẫu nhiên xrand được đưa vào đoạn tởng hợp [0; xm] và nó có sự phân bố đồng đều dọc theo phân đoạn nhất định Cá thể tương ứng với

đoạn được chọn làm cha mẹ trong đoạn [0; xm] [10, 110]

Hình 1.11 Chọn lựa thế hệ cha mẹ (Pk) theo phương pháp bánh xe lăn [76]Sự lựa chọn thế hệ cha mẹ theo phương pháp xếp hạng tuyến tính tương tự như lựa chọn theo phương pháp bánh xe lăn

Hình 1.12 Chọn lựa thế hệ cha mẹ (Pk) theo phương pháp xếp hạng tuyến tính [76] Sự khác biệt là xác suất của mỗi cá thể được lựa chọn trực tiếp dự kiến đến số thứ tự của nó trong tập dữ liệu ban đầu Do đó, đối với tập hợp của m cá thể các đoạn có

Trang 37

37

2) Tổ hợp

Hình 1.13 Tốn tử chéo đơn điểm [76]

Hình 1.14 Tốn tử chéo hai điểm [76]

Tổ hợp là một hoạt động mà hai cá thể được kết hợp để tạo ra các thế hệ mới Trong QSARIS, các toán tử chéo được sử dụng trong tở hợp Tốn tử đơn giản nhất

được gọi là chéo đơn điểm (one-point crossover) [10, 76] Nó xảy ra khi hai cá thể cha mẹ (P1, P2) được đổi chỗ sau một điểm cắt được lựa chọn ngẫu nhiên, tạo ra hai

con lai (O1, O2) (Hình 1.13) Trong tốn tử chéo hai điểm (Two-point crossover),

hai điểm được chọn ngẫu nhiên và các phân đoạn của nhiễm sắc thể giữa chúng

được trao đởi (Hình 1.14) [10, 76]

Số điểm có thể được tăng liên tục cho đến khi mỗi giá trị cho một con cái nhất định có thể được lựa chọn độc lập từ cha hoặc mẹ Thế hệ con lai khác chỉ đơn

Trang 38

38

uniform crossover) Loại crossover (số điểm cắt) cần xác định các vấn đề ảnh hưởng đến việc tìm kiếm Ví dụ, chúng ta giả định rằng mục tiêu của sự lựa chọn là một tập gồm 11 mơ tả, khơng có trong bộ số liệu 100, dự đốn chính xác một số thuộc tính Đồng thời chúng ta giả sử rằng bộ mô tả tốt nhất, hoặc chiếm ưu thế là: (g1, g2, g3, g4, g5, g6, g7, g8, g9, g10, g11) [10, 76]

Nếu một điểm chéo một điểm được sử dụng, với xác suất 0,9 cho các bộ mơ tả liền kề (ví dụ: g4 và g5) sẽ được chuyển sang cùng một dạng lai tạo, và xác suất bằng không là các mô tả đầu tiên và cuối cùng sẽ được chuyển sang cùng một đứa con của cha mẹ này Tương tự, nếu g1 và g3 là bộ mô tả "tốt" và g2 khơng, thì khơng thể tạo ra thế hệ con lai g1 và g3 từ cha mẹ Trong trường hợp này, một chéo hai điểm hoặc chéo đồng dạng có thể là thích hợp hơn [76]

GA có thể sử dụng toán tử phối giống với một xác suất nhất định Pmate Nếu tổ hợp không xảy ra, sau đó các bản sao của cha mẹ được thêm vào dân số Những dịng vơ tính này có thể được thay đổi bởi đột biến [76]

3) Đột biến

Đột biến đơn giản sửa đổi một nhiễm sắc thể đơn với xác suất cho trước

Trong tiêu chuẩn GA, xác suất đột biến (Pmutate trong Hình 1.10) rất nhỏ và hành

động của nó là cố gắng ngăn ngừa hội tụ đến một giải pháp tối ưu [10, 76] Một đột biến trong nhiễm sắc thể có thể bở sung 1 hay nhiều bit Cũng như lai chéo, có thể

xác định k-đột biến (k = 1 hay 2), khi k gen được chọn ngẫu nhiên 1 hay nhiều lần với xác suất Pmutate Hơn nữa, 1 điểm đột biến đồng nhất (uniform mutation) có thể xảy ra, khi ít nhất 1 gene được thay đởi với xác suất Pmutate Vì vậy, mỗi bit được thay đổi với xác suất [10]:

mP

q1(1 mutate)1/ (1.75)

Với m là số gen trong nhiễm sắc thể

4) Tiến trình lai

Trang 39

39

Nếu số cá thể con trùng với số lượng cá thể ban đầu hiện có thì nó khơng được coi là tiếp cận và thu nhập từ việc lai Tổng số tất cả các cá thể con là riêng biệt Con số này nên chia cho số cá thể của cùng một bậc cá thể ban đầu [10]

Cập nhập dữ liệu

Thế hệ cá thể con có thể được thêm vào dữ liệu hiện tại bằng cách chuyển một thành viên hiện có Vì các biến thể sau có thể thực hiện được: thay thế một số thành viên yếu nhất trong tập hợp bằng cá thể con tốt nhất; tăng dữ liệu tiếp theo từ cá thể lai tốt nhất [76]

Mặc dù lựa chọn thứ hai là phở biến nhất, nó cũng là tập trung nhất Vì thế hệ con sẽ có một số gen chung với thế hệ ban đầu, tất cả được đưa chung vào tập dữ liệu Khi gia tăng số lượng các biện pháp lai với một cặp cá thể gốc sau khi mỗi con được sinh ra Điều này cũng có lợi thế là thơng tin di truyền có giá trị có thể chứa trong thành viên ít nhất trong tập hợp sẽ bị mất trước khi có cơ hội chuyển thơng tin này cho một cá thể con Cần hạn chế số lượng quần thể sinh ra để thoát khỏi chu trình cơ bản và để hồn thành một thuật tốn [76, 107]

1.4.5 Mạng thần kinh nhân tạo (ANN)

1.4.5.1 Khái niệm

Mạng thần kinh nhân tạo (nơ ron) là một hệ thống nhận thức dựa trên sự

nhận thức của hệ thống thần kinh sinh học tự nhiên Hình 1.15

Trang 40

40

Hình 1.15 Hệ thống thần kinh sinh học tự nhiên

1.4.5.2 Cấu trúc mạng

Mạng thần kinh nhân tạo (ANN) có cấu trúc giống hệ thần kinh động vật, tương tự như bộ não có chức năng xử lý thơng tin ANN gồm nhiều nơ ron gắn kết cấp cao với nhau để giải quyết các vấn đề một cách rõ ràng ANN giống như bộ não người, trải qua quá trình học, tích lũy kinh nghiệm để xử lý các vấn đề trong từng tình huống phù hợp [30, 50]

Ngày đăng: 16/02/2023, 15:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w