(LUẬN văn THẠC sĩ) dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu luận văn ths máy tính 604801

CƠ SỞ LÝ THUYẾT

CÁC KHÁI NIỆM LIÊN QUAN ĐẾN PROTEIN

Protein là đại phân tử phức tạp, đóng vai trò quan trọng trong tế bào và cơ thể sống Chúng được hình thành từ hàng trăm hoặc hàng ngàn amino acid, thông qua sự liên kết của hai hoặc nhiều polypeptide Các polypeptide này là chuỗi amino acid liên kết với nhau, được sắp xếp thành cấu trúc đặc biệt cho từng loại protein cụ thể.

Hình 2-1 : Minh họa cấu trúc 3D một protein [2]

Protein được hình thành từ các amino acid liên kết với nhau qua các liên kết peptide, tạo thành chuỗi polypeptide Mỗi amino acid bao gồm ba thành phần chính: nhóm amin (−NH2), nhóm carboxyl (−COOH), và một nguyên tử cacbon trung tâm kết nối với một nguyên tử hydro cùng với nhóm biến đổi R, quyết định tính chất của amino acid.

Hình 2-2: Cấu tạo của một amino acid

Trong thành phần của tất cả các loại protein, có tổng cộng 20 loại amino acid Dựa vào cấu tạo gốc R, chúng ta có thể phân loại chúng thành 5 nhóm với các tính chất hóa lý đặc trưng: nhóm amino acid không phân cực, kị nước (Glycine, Alanine, Valine, Leucine, Isoleucine, Proline); nhóm amino acid có gốc R là nhân thơm (Phenylalanine, Tyrosine, Tryptophan); nhóm amino acid có gốc R bazơ, tích điện dương (Lysine, Arginine, Histidine); nhóm amino acid có gốc R phân cực, không tích điện (Serine, Threonine, Cysteine, Methionine, Asparagine, Glutamine); và nhóm amino acid có gốc R acid, tích điện âm (Aspartate, Glutamate).

Protein được chia thành hai loại chính: protein hình cầu và protein dạng sợi Protein hình cầu có hình dạng nhỏ gọn, dễ hòa tan, trong khi protein dạng sợi thường kéo dài và không hòa tan Đặc tính của protein phụ thuộc vào cấu trúc của chúng, bao gồm cấu trúc sơ cấp, bậc hai, bậc ba và bậc bốn Cấu trúc sơ cấp mô tả thứ tự liên kết của các amino acid, trong khi cấu trúc bậc hai liên quan đến việc xoắn hoặc gấp chuỗi polypeptide thành hình dạng 3D, với hai loại chính là cấu trúc xoắn alpha và cấu trúc nếp gấp beta Cấu trúc bậc ba đề cập đến hình dạng 3D tổng thể của chuỗi polypeptide, được duy trì bởi các liên kết và lực hấp dẫn giữa các phân tử Cuối cùng, cấu trúc bậc bốn hình thành từ sự tương tác giữa nhiều chuỗi polypeptide, như trong trường hợp hemoglobin, bao gồm bốn tiểu đơn vị: hai tiểu đơn vị alpha và hai tiểu đơn vị beta.

Protein đóng vai trò quan trọng trong các hoạt động sống của tế bào, ảnh hưởng đến các đặc tính và tính trạng của cơ thể sống.

Bảng 2-1: Bảng chức năng các loại protein cơ bản [4]

Protein vận động Chịu trách nhiệm cho sự co cơ và chuyển động

Protein cấu trúc có tính chất xơ và bền, đóng vai trò quan trọng trong việc hỗ trợ các bộ phận khác nhau của cơ thể Trong khi đó, protein enzyme giúp thúc đẩy các phản ứng sinh hóa, thường được gọi là chất xúc tác vì khả năng tăng tốc độ các phản ứng hóa học.

Protein Hormone Giúp điều hòa các hoạt động sinh lý trong cơ thể

Protein vận chuyển Chịu trách nhiệm vận chuyển các chất từ nơi này đến nơi khác trong cơ thể

Protein kháng thể Có vai trò bảo vệ cơ thể khỏi các kháng nguyên xâm nhập

Protein dự trữ Có vai trò dự trữ chất dinh dƣỡng cho cơ thể

2.1.3 Định nghĩa quan hệ tương tác protein – protein (PPI)

Tương tác protein – protein là quá trình quan trọng trong tế bào, ảnh hưởng đến hoạt động sống và sự tồn tại của động vật Hiện tượng này xảy ra khi hai hoặc nhiều protein kết dính với nhau dưới điều kiện sinh hóa nhất định, nhờ vào lực hút tĩnh điện và tính kỵ nước của protein Kết quả là hình thành các phức hợp protein, tham gia vào các quá trình sinh học thiết yếu.

Hình 2-3: Minh họa tương tác protein – protein [5]

Các loại tương tác protein – protein bao gồm : o Tương tác ổn định o Tương tác tạm thời o Tương tác mạnh o Tương tác yếu

2.1.4 Tầm quan trọng của tương tác protein – protein

Sự tương tác protein – protein là yếu tố thiết yếu cho chức năng tế bào, và khi bị tổn hại, nó sẽ ảnh hưởng trực tiếp đến cơ thể sống Các tác động sinh học của quá trình này bao gồm: thay đổi tính chất động học của enzyme thông qua liên kết cấu trúc hoặc ảnh hưởng allosteric, tạo ra các điểm liên kết mới, bất hoạt hoặc phá hủy protein, thay đổi đặc tính của protein, điều tiết các quá trình sinh học, và tạo ra các kênh cơ chất bằng cách di chuyển cơ chất giữa các vùng hoặc tiểu đơn vị.

KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU

2.2.1 Định nghĩa về khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực đa ngành, kết hợp trí thông minh nhân tạo, xác suất, thống kê, lý thuyết tính toán phức tạp, lý thuyết kiểm soát, lý thuyết thông tin, triết học, tâm lý và thần kinh học Nó cho phép chương trình "học tập" và cải thiện tự động từ kinh nghiệm tích lũy Chẳng hạn, chương trình có thể "học" cách phân loại mối quan hệ protein – protein, xác định xem đó có phải là mối quan hệ tương tác hay không, và tự động phân nhóm chúng thành protein – protein tương tác (PPIs) hoặc protein – protein không tương tác (PPNIs).

Các thuật toán khai phá dữ liệu được phân loại thành hai nhóm chính dựa trên cách sử dụng: thuật toán học máy có giám sát, thường được áp dụng cho phân lớp, và thuật toán học máy không giám sát, chủ yếu dùng cho phân cụm.

2.2.2 Định nghĩa về học có giám sát

Học có giám sát là phương pháp xây dựng mô hình dự đoán dựa trên dữ liệu đã biết kết quả đầu ra trong các tình huống không chắc chắn Thuật toán này sử dụng tập dữ liệu đầu vào để tạo ra các dự đoán hợp lý cho dữ liệu mới Các kỹ thuật phân lớp và hồi quy được áp dụng để phát triển các mô hình dự đoán hiệu quả.

Trong toán học, giả sử chúng ta có một tập hợp dữ liệu đầu vào 𝑋 gồm các phần tử 𝑥₁, 𝑥₂, …, 𝑥ₙ và kết quả phân lớp tương ứng 𝑌 là 𝑦₁, 𝑦₂, …, 𝑦ₙ Học có giám sát là quá trình sử dụng tập dữ liệu đầu vào để tạo ra một hàm ánh xạ, giúp kết nối mỗi phần tử từ tập 𝑋 với phần tử tương ứng trong tập 𝑌.

Hàm ánh xạ 𝑦 𝑖 ≈ 𝑓 𝑥 𝑖 đóng vai trò là một mô hình phân lớp, cho phép dự đoán kết quả tương tác giữa các protein dựa trên dữ liệu đầu vào Trong nghiên cứu này, tập dữ liệu đầu vào là các cặp protein đã được gán nhãn với kết quả đầu ra là tương tác hoặc không tương tác Sau khi thuật toán tạo ra mô hình, nó có khả năng nhận diện và phân loại các mối quan hệ protein – protein mới chưa từng thấy, từ đó dự đoán chính xác liệu chúng có tương tác hay không.

Bảng 2-2: Bộ dữ liệu huấn luyện dự đoán tương tác PPI

2.2.3 Khái niệm về thuật toán phân lớp trong học có giám sát

Phân lớp là phương pháp xử lý để phân loại các mẫu dữ liệu chưa biết vào các lớp đã được xác định trước Quá trình này dựa trên giá trị của các thuộc tính của từng mẫu dữ liệu Mỗi lớp được đặc trưng bởi tập hợp các thuộc tính của các mẫu dữ liệu thuộc lớp đó.

Các thuật toán phân lớp phổ biến bao gồm Cây quyết định, mạng Bayes và SVM Những thuật toán này tạo ra các mô hình có khả năng phân loại một mẫu dữ liệu mới chưa biết, dựa trên các mẫu tương tự đã được học trước đó.

Một bài toán phân lớp bao gồm ba bước chính: đầu tiên là chuẩn bị dữ liệu, tiếp theo là xây dựng mô hình từ tập dữ liệu huấn luyện, và cuối cùng là kiểm tra cũng như đánh giá kết quả.

Chuẩn bị dữ liệu là bước quan trọng trong quá trình phân lớp, nơi chúng ta chuyển đổi dữ liệu thành dạng cấu trúc bảng với hai cột: đối tượng và thuộc tính của đối tượng Trong giai đoạn này, chúng ta cũng tiến hành trích xuất các thuộc tính đặc trưng nhất từ tập hợp thuộc tính của bộ dữ liệu.

Xây dựng mô hình từ tập dữ liệu huấn luyện nhằm xác định các lớp dữ liệu thông qua việc phân tích một tập dữ liệu huấn luyện phong phú, trong đó mỗi mẫu được xác định bởi giá trị thuộc tính và thuộc về một lớp đã định nghĩa trước Để đảm bảo tính khách quan, có thể tạo ra nhiều bộ dữ liệu huấn luyện khác nhau, mỗi bộ sẽ chọn ngẫu nhiên mẫu từ kho dữ liệu hiện có.

Để kiểm tra và đánh giá kết quả của mô hình phân lớp, cần chuẩn bị một tập dữ liệu kiểm định chứa các phần tử không nằm trong tập dữ liệu huấn luyện, nhằm đảm bảo tính khách quan Các mẫu từ tập dữ liệu kiểm định sẽ được đưa qua mô hình phân lớp đã xây dựng để thu thập kết quả dự đoán Sau đó, so sánh kết quả dự đoán với kết quả phân lớp đúng của các mẫu dữ liệu kiểm định để tính toán độ chính xác của mô hình, được xác định là tỷ lệ phần trăm các mẫu dữ liệu kiểm định được phân lớp đúng.

2.2.5 Tổng quan về một số thuật toán phân lớp cơ bản a, Nạve Bayes

Nạve Bayes là một phương pháp phân lớp dựa trên định lý Bayes, với giả thiết rằng các thuộc tính là độc lập Phương pháp này đã được nghiên cứu từ những năm 1950 và chứng tỏ hiệu quả trong nhiều ứng dụng, bao gồm phân lớp văn bản, chẩn đoán y tế và quản lý hiệu năng hệ thống.

Các bước thực hiện thuật toán Bayes: o Bước 1: Huấn luyện Nạve Bayes (dựa vào tập dữ liệu)

𝑖) o Bước 2: Mẫu dữ liệu mới được gán vào lớp có giá trị lớn nhất theo công thức: max⁡(𝑃(𝐶 𝑖 ) 𝑃( 𝑥 𝐶 𝑘

Cây quyết định (Decision Tree) là một cấu trúc phân cấp giúp phân loại các đối tượng chưa biết dựa trên các thuộc tính của chúng Nó sử dụng các quy tắc được xây dựng từ một tập dữ liệu huấn luyện đã được phân lớp, cho phép thực hiện dự đoán trên tập dữ liệu cần kiểm tra.

Cây quyết định có cấu trúc với một node gốc, đại diện cho thuộc tính có giá trị chia phân lớp tốt nhất Các node ngoài cùng là các lá của cây, thể hiện các lớp đích mà đối tượng sẽ được phân loại Giữa các node là các nhánh cây, đóng vai trò là các biểu thức so sánh để phân chia lớp thuộc tính Đường đi từ gốc đến lá là chuỗi quy tắc phân chia giá trị thuộc tính; nếu thuộc tính của đối tượng không tuân theo các quy tắc này, đối tượng sẽ được xếp vào lớp tại node lá cuối cùng của đường đi.

Cơ sở toán học của cây quyết định là thuật toán tham lam, trong đó các thuật toán xây dựng cây quyết định tiêu biểu là ID3, C4.5 và CART

Cây quyết định là một phương pháp phân lớp đơn giản và hiệu quả, được áp dụng rộng rãi trong các lĩnh vực như tài chính, tiếp thị, kỹ thuật và y học.

Hình 2-4: Minh họa Decision Tree c, Support Vector Machine (SVM)

DỰ ĐOÁN TƯƠNG TÁC PROTEIN - PROTEIN

MÔ HÌNH DỰ ĐOÁN TƯƠNG TÁC PROTEIN – PROTEIN

Trong những năm gần đây, nhiều phương pháp tin sinh học đã được phát triển để dự đoán tương tác protein – protein (PPI) Một trong những phương pháp đáng chú ý là thuật toán PrePPI, sử dụng thông tin cấu trúc 3D của protein để dự đoán PPI ở người và nấm men [Zhang và cộng sự, 2012][10] Ngoài ra, phương pháp mở rộng mỗi polymerase thu thập các chuỗi polypeptide ngắn liên tục giữa các cặp tương tác protein đã biết [Pitre & cộng sự, 2006][11] Hệ thống học máy k-nearest neighbors cũng được áp dụng dựa trên thành phần amino acid giả và lựa chọn thuộc tính [Liu & cộng sự, 2009][12] Thêm vào đó, việc trích xuất thuộc tính genomic/proteomic và lựa chọn đặc trưng để dự đoán PPI thông qua thuật toán VSM cũng đã được thực hiện [Urquiza & cộng sự, 2011][13] Cuối cùng, công cụ tìm kiếm được sử dụng để truy xuất dữ liệu từ cơ sở dữ liệu tương tác gen nhằm dự đoán PPI dựa trên sự hợp nhất và hình thành gen [Szklarczyk & cộng sự, 2011][14].

Các phương pháp đề xuất trong thuật toán trích xuất đặc trưng và xây dựng mô hình đóng vai trò quan trọng trong hiệu suất của các phương pháp này Đối với việc trích xuất thuộc tính, nhiều phương pháp khai thác thông tin đã được trình bày, chẳng hạn như phương pháp trích xuất thuộc tính 188-D dựa vào tính chất hóa lý và sự phân bố amino acid của protein [Cai & cộng sự, 2003], phương pháp trích xuất thuộc tính 20-D từ chuỗi protein dựa trên vị trí protein – ma trận điểm riêng biệt [Zou & cộng sự, 2013], và phương pháp n-gram, một thuật toán ngôn ngữ tự nhiên đã được áp dụng trong tin sinh học, cùng với các công cụ trích xuất đặc trưng như Pse-in-One.

RepDNA, RepRNA … để tạo ra các thuộc tính khác nhau của chuỗi DNA, RNA và protein

Trong xây dựng mô hình phân lớp, có hai hướng chính: mô hình phân lớp đơn lẻ và mô hình phân lớp tổng hợp (ensemble) Mô hình phân lớp tổng hợp được hình thành từ các mô hình con yếu hơn nhằm tạo ra một bộ phân lớp mạnh hơn, với ưu điểm là hiệu suất dự đoán tốt hơn và lỗi thấp hơn so với mô hình truyền thống, tuy nhiên chi phí xây dựng cao hơn Một vấn đề đáng lưu ý là hầu hết các phương pháp hiện tại không xem xét yếu tố xây dựng số liệu, mặc dù điều này ảnh hưởng lớn đến kết quả tính toán Để đạt được mô hình phân lớp tối ưu, dữ liệu huấn luyện cần phải cân bằng giữa dữ liệu dương tính và âm tính Hiện nay, tập dữ liệu protein-protein tương tác (PPIs) có số lượng lớn hơn đáng kể so với tập dữ liệu protein-protein không tương tác (PPNIs), gây ra sự chênh lệch lớn Hơn nữa, trong tập dữ liệu âm tính PPNIs, các quan hệ không tương tác đã được chứng minh không có tương tác vật lý, nhưng sự không tương tác gen lại khó xác minh thực nghiệm, dẫn đến nguy cơ tạo ra sai số giả trong dữ liệu âm tính PPNIs.

Trong luận văn này, tôi trình bày một phương pháp tính toán dự đoán tương tác protein – protein dựa trên mô hình phân lớp tổng hợp Phương pháp này kết hợp các kỹ thuật Bagging của Breiman và cộng sự (1996), AdaBoost của Freund và cộng sự (1997), cùng với Random Forest do Leo Breiman và cộng sự phát triển (2001) Phương pháp đề xuất bao gồm ba bước chính: xây dựng số liệu, khai thác thuộc tính và phân lớp.

- Xây dựng số liệu: sử dụng bộ số liệu dương tính, bộ số liệu âm tính đã được kiểm chứng xác thực qua các thực nghiệm sinh học

- Khai thác thuộc tính: sử dụng 2 phương pháp là :

 n-gram để xây dựng bộ thuộc tính căn cứ vào tần suất của các amino acid có mặt trong protein

 Multiscale local descriptor(MLD) chuyển chuỗi trình tự amino acid trong protein thành vector đặc trƣng bằng cách sử dụng lƣợc đồ mã hóa nhị phân

Sau đó áp dụng phương pháp lựa chọn thuộc tính để tạo ra một tập hợp các thuộc tính đƣợc tối ƣu hóa

Sử dụng mô hình phân lớp tổng hợp như AdaBoost, Bagging và Random Forest để dự đoán tương tác protein – protein, nghiên cứu này so sánh hiệu quả của các phương pháp này với các bộ phân lớp đơn lẻ tương ứng Kết quả cho thấy rằng các bộ phân lớp tổng hợp mang lại độ chính xác cao hơn khi sử dụng làm bộ phân lớp cơ sở.

Decision Stump, REPTree và Random Tree

Sau thực nghiệm, các kết quả cho thấy hiệu quả tốt của mô hình đƣợc xây dựng trong dự đoán PPI.

XÂY DỰNG MÔ HÌNH THỰC NGHIỆM

3.2.1 Xây dựng bộ dữ liệu

Dự đoán tương tác PPI là một bài toán phân lớp nhị phân, yêu cầu xây dựng các tập dữ liệu dương tính và âm tính Tập dữ liệu dương tính bao gồm các cặp protein có mối quan hệ tương tác, trong khi tập dữ liệu âm tính chứa các cặp protein không có mối quan hệ tương tác Trong luận văn này, tập dữ liệu dương tính được thu thập từ nguồn dữ liệu DIP (Database of Interacting Protein).

Dữ liệu được thu thập từ hai nguồn chính: trang web http://dip.doe-mbi.ucla.edu/dip/Main.cgi với khoảng 80.000 cặp tương tác và bộ dữ liệu âm tính Negatome từ http://mips.helmholtz-muenchen.de/proj/ppi/negatome/ chứa khoảng 6.450 cặp Để đảm bảo tỷ lệ dữ liệu dương tính và âm tính là 1:1, chúng tôi đã ngẫu nhiên chọn số lượng mẫu tương ứng từ cả hai tập dữ liệu Tất cả mẫu dữ liệu được trình bày dưới dạng chuỗi văn bản thể hiện trình tự của 20 amino acid trong chuỗi protein, ký hiệu bằng chữ cái đầu của mỗi amino acid Để thực hiện phân lớp, dữ liệu thô cần được chuyển hóa thành ma trận thuộc tính dưới dạng số, với mỗi thuộc tính đại diện cho một tính chất của protein.

3.2.2 Trích xuất thuộc tính/đặc trƣng

Trong nghiên cứu này tôi sử dụng2 phương pháp trích xuất thuộc tính là n-gram và

Multiscale Local Descriptor (MLD) là một phương pháp dựa trên n-gram, được phát triển từ thuật toán xử lý ngôn ngữ tự nhiên N-gram được sử dụng để mã hóa protein thông qua việc tính tần suất xuất hiện của các chuỗi amino acid Tần suất này được xác định bằng tổng các thuộc tính hoặc tổng số lần xuất hiện của từng thuộc tính Phương pháp tần suất n-gram cho phép thu được các thuộc tính 1-gram, 2-gram và 3-gram, mỗi loại đều có vai trò quan trọng trong việc phân tích mối quan hệ tương tác Để tạo ra một vector đặc trưng có 8420 chiều, tôi đã kết hợp ba loại thuộc tính với trọng số khác nhau.

Tính số lần xuất hiện mỗi một nhóm amino acid trong chuỗi (N=1,2,3)

Hình 3-1: Sơ đồphương pháp trích xuấtthuộc tính n-gram

Các cặp PPI và PPNI bao gồm hai loại protein, dẫn đến việc phương pháp n-gram tạo ra hai chuỗi mã khác nhau Để sử dụng hiệu quả, cần kết hợp hai vector thuộc tính riêng lẻ để tạo ra một vector thuộc tính tổng hợp Giả định rằng PPI (hoặc PPNI) bao gồm hai protein A và B.

B Protein A, B được mã hóa bởi phương pháp trích xuất đặc trưng được biểu diễn bằng FA và FB, trong đó FA và FB là 2 vector thuộc tính biểu diễn bởi:

Gọi FC là vector thuộc tính kết hợp Ta có:

FB = {FB1,FB2,…,FB8420} Áp dụng công thức

FCi=(FAi+FBi)/2 FC = {FC1,FC2,…,FC8420}

Hình 3-2: Sơ đồ kết hợp 2 vector thuộc tính của cặp protein - protein

Phương pháp MLD được đề xuất nhằm chuyển đổi chuỗi amino acid trong protein thành các vector đặc trưng thông qua lược đồ mã hóa nhị phân Chuỗi amino acid được chia thành 4 đoạn có độ dài bằng nhau, trong đó số lượng amino acid được giảm bằng cách phân loại 20 amino acid thành 7 nhóm cơ bản dựa trên tính lưỡng cực và thể tích mạch nhánh Các đoạn này được ký hiệu lần lượt là S1, S2, S3 và S4 Tính liên tục giữa 4 đoạn này giúp phân chia chuỗi trình tự ban đầu thành 9 chuỗi con, được biểu diễn dưới dạng mã hóa nhị phân.

4 bit bao gồm các giá trị: 1000, 0100, 0010, 0001, 1100, 0110, 0011, 1110, 0111, trong đó ký tự 1 biểu thị sự tồn tại của đoạn tương ứng, trong khi ký tự 0 biểu thị sự không tồn tại Đối với mỗi chuỗi trình tự con, chúng ta tính toán các mô tả địa phương bao gồm thành phần, chuyển tiếp và phân bố Thành phần tính tần suất của mỗi nhóm trên tổng số phần tử; chuyển tiếp tính tần suất của các amino acid trong một nhóm có phần tử kế tiếp là amino acid thuộc nhóm khác; phân bố xác định tần suất ở các vị trí đầu tiên, 25%, 50%, 75% và vị trí cuối cùng trong chuỗi trình tự con Mỗi chuỗi trình tự con sẽ tạo ra 63 mô tả: 7 mô tả thành phần, 21 mô tả chuyển tiếp và 35 mô tả phân bố Mỗi protein được chia thành 9 chuỗi trình tự con, tạo ra một vector 63 ∗ 9 = 567 chiều Cuối cùng, cặp protein PPI (hoặc PPNI) được kết hợp để tạo ra vector đặc trưng cuối cùng bằng cách ghép 2 vector 567 chiều của mỗi protein, dẫn đến một vector 1134 chiều đại diện cho cặp protein đó.

Bảng 3-1: Bảng chia nhóm 20 amino acid dựa vào tính lƣỡng cực và khối lƣợng mạch nhánh

Nhóm Amino acid Tính lưỡng cực Khối lượng mạch nhánh

Sau bước trích xuấtthuộc tính ta có một ma trận thuộc tính kích thước 𝑚 × 𝑛 :

Trong nghiên cứu này, chúng tôi sử dụng một bộ dữ liệu với m bộ dữ liệu và n thuộc tính, bao gồm cả thuộc tính phân lớp Thuộc tính phân lớp được quy ước có 2 giá trị: giá trị 1 tương ứng với lớp định nghĩa có quan hệ tương tác protein – protein, và giá trị 0 tương ứng với lớp định nghĩa không có quan hệ tương tác protein – protein.

3.2.3 Lựa chọn thuộc tính/đặc trƣng

Không phải tất cả các thuộc tính trích xuất đều có lợi cho việc phân lớp, vì vậy việc lựa chọn các thuộc tính quan trọng trong bộ dữ liệu ban đầu là cần thiết trước khi áp dụng các thuật toán phân lớp Luận văn này sử dụng phương pháp MRMD với mục tiêu tìm kiếm chỉ số xếp hạng thuộc tính đáp ứng yêu cầu về sự liên quan giữa tập thuộc tính và lớp đích, cùng với tính thừa của bộ thuộc tính Hệ số tương quan Pearson được sử dụng để đo lường sự liên quan, trong khi ba loại hàm khoảng cách (ED, khoảng cách Cosine, và hệ số Tanimoto) được áp dụng để tính toán tính thừa Sự liên quan giữa tập thuộc tính và lớp đích tăng lên khi hệ số tương quan của Pearson cao hơn, và khoảng cách giữa các thuộc tính lớn hơn sẽ dẫn đến độ thừa thấp hơn Cuối cùng, thuộc tính với tổng lớn hơn của sự liên quan và khoảng cách được chọn làm bộ thuộc tính cuối cùng Kết quả cho thấy bộ thuộc tính do MRMD tạo ra có độ thừa thấp và độ liên quan cao tới lớp đích.

Hệ số tương quan Pearson được tính toán giữa mỗi thuộc tính trong dữ liệu đầu vào và lớp nhãn phân lớp, nhằm xác định mối liên hệ giữa chúng.

𝑥 𝑖 : giá trị của cột thuộc tính X trên đối tƣợng i

𝑥 : kỳ vọng của cột thuộc tính X

𝑦 𝑖 : giá trị của cột lớp nhãn Y trên đối tƣợng i

𝑦 : kỳ vọng của cột lớp nhãn Y 𝑛: số đối tƣợng trong tập đầu vào

𝑟 𝑖 : hệ số tương quan Pearson giữa cột thuộc tính𝑡 và cột lớp nhãn 𝑌

Ba loại hàm khoảng cách đƣợc tính nhƣ sau: Độ đo Euclidcủa thuộc tính X đƣợc tính theo công thức:

𝑘 (3.4) với 𝑘 là số thuộc tính và 𝐸𝐷 𝑋𝑌 là độ đo EuClid giữa hai thuộc tính X và Y đƣợc tính theo công thức:

𝑛: số đối tƣợng thuộc tập đầu vào

𝑥 𝑖 : giá trị thuộc tính X của đối tƣợng thứ i, hay 𝑥 𝑖 ∈ (𝑋 = {𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 })

𝑦 𝑖 : giá trị thuộc tính Y của đối tƣợng thứ i, hay 𝑦 𝑖 ∈ (𝑌 = {𝑦 1 , 𝑦 2 , … , 𝑦 𝑛 }) Độ đoCosine của thuộc tính X đƣợc tính theo công thức:

𝐶𝑜𝑠𝑖𝑛𝑒 𝑋 = 𝑘 𝑖=1 𝐶𝑜𝑠𝑖𝑛𝑒 𝑘 𝑋 𝑌𝑖 (3.6) k là số thuộc tính và 𝐶𝑜𝑠𝑖𝑛𝑒 𝑋𝑌 là giá trị độ đo Cosine giữa 2 thuộc tính X và Y đƣợc tính bởi công thức:

𝑦 𝑖 : giá trị thuộc tính Y của đối tƣợng thứ i, hay 𝑦 𝑖 ∈ (𝑌 = {𝑦 1 , 𝑦 2 , … , 𝑦 𝑛 }) Độ đo Tanimoto của thuộc tính X đƣợc tính theo công thức:

𝑘 (3.8) với k là số thuộc tính và 𝑇𝑎𝑛𝑖𝑚𝑜𝑡𝑜 𝑋𝑌 là giá trị độ đo Tanimoto giữa 2 thuộc tính X và

Y đƣợc tính bằng công thức:

𝑦 𝑖 : giá trị thuộc tính Y của đối tƣợng thứ i, hay 𝑦 𝑖 ∈ (𝑌 = {𝑦 1 , 𝑦 2 , … , 𝑦 𝑛 })

Xếp hạng độ liên quan cao và độ dư thừa thấp của các thuộc tính theo phương pháp MRMD đƣợc tính theo công thức:

𝑚𝑟𝑚𝑑 𝑖 = 𝑟 𝑖 +𝐸𝐷 𝑖 + 𝑟 𝑖 +𝐶𝑜𝑠𝑖𝑛𝑒 3 𝑖 +(𝑟 𝑖 +𝑇𝑎𝑛𝑖𝑚𝑜𝑡𝑜 𝑖 ) (3.10) Sau đó, thực hiện lấy các thuộc tính có giá trị xếp hạng cao nhất vào tập thuộc tính đƣợc lựa chọn

Sau khi lựa chọn tập thuộc tính quan trọng nhất từ tập ban đầu, chúng tôi đảm bảo rằng các thuộc tính này có độ liên quan cao với lớp thuộc tính phân lớp và độ dư thừa thấp Bộ dữ liệu này sẽ được sử dụng làm đầu vào cho quá trình phân lớp và đánh giá kết quả Chúng tôi áp dụng phương pháp k-fold cross validation với k = 10, chia tập thuộc tính đặc trưng thành 10 phần bằng nhau, trong đó 9 phần được dùng làm dữ liệu huấn luyện và 1 phần còn lại để kiểm định mô hình Để tăng cường tính đa dạng cho tập dữ liệu huấn luyện và kiểm định, chúng tôi xây dựng một hàm chia file và thực hiện xáo trộn dữ liệu trong tập ban đầu trước khi tiến hành chia.

Nghiên cứu này thực hiện phân lớp bằng cách áp dụng thuật toán phân lớp tổng hợp, bao gồm ba bộ phân lớp: Bagging, AdaBoostM1 và Random Forest Mục tiêu là làm nổi bật những ưu điểm của các thuật toán này so với các thuật toán phân lớp đơn lẻ, cụ thể là Decision Stump, REPTree và Random Tree.

Trong bài viết này, chúng ta xem xét phương pháp chia tập dữ liệu thuộc tính đặc trưng thành 10 phần bằng nhau, với mục tiêu tạo ra 10 bộ dữ liệu huấn luyện và kiểm định Cụ thể, mỗi phần sẽ được sử dụng làm dữ liệu kiểm định một lần, trong khi 9 phần còn lại sẽ được dùng làm dữ liệu huấn luyện Kết quả là tập dữ liệu huấn luyện sẽ có số lượng mẫu là 𝑛 1 = 𝑛 × 0,9 và tập dữ liệu kiểm định sẽ có số lượng mẫu là 𝑛 2 = 𝑛 × 0,1 Điều quan trọng là hai tập dữ liệu này hoàn toàn độc lập và không có phần tử chung, nhằm đảm bảo tính khách quan trong quá trình kiểm định.

Bộ phận tổng hợp Bagging sử dụng thuật toán REPTree với dữ liệu huấn luyện gồm 𝑛1 mẫu Từ 𝑛1 mẫu này, chúng ta tạo ra k tập dữ liệu huấn luyện con bằng cách chọn ngẫu nhiên và có thể lặp các mẫu Mỗi tập huấn luyện con sẽ tương ứng với một mô hình cơ bản được xây dựng từ thuật toán REPTree, dẫn đến việc tạo ra k mô hình trong Bagging Khi dự đoán cho mỗi mẫu mới trong 𝑛2 mẫu dữ liệu kiểm định, Bagging sẽ thực hiện dự đoán qua k mô hình cơ bản và quyết định lớp của mẫu dựa trên số phiếu bầu cao nhất từ các mô hình.

700 mẫu dữ liệu huấn luyện

Chia thành 100 tập huấn luyện con, mẫu dữ liệu có thể lặp

Tập dữ liệu huấn luyện con thứ nhất

Xây dựng mô hình với thuật toán REPTree

Tập dữ liệu huấn luyện con thứ hai

Tập dữ liệu huấn luyện con thứ i

Tập dữ liệu huấn luyện con thứ 100

Bỏ phiếu chọn ra lớp i được vote nhiều nhất

Hình 3-3: Sơ đồ thuật toán Bagging trên tập 𝑛 1 mẫu huấn luyện

Trong nghiên cứu này, bộ phân lớp tổng hợp AdaBoostM1 sử dụng thuật toán cơ bản là Decision Stump (cây quyết định một cấp) Thuật toán AdaBoostM1 hoạt động bằng cách lặp lại quá trình xây dựng các mô hình cơ bản trên tập dữ liệu huấn luyện với trọng số thay đổi sau mỗi lần huấn luyện Cụ thể, các mẫu dữ liệu dự đoán đúng sẽ được gán trọng số thấp hơn, trong khi các mẫu dự đoán sai sẽ có trọng số cao hơn, nhằm tăng cường vai trò của chúng trong các vòng huấn luyện tiếp theo Quá trình này sẽ dừng lại khi tỷ lệ mẫu dự đoán sai đạt ≥ 1/2 tổng số mẫu hoặc khi đạt đến số lần huấn luyện tối đa đã cài đặt.

Cuối cùng, Random Forest sử dụng thuật toán cơ bản là Random Tree (cây ngẫu nhiên) Cách thực hiện giải thuật nhƣ sau:

1 Xây dựng Random Tree đầu tiên trong Random Forest:

1.1 Lựa chọn k mẫu ngẫu nhiên trong tổng số𝑛 1 mẫu tập học làm tập dữ liệu học

KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN

CHƯƠNG TRÌNH CÀI ĐẶT

Chương trình thực nghiệm dự đoán tương tác protein - protein được phát triển bằng ngôn ngữ lập trình Java và sử dụng kỹ thuật khai thác dữ liệu Để chạy chương trình này, người dùng cần đáp ứng một số yêu cầu nhất định.

- Môi trường java tối thiểu version 1.6

Để đảm bảo hiệu suất tối ưu khi chạy các lựa chọn thuộc tính hoặc đặc trưng sau khi trích xuất, phần cứng yêu cầu ít nhất CPU Dual-core và RAM 8GB cho các tác vụ n-gram Đối với các tác vụ liên quan đến trích xuất thuộc tính hoặc đặc trưng MLD, tối thiểu cần CPU Dual-core và RAM 4GB.

- Client chạy ứng dụng phải là máy cài hệ điều hành Windows

Mở giao diện chương trình:

Hình 4-1: Giao diện chương trình Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu a, Chuẩn bị dữ liệu

Dữ liệu dương tính có thể tải về từ nguồn DIP tại địa chỉ http://dip.doe-mbi.ucla.edu/dip/Main.cgi, bao gồm 6.445 cặp tương tác protein (PPI) được lấy ngẫu nhiên.

Dữ liệu âm tính: Tải về từ nguồn có địa chỉ tại http://mips.helmholtz- muenchen.de/proj/ppi/negatome/ Số lƣợng PPNI lấy ngẫu nhiên: 6445 cặp

Dữ liệu được lưu trữ dưới dạng tệp nén với các file có đuôi *.fasta, mỗi file chứa thông tin thô về cặp protein Bước tiếp theo là trích xuất các thuộc tính và đặc trưng từ dữ liệu này.

Hình 4-2: Giao diện chức năng trích xuất thuộc tính/đặc trƣng

Nhấn button [PPIs], chọn thư mục chứa các cặp protein tương tác

Nhấn button [PPNIs], chọn thư mục chứa các cặp protein không tương tác

Nhấn button [Save File], chọn thư mục lưu file kết quả trích xuất

Nhấn button [n-gram] - thực hiện trích xuất thuộc tính/đặc trưng theo phương pháp n- gram

Nhấn button [MLD] – thực hiện trích xuất thuộc tính/đặc trưng theo phương pháp

MLD c, Lựa chọn thuộc tính/đặc trưng

Hình 4-3: Giao diện chức năng lựa chọn thuộc tính/đặc trƣng

Nhấn [Input] chọn file dữ liệu trích xuất được ở bước b, Trích xuất thuộc tính/đặc trưng làm đầu vào

Để lưu file kết quả, hãy nhấn [Save File] và chọn thư mục mong muốn Sau đó, nhấn [Thực hiện] để gọi hàm lựa chọn tính năng hoặc đặc trưng.

Nhấn [Cross validation (10-fold)] để chia file kết quả sau khi lựa chọn thuộc tính/đặc trưng thành 10 phần dữ liệu bằng nhau Mỗi phần dữ liệu sẽ lần lượt được sử dụng làm dữ liệu kiểm định, trong khi 9 phần còn lại sẽ làm dữ liệu training Kết quả thu được là 10 bộ dữ liệu, mỗi bộ bao gồm 2 file: file dữ liệu training và file dữ liệu kiểm định.

Hình 4-4: Giao diện chức năng Phân lớp thuộc tính/đặc trƣng

Nhấn button [Train File] chọn file dữ liệu huấn luyện

Nhấn button [Test File] chọn file dữ liệu kiểm định

Nhấn button [Save File] chọn thư mục lưu file kết quả phân lớp từ đầu vào là dữ liệu kiểm định

Nhấn 1 trong 6button [Decision Stump], [AdaBoostM1],[REPTree], [Bagging],[Random Tree] hoặc [Random Forest] thực hiện gọi hàm phân lớp đặc trưng tương ứng cho mỗi thuật toán: thuật toán phân lớp đơn lẻDecision Stump,

REPTree hoặc Random Tree, thuật toán phân lớp tổng hợp AdaBoostM1, Bagging, hoặcRandom Forest

Kết quả dự đoán và biểu đồ tương ứng hiển thị trong hộp Panel bên phải e, Độ đo đánh giá

Hình 4-5: Giao diện chức năng Đánh giá mô hình thuật toán

Nhấn button [Result File] chọn file kết quả vừa thu được qua bước phân lớp thuộc tính/đặc trƣng

Nhấn 1 trong 6 button [Decision Stump], [AdaBoostM1], [REPTree], [Bagging], [Random Tree] hoặc [Random Forest]để thực hiện gọi hàm tính toán độ đo tương ứng cho mỗi thuật toán phân lớpDecision Stump, AdaBoostM1, REPTree,Bagging, Random

Kết quả đánh giá độ đo và biểu đồ tương ứng hiển thị trong hộp Panel bên phải.

KẾT QUẢ DỰ ĐOÁN TƯƠNG TÁC PROTEIN - PROTEIN

Tiến hành thực nghiệm với 6 thuật toán, 3 thuật toán phân lớp tổng hợp là

Trong nghiên cứu này, chúng tôi áp dụng phương pháp k-fold cross validation để lựa chọn thuộc tính/đặc trưng cho ba thuật toán phân lớp đơn lẻ: AdaBoostM1, Bagging và Random Forest, cùng với các thuật toán Decision Stump, REPTree và RandomTree Chúng tôi chia file dữ liệu ban đầu thành 10 phần bằng nhau, sử dụng một phần làm dữ liệu kiểm định và 9 phần còn lại làm dữ liệu huấn luyện, tạo ra 10 bộ dữ liệu Mỗi bộ dữ liệu bao gồm hai file: một file cho dữ liệu huấn luyện và một file cho dữ liệu kiểm định với tỷ lệ 9:1 Để đảm bảo tính khách quan của kết quả, dữ liệu trong file ban đầu được xáo trộn ngẫu nhiên trước khi chia, cho phép người dùng có thể tạo ra nhiều bộ dữ liệu đánh giá hơn nếu cần.

Sau khi triển khai chương trình trên các bộ dữ liệu huấn luyện và kiểm định đã được phân chia, chúng ta thu được các file kết quả tương ứng với từng thuật toán Mỗi mẫu dữ liệu trong tập kiểm định có hai cột quan trọng: cột lớp đích được dự đoán và cột lớp đích đúng được cung cấp trước.

Bảng 4-1: Bảng giá trị phân lớp dự đoán

Mẫu dữ liệu Lớp dự đoán Lớp đúng

Trong nghiên cứu này, chúng tôi sử dụng độ đo F để biểu diễn kết quả một cách ngắn gọn và rõ ràng trên các thuật toán áp dụng cho từng bộ dữ liệu Kết quả được trình bày theo hai phương pháp: đầu tiên là thuật toán trích xuất thuộc tính/đặc trưng n-gram và thứ hai là thuật toán trích xuất thuộc tính/đặc trưng MLD.

Sau khi trích xuất các thuộc tính, chúng ta tiến hành lựa chọn một số lượng thuộc tính nhỏ hơn so với ban đầu Trong nghiên cứu này, số thuộc tính được rút gọn xuống còn 100, và chúng tôi sẽ so sánh kết quả phân lớp đặc trưng giữa tập dữ liệu ban đầu và tập dữ liệu đã được rút gọn.

Sử dụng thuật toán trích xuất thuộc tính MLD, chúng tôi nghiên cứu kết quả theo hai hướng: Thứ nhất, áp dụng toàn bộ tập thuộc tính ban đầu vào các thuật toán phân lớp; thứ hai, sử dụng phương pháp MRMD để giảm số chiều thuộc tính từ 1134 xuống còn 100 thuộc tính.

Trong bảng kết quả, các thuật toán phân lớp được sắp xếp thành từng cặp theo quy tắc: thuật toán phân lớp đơn lẻ A và thuật toán phân lớp tổng hợp dựa trên thuật toán phân lớp đơn lẻ A tương ứng Cụ thể, các cặp được liệt kê bao gồm: Decision Stump - AdaBoostM1, REPTree - Bagging, và RandomTree - RandomForest.

Chúng tôi đã tiến hành thực nghiệm và thu được kết quả với phương pháp trích xuất thuộc tính MLD, giữ nguyên tập 1134 thuộc tính sau khi trích xuất làm dữ liệu đầu vào cho quá trình phân lớp.

Bảng 4-2: Kết quả thực nghiệmphương pháp trích xuất thuộc tính MLD, không giảm chiều số thuộc tính Độ đo F

Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 là các bộ dữ liệu kiểm định sử dụng trong thực nghiệm.Kết quả đƣợc biểu diễn bằng giá trị độ đo F (%)

Bảng 4-3: Thời gian thực hiện phương pháp trích xuất thuộc tính MLD, không giảm chiều số thuộc tính

MLD – không giảm chiều thuộc tính

Hình 4-6: Biểu đồ kết quả thực nghiệm phương pháp trích xuất thuộc tính MLD, không giảm chiều số thuộc tính

Sau khi trích xuất thuộc tính/đặc trƣng MLD, giảm chiều thuộc tính xuống còn 100 thuộc tính, ta có kết quả thực nghiệm đo đƣợc nhƣ sau:

Bảng 4-4: Kết quả thực nghiệm phương pháp trích xuất thuộc tính MLD, giảm chiều còn 100 thuộc tính Độ đo F

Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 là các bộ dữ liệu kiểm định sử dụng cho thực nghiệm Kết quả biểu diễn bằng giá trị độ đo F(%)

Bảng 4-5: Thời gian thực hiện phương pháp trích xuất thuộc tính MLD, giảm chiều còn 100 thuộc tính

Hình 4-7: Biểu đồ kết quả thực nghiệm phương pháp trích xuất thuộc tính MLD, giảm chiều còn

Sử dụng phương pháp trích xuất thuộc tính n-gram cho bộ vector 8420 thuộc tính, nếu áp dụng trực tiếp bộ vector này làm tập dữ liệu đầu vào cho các thuật toán phân lớp, sẽ thu được kết quả như sau:

Bảng 4-6: Kết quả thực nghiệm phương pháp trích xuất thuộc tính n-gram, không giảm chiều thuộc tính Độ đo F

Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 là các bộ dữ liệu kiểm định sử dụng cho thực nghiệm Kết quả đƣợc biểu diễn bằng giá trị độ đo F (%).

Bảng 4-7: Thời gian thực hiện phương pháp trích xuất thuộc tính n-gram, không giảm chiềuthuộc tính

Random Forest n-gram – không giảm chiều thuộc tính

Hình 4-8: Biểu đồ kết quả thực nghiệm phương pháp trích xuất thuộc tính n-gram, không giảm chiều số thuộc tính

Sau khi áp dụng phương pháp n-gram để trích xuất thuộc tính và giảm chiều xuống còn 100 thuộc tính bằng kỹ thuật MRMD, chúng tôi đã sử dụng tập vector thuộc tính đã rút gọn làm đầu vào cho các thuật toán phân lớp Kết quả thực nghiệm cho thấy hiệu suất phân loại được cải thiện đáng kể.

Bảng 4-8: Kết quả thực nghiệm phương pháp trích xuất thuộc tính n-gram, giảm chiều còn 100 thuộc tính Độ đo F

Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 là các bộ dữ liệu kiểm định sử dụng cho thực nghiệm Kết quả đƣợc biểu diễn bằng giá trị độ đo F (%)

Bảng 4-9: Thời gian thực hiện phương pháp trích xuất thuộc tính n-gram, giảm chiềucòn 100 thuộc tính

Hình 4-9: Biểu đồ kết quả thực nghiệm phương pháp trích xuất thuộc tính n-gram, giảm chiều còn 100 thuộc tính

Tổng kết lại, bảng rút gọn kết quả thực nghiệm trong nghiên cứu đã chỉ ra hiệu quả của các phương pháp trích xuất thuộc tính và các phương pháp phân lớp.

Bảng 4-10: Bảng kết quả tổng hợp các phương pháp phân lớp

MLD – không giảm chiều thuộc tính (1134 thuộc tính) Độ đo F (%)

2,2 7,5 2,1 17,7 1 4 n-gram – không giảm chiều thuộc tính (8420 thuộc tính) Độ đo F (%)

108,4 975,3 1168,1 7577,6 20,8 47,4 n-gram – giảm chiều còn 100 thuộc tính Độ đo F (%)

NHẬN XÉT

Các mô hình phân lớp đơn lẻ thường có độ chính xác thấp hơn đáng kể so với các mô hình phân lớp tổng hợp sử dụng những mô hình đơn lẻ đó làm nền tảng Điều này cho thấy hiệu quả dự đoán của các thuật toán tổng hợp cao hơn rõ rệt.

Mô hình Decision Stump có hiệu quả dự đoán thấp hơn khoảng 4% so với mô hình thuật toán AdaBoostM1 theo độ đo F Đồng thời, hiệu quả dự đoán của mô hình REPTree cũng thấp hơn so với các mô hình thuật toán khác.

Mô hình thuật toán Random Tree có hiệu suất dự đoán thấp hơn khoảng 7% so với mô hình Random Forest, dựa trên độ đo F Cả hai mô hình đều đạt được mức bagging trung bình khoảng 7%.

Các phương pháp phân lớp đơn lẻ có chi phí thấp hơn đáng kể so với các phương pháp phân lớp tổng hợp Cụ thể, chi phí của thuật toán Decision Stump chỉ chiếm khoảng 20-30% so với AdaBoostM1, trong khi chi phí của REPTree chỉ khoảng 12-15% so với Bagging Đối với Random Tree, chi phí ước tính là 25-50% so với Random Forest.

Việc sử dụng phương pháp lựa chọn thuộc tính/đặc trưng MRMD để giảm chiều dữ liệu cho thấy hiệu quả dự đoán phân lớp giảm nhẹ, với mức giảm dao động từ 1% đến 4% theo độ đo F Tuy nhiên, chi phí tính toán giảm đáng kể từ 10% đến 25% khi sử dụng tập vector thuộc tính rút gọn so với tập vector ban đầu Mặc dù có sự giảm sút về hiệu quả dự đoán, mức giảm này vẫn được coi là chấp nhận được so với chi phí tiết kiệm được trong quá trình chạy chương trình.

So sánh giữa hai phương pháp trích xuất thuộc tính/đặc trưng là n-gram và MLD

Kết quả phân tích cho thấy hiệu quả của hai phương pháp trích xuất thuộc tính n-gram và MLD là tương đương, nhưng chi phí thực hiện lại khác nhau Khi giảm chiều thuộc tính, n-gram hoạt động tốt hơn MLD, tuy nhiên trong trường hợp không giảm chiều, n-gram không phù hợp do thời gian xử lý lâu, đặc biệt khi áp dụng với thuật toán phân lớp Bagging Đáng chú ý, chi phí thực hiện giảm chiều thuộc tính của MLD thấp hơn nhiều so với n-gram, cả về thời gian và yêu cầu cấu hình máy tính Do đó, MLD là lựa chọn ưu việt hơn so với n-gram khi xét đến hiệu quả và chi phí.

So sánh giữa các cặp thuật toán Decision Stump – AdaBoostM1, REPTree – Bagging, và Random Tree – Random Forest cho thấy cặp Decision Stump – AdaBoostM1 có hiệu quả dự đoán thấp hơn hai cặp còn lại Trong khi đó, hai cặp REPTree – Bagging và Random Tree – Random Forest có hiệu quả dự đoán tương đương nhau, nhưng cặp Random Tree – Random Forest lại có chi phí thấp hơn nhiều lần so với cặp REPTree – Bagging.

Kết quả nghiên cứu cho thấy phương pháp hiệu quả nhất trong dự đoán tương tác protein – protein là phương pháp phân lớp Random Forest Phương pháp này kết hợp với kỹ thuật trích xuất thuộc tính MLD và lựa chọn thuộc tính MRMD nhằm giảm chiều thuộc tính, từ đó nâng cao độ chính xác trong dự đoán.

KẾT LUẬN

Luận văn đã đạt được hai kết quả quan trọng trong việc phát triển chương trình dự đoán tương tác protein - protein thông qua kỹ thuật khai phá dữ liệu.

Về nghiên cứu tìm hiểu:

- Nghiên cứu các khái niệm sinh học liên quan protein, cấu trúc protein

- Nghiên cứu các khái niệm khai phá dữ liệu nền tảng liên quan đến kỹ thuật phân lớp dữ liệu

- Tìm hiểu tổng quan về một số thuật toán phân lớp cơ bản

- Tìm hiểu về phương pháp phân lớp tổng hợp (ensemble) và một số phương pháp kết hợp các bộ phân lớp cơ bản

- Tìm hiểu các khái niệm về đánh giá mô hình phân lớp

- Xây dựng được chương trình dự đoán tương tác protein - protein bằng phương pháp phân lớp tổng hợp

- Xây dựng được hàm đánh giá và so sánh kết quả thực nghiệm giữa phương pháp phân lớp tổng hợp và phân lớp đơn lẻ

- Tiến hành thử nghiệm trên nhiều tập dữ liệu ngẫu nhiên khác nhau để đảm bảo tính chính xác khách quan

- Xây dựng giao diện trực quan, dễ dàng sử dụng cho người dùng

Luận văn trình bày phương pháp áp dụng mô hình phân lớp tổng hợp trong nghiên cứu dự đoán tương tác protein - protein Nghiên cứu đã chứng minh cả về lý thuyết lẫn thực nghiệm rằng mô hình phân lớp tổng hợp vượt trội so với các thuật toán phân lớp đơn lẻ, với độ chính xác và độ ổn định cao hơn.

Luận văn này đóng góp thêm một so sánh giữa các bước xây dựng mô hình dự đoán phân lớp, nhằm tìm ra phương pháp dự đoán hiệu quả nhất Nghiên cứu đã chứng minh rằng kết quả từ mô hình phân loại tổng hợp thường hiệu quả hơn so với mô hình phân loại đơn lẻ Điều này tạo ra căn cứ vững chắc cho việc nghiên cứu sâu hơn về mô hình phân loại tổng hợp, đặc biệt trong bài toán "Dự đoán tương tác protein – protein".

HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI

Trong luận văn, tôi chưa khai thác sâu về cách kết hợp các thuật toán con trong thuật toán phân lớp tổng hợp Vấn đề tối ưu thời gian và hiệu suất xử lý dữ liệu lớn trong ngôn ngữ lập trình hiện tại còn hạn chế, dẫn đến giảm độ chính xác của kết quả thực nghiệm Do đó, trong tương lai, tôi mong muốn tìm hiểu và áp dụng các phương pháp kết hợp giải thuật đơn lẻ vào mô hình phân lớp tổng hợp, đồng thời tối ưu hóa ngôn ngữ lập trình để đảm bảo xử lý dữ liệu lớn một cách nhanh chóng và hiệu quả.

Tiêu đề	Dự Đoán Tương Tác Protein – Protein Sử Dụng Kỹ Thuật Khai Phá Dữ Liệu
Tác giả	Phạm Văn Hiếu
Người hướng dẫn	TS. Đặng Thanh Hải
Trường học	Đại Học Quốc Gia Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2017
Thành phố	Hà Nội

Định dạng
Số trang	54
Dung lượng	1,77 MB