CƠ SỞ LÝ THUYẾT
CÁC KHÁI NIỆM LIÊN QUAN ĐẾN PROTEIN
Protein là đại phân tử phức tạp, đóng vai trò quan trọng trong tế bào và cơ thể sống Chúng được cấu tạo từ hàng trăm hoặc hàng ngàn amino acid, liên kết với nhau để tạo thành các polypeptide Mỗi protein có một cấu trúc đặc biệt, được hình thành từ sự kết hợp của hai hoặc nhiều chuỗi polypeptide.
Hình 2-1 : Minh họa cấu trúc 3D một protein [2]
Protein được tạo thành khi các amino acid liên kết với nhau qua các liên kết peptide, hình thành chuỗi polypeptide Mỗi amino acid bao gồm ba thành phần chính: nhóm amin (−NH2), nhóm carboxyl (−COOH) và một nguyên tử carbon trung tâm, gắn với một nguyên tử hydro và nhóm R biến đổi, quyết định tính chất của amino acid.
Hình 2-2: Cấu tạo của một amino acid
Có 20 loại amino acid trong tất cả các loại protein, được phân loại thành 5 nhóm dựa trên cấu tạo gốc R với các tính chất hóa lý riêng Nhóm đầu tiên gồm các amino acid có gốc R không phân cực và kị nước như Glycine, Alanine, Valine, Leucine, Isoleucine và Proline Nhóm thứ hai bao gồm các amino acid có gốc R là nhân thơm, bao gồm Phenylalanine, Tyrosine và Tryptophan Nhóm thứ ba là các amino acid có gốc R bazơ và tích điện dương như Lysine, Arginine và Histidine Nhóm thứ tư chứa các amino acid có gốc R phân cực nhưng không tích điện, gồm Serine, Threonine, Cysteine, Methionine, Asparagine và Glutamine Cuối cùng, nhóm thứ năm là các amino acid có gốc R acid và tích điện âm, bao gồm Aspartate và Glutamate.
Protein được chia thành hai dạng chính: protein hình cầu và protein dạng sợi Protein hình cầu có đặc điểm nhỏ gọn, dễ hòa tan, trong khi protein dạng sợi thường kéo dài và không hòa tan Cấu trúc của protein bao gồm bốn cấp độ: cấu trúc sơ cấp, cấu trúc bậc hai, cấu trúc bậc ba và cấu trúc bậc bốn Cấu trúc sơ cấp mô tả thứ tự liên kết của các amino acid trong chuỗi polypeptide, và một thay đổi nhỏ có thể dẫn đến đột biến gene Cấu trúc bậc hai liên quan đến việc xoắn hoặc gấp chuỗi polypeptide thành hình dạng 3D, bao gồm cấu trúc xoắn alpha và cấu trúc nếp gấp beta Cấu trúc bậc ba đề cập đến hình dạng 3D toàn diện của chuỗi polypeptide, được duy trì bởi các liên kết và lực tương tác giữa các phân tử Cuối cùng, cấu trúc bậc bốn hình thành từ sự tương tác giữa nhiều chuỗi polypeptide, như trong hemoglobin, bao gồm bốn tiểu đơn vị: hai tiểu đơn vị alpha và hai tiểu đơn vị beta.
Protein đóng vai trò quan trọng trong mọi hoạt động sống của tế bào, quy định các tính trạng và đặc điểm của cơ thể sống.
Bảng 2-1: Bảng chức năng các loại protein cơ bản [4]
Protein vận động Chịu trách nhiệm cho sự co cơ và chuyển động
Protein cấu trúc có tính chất xơ và bền, đóng vai trò quan trọng trong việc hỗ trợ các bộ phận khác nhau của cơ thể Trong khi đó, protein enzyme giúp thúc đẩy các phản ứng sinh hóa, thường được gọi là chất xúc tác vì chúng tăng tốc độ các phản ứng hóa học.
Protein Hormone Giúp điều hòa các hoạt động sinh lý trong cơ thể
Protein vận chuyển Chịu trách nhiệm vận chuyển các chất từ nơi này đến nơi khác trong cơ thể
Protein kháng thể Có vai trò bảo vệ cơ thể khỏi các kháng nguyên xâm nhập
Protein dự trữ Có vai trò dự trữ chất dinh dƣỡng cho cơ thể
2.1.3 Định nghĩa quan hệ tương tác protein – protein (PPI)
Tương tác protein – protein là quá trình quan trọng trong tế bào, ảnh hưởng đến hoạt động sống và sự tồn tại của động vật Hiện tượng này xảy ra khi hai hoặc nhiều protein kết hợp với nhau trong điều kiện sinh hóa nhất định, chịu tác động của lực hút tĩnh điện và tính kỵ nước, tạo thành phức hợp tham gia vào các quá trình sinh học.
Hình 2-3: Minh họa tương tác protein – protein [5]
Các loại tương tác protein – protein bao gồm : o Tương tác ổn định o Tương tác tạm thời o Tương tác mạnh o Tương tác yếu
2.1.4 Tầm quan trọng của tương tác protein – protein
Sự tương tác giữa các protein là yếu tố cốt lõi cho chức năng tế bào, và khi quá trình này bị tổn hại, nó sẽ ảnh hưởng trực tiếp đến cơ thể sống Các ảnh hưởng sinh học của tương tác protein – protein bao gồm việc thay đổi tính chất động học của enzyme thông qua liên kết cấu trúc hoặc tác động allosteric, tạo ra các điểm liên kết mới, bất hoạt hoặc phá hủy protein, thay đổi đặc tính của protein, điều tiết các quá trình sinh học, và tạo ra các kênh cơ chất để di chuyển cơ chất giữa các vùng hoặc tiểu đơn vị khác nhau.
KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu là một lĩnh vực đa ngành, kết hợp các nguyên lý từ trí thông minh nhân tạo, xác suất, thống kê, và nhiều lĩnh vực khác Nó cho phép chương trình tự động "học" và cải thiện khả năng từ kinh nghiệm tích lũy Chẳng hạn, trong nghiên cứu này, chương trình có thể "học" để phân loại mối quan hệ protein - protein, xác định xem đó có phải là mối quan hệ tương tác hay không, từ đó tự động phân nhóm thành protein - protein tương tác (PPIs) hoặc protein - protein không tương tác (PPNIs).
Các thuật toán khai phá dữ liệu được phân loại thành hai nhóm chính dựa trên cách sử dụng: thuật toán học máy có giám sát, thường được áp dụng cho phân lớp, và thuật toán học máy không giám sát, chủ yếu dùng cho phân cụm.
2.2.2 Định nghĩa về học có giám sát
Học có giám sát nhằm xây dựng mô hình dự đoán dựa trên dữ liệu có sẵn trong môi trường không chắc chắn Thuật toán này sử dụng tập dữ liệu đầu vào với kết quả đầu ra đã biết để phát triển mô hình, từ đó tạo ra các dự đoán chính xác cho dữ liệu mới Các kỹ thuật phân lớp và hồi quy là những phương pháp chính được áp dụng trong học có giám sát để cải thiện khả năng dự đoán.
Trong học máy, giả sử chúng ta có một tập hợp dữ liệu đầu vào 𝑋 gồm các phần tử 𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 và kết quả phân lớp tương ứng 𝑌 = 𝑦 1 , 𝑦 2 , … , 𝑦 𝑛 Học có giám sát là quá trình sử dụng tập dữ liệu đầu vào để huấn luyện, từ đó tạo ra một hàm ánh xạ mỗi phần tử từ tập 𝑋 sang phần tử tương ứng trong tập 𝑌.
Hàm ánh xạ 𝑦 𝑖 ≈ 𝑓 𝑥 𝑖 được sử dụng như một mô hình để phân loại dữ liệu đầu vào mới Trong nghiên cứu này, tập dữ liệu đầu vào bao gồm các cặp protein – protein đã được gán nhãn với kết quả đầu ra là tương tác hoặc không tương tác Sau khi thuật toán xây dựng mô hình, nó sẽ nhận đầu vào là dữ liệu quan hệ protein – protein và dự đoán nhãn tương tác hoặc không tương tác Khi nhận được một quan hệ protein – protein mới mà mô hình chưa từng thấy, nó vẫn có khả năng dự đoán chính xác mối quan hệ đó.
Bảng 2-2: Bộ dữ liệu huấn luyện dự đoán tương tác PPI
2.2.3 Khái niệm về thuật toán phân lớp trong học có giám sát
Phân lớp là phương pháp xử lý dữ liệu nhằm phân loại các mẫu chưa biết vào các lớp đã được xác định trước Việc xếp lớp cho các mẫu này dựa trên giá trị của các thuộc tính của chúng Mỗi lớp đặc trưng bởi một tập hợp các thuộc tính của các mẫu dữ liệu được phân loại trong lớp đó.
Các thuật toán phân lớp phổ biến bao gồm Cây quyết định, mạng Bayes và SVM Những thuật toán này tạo ra các mô hình có khả năng phân loại một mẫu dữ liệu mới chưa được biết đến, dựa trên những mẫu tương tự đã được học trước đó.
Bài toán phân lớp bao gồm ba bước chính: chuẩn bị dữ liệu, xây dựng mô hình từ tập dữ liệu huấn luyện và kiểm tra, đánh giá kết quả Trong bước chuẩn bị dữ liệu, chúng ta cần chuẩn hóa dữ liệu thành dạng bảng với hai cột: đối tượng và thuộc tính của đối tượng Đồng thời, bước này cũng bao gồm việc trích xuất các thuộc tính đặc trưng nhất từ tập các thuộc tính của bộ dữ liệu.
Xây dựng mô hình từ tập dữ liệu huấn luyện nhằm xác định các lớp dữ liệu cụ thể Mô hình này được phát triển thông qua việc phân tích một tập dữ liệu huấn luyện phong phú, trong đó mỗi mẫu dữ liệu được xác định bởi các thuộc tính và đã được phân loại vào các lớp đã định nghĩa trước Để đảm bảo tính khách quan, có thể tạo ra nhiều bộ dữ liệu huấn luyện khác nhau, với mỗi bộ dữ liệu chọn ngẫu nhiên các mẫu từ một kho dữ liệu lớn.
Để kiểm tra và đánh giá kết quả của mô hình phân lớp, cần chuẩn bị một tập dữ liệu kiểm định với các phần tử không thuộc tập dữ liệu huấn luyện nhằm đảm bảo tính khách quan Các mẫu trong tập dữ liệu kiểm định sẽ được đưa qua mô hình phân lớp đã được xây dựng để thu thập kết quả dự đoán Sau đó, so sánh kết quả dự đoán với kết quả phân lớp đúng của các mẫu dữ liệu kiểm định sẽ cho phép xác định độ chính xác của mô hình Độ chính xác này được tính bằng tỷ lệ phần trăm những mẫu dữ liệu kiểm định được phân lớp đúng bởi mô hình.
2.2.5 Tổng quan về một số thuật toán phân lớp cơ bản a, Nạve Bayes
Nạve Bayes là một phương pháp phân lớp dựa trên thống kê theo định lý Bayes, với giả thiết rằng các thuộc tính là độc lập Phương pháp này đã được nghiên cứu từ những năm 1950 và chứng tỏ hiệu quả trong nhiều ứng dụng, bao gồm phân lớp văn bản, chẩn đoán y tế và quản lý hiệu năng hệ thống.
Các bước thực hiện thuật toán Bayes: o Bước 1: Huấn luyện Nạve Bayes (dựa vào tập dữ liệu)
𝑖) o Bước 2: Mẫu dữ liệu mới được gán vào lớp có giá trị lớn nhất theo công thức: max(𝑃(𝐶 𝑖 ) 𝑃( 𝑥 𝐶 𝑘
Cây quyết định (Decision Tree) là một cấu trúc phân cấp dùng để phân loại các đối tượng chưa biết dựa trên các thuộc tính của chúng Nó hoạt động dựa trên các quy tắc được sinh ra từ một tập dữ liệu huấn luyện đã được phân lớp, cho phép thực hiện dự đoán trên tập dữ liệu cần kiểm tra.
Cây quyết định có cấu trúc hình dạng đặc trưng với node gốc ở trên cùng, đại diện cho thuộc tính có giá trị phân chia tốt nhất Các node ngoài cùng, hay còn gọi là lá, thể hiện các lớp đích mà đối tượng sẽ được phân loại Giữa các node là các nhánh cây, thực hiện vai trò của các biểu thức so sánh để phân chia lớp thuộc tính Đường đi từ gốc đến lá cây tạo thành chuỗi quy tắc phân chia giá trị thuộc tính; nếu thuộc tính của đối tượng không tuân theo các quy tắc này, đối tượng sẽ được xếp vào lớp tại node lá cuối cùng của đường đi.
Cơ sở toán học của cây quyết định là thuật toán tham lam, trong đó các thuật toán xây dựng cây quyết định tiêu biểu là ID3, C4.5 và CART
Cây quyết định là một phương pháp phân lớp hiệu quả và dễ hiểu, được ứng dụng rộng rãi trong các lĩnh vực như tài chính, tiếp thị, kỹ thuật và y học.
Hình 2-4: Minh họa Decision Tree c, Support Vector Machine (SVM)
SVM (Support Vector Machine) là một thuật toán phân lớp nhị phân, có khả năng nhận diện và phân loại dữ liệu thành hai nhóm khác nhau Dựa trên một tập hợp các mẫu huấn luyện đã biết thuộc hai lớp, SVM xây dựng một mô hình để phân loại các mẫu dữ liệu chưa được biết vào hai lớp đó.
SVM thường cho độ chính xác cao đối với tập dữ liệu có kiểu dữ liệu liên tục
Hình 2-5: Minh họa thuật toán SVM
2.2.6 Kết hợp các bộ phân lớp
DỰ ĐOÁN TƯƠNG TÁC PROTEIN - PROTEIN
MÔ HÌNH DỰ ĐOÁN TƯƠNG TÁC PROTEIN – PROTEIN
Để dự đoán tương tác protein – protein (PPI), nhiều phương pháp tin sinh học đã được phát triển trong những năm gần đây Một trong những phương pháp là sử dụng thông tin cấu trúc 3D của protein thông qua thuật toán PrePPI, giúp dự đoán PPI ở người và nấm men [Zhang và cộng sự, 2012] Phương pháp mở rộng mỗi polymerase thu thập các chuỗi polypeptide ngắn liên tục giữa các cặp tương tác protein đã biết [Pitre & cộng sự, 2006] Hệ thống học máy k-nearest neighbors dựa trên thành phần amino acid giả và lựa chọn thuộc tính cũng được áp dụng [Liu & cộng sự, 2009] Thêm vào đó, việc trích xuất thuộc tính genomic/proteomic và lựa chọn đặc trưng dự đoán PPI bằng thuật toán VSM đã được thực hiện [Urquiza & cộng sự, 2011] Cuối cùng, công cụ tìm kiếm giúp truy xuất dữ liệu từ cơ sở dữ liệu tương tác gen để dự đoán PPI dựa trên sự hợp nhất và hình thành gen [Szklarczyk & cộng sự, 2011].
Các phương pháp đề xuất trong thuật toán trích xuất đặc trưng và xây dựng mô hình ảnh hưởng đáng kể đến hiệu suất của các phương pháp này Trong lĩnh vực trích xuất thuộc tính, nhiều kỹ thuật khai thác thông tin đã được giới thiệu, chẳng hạn như phương pháp trích xuất thuộc tính 188-D dựa vào tính chất hóa lý và sự phân bố amino acid của protein [Cai & cộng sự, 2003][15] Bên cạnh đó, phương pháp 20-D từ chuỗi protein dựa trên vị trí protein – ma trận điểm riêng biệt [Zou & cộng sự, 2013][16], và phương pháp n-gram, phát triển từ thuật toán ngôn ngữ tự nhiên, cũng được ứng dụng trong tin sinh học Các công cụ trích xuất đặc trưng như Pse-in-One đã được phát triển để hỗ trợ quá trình này.
RepDNA, RepRNA … để tạo ra các thuộc tính khác nhau của chuỗi DNA, RNA và protein
Trong xây dựng mô hình phân lớp, có hai hướng chính: mô hình phân lớp đơn lẻ và mô hình phân lớp tổng hợp (ensemble) Mô hình tổng hợp được hình thành từ các mô hình con yếu hơn nhằm tạo ra một bộ phân lớp mạnh mẽ hơn, với ưu điểm là hiệu suất dự đoán tốt hơn và lỗi dự đoán thấp hơn, nhưng chi phí xây dựng cao hơn Tuy nhiên, nhiều phương pháp hiện tại chưa xem xét yếu tố xây dựng số liệu, điều này đã được chứng minh có ảnh hưởng lớn đến kết quả tính toán Để đạt được mô hình phân lớp tối ưu, dữ liệu huấn luyện cần đảm bảo sự cân bằng giữa dữ liệu dương tính và âm tính Hiện tại, tập dữ liệu protein-protein có quan hệ tương tác (PPIs) đang vượt trội hơn hẳn so với tập dữ liệu protein-protein không có quan hệ tương tác (PPNIs), dẫn đến sự chênh lệch lớn Hơn nữa, trong tập dữ liệu âm tính PPNIs, các quan hệ không tương tác protein - protein đã được chứng minh không có tương tác vật lý, nhưng sự không tương tác gen lại khó chứng minh thực nghiệm, tiềm ẩn nguy cơ tạo ra nhiều sai số giả trong dữ liệu âm tính PPNIs.
Trong luận văn này, tôi nghiên cứu và phát triển một phương pháp tính toán để dự đoán tương tác protein – protein dựa trên mô hình phân lớp tổng hợp Phương pháp này kết hợp các kỹ thuật Bagging, AdaBoost và Random Forest, nhằm nâng cao độ chính xác trong việc phân loại Đề xuất của tôi bao gồm ba bước chính: xây dựng số liệu, khai thác thuộc tính và phân lớp.
- Xây dựng số liệu: sử dụng bộ số liệu dương tính, bộ số liệu âm tính đã được kiểm chứng xác thực qua các thực nghiệm sinh học
- Khai thác thuộc tính: sử dụng 2 phương pháp là :
n-gram để xây dựng bộ thuộc tính căn cứ vào tần suất của các amino acid có mặt trong protein
Multiscale local descriptor(MLD) chuyển chuỗi trình tự amino acid trong protein thành vector đặc trƣng bằng cách sử dụng lƣợc đồ mã hóa nhị phân
Sau đó áp dụng phương pháp lựa chọn thuộc tính để tạo ra một tập hợp các thuộc tính đƣợc tối ƣu hóa
Mô hình phân lớp tổng hợp như AdaBoost, Bagging và Random Forest được sử dụng để dự đoán tương tác protein – protein Nghiên cứu so sánh hiệu quả của các phương pháp này với các bộ phân lớp đơn lẻ tương ứng, cho thấy rằng các bộ phân lớp tổng hợp mang lại kết quả tốt hơn khi được sử dụng làm bộ phân lớp cơ sở.
Decision Stump, REPTree và Random Tree
Sau thực nghiệm, các kết quả cho thấy hiệu quả tốt của mô hình đƣợc xây dựng trong dự đoán PPI.
XÂY DỰNG MÔ HÌNH THỰC NGHIỆM
Dự đoán tương tác PPI là một bài toán phân lớp nhị phân, yêu cầu xây dựng các tập dữ liệu dương tính và âm tính Tập dữ liệu dương tính bao gồm các cặp protein có quan hệ tương tác, trong khi tập dữ liệu âm tính chứa các cặp protein không có quan hệ tương tác Luận văn này sử dụng tập dữ liệu dương tính được thu thập từ nguồn dữ liệu DIP (Database of Interacting Protein).
Internet cung cấp một bộ dữ liệu lớn với khoảng 80.000 cặp tương tác tại địa chỉ http://dip.doe-mbi.ucla.edu/dip/Main.cgi Bộ dữ liệu âm tính, gọi là Negatome, có khoảng 6.450 cặp và được lấy từ http://mips.helmholtz-muenchen.de/proj/ppi/negatome/ Để đảm bảo tỷ lệ dữ liệu dương tính và âm tính là 1:1, chúng tôi đã chọn ngẫu nhiên số lượng mẫu tương ứng từ hai bộ dữ liệu này Dữ liệu thô bao gồm chuỗi văn bản thể hiện trình tự của 20 amino acid trong chuỗi protein, được ký hiệu bằng chữ cái đầu của mỗi amino acid Để thực hiện phân lớp, cần chuyển đổi dữ liệu thô thành ma trận thuộc tính dưới dạng số, trong đó mỗi thuộc tính là một tính chất của protein.
3.2.2 Trích xuất thuộc tính/đặc trƣng
Trong nghiên cứu này tôi sử dụng2 phương pháp trích xuất thuộc tính là n-gram và
Multiscale Local Descriptor (MLD) là một phương pháp dựa trên n-gram, được phát triển từ thuật toán xử lý ngôn ngữ tự nhiên Các n-gram này được sử dụng để mã hóa protein thông qua việc tính tần số xuất hiện của các chuỗi amino acid Tần số được tính bằng tổng các thuộc tính hoặc tổng số lần xuất hiện của mỗi thuộc tính Phương pháp n-gram cho phép đạt được các thuộc tính 1-gram, 2-gram và 3-gram, với mỗi loại thuộc tính đóng góp khác nhau cho mối quan hệ tương tác Để đảm bảo tính đầy đủ, tôi đã nhân ba thuộc tính này với các trọng số khác nhau, tạo ra một vector đặc trưng có 8420 chiều.
> Protein GGELYQPVLTTEIAIIMFGVSPNYNLFTGI TYYEVDGGGPLVNNVEIKARDADRYPLL EAANQETKEDLHGWRLLAEITAGTRKM GKSTVTAHYAGCGVKLLENSEYREKFAV GGIKEYDEMSGGVKDLLVEDRR
Tính số lần xuất hiện mỗi một nhóm amino acid trong chuỗi (N=1,2,3)
Hình 3-1: Sơ đồphương pháp trích xuấtthuộc tính n-gram
Các cặp PPI và PPNI bao gồm hai protein, dẫn đến việc phương pháp n-gram tạo ra hai chuỗi mã khi trích xuất thuộc tính Để sử dụng hiệu quả, cần kết hợp hai vector thuộc tính riêng lẻ để tạo thành vector thuộc tính cuối cùng Giả định rằng PPI (hoặc PPNI) bao gồm hai protein A và B.
B Protein A, B được mã hóa bởi phương pháp trích xuất đặc trưng được biểu diễn bằng FA và FB, trong đó FA và FB là 2 vector thuộc tính biểu diễn bởi:
Gọi FC là vector thuộc tính kết hợp Ta có:
FB = {FB1,FB2,…,FB8420} Áp dụng công thức
FCi=(FAi+FBi)/2 FC = {FC1,FC2,…,FC8420}
Hình 3-2: Sơ đồ kết hợp 2 vector thuộc tính của cặp protein - protein
MLD là phương pháp chuyển đổi chuỗi amino acid trong protein thành các vector đặc trưng thông qua lược đồ mã hóa nhị phân Chuỗi amino acid được chia thành 4 đoạn có độ dài bằng nhau, với 20 amino acid được phân loại thành 7 nhóm dựa trên tính lưỡng cực và thể tích mạch nhánh Các đoạn này được ký hiệu lần lượt là S1, S2, S3, S4, và tính liên tục của chúng chia chuỗi trình tự ban đầu thành 9 chuỗi con, được biểu diễn dưới dạng mã hóa nhị phân.
4 bit bao gồm các giá trị: 1000, 0100, 0010, 0001, 1100, 0110, 0011, 1110, 0111, trong đó ký tự 1 biểu thị sự tồn tại của đoạn tương ứng, còn ký tự 0 biểu thị sự không tồn tại Đối với mỗi chuỗi trình tự con, chúng ta tính toán ba mô tả địa phương: Thành phần, chuyển tiếp và phân bố Thành phần tính tần suất của mỗi nhóm trên tổng số phần tử; chuyển tiếp tính tần suất của các amino acid trong một nhóm có phần tử kế tiếp là amino acid thuộc nhóm khác; phân bố xác định tần suất ở các vị trí đầu tiên, 25%, 50%, 75% và vị trí cuối cùng của nhóm trong chuỗi trình tự con Mỗi chuỗi trình tự con tạo ra 63 mô tả: 7 mô tả thành phần, 21 mô tả chuyển tiếp và 35 mô tả phân bố Mỗi protein được chia thành 9 chuỗi trình tự con, tạo thành một vector 63 ∗ 9 = 567 chiều Cặp protein PPI (hoặc PPNI) được kết hợp để tạo ra vector đặc trưng cuối cùng bằng cách ghép 2 vector 567 chiều của mỗi protein, sinh ra một vector 1134 chiều đại diện cho cặp protein đó.
Bảng 3-1: Bảng chia nhóm 20 amino acid dựa vào tính lƣỡng cực và khối lƣợng mạch nhánh
Nhóm Amino acid Tính lưỡng cực Khối lượng mạch nhánh
Sau bước trích xuấtthuộc tính ta có một ma trận thuộc tính kích thước 𝑚 × 𝑛 :
Trong nghiên cứu này, chúng tôi sử dụng một bộ dữ liệu với m (n-1) mẫu, trong đó m là số lượng bộ dữ liệu và n là số thuộc tính, bao gồm cả thuộc tính phân lớp Thuộc tính phân lớp được quy ước có hai giá trị: giá trị 1 tương ứng với lớp định nghĩa có quan hệ tương tác protein – protein, và giá trị 0 tương ứng với lớp định nghĩa không có quan hệ tương tác protein – protein.
3.2.3 Lựa chọn thuộc tính/đặc trƣng
Không phải tất cả các thuộc tính trích xuất đều có lợi cho việc phân lớp, do đó, việc lựa chọn các thuộc tính quan trọng từ bộ dữ liệu ban đầu là cần thiết trước khi áp dụng các thuật toán phân lớp Trong luận văn này, phương pháp MRMD được sử dụng với mục tiêu tìm kiếm chỉ số xếp hạng thuộc tính dựa trên sự liên quan giữa tập thuộc tính và lớp đích, cũng như tính thừa của bộ thuộc tính Hệ số tương quan Pearson được dùng để đo lường sự liên quan, trong khi ba loại hàm khoảng cách (ED, khoảng cách Cosine và hệ số Tanimoto) được áp dụng để tính toán tính thừa Sự liên quan giữa tập thuộc tính và lớp đích tăng lên khi hệ số tương quan của Pearson cao hơn, và khoảng cách giữa các thuộc tính càng lớn thì độ thừa càng thấp Cuối cùng, thuộc tính với tổng lớn hơn của sự liên quan và khoảng cách được chọn làm bộ thuộc tính cuối cùng Kết quả cho thấy bộ thuộc tính do MRMD tạo ra có độ thừa thấp và độ liên quan cao đến lớp đích.
Hệ số tương quan Pearson được tính toán giữa mỗi thuộc tính trong dữ liệu đầu vào và lớp nhãn phân lớp, nhằm đánh giá mối liên hệ giữa chúng.
𝑥 𝑖 : giá trị của cột thuộc tính X trên đối tƣợng i
𝑥 : kỳ vọng của cột thuộc tính X
𝑦 𝑖 : giá trị của cột lớp nhãn Y trên đối tƣợng i
𝑦 : kỳ vọng của cột lớp nhãn Y 𝑛: số đối tƣợng trong tập đầu vào
𝑟 𝑖 : hệ số tương quan Pearson giữa cột thuộc tính𝑡 và cột lớp nhãn 𝑌
Ba loại hàm khoảng cách đƣợc tính nhƣ sau: Độ đo Euclidcủa thuộc tính X đƣợc tính theo công thức:
𝐸𝐷 𝑋 = 𝑘 𝑖=1 𝐸𝐷 𝑘 𝑋 𝑌𝑖 (3.4) với 𝑘 là số thuộc tính và 𝐸𝐷 𝑋𝑌 là độ đo EuClid giữa hai thuộc tính X và Y đƣợc tính theo công thức:
𝑛: số đối tƣợng thuộc tập đầu vào
𝑥 𝑖 : giá trị thuộc tính X của đối tƣợng thứ i, hay 𝑥 𝑖 ∈ (𝑋 = {𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 })
𝑦 𝑖 : giá trị thuộc tính Y của đối tƣợng thứ i, hay 𝑦 𝑖 ∈ (𝑌 = {𝑦 1 , 𝑦 2 , … , 𝑦 𝑛 }) Độ đoCosine của thuộc tính X đƣợc tính theo công thức:
𝐶𝑜𝑠𝑖𝑛𝑒 𝑋 = 𝑘 𝑖=1 𝐶𝑜𝑠𝑖𝑛𝑒 𝑘 𝑋 𝑌𝑖 (3.6) k là số thuộc tính và 𝐶𝑜𝑠𝑖𝑛𝑒 𝑋𝑌 là giá trị độ đo Cosine giữa 2 thuộc tính X và Y đƣợc tính bởi công thức:
𝑛: số đối tƣợng thuộc tập đầu vào
𝑥 𝑖 : giá trị thuộc tính X của đối tƣợng thứ i, hay 𝑥 𝑖 ∈ (𝑋 = {𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 })
𝑦 𝑖 : giá trị thuộc tính Y của đối tƣợng thứ i, hay 𝑦 𝑖 ∈ (𝑌 = {𝑦 1 , 𝑦 2 , … , 𝑦 𝑛 }) Độ đo Tanimoto của thuộc tính X đƣợc tính theo công thức:
𝑇𝑎𝑛𝑖𝑚𝑜𝑡𝑜 𝑋 = 𝑘 𝑖=1 𝑇𝑎𝑛𝑖𝑚𝑜𝑡𝑜 𝑘 𝑋 𝑌𝑖 (3.8) với k là số thuộc tính và 𝑇𝑎𝑛𝑖𝑚𝑜𝑡𝑜 𝑋𝑌 là giá trị độ đo Tanimoto giữa 2 thuộc tính X và
Y đƣợc tính bằng công thức:
𝑛: số đối tƣợng thuộc tập đầu vào
𝑥 𝑖 : giá trị thuộc tính X của đối tƣợng thứ i, hay 𝑥 𝑖 ∈ (𝑋 = {𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 })
Giá trị thuộc tính Y của đối tượng thứ i được ký hiệu là 𝑦 𝑖, với 𝑦 𝑖 thuộc tập hợp 𝑌 = {𝑦 1 , 𝑦 2 , … , 𝑦 𝑛 } Phương pháp MRMD được sử dụng để xếp hạng độ liên quan cao và độ dư thừa thấp của các thuộc tính, được tính toán theo công thức cụ thể.
𝑚𝑟𝑚𝑑 𝑖 = 𝑟 𝑖 +𝐸𝐷 𝑖 + 𝑟 𝑖 +𝐶𝑜𝑠𝑖𝑛𝑒 3 𝑖 +(𝑟 𝑖 +𝑇𝑎𝑛𝑖𝑚𝑜𝑡𝑜 𝑖 ) (3.10) Sau đó, thực hiện lấy các thuộc tính có giá trị xếp hạng cao nhất vào tập thuộc tính đƣợc lựa chọn
Sau khi xác định các thuộc tính quan trọng từ tập dữ liệu ban đầu, chúng ta chọn những thuộc tính có độ liên quan cao đến lớp phân loại và độ dư thừa thấp Bộ dữ liệu này sẽ được sử dụng để phân loại và đánh giá kết quả Chúng tôi áp dụng phương pháp k-fold cross validation với k = 10, chia tập thuộc tính thành 10 phần bằng nhau; 9 phần được dùng làm dữ liệu huấn luyện và 1 phần còn lại là dữ liệu kiểm định mô hình Để tăng tính đa dạng cho cả tập dữ liệu huấn luyện và kiểm định, chúng tôi xây dựng một hàm chia file và đảm bảo dữ liệu trong tập ban đầu được xáo trộn trước khi chia.
Nghiên cứu này thực hiện phân lớp bằng cách áp dụng thuật toán phân lớp tổng hợp, sử dụng ba bộ phân lớp: Bagging, AdaBoostM1 và Random Forest Mục tiêu là làm rõ những ưu điểm của phương pháp này so với các thuật toán phân lớp đơn lẻ, bao gồm Decision Stump, REPTree và Random Tree.
Trong quá trình phân chia tập dữ liệu thuộc tính đặc trưng, chúng ta có n mẫu và chia thành 10 phần bằng nhau Mỗi phần sẽ lần lượt được sử dụng làm dữ liệu kiểm định, trong khi 9 phần còn lại sẽ tạo thành dữ liệu huấn luyện Qua đó, ta có 10 bộ dữ liệu huấn luyện và kiểm định khác nhau Tập dữ liệu huấn luyện sẽ chứa n1 = n × 0,9 mẫu, trong khi tập dữ liệu kiểm định sẽ có n2 = n × 0,1 mẫu Hai tập dữ liệu này hoàn toàn độc lập và không có phần tử chung, nhằm đảm bảo tính khách quan cho quá trình kiểm định.
Trong phương pháp Bagging, thuật toán REPTree được sử dụng làm cơ sở cho việc tổng hợp Với 𝑛1 mẫu huấn luyện, chúng ta tạo ra k tập dữ liệu huấn luyện con bằng cách chọn ngẫu nhiên và có thể lặp lại các mẫu Mỗi tập huấn luyện con sẽ tương ứng với một mô hình REPTree, từ đó tạo ra k mô hình cơ bản trong Bagging Khi dự đoán cho một mẫu mới trong 𝑛2 mẫu dữ liệu kiểm định, chúng ta sẽ thực hiện dự đoán qua k mô hình cơ bản và xác định lớp của mẫu dựa trên số lượng phiếu bầu cao nhất.
700 mẫu dữ liệu huấn luyện
Chia thành 100 tập huấn luyện con, mẫu dữ liệu có thể lặp
Tập dữ liệu huấn luyện con thứ nhất
Xây dựng mô hình với thuật toán REPTree
Xây dựng mô hình với thuật toán REPTree
Xây dựng mô hình với thuật toán REPTree
Xây dựng mô hình với thuật toán REPTree
Tập dữ liệu huấn luyện con thứ hai
Tập dữ liệu huấn luyện con thứ i
Tập dữ liệu huấn luyện con thứ 100
Bỏ phiếu chọn ra lớp i được vote nhiều nhất
Hình 3-3: Sơ đồ thuật toán Bagging trên tập 𝑛 1 mẫu huấn luyện
KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN
CHƯƠNG TRÌNH CÀI ĐẶT
Chương trình thực nghiệm dự đoán tương tác protein - protein được phát triển bằng ngôn ngữ lập trình Java và sử dụng kỹ thuật khai thác dữ liệu Để chạy chương trình, cần đảm bảo các yêu cầu cần thiết được đáp ứng.
- Môi trường java tối thiểu version 1.6
Để đảm bảo hiệu suất tối ưu trong việc chạy lựa chọn thuộc tính và đặc trưng, phần cứng cần có CPU Dual-core và RAM tối thiểu 8GB cho các tác vụ liên quan đến n-gram Đối với các tác vụ liên quan đến MLD, yêu cầu phần cứng là CPU Dual-core và RAM tối thiểu 4GB.
- Client chạy ứng dụng phải là máy cài hệ điều hành Windows
Mở giao diện chương trình:
Hình 4-1: Giao diện chương trình Dự đoán tương tác protein – protein sử dụng kỹ thuật khai phá dữ liệu a, Chuẩn bị dữ liệu
Dữ liệu dương tính có thể được tải về từ nguồn DIP tại địa chỉ: http://dip.doe-mbi.ucla.edu/dip/Main.cgi Tổng số cặp PPI được lấy ngẫu nhiên là 6.445 cặp.
Dữ liệu âm tính: Tải về từ nguồn có địa chỉ tại http://mips.helmholtz- muenchen.de/proj/ppi/negatome/ Số lƣợng PPNI lấy ngẫu nhiên: 6445 cặp
Dữ liệu được lưu trữ dưới dạng tệp nén với các file có đuôi *.fasta, trong đó chứa thông tin thô về cặp protein Bước tiếp theo là trích xuất các thuộc tính và đặc trưng từ dữ liệu này.
Hình 4-2: Giao diện chức năng trích xuất thuộc tính/đặc trƣng
Nhấn button [PPIs], chọn thư mục chứa các cặp protein tương tác
Nhấn button [PPNIs], chọn thư mục chứa các cặp protein không tương tác
Nhấn button [Save File], chọn thư mục lưu file kết quả trích xuất
Nhấn button [n-gram] - thực hiện trích xuất thuộc tính/đặc trưng theo phương pháp n- gram
Nhấn button [MLD] – thực hiện trích xuất thuộc tính/đặc trưng theo phương pháp
MLD c, Lựa chọn thuộc tính/đặc trưng
Hình 4-3: Giao diện chức năng lựa chọn thuộc tính/đặc trƣng
Nhấn [Input] chọn file dữ liệu trích xuất được ở bước b, Trích xuất thuộc tính/đặc trưng làm đầu vào
Để lưu file kết quả, nhấn [Save File] và chọn thư mục mong muốn cho các thuộc tính/đặc trưng Sau đó, nhấn [Thực hiện] để gọi hàm và thực hiện lựa chọn tính năng/đặc trưng.
Nhấn [Cross validation (10-fold)] để chia file kết quả sau khi lựa chọn thuộc tính/đặc trưng thành 10 phần dữ liệu bằng nhau Mỗi phần dữ liệu sẽ được sử dụng lần lượt làm dữ liệu kiểm định, trong khi 9 phần còn lại được dùng làm dữ liệu training Kết quả là chúng ta có 10 bộ dữ liệu, mỗi bộ bao gồm 2 file: một file dữ liệu training và một file dữ liệu kiểm định.
Hình 4-4: Giao diện chức năng Phân lớp thuộc tính/đặc trƣng
Nhấn button [Train File] chọn file dữ liệu huấn luyện
Nhấn button [Test File] chọn file dữ liệu kiểm định
Nhấn button [Save File] chọn thư mục lưu file kết quả phân lớp từ đầu vào là dữ liệu kiểm định
Nhấn 1 trong 6button [Decision Stump], [AdaBoostM1],[REPTree], [Bagging],[Random Tree] hoặc [Random Forest] thực hiện gọi hàm phân lớp đặc trưng tương ứng cho mỗi thuật toán: thuật toán phân lớp đơn lẻDecision Stump,
REPTree hoặc Random Tree, thuật toán phân lớp tổng hợp AdaBoostM1, Bagging, hoặcRandom Forest
Kết quả dự đoán và biểu đồ tương ứng hiển thị trong hộp Panel bên phải e, Độ đo đánh giá
Hình 4-5: Giao diện chức năng Đánh giá mô hình thuật toán
Nhấn button [Result File] chọn file kết quả vừa thu được qua bước phân lớp thuộc tính/đặc trƣng
Nhấn 1 trong 6 button [Decision Stump], [AdaBoostM1], [REPTree], [Bagging], [Random Tree] hoặc [Random Forest]để thực hiện gọi hàm tính toán độ đo tương ứng cho mỗi thuật toán phân lớpDecision Stump, AdaBoostM1, REPTree,Bagging, Random
Kết quả đánh giá độ đo và biểu đồ tương ứng hiển thị trong hộp Panel bên phải.
KẾT QUẢ DỰ ĐOÁN TƯƠNG TÁC PROTEIN - PROTEIN
Tiến hành thực nghiệm với 6 thuật toán, 3 thuật toán phân lớp tổng hợp là
Trong nghiên cứu này, chúng tôi áp dụng phương pháp k-fold cross validation để lựa chọn thuộc tính/đặc trưng cho các thuật toán phân lớp như AdaBoostM1, Bagging và Random Forest, cùng với các thuật toán đơn lẻ như Decision Stump, REPTree và RandomTree Cụ thể, chúng tôi chia file dữ liệu ban đầu thành 10 phần bằng nhau, sử dụng mỗi phần làm dữ liệu kiểm định và 9 phần còn lại làm dữ liệu huấn luyện, từ đó tạo ra 10 bộ dữ liệu Mỗi bộ dữ liệu bao gồm 2 file: một file dữ liệu huấn luyện và một file dữ liệu kiểm định với tỉ lệ 9:1 Để đảm bảo tính khách quan của kết quả, dữ liệu trong file ban đầu sẽ được xáo trộn ngẫu nhiên trước khi chia, nếu người dùng mong muốn có thêm nhiều bộ dữ liệu đánh giá.
Sau khi thực hiện chương trình trên các bộ dữ liệu huấn luyện và kiểm định đã phân chia, chúng tôi thu được các tệp kết quả tương ứng với thuật toán Mỗi mẫu dữ liệu trong tập kiểm định chứa hai cột quan trọng: cột lớp đích dự đoán và cột lớp đích đúng đã được xác định trước.
Bảng 4-1: Bảng giá trị phân lớp dự đoán
Mẫu dữ liệu Lớp dự đoán Lớp đúng
Để trình bày kết quả một cách ngắn gọn và rõ ràng, nghiên cứu sử dụng độ đo F để hiển thị trên chương trình tương ứng với các thuật toán áp dụng cho từng bộ dữ liệu Kết quả được trình bày theo hai hướng: sử dụng thuật toán trích xuất thuộc tính n-gram và thuật toán trích xuất thuộc tính MLD.
Sau khi thực hiện trích xuất thuộc tính, chúng tôi tiến hành lựa chọn thuộc tính với số lượng giảm xuống còn 100 thuộc tính, thấp hơn so với số lượng ban đầu Nghiên cứu này so sánh kết quả phân lớp đặc trưng giữa tập dữ liệu gốc và tập dữ liệu đã được rút gọn thuộc tính.
Bằng cách áp dụng thuật toán trích xuất thuộc tính MLD, chúng tôi tiến hành nghiên cứu kết quả theo hai hướng Hướng đầu tiên là sử dụng toàn bộ tập thuộc tính ban đầu làm đầu vào cho các thuật toán phân lớp Hướng thứ hai là áp dụng phương pháp MRMD để giảm số chiều thuộc tính từ 1134 xuống còn 100 thuộc tính.
Trong bảng kết quả, các thuật toán phân lớp được xếp thành từng cặp theo quy luật: thuật toán phân lớp đơn lẻ A và thuật toán phân lớp tổng hợp dựa trên thuật toán phân lớp đơn lẻ A tương ứng Cụ thể, các cặp được trình bày gồm: Decision Stump - AdaBoostM1, REPTree - Bagging, và RandomTree - RandomForest.
Kết quả thực nghiệm cho thấy phương pháp trích xuất thuộc tính MLD đã giữ nguyên 1134 thuộc tính sau khi thực hiện trích xuất, tạo thành tập đầu vào cho quá trình phân lớp.
Bảng 4-2: Kết quả thực nghiệmphương pháp trích xuất thuộc tính MLD, không giảm chiều số thuộc tính Độ đo F (%)
Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 là các bộ dữ liệu kiểm định sử dụng trong thực nghiệm.Kết quả đƣợc biểu diễn bằng giá trị độ đo F (%)
Bảng 4-3: Thời gian thực hiện phương pháp trích xuất thuộc tính MLD, không giảm chiều số thuộc tính
MLD – không giảm chiều thuộc tính
Hình 4-6: Biểu đồ kết quả thực nghiệm phương pháp trích xuất thuộc tính MLD, không giảm chiều số thuộc tính
Sau khi trích xuất thuộc tính/đặc trƣng MLD, giảm chiều thuộc tính xuống còn 100 thuộc tính, ta có kết quả thực nghiệm đo đƣợc nhƣ sau:
Bảng 4-4: Kết quả thực nghiệm phương pháp trích xuất thuộc tính MLD, giảm chiều còn 100 thuộc tính Độ đo F (%)
Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 là các bộ dữ liệu kiểm định sử dụng cho thực nghiệm Kết quả biểu diễn bằng giá trị độ đo F(%)
Bảng 4-5: Thời gian thực hiện phương pháp trích xuất thuộc tính MLD, giảm chiều còn 100 thuộc tính
Random Forest MLD–100 thuộc tính
Hình 4-7: Biểu đồ kết quả thực nghiệm phương pháp trích xuất thuộc tính MLD, giảm chiều còn
Sử dụng phương pháp trích xuất thuộc tính n-gram cho bộ vector 8420 thuộc tính, khi áp dụng trực tiếp bộ vector này làm dữ liệu đầu vào cho các thuật toán phân lớp, kết quả thu được như sau:
Bảng 4-6: Kết quả thực nghiệm phương pháp trích xuất thuộc tính n-gram, không giảm chiều thuộc tính Độ đo F (%)
Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 là các bộ dữ liệu kiểm định sử dụng cho thực nghiệm Kết quả đƣợc biểu diễn bằng giá trị độ đo F (%).
Bảng 4-7: Thời gian thực hiện phương pháp trích xuất thuộc tính n-gram, không giảm chiềuthuộc tính
Random Forest n-gram – không giảm chiều thuộc tính
Hình 4-8: Biểu đồ kết quả thực nghiệm phương pháp trích xuất thuộc tính n-gram, không giảm chiều số thuộc tính
Sau khi giảm chiều bộ vector thuộc tính ban đầu xuống còn 100 thuộc tính bằng phương pháp MRMD, chúng tôi đã sử dụng tập vector thuộc tính đã rút gọn làm đầu vào cho các thuật toán phân lớp Kết quả thực nghiệm thu được như sau:
Bảng 4-8: Kết quả thực nghiệm phương pháp trích xuất thuộc tính n-gram, giảm chiều còn 100 thuộc tính Độ đo F (%)
Trong đó, S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 là các bộ dữ liệu kiểm định sử dụng cho thực nghiệm Kết quả đƣợc biểu diễn bằng giá trị độ đo F (%)
Bảng 4-9: Thời gian thực hiện phương pháp trích xuất thuộc tính n-gram, giảm chiềucòn 100 thuộc tính
Hình 4-9: Biểu đồ kết quả thực nghiệm phương pháp trích xuất thuộc tính n-gram, giảm chiều còn 100 thuộc tính
Tổng kết, bảng rút gọn kết quả thực nghiệm trong nghiên cứu cho các phương pháp trích xuất thuộc tính và các phương pháp phân lớp đã được trình bày rõ ràng, giúp người đọc dễ dàng nắm bắt thông tin quan trọng.
Bảng 4-10: Bảng kết quả tổng hợp các phương pháp phân lớp
MLD – không giảm chiều thuộc tính (1134 thuộc tính) Độ đo F (%)
2,2 7,5 2,1 17,7 1 4 n-gram – không giảm chiều thuộc tính (8420 thuộc tính) Độ đo F (%)
108,4 975,3 1168,1 7577,6 20,8 47,4 n-gram – giảm chiều còn 100 thuộc tính Độ đo F (%)
NHẬN XÉT
Các mô hình phân lớp đơn lẻ thường có độ chính xác thấp hơn so với các mô hình phân lớp tổng hợp sử dụng các mô hình đơn lẻ làm nền tảng Điều này cho thấy hiệu quả dự đoán của các mô hình thuật toán tổng hợp cao hơn đáng kể.
Mô hình Decision Stump có hiệu suất dự đoán thấp hơn khoảng 4% so với thuật toán AdaBoostM1 theo độ đo F Trong khi đó, hiệu quả của mô hình REPTree cũng không đạt được kết quả tốt hơn so với các mô hình thuật toán khác.
Mô hình thuật toán Random Tree có hiệu quả dự đoán thấp hơn khoảng 7% so với mô hình Random Forest, dựa trên độ đo F.
Các phương pháp phân lớp đơn lẻ có chi phí thấp hơn đáng kể so với các phương pháp phân lớp tổng hợp Cụ thể, chi phí của thuật toán Decision Stump chỉ khoảng 20-30% so với AdaBoostM1, trong khi chi phí của REPTree khoảng 12-15% so với Bagging Đối với Random Tree, chi phí dao động từ 25-50% so với Random Forest.
Việc sử dụng phương pháp lựa chọn thuộc tính/đặc trưng MRMD để giảm chiều dữ liệu cho thấy hiệu quả đáng kể trong việc giảm chi phí, với mức giảm từ 10% đến 25% so với việc sử dụng tập vector thuộc tính ban đầu Tuy nhiên, hiệu quả dự đoán bị giảm nhẹ, dao động từ 1% đến 4% theo độ đo F Mặc dù có sự giảm sút trong hiệu quả dự đoán, nhưng mức giảm này là chấp nhận được khi so với chi phí tiết kiệm được trong quá trình chạy chương trình.
So sánh giữa hai phương pháp trích xuất thuộc tính/đặc trưng là n-gram và MLD
Hiệu quả dự đoán và chi phí của hai phương pháp trích xuất thuộc tính n-gram và MLD cho thấy chúng tương đương về hiệu suất Tuy nhiên, trong trường hợp giảm chiều thuộc tính, n-gram tỏ ra vượt trội hơn MLD, trong khi khi không giảm chiều, n-gram không khả thi do thời gian xử lý quá lâu, đặc biệt với thuật toán phân lớp Bagging Đáng chú ý, chi phí thực hiện giảm chiều thuộc tính cho MLD thấp hơn nhiều so với n-gram về cả thời gian và cấu hình máy tính Do đó, xét về tính hiệu quả, MLD là lựa chọn ưu việt hơn n-gram.
So sánh các cặp thuật toán Decision Stump – AdaBoostM1, REPTree – Bagging, và Random Tree – Random Forest cho thấy cặp Decision Stump – AdaBoostM1 có hiệu quả dự đoán thấp hơn hai cặp còn lại Cả hai cặp REPTree – Bagging và Random Tree – Random Forest có hiệu quả dự đoán tương đương, nhưng cặp Random Tree – Random Forest lại có chi phí thấp hơn nhiều so với cặp REPTree – Bagging.
Kết quả nghiên cứu chỉ ra rằng phương pháp hiệu quả nhất để dự đoán tương tác protein – protein là phân lớp Random Forest Phương pháp này kết hợp với kỹ thuật trích xuất thuộc tính/đặc trưng MLD và lựa chọn thuộc tính/đặc trưng MRMD nhằm giảm chiều thuộc tính.
KẾT LUẬN
Luận văn đã đạt được hai kết quả quan trọng trong việc phát triển chương trình dự đoán tương tác protein - protein thông qua kỹ thuật khai phá dữ liệu.
Về nghiên cứu tìm hiểu:
- Nghiên cứu các khái niệm sinh học liên quan protein, cấu trúc protein
- Nghiên cứu các khái niệm khai phá dữ liệu nền tảng liên quan đến kỹ thuật phân lớp dữ liệu
- Tìm hiểu tổng quan về một số thuật toán phân lớp cơ bản
- Tìm hiểu về phương pháp phân lớp tổng hợp (ensemble) và một số phương pháp kết hợp các bộ phân lớp cơ bản
- Tìm hiểu các khái niệm về đánh giá mô hình phân lớp
- Xây dựng được chương trình dự đoán tương tác protein - protein bằng phương pháp phân lớp tổng hợp
- Xây dựng được hàm đánh giá và so sánh kết quả thực nghiệm giữa phương pháp phân lớp tổng hợp và phân lớp đơn lẻ
- Tiến hành thử nghiệm trên nhiều tập dữ liệu ngẫu nhiên khác nhau để đảm bảo tính chính xác khách quan
Xây dựng giao diện trực quan và dễ sử dụng cho người dùng là một yếu tố quan trọng Luận văn đã giới thiệu phương pháp áp dụng mô hình phân lớp tổng hợp trong nghiên cứu dự đoán tương tác protein - protein, đồng thời chứng minh rằng phương pháp này vượt trội hơn so với giải thuật mô hình phân lớp đơn lẻ, với độ chính xác và độ ổn định cao hơn.
Luận văn này đóng góp thêm một so sánh giữa các bước xây dựng mô hình dự đoán phân lớp, nhằm tìm ra phương pháp dự đoán hiệu quả nhất Kết quả cho thấy, mô hình phân loại tổng hợp thường mang lại hiệu quả cao hơn so với mô hình phân loại đơn lẻ Điều này mở ra cơ hội nghiên cứu sâu hơn về ứng dụng của mô hình phân loại tổng hợp trong bài toán "Dự đoán tương tác protein – protein".
HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI
Trong luận văn, tôi chưa khám phá sâu về việc kết hợp các thuật toán con trong thuật toán phân lớp tổng hợp Vấn đề tối ưu thời gian và hiệu suất xử lý trong ngôn ngữ lập trình hiện tại còn hạn chế, dẫn đến giảm độ chính xác của kết quả thực nghiệm Do đó, tôi mong muốn trong tương lai sẽ tìm hiểu và áp dụng các phương pháp kết hợp giải thuật đơn lẻ vào mô hình phân lớp tổng hợp, đồng thời tối ưu hóa ngôn ngữ lập trình để xử lý dữ liệu lớn một cách nhanh chóng và hiệu quả hơn.