Thu thập và tiền xử lý dữ liệu

Dữ liệu thực nghiệm SUMO-sites được thu thập từ nhiều nguồn tài liệu đã cơng bố và nhiều nguồn dữ liệu mở cơng khai khác nhau, bao gồm: 434 proteins từ dbPTM3.0; 545 proteins từ GPS-SUMO, và 232 proteins từ SUMOhydro. Chi tiết của những dữ liệu đã thu thập này được cung cấp bởi Bảng 3. 1. Sau quá trình tiền xử lý dữ liệu để loại bỏ các protein trùng lặp và tương đồng, tác giả thu được 677 proteins phân biệt. Trong nghiên cứu này, 600 proteins được lựa chọn ngẫu nhiên để làm dữ liệu huấn luyện (training data); số cịn lại gồm 77 proteins được sử dụng để làm dữ liệu kiểm thử.

Bảng 3. 1 Bảng tổng hợp dữ liệu thu thập từ các nguồn khác nhau

Data set Number of SUMOylated proteins Number of SUMO-sites Number of non-SUMO sites Lysine Collected Data

dbPTM 3.0 434 1029 GPS-SUMO 545 983 SUMOhydro 233 382 Total: 1212 2394 Combined non- redundant data 677 1612 Training dataset 600 745 7450 Independent testing dataset 77 117 1170

Hình 3. 1. Sơ đồ tổng thể hoạt động của phương pháp triển khai

Để xây dựng dữ liệu “khẳng định” (Positive data: SUMO-site), một “cửa sổ” với kích thước độ dài 2n+1 được sử dụng để cắt các chuỗi con bao gồm n amino axit ở liền trước và liền sau quanh vị trí dư lượng amino axit “K”, với vị trí dư lượng “K” đã được xác minh thực nghiệm là SUMO-site). Dữ liệu “phủ định” (Negative data: Non-SUMO-

site) được xây dựng bằng cách cắt các chuỗi con bao gồm n amino axit ở liền trước và liền sau quanh vị trí dư lượng amino axit “K”, với vị trí dư lượng “K” đã được xác minh thực nghiệm KHƠNG phải là SUMO-site).

Ví dụ quá trình xây dựng dữ liệu Positive data và Nagative data: Protein với ID ABI5_ARATH cĩ nhận dạng chuỗi FASTA là: >ABI5_ARATH: MVTRETKLTSEREVESSMAQARHNGGGGGENHPFTSLGRQSSIYSLTLDE FQHALCENGKNFGSMNMDEFLVSIWNAEENNNNQQQAAAAAGSHSVPANHNG FNNNNNNGGEGGVGVFSGGSRGNEDANNKRGIANESSLPRQGSLTLPAPLCRKT VDEVWSEIHRGGGSGNGGDSNGRSSSSNGQNNAQNGGETAARQPTFGEMTLED FLVKAGVVREHPTNPKPNPNPNQNQNPSSVIPAAAQQQLYGVFQGTGDPSFPGQ AMGVGDPSGYAKRTGGGGYQQAPPVQAGVCYGGGVGFGAGGQQMGMVGPLS

PVSSDGLGHGQVDNIGGQYGVDMGGLRGRKRVVDGPVEKVVERRQRRMIKNR

ESAARSRARKQAYTVELEAELNQLKEENAQLKHALAELERKRKQQYFESLKSR

AQPKLPKSNGRLRTLMRNPSCPL

Bằng thực nghiệm, các nhà khoa học phát hiện cĩ sự liên hợp SUMO ở vị trí 391 (chữ K in nghiêng trong chuỗi). Kích thước cửa sổ tác giả lấy là 13 để cắt chuỗi con bao gồm 6 amino axit liền trước và liền sau bao quanh vị trí K số 391, thu được một đoạn protein cĩ 13 kí tự và được cho vào dữ liệu huấn luyện Positive data cĩ dạng:

AELNQLKEENAQL

Thực hiện tương tự với các vị trí K cịn lại khơng phải là vị trí liên hợp SUMO ta thu được các đoạn protein là dữ liệu Negative data:

MVTRETKLTSERE DPSGYAKRTGGGG

LCENGKNFGSMN GGLRGRKRVVDGP

NEDANNKRGIANE VDGPVEKVVERRQ

PAPLCRKTVDEVW ARSRARKQAYTVE

LEDFLVKAGVVRE EENAQLKHALAEL

Để tránh hiệu suất dự đốn quá cao và khơng chính xác, cần phải loại bỏ các đoạn dữ liệu tương đồng ra khỏi bộ dữ liệu huấn luyện. Theo các nghiên cứu trước đây, loại bỏ dữ liệu tương đồng thường được thực hiện thơng qua việc sử dụng cơng cụ CD-HIT bằng cách lặp lại ba bước sau: 1) tạo thành cụm với một đoạn đại diện cĩ chiều dài lớn nhất; 2) So sánh đoạn này với các đoạn cịn lại; 3) loại bỏ đoạn đích nếu độ tương tự của nĩ với đoạn đại diện cao hơn ngưỡng cho trước, giá trị do người dùng chọn dùng để nhận dạng cặp nối giữa hai đoạn. Bảng 2. 2 cho thấy kết quả loại bỏ các đoạn tương đồng sử dụng CD-HIT dựa trên một số giá trị nhận diện chuỗi. Hơn nữa, vì luận văn này dựa trên các đoạn và các vị trí của SUMO nên cĩ thể một số dữ liệu “phủ định” Negative giống hệt với một số dữ liệu “khẳng định” Positive trong bộ dữ liệu huấn luyện cĩ thể dẫn tới kết quả over-fitting. Do đĩ, CD-HIT đã được áp dụng lại (bằng cách chạy cd-hit-2d trên dữ liệu dương và âm với nhận dạng trình tự 100% trong bộ CD-HIT) để giải quyết vấn đề này. Sau khi đã lọc các đoạn tương đồng với nhận dạng trình tự 50% (bằng cách nhấn cd-hit và psi- cd-hit). Quá trình tiền xử lý dữ liệu này cho kết quả gồm 745 dữ liệu “khẳng định” Positive và 9656 dữ liệu “phủ định” Negative.

Nhiều cứu lý thuyết và thực nghiệm cho thấy rằng, thực tế các dữ liệu Negative thường lớn hơn dữ liệu Positive rất nhiều, vì vậy để xây dựng mơ hình dự đốn vừa đảm bảo tính thực tế đĩ, vừa đảm bảo thuận tiện xây dựng mơ hình tính tốn với hiệu năng ở mức tối ưu chấp nhận đƣợc, thơng thường tỷ lệ Positive:Negative phải được chọn trong tập dữ liệu huấn luyện sao cho hiệu quả nhất. Một số nghiên cứu gần đây cho thấy rằng tỷ lệ dữ liệu Negative khơng nên vượt quá 10 lần dữ liệu Positive (thơng thường tỷ lệ Positive:Negative được chọn là: 1:2; 1:3; 1:5; và 1:10). Vì vậy, tác giả quyết định sử dụng

bộ dữ liệu huấn luyện bao gồm 745 dữ liệu Positive và 7450 dữ liệu Negative (tỷ lệ Positive:Negative=1:10)

Ngồi ra, để kiểm tra thành phần axit amin cụ thể theo từng vị trí cho dữ liệu huấn luyện “khẳng định” Positive, WebLogo được áp dụng để tạo ra biểu trưng trình tự đồ họa cho tần số tương đối của axit amin tương ứng tại mỗi vị trí quanh các vị trí SUMOylation.

Bảng 3. 2 Bảng tổng hợp dữ liệu thu được sau khi loại bỏ dữ liệu dư thừa bởi cơng cụ CD-HIT

Sequence identity (Độ tương đồng

chuỗi)

Training data set (Bộ dữ liệu huấn luyện)

Testing data set (Bộ dữ liệu kiểm thử) “khẳng định” Positive “phủ định” Negative “khẳng định” Positive “phủ định” Negative 100% (bản gốc) 1449 27222 163 41337 90% 1401 18287 150 3589 80% 1044 15033 130 3066 70% 802 11032 122 2637 60% 786 10211 119 2545 50% 745 9656 117 2420 Final Dataset 745 7450 117 1170

Để đánh giá trường hợp thực sự cho hiệu năng dự báo của các mơ hình, cần thiết phải xây dựng một bộ dữ liệu thử nghiệm độc lập, vốn khơng liên kết gì đối với bộ dữ liệu huấn luyện. Như đã đề cập ở trên, trong luận văn này, dữ liệu “phủ định” negative được lấy ngẫu nhiên gồm 77 proteins từ tổng số 677 proteins đã thu thập sau khi loại bỏ dữ liệu trùng lặp. Các dữ liệu “khẳng định” Positive và “phủ định” Negative của bộ dữ liệu kiểm thử này cũng được tạo ra bằng cách sử dụng cùng một phương pháp như đã áp dụng với việc sinh dữ liệu huấn luyện. Bên cạnh đĩ, chương trình CD-HIT-2D sử dụng mức tương đồng chuỗi 100%, được chạy lại để tránh sự trùng lặp chéo giữa bộ kiểm tra độc lập và tập dữ liệu huấn luyện. Quá trình tiền xử lý đối với dữ liệu kiểm thử độc lập cho quả gồm dữ liệu 117 “khẳng định” Positive và 2420 dữ liệu “phủ định”. Cũng giống như chiến lược xây dựng bộ dữ liệu huấn luyện với tỉ lệ Positive:Negative là 1:10; bộ dữ liệu kiểm thử cuối cùng được lựa chọn trong nghiên cứu này bao gồm 117 dữ liệu “khẳng định” Positive và 1170 dữ liệu “phủ định” Negative (Bảng 3. 2).

Cây quyết định quy nạp

Phân lớp Bayesian ngây thơ