Trích chọn đặc trưng và mã hĩa dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 64 - 66)

Tác giả sử dụng các đặc trưng đơn bao gồm thành phần axit amin (AAC), thành phần cặp axit amin (AAPC)

Hình 3. 2. Sơ đồ trích chọn và mã hĩa đặc trưng

Các đặc trưng AAC, AAPC được trích chọn mã hố như sau:

Đặc trưng AAC: Mỗi đoạn trong tập dữ liệu được biểu thị bằng một vector 20 chiều { 𝑥𝑖 , i=1,...,n } bao gồm 20 phần tử, đại diện cho 20 loại axit amin, để xác định số lượng của sự xuất hiện các axit amin được chuẩn hĩa với tổng số lượng axit amin trong đoạn.

Giải thuật trích chọn đặc trưng AAC:

Input: File text chứa tập các chuỗi con cĩ độ dài 13 amino axits

Output: File LibSVM (*.libsvm) sử dụng cho xây dựng mơ hình

Function: GenerateAAC.java

Cú pháp: java GenerateAAC signal inputTxtFile outputLibSVMFile

Ví dụ quá trình trích chọn đặc trưng AAC: cho chuỗi LEELLSKRDFTGA

𝑣𝑖 = (𝑥1,𝑥2,…,𝑥20); với 𝑥𝑗(𝑗 = 1. .20) được tính bằng (Tổng số lần xuất hiện của Amino axit thứ j trong chuỗi)/12.

Đặc trưng AAPC:

Đặc trưng AAPC là đặc trưng được trích chọn dựa trên sự xuất hiện của từng cặp amino axit đứng cạnh nhau trong chuỗi đầu vào. Mỗi một chuỗi đầu vào sẽ được mã hĩa thơng qua một ma trận M={ 𝑥𝑖𝑗, 𝑖, 𝑗 = 1, … ,20} (20 amino axits × 20 amino axits) Phần thử 20×20 chiều 𝑥𝑖𝑗(i, j=1…20) xác định số lần xuất hiện của cặp axit amin, sau đĩ được chuẩn hĩa với tổng số amino axit của chuỗi đầu vào.

Để lấy dữ liệu LibSVM tương ứng với đặc trưng AAPC, phục vụ cho việc xây dựng và huấn luyện mơ hình, vector 400 phần tử 𝑣 = (𝑣1, 𝑣2, … , 𝑣400) sử dụng, trong đĩ 𝑣𝑘(𝑘 = 1,2, … ,400) được tính từ 𝑥𝑖𝑗 theo nguyên tắc: k=(j-1) ×20+i; (i,j=1,2,...20)

Giải thuật trích chọn đặc trưng AAPC:

Input: File text chứa tập các chuỗi con cĩ độ dài 13 amino axits

Output: File LibSVM (*.libsvm) sử dụng cho xây dựng mơ hình

Function: GenerateAAPC.java

Cú pháp: java GenerateAAPC signal inputTxtFile

Ví dụ quá trình trích chọn đặc trưng AAPC:

Hình 3. 4. Sơ đồ quá trình trích chọn đặc trưng AAPC

Ngồi ra, đặc trưng lai ghép AAC_AAPC (được kết hợp lai ghép từ 2 đặc trưng AAC và AAPC) cũng được sử dụng trong luận văn này.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 64 - 66)

Tải bản đầy đủ (PDF)

(82 trang)