Các giá trị củ aR áp dụng trên bộ dữ liệu Huesken

Một phần của tài liệu (LUẬN văn THẠC sĩ) các phương pháp dự đoán và ứng dụng vào bài toán đoán nhận khả năng ức chế gen của siRNA (Trang 54 - 55)

Phương pháp Dữ liệu R Đánh giá

Qiu‟s method Huesken 0.62 10 lần với phương

thức10-folds cross validation SVR Huesken 0.63 Linear Regression 0.62 Random Forest 0.60

Với bộ dữ liệu sử dụng phương pháp biểu diễn chuyển đổi sang ma trận và làm giầu siRNA với các quy tắc thiết kế đã được công bố. Kết quả thu được ta thấy R của các phương pháp đề xuất là SVR, Linear Regression, Random Forest lần lượt có giá trị 0.63, 0.62, 0.60. So sánh với R của Qui sử dụng phuong pháp SVM nhiều nhân thì khi thực nghiệm với cùng một phương pháp là SVR thì ta thấy kết quả thực nghiệm cao hơn. Phương pháp Linear Regression thì có kết quả cùng với Qui là 0.62. Tuy RF cho độ chính xác phân lớp cao khi so sánh với các thuật toán học có giám sát hiện nay bao gồm Boosting, Baging, các láng giềng gần nhất (Nearest neighbors), SVM, Neural Network, C45,... Tuy nhiên, tiếp cận cài đặt RF ban đầu chỉ cho kết quả tốt trên các dữ liệu có số chiều vừa phải và giảm đáng kể hiệu năng khi xử lý bài toán có số chiều rất cao, nhiều nhiễu, dung lượng mẫu ít và bài toán phân tích dữ siRNA là một trường hợp cụ thể. Nguyên nhân chính là trong quá trình xây dựng cây quyết định, tại mỗi nút, RF dùng phương pháp chọn ngẫu nhiên một tập con thuộc tính từ tập thuộc tính ban đầu để tìm thuộc tính phân hoạch tốt nhất phân tách nút và luật quyết định ở nút lá của các cây trong rừng ngẫu nhiên dựa vào luật bình chọn số đông. Điều này dẫn đến độ chính xác của giải thuật rừng ngẫu nhiên bị giảm khi phân lớp dữ liệu, nên khi xử lý với các dữ liệu nhiều nhiễu như siRNA, RF có thể lựa chọn ngẫu nhiên nhiều siRNA nhiễu vào không gian con thuộc tính dùng cho việc tách nút khi dựng cây, nên khả năng dự đoán của RF giảm sút. Nên trong cả bốn phương pháp thì kết quả dự đoán trên mô

hình RF có độ chính xác thấp hơn cả, như vậy với phương pháp biểu diễn khác thì ta thấy kết quả SVR với dữ liệu được sử dụng bởi [2] đã đạt cao hơn so với mô hình nhiều nhân của Qui và các con số này cho thấy hầu hết các siRNA trong bộ dữ liệu Huesken có khả năng ức chế cao.

So sánh R của ba phương pháp thực nghiệm trên với 18 phương pháp bao gồm BIOPREDsi, DSIR, Thermocomposition21, SVM … Khi huấn luyện trên tập dataset Huesken và thử nghiệm trên ba tập dữ liệu độc lập của Reynolds, Vicker và Harborth trong các báo cáo gần đây của Sciabola et a [41] và phương pháp TRM của Bui Thang [2] (Bảng 4.5)

Một phần của tài liệu (LUẬN văn THẠC sĩ) các phương pháp dự đoán và ứng dụng vào bài toán đoán nhận khả năng ức chế gen của siRNA (Trang 54 - 55)

Tải bản đầy đủ (PDF)

(61 trang)