Sơ đồ thuật tốn Bagging trên tập - (LUẬN văn THẠC- 123docz.net

Thứ hai, bộ phân lớp tổng hợpAdaBoostM1trong nghiên cứu này sử dụng thuật tốn cơ bản là Decision Stump (cây quyết định một cấp). Cách thực hiện giải thuật

AdaBoostM1 là thực hiện xây dựng lặp lại các mơ hình cơ bản trên tập dữ liệu huấn

luyện cĩ trọng số thay đổi sau mỗi lần traning, theo hƣớng: ở vịng training trƣớc, mẫu dữ liệu nào dự đốn đúng sẽ gán trọng số thấp đi, mẫu dữ liệu nào dự đốn sai sẽ đƣợc gán trọng số cao hơn, mục đích là ở vịng training sau mẫu dữ liệu sai này sẽ cĩ vai trị quan trọng hơn trong việc phân lớp. Chƣơng trình sẽ thốt khi ta cĩ tỉ lệ mẫu dự đốn sai >=1/2 (tổng số mẫu), hoặc kết thúc số lần training cài đặt.

Cuối cùng, Random Forest sử dụng thuật tốn cơ bản là Random Tree (cây ngẫu nhiên). Cách thực hiện giải thuật nhƣ sau:

1. Xây dựng Random Tree đầu tiên trong Random Forest:

1.2.Lựa chọn gốc là thuộc tính cĩ giá trị phân lớp tập đích tốt nhất trong tất cả các thuộc tính. Trong nghiên cứu này, số thuộc tính lựa chọn mặc định bằng số thuộc tính trong tập học.

1.3.Tính các node trong tiếp theo sau gốc bằng cách chọn thuộc tính cĩ giá trị phân chia tốt nhất trong các thuộc tính cịn lại.

1.4.Chỉ dừng cho đến khi thu đƣợc một cây hồn chỉnh cĩ gốc và tận cùng là các nút lá với chiều sâu cây mong muốn. Trong nghiên cứu này, chiều sâu cây khơng bị giới hạn cho thuộc tính cuối cùng tách đƣợc.

2. Thuật tốn Random Forest tạo k Random Tree tƣơng ứng hàm xây dựng bƣớc 1 đƣợc lặp lại k lần.

3. Thực hiện dự đốn dữ liệu kiểm định bởi mỗi Random Tree vừa xây dựng, tổng hợp k kết quả dự đốn từ kRandom Tree, tính tốn số lƣợng lớp đƣợc dự đốn. Kết quả dự đốn cuối cùng của thuật tốn Random Forest là thuộc lớp cĩ số lƣợng đƣợc dự đốn nhiều hơn.

CHƢƠNG 4KẾT QUẢTHỰC NGHIỆM VÀ KẾT LUẬN 4.1 CHƢƠNG TRÌNH CÀI ĐẶT

4.1.1Yêu cầu cấu hình

Chƣơng trình thực nghiệm dự đốn tƣơng tác protein - protein sử dụng kỹ thuật khai phá dữ liệu đƣợc lập trình bằng ngơn ngữ Java.Yêu cầu cần cĩ để chạy đƣợc chƣơng trình là:

- Mơi trƣờng java tối thiểu version 1.6 - Phần cứng:

o CPU Dual-core+, RAM 8G+ (cho trƣờng hợp chạy lựa chọn thuộc tính/đặc trƣng sau trích xuất thuộc tính/đặc trƣng n-gram)

o CPU Dual-core+, RAM 4G+ (cho trƣờng hợp chạy lựa chọn thuộc tính/đặc trƣng sau trích xuất thuộc tính/đặc trƣng MLD)

- Client chạy ứng dụng phải là máy cài hệ điều hành Windows.

4.1.2Cài đặt

Hình 4-1: Giao diện chƣơng trình Dự đốn tƣơng tác protein – protein sử dụng kỹ thuật khai phá dữ liệu

a,Chuẩn bị dữ liệu

Dữ liệu dƣơng tính: Tải về từnguồn DIP cĩ địa chỉ tại: http://dip.doe- mbi.ucla.edu/dip/Main.cgi. Số lƣợng các cặp PPI lấy ngẫu nhiên 6445 cặp.

Dữ liệu âm tính: Tải về từ nguồn cĩ địa chỉ tại http://mips.helmholtz- muenchen.de/proj/ppi/negatome/. Số lƣợng PPNI lấy ngẫu nhiên: 6445 cặp.

Dữ liệu cĩ dạng tệp nén chứa các file đuơi *.fasta, trong mỗi file cĩ dữ liệu thơ chứa thơng tin về cặp protein.

b,Trích xuất thuộc tính/đặc trưng