1. Trang chủ
  2. » Thể loại khác

Cách sử dụng rapidminer

9 6,2K 86

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 855,45 KB

Nội dung

Các xu hướng kỹ thuật số, đi kèm với việc chọn dùng rộng rãi môi trường truyền .... Trong số các công cụ khai phá văn bản nguồn mở, RapidMiner và R ... Bằng cách này, có thể hiểu tâm lý tiêu dùng cơ bản qua các hình ảnh, ...

ỨNG DỤNG RAPIDMINER TRONG XÂY DỰNG MÔ HÌNH QSAR RapidMiner là phần mềm mã nguồn mở miễn phí dùng cho việc khai phá dữ liệu ứng dụng trong xử lý, phân tích ,đánh giá và xây dựng mô hình. RapidMiner được sử dụng sau các bước tối thiểu hóa năng lượng và tính toán thông số mô tả phân tử. Phiên bản phần mềm được sử dụng trong bài này là phiên bản RapidMiner Community Edition 5.2.003. 1. Nhập dữ liệu - Cách 1: File  Import Data - Cách 2: Operators  Import  Data 2. Xử lý dữ liệu nhập Data Import Wizard Step 3: Cột Annotation, chọn giá trị cho hàng tiêu đề là Name. Step 4: Cột compound, chọn attribute là id, Cột pIC 50 , chọn attribute là label. Bỏ chọn các cột không cần thiết. Chọn nơi lưu CSDL. 3. Phân chia cơ sở dữ liệu thành tập training và tập testing - Nhập CSDL vào Process - Thêm Split Validation vào chuỗi, chọn split ratio là 0.8 (tập training chứa 80% số chất trong CSDL) - Thêm chuỗi thực thi vào trong Split Validation: o Traning  Thêm lệnh xuất ra file chứa tập training  Thêm 1 model (Validation yêu cầu 1 model trong nó), trong ví dụ là Lazy Modeling k-NN o Testing  Thêm lệnh xuất ra file chứa tập testing  Thêm Apply Model  Thêm Performance - Run 4. Lọc thô thông số mô tả o Loại các thông số có hầu hết các giá trị bằng 0 (80%) o Loại bỏ các thông số mô tả có độ lệch chuẩn  0.5  Remove Useless Attributes, numerical min deviation: 0.5 o Loại bỏ bớt các thông số mô tả có tương quan  0.9  Remove Correlated Attributes, correlation: 0.9  Attribute order: random o Loại các thông số mô tả có tương quan với pIC 50  0.07  Weight by Correlation, squared correlation  Select by Weights, weight relation: greater, weight: 0.07 5. Chuẩn hóa lại các giá trị thông số mô tả theo tỷ lệ trong khoảng 0-1 (Normalize) - Normalize, method: range transformation, max: 1, min: 0 6. Lựa chọn thông số mô tả theo thuật toán (to be continue…) 7. Xây dựng mô hình SVM để dự đoán hoạt tính - Tối ưu hóa các thông số cho mô hình SVM Các giá trị cần tối ưu với SVR là C, gamma, epsilon o Nhập dữ liệu tập training o Thêm Optimize Parameters (Grid)  Thêm X-Validation, number of validation: 5, samling type: shuffled sampling  Thêm Support Vector Machine (LibSVM) o svm-type: epsilon-SVR o kernel type: rbf (rbf sẽ cho kết quả chính xác hơn) o Chọn calculate confidences để tính giá trị hoạt tinh dự đoán  Thêm Apply Model  Thêm Performance (Regression), chọn root mean square error  Thêm Log, chọn file lưu kết quả, chỉnh sửa Log bằng Edit List, thêm các cột C, gamma, epsilon, performance  Chỉnh sửa Optimize Paremeters Setting  SVMLib  C, chọn các giá trị từ 50 đến 1000 (tùy chỉnh)  SVMLib  gamma, chọn các giá trị từ 0.001 đến 0.1 (tùy chỉnh)  SVMLib  epsilon, chọn các giá trị từ 0.001 đến 0.1 (tùy chỉnh). Lưu ý: Càng nhiều steps thì sẽ đánh giá càng lâu (tổ hợp) o Run o Kết quả xuất ra sẽ cho ta biết giá trị nào là tốt nhất - Ta xây dựng mô hình trên tập training với các thông số đã được tối ưu 8. Đánh giá mô hình - Áp dụng mô hình trên tập Testing để dự đoán hoạt tính o Apply model trên tập Testing o Áp dụng tương tự như tập training - Đánh giá chéo mô hình sử dụng X-Validation: Có thể sử dụng phương pháp LOO hay phương pháp đánh giá 5 lần hay 10 lần. . DỤNG RAPIDMINER TRONG XÂY DỰNG MÔ HÌNH QSAR RapidMiner là phần mềm mã nguồn mở miễn phí dùng cho việc khai phá dữ liệu ứng dụng trong xử lý, phân tích ,đánh giá và xây dựng mô hình. RapidMiner. tính toán thông số mô tả phân tử. Phiên bản phần mềm được sử dụng trong bài này là phiên bản RapidMiner Community Edition 5.2.003. 1. Nhập dữ liệu - Cách 1: File  Import Data - Cách 2:. hầu hết các giá trị bằng 0 (80%) o Loại bỏ các thông số mô tả có độ lệch chuẩn  0.5  Remove Useless Attributes, numerical min deviation: 0.5 o Loại bỏ bớt các thông số mô tả có tương quan

Ngày đăng: 16/01/2015, 01:04

TỪ KHÓA LIÊN QUAN

w