Danh sách các phần mềm sử dụng

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu giải quyết phân lớp địa hóa môi trường biển và áp dụng vào bài toán đánh giá địa hóa môi trường biển Việt Nam (Trang 37 - 41)

ST T Tên phần mềm Nguồn 1 libSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 2. Weka 3.6.1 http://www.cs.waikato.ac.nz/~ml/weka/index.html 3.2. Dữ liệu thực nghiệm

Dữ liệu thực nghiệm gồm trên 1000 báo cáo, trong đó có các báo cáo về hiện trạng môi trường, báo cáo hiện trạng môi trường biển, các báo cáo chuyên đề liên quan đến môi trường, báo cáo đề tài khoa học công nghệ, …

3.2.1. Mô tả cài đặt chương trình

Trong khuôn khổ của luận văn, tiến hành thực nghiệm dữ liệu trên Weka. Weka là phần mềm mã nguồn mở tích hợp các thuật toán máy học phục vụ các tác vụ khai thác dữ liệu.

Weka gồm các công cụ thực hiện: tiền xử lý dữ liệu (data pre-processing), phân lớp (classification), hồi quy (regression), gom cụm (clustering), luật kết hợp (association rules).

Có thể tìm hiểu và sử dụng Weka qua website sau:

http://www.cs.waikato.ac.nz/~ml/weka/index.html

Phân lớp (classify) được hỗ trợ trong chức năng Explorer của Weka. Đây là chức năng giúp người dùng phân lớp dữ liệu dựa trên quá trình gồm 2 bước:

- Huấn luyện: xây dựng bộ phân lớp dựa trên dữ liệu huấn luyện đã được phân lớp sẵn.

- Dự đoán: sử dụng bộ phân lớp để quyết định một mẫu mới thuộc về phân lớp nào.

3.2.2. Xây dựng tập dữ liệu học

a) Tiền xử lý dữ liệu

Tiến hành thu thập dữ liệu từ trên 1000 báo cáo, trong đó có các báo cáo về hiện trạng môi trường, báo cáo hiện trạng môi trường biển, các báo cáo chuyên đề liên quan đến môi trường, báo cáo đề tài khoa học công nghệ và các bảng kết quả đo quan trắc. Các bảng kết quả đo của các đợt quan trắc được lưu trữ dưới file .xls hoặc được xuất ra từ các bản đồ chuyên đề. Sử dụng chức năng Filter của excel để lọc ra các thông số cần sử dụng đối với các file chưa nhiều dữ liệu dư thừa. Riêng đối với dữ liệu lấy ra từ bản đồ (GIS), chỉ cần xuất ra file .xls.

Đây là kết quả của 8 điểm đo tại khác nhau tại khu vực biển ven bờ miền Trung trong 1 lần đo.

Thông số 1 2 3 4 5 6 7 8 Dầu trong trầm tích 69 1128.33 522 458 1222 1195.67 266.67 74.67 CN- 0.1 0.01 0.06 0.09 0.04 0.08 0.02 0.02 Pb 40.67 111 34.67 91 140 117.33 129.67 222 Zn 125.67 172 244.67 139.67 217.67 349.33 341.67 538.33 Hg 0.8 0.17 0.5 0.4 0.43 0.18 0.7 0.72 Cd 1.17 3.9 1 1.93 0.38 0.13 2.17 3.57 As 70 21 31.67 177.67 35.67 125 41 97.67

Các kết quả đo từ 1 đến 8 tương ứng với các vị trí ở bảng dưới.

1: Đèo Ngang 3: Cồn Cỏ 5: Đà Nẵng 7: Sa Huỳnh

Sau khi thu được tập kết quả đo có dạng như bảng trên, sử dụng chế độ Transpose trong Paste special để chuyển kết quả theo yêu cầu của việc xây dựng bộ dữ liệu học (chuyển bảng thuộc thông số các lần đo từ bảng ngang sang bảng dọc). Như vậy sau khi tiến hành bước việc chuyển đổi thì dữ liệu được biểu diễn dưới dạng: Dầu trong trầm tích CN- Pb Zn Hg Cd As 69 0.1 40.67 125.67 0.8 1.17 70 1128.33 0.01 111 172 0.17 3.9 21 522 0.06 34.67 244.67 0.5 1 31.67 458 0.09 91 139.67 0.4 1.93 177.67 1222 0.04 140 217.67 0.43 0.38 35.67 1195.67 0.08 117.33 349.33 0.18 0.13 125

Từ dạng file .xls có thể chuyển đổi thành .csv và .arff để chạy trên Weka (theo yêu cầu của Weka chỉ thực hiện đối với dữ liệu có dạng .csv và .arff).

b) Xây dựng bộ dữ liệu học

Các kết quả của mỗi lần đo đều được đánh giá trong các báo cáo về môi trường, … Việc gán nhãn cũng dựa trên các báo cáo này.

Theo kết quả thu được từ bảng dữ liệu trên sau khi gán nhãn được kết quả như sau: Dầu trong trầm tích CN- Pb Zn Hg Cd As 69 0.1 40.67 125.67 0.8 1.17 70 1128.33 0.01 111 172 0.17 3.9 21 522 0.06 34.67 244.67 0.5 1 31.67 458 0.09 91 139.67 0.4 1.93 177.67 1222 0.04 140 217.67 0.43 0.38 35.67 1195.67 0.08 117.33 349.33 0.18 0.13 125

Dầu trong trầm tích CN- Cu Pb Zn Hg Cd As Class

69 0.1 40.67 125.67 0.8 1.17 70 69 Loại 1 1128.33 0.01 111 172 0.17 3.9 21 1128.33 Loại 1 522 0.06 34.67 244.67 0.5 1 31.67 522 Loại 2 458 0.09 91 139.67 0.4 1.93 177.67 458 Loại 3 1222 0.04 140 217.67 0.43 0.38 35.67 1222 Loại 2 1195.67 0.08 117.33 349.33 0.18 0.13 125 1195.67 Loại 3

Sau khi gán nhãn bằng tay cho các tập dữ liệu mẫu (dữ liệu dùng để train), tiến hành xây dựng bộ dữ liệu học bằng cách tiến hành huấn luyện mô hình bằng bộ công cụ Weka. Lưu lại mô hình mới chạy đối với cả 2 thuật toán. Như vậy, đã xây dựng được Bộ học dữ liệu.

c) Xác định nhãn

Sau bước xây dựng bộ học dữ liệu ta tiến hành kiểm tra xem việc xác định nhãn của cho các kết quả mới thu về dựa trên bộ dữ liệu học mới xây dựng. Tập các tham số về trầm tích mới được thu về cũng được tiến hành tiền xử lý và cho qua mô hình đã được xây dựng ở trên và tiến hành kiểm thử thông qua việc sử dụng bộ công cụ Weka.

3.3 Thi hành thực nghiệm

Trong quá trình sử dụng Weka, việc lựa chọn các tham số để sử dụng trong Weka là rất quan trọng. Nó góp phần làm tăng tính hiệu quả của công việc phân lớp.

3.3.1 Thực hành trên Weka đối với thuật toán phân lớp Naive Bayes

a) Kịch bản thực nghiệm thứ nhất: Áp dụng với dữ liệu gốc hay nói cách khác là sử dụng nguyên kết quả đo

Lựa chọn các tùy chọn cho việc kiểm tra (test options)

Use training set: Bộ phân loại học được sẽ được đánh giá trên tập học;

Supplied test set: Sử dụng một tập dữ liệu khác (với tập học) để cho việc đánh giá;

Cross - validation: Tập dữ liệu sẽ được chia đều thành k tập (folds) có kích thước xấp xỉ nhau, và bộ phân loại học được sẽ được đánh giá bởi phương pháp cross-validation;

Hình 5.Các lựa chọn tham số đối với thuật toán phân lớp Naive Bayes với kịch bản 1

Lựa chọn các tham số như sau:

Debug: False. useKernelEstimator: True và False (A)

DisplayModelInOldFormat: False. useSuperviseDiscretization: False.

Cross - validation

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu giải quyết phân lớp địa hóa môi trường biển và áp dụng vào bài toán đánh giá địa hóa môi trường biển Việt Nam (Trang 37 - 41)

Tải bản đầy đủ (PDF)

(48 trang)