3.2 .Cửa sổ ứng dụng Explorer trong Weka
3.2.2 .Tiền xử lý – Preprocessing
Hình 3.4. Tiền xử lý dữ liệu trong Weka 3.2.2.1.Nạp dữ liệu
Bốn nút đầu tiên ở đầu của đoạn preprocess cho phép bạn load dữ liệu vào Weka: (1)Open file ... Mở ra một hộp thoại cho phép bạn tìm kiếm file dữ liệu trong hệ
thống file cục bộ.
(2)Open URL... Yêu cầu một địa chỉ Uniform Resource Locator dẫn đến vị trí đã lưu trữ dữ liệu.
(3)Open DB...Đọc dữ liệu từ một CSDL ( Chú ý rằng để thực hiện được công việc này bạn cần phải sửa file trong weka/ experiment/ DatabaseUtils.props.)
(4)Generate...Cho phép bạn sinh dữ liệu ảo từ DataGenerators.
Sử dụng nút Open file... bạn có thể đọc các file dữ liệu được định dạng theo: Định dạng ARFF bởi Weka, định dạng CSV, định dạng C4.5, hoặc định dạng tuần tự. File ARFF là những file có phần mở rộng là .arff, file CSV có phần mở rộng .csv; file C4.5 là tệp dữ liệu và mở rộng .name.
3.2.2.2.Mối quan hệ hiện tại
Sau khi một số dữ liệu đã được load, panel tiền xử lý hiển thị một loạt thông tin. Hộp
Current relation có ba mục:
(1)Relation. Tên của quan hệ được đưa ra trong file đã được nạp. Chức năng lọc – filters (được mô tả ở dưới) thay đổi tên của một quan hệ.
(2)Instance: Số các trường hợp ( các điểm dữ liệu / bản ghi) trong dữ liệu (3)Attributes: Số các thuộc tính trong dữ liệu.
3.2.2.3.Làm việc với các thuộc tính
Hình 3.5b. Ý nghĩa của của các mục trong tab Preprocess
Dưới hộp Current relation là hộp Attributes. Ở đó có 4 nút, và ở dưới chúng là một danh sách các thuộc tính trong quan hệ hiện tại . Danh sách này có ba cột:
(1)No... Một số xác định thuột tính theo thứ tự chúng được quy định cụ thể trong các file dữ liêu.
(2)Selection tick boxes: Ở đó cho phép bạn lựa chọn vởi các thuộc tính được mô tả trong quan hệ.
(3)Name: Tên của thuộc tính , như chúng đã ddowcj khai báo trong file dữ liệu. Khi ta nhấp chuột vào các dòng khác nhau trong danh sách thuộc tính, các trường sẽ thay đổi trong hộp bên phải có tên là Selected attribute. Hộp này hiển thị các đặc tính của các thuộc tính nổi bật trong danh sách hiện tại:
(1)Name: Tên của thuộc tính, giống như thể hiện trong danh sách bên trái. (2)Type: Kiểu của thuộc tính, hầu hết là kiểu Nominal hoặc Numeric.
(3)Missing: Số ( và phần trăm %) của khoảng dữ liệu mà thuộc tính này bị lỗi. (4)Distinct: Số những giá trị khác nhau mà dữ liệu có chứa thuộc tính này.
(5)Unique: Số ( và phần trăm %) các khoảng trong dữ liệu có một giá trị của thuộc tính này mà không có trường hợp khác.
Phía dưới thống kê một danh sách các thông tin bổ sung về những giá trị được chứa trong thuộc tính này. Nếu các thuộc tính là nominal thì danh sách bao gồm các giá trị có thể đối với thuộc tính cùng với số các trường hợp có giá trị đó. Nếu thuộc tính là
numeric, danh sách đưa ra bốn số liệu thống kê mô tả sự phân bố của các giá trị trong dữ liệu như giá trị tối thiểu, tối đa, trung bình và độ lệch chuẩn ( standart deviation). Dưới những thống kê này là biểu đồ màu, màu sắc được mã hóa theo thuộc tính được chọn. Cuối cùng, sau khi ấn nút Visualize All, biểu đồ của tất cả các thuộc tính trong dữ liệu được hiển thị trong một cửa sổ riêng.
Quay trở lại danh sách thuộc tính, bắt đầu với tất tả các hộp textbox đều chưa được tích. Chúng có thể bật hoặc tắt bằng cách click chuột. Bốn nút ở trên sử dụng để thay đổi lựa chọn:
(1)All: Tất cả các hộp đều được tích. (2)None: Bỏ dấu tích ở tất cả các hộp.
(3)Invert: Chuyển đổi trạng thai các hộp đã tích thành chưa tích và ngược lại. (4)Pattern: Cho phép người dùng lựa chọn các thuộc tính dựa trên công thức
chung Perl 5. Ví dụ: .*_id để lựa chọn tất cả các thuộc tính có tên kết thúc với _id.
Một khi các thuộc tính cần thiết được lựa chọn, chúng có thể được gỡ bỏ bằng cách nhấn vào nút Remove bên dưới danh sách các thuộc tính. Lưu ý rằng hành động này có thể được khôi phục lại bằng cách ấn nút Undo bên cạnh nút Edit (Hình 3.6).
3.2.2.4.Làm việc với chức năng lọc – Filter
Click chuột vào nút Choosen để kích hoạt chức năng lọc. Các tiến trình cho phép các bộ lọc được xác định việc chuyển đổi dữ liệu theo nhiều cách khác nhau. Hộp Filter sử dụng để thiết lập các bộ lọc được yêu cầu. Click chuột vào nút Choose để chọn một bộ lọc thích hợp trong Weka. Khi một bộ lọc đã được chọn, tên của nó và các tính năng được hiển thị trong ô texbox bên cạnh nút Choose (Hình 3.7). Click trái chuột vào hộp này sẽ làm xuất hiện hộp thoại GenericObjectEditor. Click chuột phải hoặc ấn tổ hợp phím Alt+Shift+trái chuột sẽ làm xuất hiện một menu, nơi bạn có thể lựa chọn, hoặc
để hiển thị các thuộc tính trong hộp thoại GenericObjectEditor, hoặc sao chép chuỗi thiết lập hiện lại vào clipboard (Hình 3.8).
Hình 3.6. Ý nghĩa của các nút trong mục Attributes
a)Hộp thoại GenericObjectEditor:
Hình 3.8. Mở hộp thoại GenericObjectEditor
Hộp thoại GenericObjectEditor cho phép bạn cấu hình cho bộ lọc. Các trường trong cửa sổ phản ánh những tùy chọn có sẵn. Click phải chuột ( hoặc ấn Alt+Shift+Ấn trái chuột) trên một trường sẽ làm xuất hiện mọt popup menu, bao gồm danh sách các tùy chọn sau:
(1)Show properties... có cùng hiệu ứng như cách click trái chuột vào các trường. (2)Copy configuration to clipboard: Sao chép chuỗi cấu hình hiện tại tới
clipboard của hệ thống và do đó có thể sử dụng bất cứ đâu trong Weka hoặc trong bảng điều khiển. Điều này khá thuận tiện nếu bạn phải cài đặt phức tạp, và lồng nhau.
(3)Enter cofiguration... cấu hình mà clipboard nhận được cuối cùng sẽ được sao chép vào texbox. Trong hộp thoại này, bạn có thể nhập classname cùng với các chức năng. Cái này cũng cho phép bạn chuyển việc thiết lập một bộ lọc từ panel Preprocess tới FilteredClassifier được sử dụng trong panel Classify.
Nhấp trái chuột vào bất kỳ phần nào đều có khả năng thay đổi việc thiết lập các bộ lọc.
Việc thiết lập có thể tạo ra một chuỗi text, trong trường hợp bạn đánh chuỗi vào trường text đã được cung cấp. Hoặc nó có thể cho một danh sách hộp drop-down để lựa chọn các trạng thái. Học nó có thể thực hiện một việc khác, tùy thuộc vào thông tin yêu cầu. Thông tin về các tùy chọn đã được cung cấp trong một tool tip nếu bạn cho chuột di chuyển vào trường tương ứng. Để biết thêm thông tin về các bộ lọc và các tùy chọn của nó có thể click vào nút More trong panel About ở phía trên của cửa sổ GenericObjectEditor.
Hình 3.9. Các chức năng trong cửa sổ GenericObjectEditor
Khi chọn nút More, một số đối tượng sẽ hiển thị mô tả ngắn gọn về cái mà chúng có thể làm được. Khi này sẽ hiển thị một cửa sổ mô tả các tùy chọn khác nhau. Thêm vào đó, cửa sổ có nút Capabilities, hiển thị danh sách các kiểu thuộc tính và các lớp đối tượng có thể xử lý.
Ở phía dưới của hộp thoại GenericObjectEditor có bốn nút. Hai nút đầu tiên là Open... và Save... cho phép cấu hình các đối tượng để lưu trữ sử dụng trong tương lai. Nút Cancel dùng để hủy hành động đang thực hiện. Một khi bạn đã hai lòng với các đối tượng và những thiết lập bạn đã chọn. Ấn OK để quay trở lại cửa sổ Explorer.
a)Áp dụng bộ lọc:
Một khi bạn đã lựa chọn và cấu hình cho một bộ lọc, bạn có thể áp dụng chúng vào dữ liệu bằng cách ấn nút Apply. Panel Preprocess sau đó sẽ hiển thị dữ liệu đã được xử lý. Sự thay đổi này có thể thực hiện lại bằng cách ấn nút Undo. Bạn cũng có thể sử dụng nút Edit... để sửa đổi dữ liệu của bạn bằng cách thủ công (bằng tay) trong một cửa sổ soạn thảo. Cuối cùng, nút Save... để lưu phiên bản thực thi hiện tại của quan hệ trong định dạng tệp có thể mô tả mối quan hệ, cho phép nó lưu giữ cho lần sử dụng sau. Lưu ý: Một số bộ lọc xử lý khác nhau tùy thuộc vào lớp thuộc tính đã được thiết lập hoạc không ( bằng cách sử dụng biểu đồ hôp, sẽ làm xuất hiện một danh sách drop- down các khả năng có thể lựa chọn bằng cách nhấp chuột). Đặc biệt, “Bộ lọc có giám sát” sẽ bỏ qua thuộc tính lớp nếu được thiết lập. Lưu ý rằng nó cũng không thể thiết lập lớp – Class là None trong trường hợp không có lớp nào được thiết lập.