Phần 1: Rút gọn thuộc tính
Chọn Huấn luyện mơ hình > Rút gọn thuộc tính Giao diện chính của tác vụ Rút gọn thuộc tính
Hình 3.12. Giao diện của tác vụ Rút gọn thuộc tính
Các thành phần chính:
- Chọn tệp csv: Người dùng chọn tệp csv chứa thơng tin thuộc tính được sinh
ra tại phần Hiển thị thuộc tính.
- Hiển thị thuộc tính: Hiển thị thơng tin trong tệp csv mà người dùng chọn
- Rút gọn thuộc tính: Thực hiện thuật tốn rút gọn số lượng thuộc tính so với
ban đầu. Mục đích: giảm khối lượng tính tốn, giảm thời gian xử lý các thuật toán và đảm bảo vẫn giữ được các giá trị thuộc tính quan trọng.
- Lưu: Lưu các giá trị thuộc tính sau khi đã thực hiện rút gọn thuộc tính dưới
dạng tệp csv và lưu giá trị vị trí quan trọng dưới dạng tệp csv.
- Trạng thái: Đưa ra trạng thái của chương trình khi thực hiện một nhiệm vụ
nào đó.
- Trở về màn hình chính: Khi nhấn vào nút này, màn hình tiền xử lý dữ liệu sẽ
đóng lại và màn hình chính sẽ hiện ra.
Trên màn hình hiện ra, người dùng thực hiện chọn tệp csv chứa các giá trị thuộc tính đã được lưu trong bước Tiền xử lý dữ liệu. Nhập đường dẫn bằng cách nhấn vào
nút và chọn đường dẫn mong muốn. Sau khi nhập đường dẫn xong, trên màn hình hiện lên 2 nút để người dùng chọn:
+ Hiển thị thuộc tính: Hiển thị các giá trị thuộc tính trước khi áp dụng thuật tốn rút gọn thuộc tính.
+ Rút gọn thuộc tính: Hiển thị các giá trị thuộc tính sau khi áp dụng thuật tốn rút gọn thuộc tính, số lượng các thuộc tính sẽ giảm đi so với số lượng thuộc tính ban đầu. Trên màn hình sẽ hiển thị các giá trị thuộc tính theo dạng bảng tương tự như phần Hiển thị thuộc tính trong Bước 1.
Lưu ý: Chương trình sẽ cần một lượng thời gian (tùy thuộc vào độ lớn của lượng dữ liệu thuộc tính cần rút gọn) để thực thi thuật tốn rút gọn thuộc tính, người dùng sau khi nhấn nút “Rút gọn thuộc tính” cần chờ đợi để thuật tốn thực hiện, tránh việc nhấn nút nhiều lần có thể dẫn đến cách hiện tượng đơ máy, treo máy, …
Sau khi rút gọn thuộc tính xong, người dùng nhấn nút Lưu để thực hiện lưu các giá trị thuộc tính đã được rút gọn vào tệp csv. Tên của tệp csv được lưu theo định dạng
<tên tệp csv ban đầu>_new.csv; Ví dụ người dùng chọn tệp csv ban đầu có tên list_features_train_80.csv thì tệp csv lưu các thuộc tính đã được rút gọn sẽ có tên list_features_train_80_new.csv; Một tệp csv khác cũng được tạo ra để lưu vị trí các
thuộc tính có tính quan trọng cao nhất với định dạng tên <tên tệp csv ban
đầu>_new_index.csv
Phần 2: Huấn luyện mơ hình
Chọn Huấn luyện mơ hình > Huấn luyện mơ hình Giao diện chính của tác vụ Huấn luyện mơ hình
Hình 3.13. Giao diện của tác vụ Huấn luyện mơ hình
Các thành phần chính:
- Chọn tệp csv: Người dùng chọn tệp csv chứa dữ liệu các giá trị thuộc tính sau
khi đã thực hiện rút gọn thuộc tính tại phần Rút gọn thuộc tính.
- Huấn luyện mơ hình: Chương trình sẽ sử dụng dữ liệu trong tệp csv để huấn
luyện mơ hình phân lớp SVM.
- Lưu mơ hình: Lưu mơ hình SVM đã được huấn luyện dưới dạng tệp .sav
- Trạng thái: Đưa ra trạng thái của chương trình khi thực hiện một nhiệm vụ
nào đó.
- Trở về màn hình chính: Khi nhấn vào nút này, màn hình tiền xử lý dữ liệu sẽ
đóng lại và màn hình chính sẽ hiện ra.
Trên màn hình hiện ra, người dùng thực hiện chọn tệp csv chứa các giá trị thuộc
tính đã được rút gọn. Nhập đường dẫn bằng cách nhấn vào nút và chọn đường dẫn mong muốn. Người dùng nhấn nút Huấn luyện mơ hình để thực hiện huấn luyện mơ hình phân lớp SVM với tập thuộc tính vừa chọn ở phần trên, màn hình giao diện sẽ hiển thị như sau:
Hình 3.14. Huấn luyện mơ hình phân lớp
Sau khi huấn luyện mơ hình xong, thơng báo sẽ được hiển thị tại mục Trạng thái Đồ thị biểu diễn sự phân bố của các giá trị thuộc tính trong khơng gian. Trong đó chấm màu xanh tương ứng với nhãn 1 (có tàu thuyền) và chấm màu đỏ tương ứng với nhãn 0 (khơng có tàu thuyền).
Người dùng thực hiện lưu mơ hình SVM vừa huấn luyện được bằng cách nhấn vào nút
Lưu mơ hình. Tên của tệp lưu mơ hình SVM vừa huấn luyện có định dạng <tên tệp
csv chứa thuộc tính đã rút gọn>.sav; Ví dụ người dùng chọn tệp chứa dữ liệu đầu vào
cho mơ hình SVM có tên là list_features_train_80_new.csv thì tên mơ hình được lưu sẽ có tên list_features_train_80_new.sav
Phần 3: Kiểm thử mơ hình
Chọn Huấn luyện mơ hình > Kiểm thử mơ hình Giao diện chính của tác vụ Kiểm thử mơ hình
Hình 3.15. Giao diện của tác vụ Kiểm thử mơ hình
Các thành phần chính:
- Chọn thư mục ảnh: Người dùng chọn thư mục chứa hình ảnh với nhiệm vụ
kiểm tra độ chính xác của mơ hình SVM
- Chọn tệp csv vị trí: Người dùng chọn tệp csv chứa giá trị các vị trí quan
trọng của chuỗi các thuộc tính
- Chọn mơ hình SVM: Người dùng chọn mơ hình SVM được lưu tại phần Huấn luyện mơ hình.
- Chạy mơ hình: Thực hiện kiểm thử độ chính xác của mơ hình SVM trên tập
dữ liệu được lựa chọn tại mục Chọn thư mục hình ảnh
- Trạng thái: Đưa ra trạng thái của chương trình khi thực hiện một nhiệm vụ
nào đó.
- Trở về màn hình chính: Khi nhấn vào nút này, màn hình tiền xử lý dữ liệu sẽ
đóng lại và màn hình chính sẽ hiện ra.
Trên màn hình hiện ra, người dùng thực hiện chọn các mục sau:
- Chọn thư mục ảnh: Người dùng chọn thư mục chứa hình ảnh kiểm thử (đã
kiểm thử này, người dùng cần thực hiện các bước tương tự trong mục Tiền xử
lý dữ liệu > Nạp dữ liệu và Tiền xử lý dữ liệu > Gán nhãn dữ liệu.
- Chọn tệp csv vị trí: Người dùng thực hiện chọn tệp csv chứa thơng tin vị trí
của các thuộc tính quan trọng được tạo ra tại mục Rút gọn thuộc tính.
- Chọn mơ hình SVM: Người dùng chọn tệp lưu mơ hình SVM được lưu ở
phần Huấn luyện mơ hình. Người dùng nhấn nút Chạy mơ hình để thực hiện kiểm thử độ chính xác của mơ hình phân lớp SVM với tập thuộc tính mới được tạo ra từ mục Chọn thư mục ảnh, màn hình giao diện sẽ hiển thị như sau:
Hình 3.16. Giao diện Kiểm thử mơ hình phân lớp
Sau khi quá trình kiểm thử thực hiện xong, tại phần Trạng thái sẽ hiển thị độ chính xác của mơ hình SVM với tệp dữ liệu mới. Đồ thị biểu diễn sự phân bố của các giá trị thuộc tính trong khơng gian. Trong đó chấm màu xanh tương ứng với nhãn 1 (có tàu thuyền) và chấm màu đỏ tương ứng với nhãn 0 (khơng có tàu thuyền).
3.4.3 Thực thi mơ hình
Nhiệm vụ chính của tác vụ này là sử dụng mơ hình SVM để đưa ra dự đốn có tàu - thuyền hay khơng có tàu - thuyền trên hình ảnh. Trong “Thực thi mơ hình” chỉ có 1
mục chính:
Hình 3.17. Các thành phần trong Dự đoán tàu thuyền
Chọn Thực thi mơ hình > Dự đốn tàu thuyền Giao diện chính của tác vụ Dự đốn tàu thuyền:
Các thành phần chính:
- Chọn ảnh: Người dùng chọn hình ảnh cần dự đốn có tàu thuyền hay khơng.
- Chọn mơ hình: Người dùng chọn mơ hình SVM
- Chọn csv vị trí: Người dùng chọn tệp csv chứa giá trị các vị trí quan trọng
trong tập thuộc tính của các hình ảnh.
- Hiển thị lưới: Màn hình sẽ hiện ra các ơ lưới với kích thước bằng với kích
thước của hình ảnh được sử dụng để huấn luyện mơ hình SVM.
- Hiển thị thuộc tính: Màn hình sẽ hiện ra một bảng dữ liệu chứa thơng tin của
hình ảnh. Bảng dữ liệu gồm n hàng và m cột. Trong đó: n là số lượng hình ảnh có trong thư mục mà người dùng chọn, m là số lượng thuộc tính ứng với mỗi hình ảnh.
- Dự đốn nhãn: Sử dụng mơ hình SVM đã có để đưa ra dự đốn có tàu hay
khơng có tàu trên hình ảnh.
- Thơng tin dự đốn: Hiển thị thơng tin “Có tàu” nếu mơ hình dự đốn trên
hình ảnh có tàu - thuyền hoặc hiển thị thơng tin “Khơng có tàu” nếu mơ hình dự đốn trên hình ảnh khơng có tàu - thuyền.
- Trở về màn hình chính: Khi nhấn vào nút này, màn hình tiền xử lý dữ liệu sẽ
đóng lại và màn hình chính (mục 3.2) sẽ hiện ra.
Trên màn hình hiện ra, người dùng thực hiện chọn các tệp và hình ảnh cần thiết:
- Chọn ảnh: Chọn hình ảnh mà người dùng muốn xác định trên ảnh đó có tàu
thuyền hay khơng.
- Chọn mơ hình: Chọn mơ hình SVM được lưu ở phần Huấn luyện mơ hình.
- Chọn csv vị trí: Chọn tệp csv chứa thơng tin vị trí của các thuộc tính quan
trọng được tạo ra tại phần Rút gọn thuộc tính.
Sau khi nhập đầy đủ 3 thông tin trên, 3 nút sẽ được bật trên màn hình:
- Hiển thị lưới: Hình ảnh sẽ được chia thành các ô lưới với độ dài mỗi ơ bằng
với kích thước hình ảnh được sử dụng để huấn luyện mơ hình svm.
- Hiển thị thuộc tính: Một cửa sổ sẽ hiện ra, trên cửa sổ này hiển thị một bảng
các thuộc tính của hình ảnh mà người dùng chọn để dự đoán.
- Dự đoán nhãn: Khi người dùng nhấn vào nút này, chương trình sẽ sử dụng
mơ hình SVM để đưa ra dự đốn có tàu hay khơng có tàu trên mỗi ơ lưới của hình ảnh ban đầu. Chương trình dừng lại khi phát hiện ơ lưới nào đó được dự đốn là có tàu - thuyền và đưa ra thơng báo là “Có tàu”. Ngược lại, nếu tất cả các ơ
lưới đều được dự đốn là khơng có tàu - thuyền thì chương trình sẽ đưa ra thơng báo là “Khơng có tàu” tại mục Thơng tin dự đốn
Hình 3.19. Dự đốn tàu thuyền
Tập dữ liệu kiểm thử gồm 400 hình ảnh, trong đó có 200 ảnh có tàu và 200 ảnh khơng có tàu. Kết quả chạy thực nghiệm thu được độ chính xác phân lớp 82.5% trên bộ kiểm thử.
CHƯƠNG 4: KẾT LUẬN
A. Các kết quả đạt được của Luận văn
Trong luận văn này tơi đã tìm hiểu một số kiến thức tổng quan về bài toán rút gọn thuộc tính từ bảng quyết định khơng đầy đủ theo hướng tiếp cận kết hợp filter- wrapper nhằm giảm thiểu số lượng thuộc tính, từ đó giảm độ phức tạp của mơ hình phân lớp.
Kết quả chính của luận văn bao gồm:
1. Tìm hiểu cách xây dựng độ đo khoảng cách và thuật tốn theo tiếp cận filter- wapper tìm tập rút gọn của bảng quyểt định không đầy đủ sử dụng độ đo khoảng cách.
2.Cài đặt, thử nghiệm thuật toán ứng dụng vào bài toán phát hiện tàu, thuyền từ ảnh vệ tinh.
B. Định hướng nghiên cứu tiếp theo:
1.Triển khai thuật toán vào việc giải quyết các bài toán trong thực tiễn khác, đặc biệt các bài tốn có dữ liệu với số thuộc tính lớn (high dimention data) trong lĩnh vực khác nhau như dữ liệu gen trong tin sinh học…
2.Tiếp tục nghiên cứu, đề xuất các phương án để giảm thiểu thời gian thực hiện thuật tốn dựa trên các mơ hình tập thơ khác phù hợp với lớp bài toán trong thực tiễn.
TÀI LIỆU THAM KHẢO
[1] Guyon, Isabelle; Elisseeff, André, “An Introduction to Variable and Feature Selection”, Journal of Machine Learning Research, pp. 1157-1182, 2003.
[2] H. Liu, L. Yu, “Toward integrating feature selection algorithms for classification and clustering”, IEEE Transactions on knowledge and data
engineering, 17(4), pp. 491-502, 2005.
[3] Z. Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publisher, London, 1991.
[4] M. Kryszkiewicz (1998), “Rough set approach to incomplete information systems”, Information Science, Vol. 112, pp. 39-49.
[5] D.X. Peng, X.D. Hong, “Research on Heuristic Knowledge Reduction Algorithm for Incomplete Decision Table”, IEEE International Conference
on Internet Technology and Applications, 2010.
[6] J. Hu, K. Wang, H. Yu, “Attribute Reduction on Distributed Incomplete Decision Information System”, IJCRS 2017, pp 289-305, 2017.
[7] Y.H. Qian, J.Y. Liang, W. Pedrycz, C.Y. Dang, “An efficient accelerator for attribute reduction from incomplete data in rough set framework”, Pattern
Recognition 44, pp. 1658-1670, 2011.
[8] Z.Q. Meng, Z.Z. Shi, “A fast approach to attribute reduction in incomplete decision systems with tolerance relation-based rough sets”, Information Sciences, Vol. 179, pp. 2774-2793, 2009.
[9] Z.Y. Xu, J.H. Zhou, C.G. Zhang, “A Quick Attribute Reduction Algorithm Based on Incomplete Decision Table”, Information Computing and
Applications, 2013.
[10]F.M. Ma, T.F. Zhang, “Generalized binary discernibility matrix for attribute reduction in incomplete information systems”, The Journal of
China Universities of Posts and Telecommunications, Volume 24, Issue 4,
pp. 57-75, 2017.
[11]H.S. Zou, C.S. Zhang, “Efficient Algorithm for Knowledge Reduction in Incomplete Information System”, Journal of Computational Information
[12]H.X. Li, X.H. Zhou, M.M. Zhu, “A Heuristic Reduction Algorithm in IIS Based on Binary Matrix”, RSKT, pp. 143-150, 2010.
[13]J. Zhou, E. Xu, Y.H. Li, Z. Wang, Z.X. Liu, X.Y. Bai , “A New Attribute Reduction Algorithm Dealing With The Incomplete Information System”,
2009 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery, 2009.
[14]Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing 7 (2013), Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, No 4, 2013, pp. 375-388.
[15]W.D. Tan, E. Xu, F. Shi, Y.C. Ren, L.J. Fan, “A Novel Method of Attribute Reduction for Incomplete Information System”, IEEE International
Conference on Innovative Computing and Communication, pp. 352-354,
2010.
[16]Z.Y. Xu, B. Yang, W.H. Shu, "Efficient Algorithm for Attribute Reduction of Incomplete Information Systems Based on Assignment Matrix”, Fuzzy
Information and Engineering, Volume 2, 2009.
[17]D. Yue, Z. Xu, C.D. Mei, W.Y. Mei, “Analysis of Attribute Reduction of Incomplete Decision Table Based on Information Entropy”, 8th International Conference on Intelligent Computation Technology and Automation (ICICTA), 2015.
[18] H. Zhao, K.Y. Qin, “Mixed feature selection in incomplete decision table”
Knowledge-Based Systems, Volume 57, pp. 181-190, 2014.
[19]Nguyễn Bá Quảng, Nguyễn Long Giang, Trần Thanh Đại, Nguyễn Ngọc Cương, “Phương pháp Filter-Wrapper rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần thứ
XXII: Một số vấn đề chọn lọc của Cơng nghệ thơng tin và truyền thơng, Thái
Bình, 28-29/06/2019, Tr. 246-252.
[20]J.H. Dai, W.T. Wang, H.W. Tian, L. Liu, “Attribute selection based on a new conditional entropy for incomplete decision systems”, Knowledge- Based Systems, Volume 39, pp. 207-213, 2013.
[21]L. Sun, J.C. Xu, Y. Tian, “Feature selection using rough entropy-based uncertainty measures in incomplete decision systems”, Knowledge-Based
[22]W.B. Qian, W.H. Shu, “Mutual information criterion for feature selection from incomplete data”, Neurocomputing, Volume 168, pp. 210-220, 2015.
[23]Y. Tao, H.C. Zhao, “Entropy based attribute reduction approach for incomplete decision table”, 20th International Conference on Information Fusion (Fusion), pp. 1-8, 2017.
[24]Sai Prasad P.S.V.S, Raghavendra Rao Chillarige, Novel Granular Framework for Attribute Reduction in Incomplete Decision Systems, Multi-
disciplinary Trends in Artificial In Artificial Intelligence, 2012.
[25]X. Guo, Y.Z. Xiang, L. Shu, “An Information Quantity-Based Uncertainty Measure to Incomplete Numerical Systems”, International Conference on
Fuzzy Information & Engineering, pp. 23-29, 2019.
[26]Xu E, Y.Q. Yang, Y.C. Ren, “A New Method of Attribute Reduction Based On Information Quantity in An Incomplete System”, JOURNAL OF
SOFTWARE, VOL. 7, NO. 8, pp. 1881-1888, 2012.
[27]Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International
Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in
Computer Science, SpingerLink, Vol. 8170, pp. 99-110, 2013.
[28]Vu Van Dinh, Vu Duc Thi, Ngo Quoc Tao, Nguyen Long Giang, “Partition Distance Based Attribute Reduction in Incomplete Decision Tables”,
Journal on Information Communications Technology, Research and Development on Information & Communications Technology, Vol. V-2, No.