2.2.4.1 Lọc dữ liệu
Trong thống kê, vẫn thường có một vài giá trị rất lớn hoặc rất nhỏ so với giá trị trung bình được gọi là giá trị ngoại lai (outliers). Trong nhiều trường hợp, chỉ cần vài giá trị ngoại lai cũng đã làm thay đổi các kết quả trong thống kê. Hiện nay, có một số phương pháp xử lý vấn đề này, thường sử dụng và có hiệu quả nhất là: chuyển đổi chúng sang một đơn vị khác (ví dụ như từ đơn vị đo lường là tiền tệ sẽ chuyển sang đơn vị logarit) hoặc là khử bỏ các giá trị ngoại lai này (gọi là winsorizing) và phân tích lại.
Trong đề tài này, các giá trị ngoại lai sẽ được xử lý bằng phương pháp khử bỏ theo nguyên tắc ±3σ. Có nghĩa là các giá trị được chọn để phân tích sẽ nằm trong khoảng [μ - 3σ, μ + 3σ], đảm bảo độ bao phủ 99.8% bộ dữ liệu, các giá trị nằm ngoài khoảng này sẽ bị loại bỏ. Bộ dữ liệu của 26 chỉ tiêu sau khi xử lý outliers sẽ được được tiến hành mờ hóa như dưới đây.
2.2.4.2 Mờ hóa
Bước mờ hóa là q trình xây dựng hàm thành viên cho mỗi chỉ tiêu, bằng cách xác định phân bố phù hợp nhất cho bộ dữ liệu tương ứng của chỉ tiêu đó. Để xác định phân bố hợp lý cho 26 chỉ tiêu, phần mềm mô phỏng Arena 7.0 được sử dụng trong đề tài này.
Nhằm mục đích dễ theo dõi và trình bày cụ thể các bước thực hiện, nghiên cứu tiến hành xây dựng hàm thành viên cho chỉ tiêu ROE của các cơng ty năm 2012. Q trình xây dựng các chỉ tiêu còn lại cũng thực hiện tương tự. Trình tự tiến hành như sau:
Nhập bộ dữ liệu chỉ tiêu ROE của các doanh nghiệp được lấy mẫu vào hệ thống, Arena sẽ xuất ra kết quả cho biết có những dạng phân bố phù hợp với bộ dữ liệu này theo trình tự phương sai (square error) tăng dần, như hình 2.2 dưới đây