Phân cụm dữ liệu đầu vào bằng SOM

Một phần của tài liệu (LUẬN án TIẾN sĩ) xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ hướng dữ liệu (Trang 104 - 105)

6. Bố cục của luận án

3.4.3. Phân cụm dữ liệu đầu vào bằng SOM

Xét về độ phức tạp thời gian tính tốn thì thuật tốn phân cụm k-Means và SOM có độ phức tạp gần tương đương nhau là O(N.K.T), với N là kích thước tập dữ liệu, K là số phân cụm hoặc số nơ-ron ban đầu và T là số lần lặp điều chỉnh cấu trúc [57]. Trong [41], thông qua thực nghiệm các tác giả đã chứng tỏ kỹ thuật phân cụm SOM hiệu quả hơn k-Means ở cả hiệu quả phân cụm và thời gian thực hiện. Kỹ thuật phân cụm k-Means được đánh giá là đơn giản, dễ cài đặt hơn so với mạng nơ-ron SOM. Tuy nhiên kết quả phân cụm k-Means phụ thuộc rất mạnh vào việc lựa chọn k phân cụm ban đầu và k-Means phân cụm kém hiệu quả trong trường hợp dữ liệu bị nhiễu. Kỹ thuật phân cụm SOM được đánh giá là ít phụ thuộc vào việc chọn số lượng và vị trí các nơ-ron ban đầu hơn so với việc chọn k cụm ban đầu trong trường hợp của k-Means. Kỹ thuật phân cụm SOM cũng được đánh giá mang lại hiệu quả phân cụm tốt hơn trong trường hợp dữ liệu bị nhiễu, đồng thời SOM cũng ít bị tối ưu cục

bộ hơn so với k-Means. Gần đây, nhiều nghiên cứu của các tác giả khác đã đề xuất sử dụng SOM như là một giải pháp khá hiệu quả để phân cụm dữ liệu, đặc biệt là đối với dữ liệu chuỗi thời gian tài chính [26], [66]. Kỹ thuật phân cụm SOM được sử dụng để phân dữ liệu đầu vào thành các phân cụm theo sự tương đương về phân bố thống kê của các điểm dữ liệu. Kết quả phân cụm bởi SOM sẽ giúp giải quyết được hai vấn đề:

1) Kích thước dữ liệu trong từng phân cụm sẽ nhỏ hơn làm tăng tốc độ huấn luyện mơ hình.

2) Dữ liệu trong các phân cụm có sự tương đương trong phân bố thống kê như vậy sẽ tránh được trường hợp nhiễu.

Trong phạm vi nghiên cứu của luận án, với bài toán đặt ra là dự báo dữ liệu chuỗi thời gian có đặc điểm là kích thước dữ liệu lớn, tính ngẫu nhiên và khả năng bị nhiễu của dữ liệu khá cao, mục tiêu hướng đến là giảm kích thước, giảm nhiễu dữ liệu, từ đó giảm số lượng, đơn giản hóa tập luật mờ học được từ dữ liệu. Bên cạnh đó để có cơ sở đối chiếu, so sách hiệu quả của mơ hình đề xuất với các mơ hình được đề xuất trước đó bởi các tác giả khác trong [26][66], kỹ thuật phân SOM được lựa chọn để phân cụm dữ liệu chuỗi thời gian đầu vào, sau đó áp dụng thuật tốn trích xuất mơ hình mờ TSK dựa vào máy học véc-tơ hỗ trợ để trích xuất các mơ hình mờ tương ứng với từng phân cụm. Với các cụm luật mờ có số lượng hạn chế sẽ tạo điều kiện thuận lợi cho các chun gia có thể hiểu, phân tích, đánh giá được, và qua đó có thể tối ưu hóa để nâng cao hiệu quả sử dụng các luật mờ học được từ dữ liệu này.

Một phần của tài liệu (LUẬN án TIẾN sĩ) xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ hướng dữ liệu (Trang 104 - 105)

Tải bản đầy đủ (PDF)

(132 trang)