Chương 3: ỨNG DỤNG MẠNG KOHONEN (SOM) TRONG PHÂN LOẠI SẢN PHẨM
3.2 Mạng Kohonen cho phân loại sản phẩm
Mạng Kohonen xây dựng cho phân loại sản phẩm bao gồm 2 lớp:
- Lớp vào Kohonen
Lớp vào Kohonen có cấu trúc bao gồm các vector đầu vào thể hiện qua X = { x1 … x2 }.
Với i = 1,n bao gồm các thuộc tính của sản phẩm.
Ví dụ : Trong trường hợp này là các dữ liệu
- Độ lớn ( Kích thước của hạt sản phẩm );
- Màu sắc của hạt sản phẩm;
...
Khi thực hiện ở bất kỳ bài toán trên SOM nào đều phải thực hiện theo:
- Xây dựng tập hợp dữ liệu - Tiền xử lý dữ liệu
- Khởi tạo SOM - Huấn luyện SOM
- Phân tích kết quả của SOM
Để cho đơn giản biểu diễn mô hình phân loại sản phẩm như sau theo thuật toán :
Hình 3.2: Sơ đồ khối thuật toán quá trình phân loại sản phẩm 3.2.2 Chuẩn bị dữ liệu
Trong giai đoạn chuẩn bị dữ liệu có 2 việc cần thực hiện đó là : Thu thập dữ liệu và xử lý dữ liệu
- Thu thập dữ liệu
Việc thu thập dữ liệu của 1 đối tượng cũng như các thuộc tính của nó cho phân loại sản phẩm có thể thực hiện theo nhiều cách khác nhau.
Dữ liệu có thể được biết như là các bản ghi , các ví du , các thực thể hay 1 cá biệt nào đó. Thuộc tính , các đặc trưng của 1 đối tượng cũng
Chuẩn bị dữ liệu - Thu thập dữ liệu;
- Tiền xử lý dữ liệu.
Huấn luyện mạngSai
Xác định các thông số của mạng - Số nơ ron đầu vào
- Số nơ ron đầu ra - Độ lớn của vào / ra - Hệ số học ban đầu
- Độ lớn ban đầu của các nơ ron lân cận - Số liên kết.
Phát triển mạng Kohonen - Lớp vào;
- Lớp ra 2 chiều hình chữ nhật.
Kiểm tra mạng Đánh giá kết quả
Kết thúc
là các dữ liệu cần phải thu thập cho việc phân loại thuộc tính. Có thể coi như là các biểu tượng , đặc trưng hay tính chất nó được gán các giá trị thuộc tính trong không gian nhiều chiều.
Tập các dữ liệu ta có thể thấy như các tế bào ung thư, ris, rượu vang … Tập các dữ liệu có thể được coi như các mẫu của đầu vào cho huấn luyện mạng Kohonen.
Ví dụ :
- Tiền xử lý dữ liệu
Các dữ liệu mới thu nhận chưa thể sử dụng được ngay vì còn rất thô, do vậy cần phải xử lý trước 1 bước và được gọi là Tiền xử lý dữ liệu. Các công đoạn cho tiền xử lý dữ liệu như sau :
- Làm sạch dữ liệu gồm: Thêm các dữ liệu thiếu, loại bỏ dư thừa.
- Tách hợp dữ liệu
- Chuyển đi dữ liệu qua chuẩn hóa - Giảm bớt kích cỡ dữ liệu.
- Rời rạc hóa dữ liệu
Ví dụ : Việc chuẩn hóa có thể thực hiện theo : Xnor =
Trong đó :
Xnor : Giá trị mới của dữ liệu Xin : Giá trị hiện hành của dữ liệu Xmin: Giá trị thấp nhất khi thu thập Xmax: Giá trị cao nhất khi thu thập 3.2.3 Mô hình mạng Kohonen
Như đã trình bày ở đầu mục này mô hình mạng Kohonen bao gồm 2 lớp: lớp vào Kohonen và lớp ra Kohonen
Trong lớp Kohonen có nhiều nơ ron thể hiện cho các biến vào từ dữ liệu.
Mỗi nơ ron đó được kết nối với không gian đầu ra là 2 chiều và được sắp
xếp theo hình chữ nhật. Mỗi nơ ron được huấn luyện theo gom cụm(
Phân loại sản phẩm )
Xác định các thông số cho mạng Kohonen Các thông số cho việc huấn luyện mạng cần có
Thông số - Tỷ lệ học ( Tốc độ )
- Tốc độ thanh ghi các Nơ ron lân cận.
- Số lần huấn luyện - Số Nơ ron đầu ra
- Kính có mạng Kohonen - Số nhóm sản phẩm
Mô tả
- Là tốc độ học của thuật toán.
- Là tốc độ cho cập nhật các nơ ron thân cận
- Số lần được sử dụng trong huấn luyện mạng
- Xác định số nơ ron đầu ra - Out put = map-x*map-y
* Huấn luyện mạng
Việc huấn luyện mạng được thực hiện theo các mục trong chương 2 và theo thuật toán sau:
NoĐún
Kết thúc Bắt đầu
Gán trọng số ban đầu bất kỳ Nhận bộ thông số mới
Xác định bộ thông số thuộc các lớp Tính toán lại khoảng cách
Chọn nơ ron chiến thắng Cập nhật trọng số
Đã hết
Yes
Hình 3.3: Thuật toán phân cụm sản phẩm
Tính hội tụ của thuật toán
Tính hội tụ của thuật toán được xác định theo sai số lượng tử trong hình qua mỗi lần lặp.
3.2.4Chương trình thực thi quá trình phân loại sản phẩm
Chương trình thí nghiệm sử dụng phân loại sản phẩm cho iris:
Hình 3.4.a
Hình 3.4. b
Hình 3.4: Kết quả gom cụm sản phẩm hoa iris theo độ dài rộng của đại hoa và cánh hoa.
SOM 23-Feb-2015
U-matrix Setosa
Setosa Setosa Setosa Setosa
Versicolor Versicolor VersicolorVersicolor
Versicolor Versicolor Versicolor Versicolor Versicolor Virginica
Setosa Setosa
Setosa Versicolor Virginica
Versicolor Versicolor Setosa SetosaSetosa
Setosa Setosa
Versicolor Versicolor Versicolor Versicolor
Virginica Versicolor
Virginica Virginica Virginica
Setosa Setosa Setosa
Versicolor Versicolor Versicolor Versicolor Setosa Setosa
Versicolor Versicolor Versicolor Versicolor Versicolor Versicolor Virginica Virginica Virginica Virginica
Setosa Setosa Setosa SetosaSetosa
Versicolor Versicolor Versicolor VersicolorVersicolor
Versicolor Versicolor Virginica Virginica Virginica
Setosa Setosa Setosa
VersicolorVirginica Virginica Virginica Versicolor Virginica Virginica Virginica
Setosa Setosa Setosa Setosa
Versicolor Versicolor Versicolor Virginica
Setosa Setosa Setosa SetosaSetosa
Setosa
Versicolor Versicolor
Versicolor Virginica Virginica
Virginica Virginica Virginica Virginica Virginica
Setosa Setosa Setosa Versicolor Versicolor Versicolor VersicolorVirginicaVirginica
Virginica VirginicaVirginica
Virginica Virginica Virginica Virginica
Setosa Setosa Setosa SetosaSetosa
Versicolor Versicolor VersicolorVirginica
Virginica Virginica
Virginica Virginica Virginica
Setosa SetosaSetosa
Setosa Setosa Setosa
VersicolorVirginica Virginica Virginica Virginica VirginicaVirginica
Virginica Virginica
0.136 0.981 1.83 0.136 0.981 1.83 0.136 0.981 1.83
SepalL
d 4.46 5.43 7.22
SepalW
d 2.26 2.94 3.97
PetalL
d 1.33 2.83 6.04
SOM 23-Feb-2015
PetalW
d 0.165 0.929 2.24
Trên hình 3.4 a thể hiện hoa iris được phân ra làm 3 loại iris Setosa được gom lại ở phần bên trên hình và loại 2 là iris Versicolor được gom lại phần bên trái hình, bên phải hình là iris Virginica.
Trên hình 3.4b là các biến đầu vào là chiều dài và chiều rộng của đài hoa, cánh hoa liên quan đến các cụm trên phân ra.
3.2.5 Kiểm tra quá trình tính toán
Việc tính toán cũng như kiểm tra chất lượng của SOM được chia ra 2 bước
- Các sản phẩm có được phân loại tốt không
- Các nơ ron đầu ra thể hiện đúng trật tự của nó thì việc tính khoảng cách từ nơ ron chiến thắng.
Cho sai số lượng tử trung bình để xác định tính hội tụ ta thực hiện theo
E = ∑ || ||
Trong đó :
N : Tổng số các mẫu
Xi : Vec tơ dữ liệu đầu vào thứ i
Wc : Vec tơ trọng số của nơ ron chiến thắng 3.2.6 Đánh giá kết quả
Ví dụ có được tạo ra từ loại hoa iris. Đây là bộ dữ liệu được sử dụng rộng rãi để phân loại mô hình với 4 chiều đó là chiều dài đài hoa (Sepail length), chiều rộng đài hoa (Sepail width) chiều dài và chiều rộng cảu cánh hoa (pental length) và (pental width) được phân ra làm 3 lớp là 50 iris Setosa, iris Versicolor và 50 bông iris Virginica và kết quả:
Đầu vào 4
Đầu ra 1
Độ lớn dữ liệu 150
Bảng 3.1: Đầu vào, đầu ra và độ lớn dữ liệu hoa Iris
Kết quả:
Dữ liệu Số loại Các loại
Iris 3 Loại 1: iris Setosa
Loại 2: iris Versicolor Loại 3: iris Virginica Bảng 3.2: Kết quả phân loại hoa Iris