Bảo toàn cấu trúc liên kết

Một phần của tài liệu (LUẬN văn THẠC sĩ) mạng nơ ron kohonen và ứng dụng phân loại sản phẩm (Trang 50)

Phân cụm 2 pha của SOM cho phép xác định bảo toàn cấu trúc của các cụm. Ở pha thứ nhất huấn luyện SOM với hàm lân cận Gausian được áp dụng tốt hơn cho bảo toàn cấu trúc, có thể trực quan các thành phần trình bày. Ở pha thứ 2 bản đồ được huấn luyện chia thành các cụm bằng cách sử dụng phát triển các cụm bắt đầu bằng các điểm cực tiểu của ma trận khoảng cách. Tập các điểm có thể tìm được bằng cách:

Với mi là vector nguyên mẫu, Ni, Nj là tập các nút lân cận, và

Hình 2.6: Bảo toàn cấu trúc liên kết các cụm 2.5 SOM sử dụng trong phân cụm dữ liệu

Phân cụm dữ liệu được sử dụng để xác định các nhóm tự nhiên của dữ liệu. Trong phân cụm các lớp của các mẫu không có sẵn và số lượng các lớp không rõ ràng. Để tìm kiếm các mẫu thường sử dụng một số biện pháp tương tự. Biện pháp tương tự thường sử dụng là xác định khoảng cách giữa các điểm gần nhau hoặc có thể sử dụng các thuộc tính khác nhau như xác định hướng của vector trong không gian đo. Phương pháp tìm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

kiếm các cụm có thể sử dụng hai phương pháp phỏng đoán hoặc dựa vào giảm thiểu các tiêu chuẩn cụm.

2.5.1 SOM phân cụm với bản đồ một chiều

Phân cụm dữ liệu trong bản đồ một chiều vector trọng số của phần tử xử lý tương ứng với vector trung bình cụm. Kết thúc quá trình học đầu vào đại diện và mỗi đầu vào được chỉ định vector trọng số gần nhất tương ứng với cụm riêng biệt.

2.5.2 SOM phân cụm với bản đồ 2 chiều

Phân cụm dữ liệu sử dụng bản đồ 2 chiều. Một hoặc một số vector trọng số tương ứng với một cụm. Để tìm vector trọng số tương ứng với các cụm có thể sử dụng 2 phương pháp:

2.5.2.1 Phân cụm trong không gian bản đồ

Phân cụm dữ liệu có thể được thực hiện bằng cách sử dụng hàm mật độ ước lượng của dữ liệu để tìm ra các điểm lồi lõm. Sử dụng SOM để ước lượng giá trị hàm mật độ cho mỗi phần tử xử lý. Để thực hiện được ước lượng đó được thực hiện bằng cách tìm kiếm các phần tử xử lý chiến thắng cho vector đầu vào và phần tử xử lý tính toán tổng vector đầu vào và tổng của lỗi lượng tử. Lỗi lượng tử là bình phương khoảng cách giữa vector đầu vào và phần tử xử lý chiến thắng. Ước lượng hàm mật độ có thể được thực hiện bằng cách tính trung bình lỗi lượng tử. Nếu trung bình lỗi lượng tử nhỏ thì mật độ bề mặt cao và ngược lại mật độ bề mặt sẽ thấp hơn. Các hàm mật độ được ước lượng và được phân chia vào các cụm khác nhau bằng cách sử dụng tìm kiếm độ dốc đơn. Đầu tiên giá trị nhỏ nhất của hàm mật độ được tìm kiếm và phần từ xử lý của nó được gán nhãn về cụm 1. Sau đó tìm kiếm độ dốc đơn trong 8 lân cận và các phần tử xử lý sử dụng trong tìm kiếm độ dốc được liên kết với phần tử xử lý trước đó. Xác định sự khác biệt lớn nhất về giá trị ước lượng xung quanh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

phần tử xử lý hiện tại và xác định hước tăng giá trị của hàm mật độ. Quá trình này được lặp để tìm ra giá trị cao nhất của hàm mật độ hoặc các phần tử xử lý. Quá trình này được lặp cho đến khi tất cả các phần tử xử lý được dán nhãn.

2.5.2.2 Phân cụm trong không gian trọng số

SOM di chuyển vector trọng số của các phần tử xử lý đến vị trí lựa chọn theo hàm mật độ của dữ liệu đầu vào. Theo cách này vùng mật độ cao có số lượng vector trọng số lớn hơn các vùng còn lại. Sự hình thành các cụm dựa trên sự di chuyển của vector trọng số về hướng độ dốc của hàm mật độ. Vector trọng số di chuyển được ước lượng tính toán giá trị trung bình lân cận của vector trọng số, vector trọng số ban đầu được thay thế bởi tính toán trung bình cục bộ. Quá trình được thực hiện cho tới khi không có vector trọng số nào được di chuyển. Vector trọng số được phân nhóm rõ ràng và các vector trọng số trong một nhóm tương ứng với một cụm.

2.5.3 Xác định ranh giới các cụm

Ranh giới từ các thành phần/U-matrix được lựa chọn từ đơn vị biên thích hợp nhất rút ra từ giá trị của đơn vị được chọn hiện tại tới đơn vị liền kề của nó. Để rút ra ranh giới đầu tiên phải tính toán 2 đơn vị lân cận thích hợp nhất để tạo một ranh giới. Sử dụng sự khác biệt tương đối của các đơn vị biên được chọn. Hai đơn vị lân cận được chọn là hai đơn vị có sự khách biệt tương đối cao nhất được xác định là ranh giới. Sự khác biệt giữa khoảng cách trung bình của đơn vị hiện tại và 2 đơn vị ranh giới được chọn so với khoảng cách trung bình của các đơn vị còn lại. Để tìm ra sự khác biệt đó sử dụng biện pháp tìm ra giá trị khác biệt của ranh giới BDV (boundary difference value):

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

Với ML là trung bình của 3 đơn vị ranh giới được chọn. M0 là trung bình của các lân cận còn lại. R0 là vùng của các đơn vị còn lại.

Khi có sự kết hợp của các đơn vị ranh giới được tính toán đơn vị có sự khác biệt BDV cao nhất là những đơn vị được chọn đề hình thành ranh giới. Quá trình này được lặp đi lặp lại cho đến khi các ranh giới mạnh nhất được lựa chọn. Bước tiếp theo tìm BDV cao nhất và tạo thành ranh giới dọc theo các đơn vị lân cận BDV cao nhất. Quá trình xử lý được lặp cho tới khi xác định được ranh giới của tất cả các cụm.

2.5.4 Trực quan mạng

Dựa trên các thuật toán đồ tự tổ chức, năm kỹ thuật trực quan hóa chính đã được khám phá:U-matrix, trực quan lưới, trực quan hóa bản đồ thành phần, bề mặt đồ thị 2D và 3D của ma trận khoảng cách.

Đại diện thống nhất khoảng cách ma trận cho trực quan cụm: Ma trận thống nhất khoảng cách (U-matrix) là một đại diện của bản đồ tự tổ chức xác định khoảng cách giữa các nơron hoặc các đơn vị. Chứa khoảng cách từ mỗi đơn vị trung tâm cho tất cả các lân cận. Các nơron của mạng SOM được đại diện bởi các ô lục giác. Khoảng cách giữa các nơron liền kề được tính toán và xuất hiện với các màu khác nhau. Màu tối giữa các nơron tương ứng với khoảng cách lớn và đại diện cho sự chênh lệch khoảng cách giữa các giá trị trong không gian đầu vào. Màu sáng giữa các nơron thể hiện các vectơ gần nhau trong không gian đầu vào. Vùng sáng đại diện cho các cụm và vùng tối đại diện cho sự phân chia cụm. Những đại diện này được sử dụng để trực quan hóa cấu trúc của không gian đầu vào. Các đại diện U-matrix cho thấy cấu trúc các cụm của tập dữ liệu. Các giá trị

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

có đặc tính tương tự được sắp xếp gần nhau và khoảng cách giữa chúng đại diện cho mức độ tương tự hoặc không tương tự.

Trực quan lưới được sử dụng để hình dung hình dạng của SOM trong không gian đầu vào. Đại diện cho mỗi đơn vị của bản đồ sử dụng một phép chiếu do đó khoảng cách giữa các cặp dữ liệu mẫu được bảo toàn một cách chính xác. Sử dụng lưới SOM để hình dung tập các đối tượng với vị trí, màu sắc, hình dạng duy nhất. Phép chiếu của SOM cung cấp hình ảnh thông tin của hình dạng tổng thể và độ mịn của SOM. Một số các tính năng tương tác trực quan có thể được cung cấp cho người sử dụng: Kiểm soát trên các tọa độ của mỗi đơn vị trong không gian 2D hoặc 3D. Màu sắc và kích thước của điểm đánh dấu được sử dụng cho mỗi đơn vị bản đồ và các thuộc tính của đường để kết nối các đơn vị bản đồ. SOM làm giảm các dữ liệu đầu vào cho một số lượng nhỏ các vector có thể được kết hợp với các kỹ thuật chiếu khác như phân tích thành phần chính và lập bản đồ Sammon để tạo các kết quả chiếu tốt hơn trong khi giảm bớt gánh nặng tính toán liên quan đến các phương pháp chiếu.

Trực quan hóa bản đồ thành phần: Hiển thị giá trị các thuộc tính khác nhau của các phần tử bản đồ. Trực quan hóa của các thành phần bản đồ cho thấy mỗi vetor đầu vào thay đổi trên không gian của các đơn vị SOM. Mỗi thành phần của bản đồ cho thấy giá trị của một biến trong mỗi đơn vị của bản đồ bằng cách sử dụng màu sắc mã hóa. Bằng cách sử dụng vị trí và màu sắc của bản đồ có thể tìm ra mối quan hệ giữa các đơn vị bản đồ khác nhau.

Bề mặt đồ thị 2D và 3D của ma trận khoảng cách: Sử dụng màu sắc và tọa độ z để chỉ ra khoảng cách trung bình đến đơn vị bản đồ lân cận. Sử dụng trực quan bề mặt đồ thị 2D và 3D của ma trận khoảng cách thể hiện

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

mật độ, hình dạng, kích thước và số lượng các cụm. Người sử dụng có sự linh hoạt để thao tác các tọa độ và xem trong không gian 2D hoặc 3D.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

Chương 3: ỨNG DỤNG MẠNG KOHONEN (SOM) TRONG PHÂN LOẠI SẢN PHẨM

3.1 Phát biểu bài toán

Phân cụm dữ liệu nói chung và phân loại sản phẩm nói riêng là một trong những yêu cầu thực tế hiện nay. Một nền sản xuất nông nghiệp phát triển đòi hỏi phải phân loại, lựa chọn các sản phẩm nông nghiệp cho nhiều mục tiêu sử dụng khác nhau ví dụ như phân loại sản phẩm hạt cà phê sau thu hoạch.

- Hạt chín đỏ, tốt dành cho xuất khẩu; - Loại sử dụng trong nước;

- Quả loại, xấu dùng làm phân bón. Hay như phân loai các sản phẩm của lúa gạo

- Loại chín vàng dùng cho xuất khẩu; - Loại sử dụng trong nước;

- Loại dùng cho chăn nuôi; …

Có rất nhiều phương pháp cho việc khám phá tri thức và khai phá dữ liệu trong sản xuất có sử dụng mạng nơron không giám sát. Đặc biệt phương pháp sử dụng SOM có thể trực quan hoá tốt hơn đối với dữ liệu có kích thước lớn; tạo ra biểu diễn các mối quan hệ phức tạp; cải thiện cụm và rút gọn dữ liệu; tạo điều kiện thuận lợi cho việc khám phá tri thức qua việc xác định các cấu trúc và mẫu mới trong dữ liệu. Nhiều ứng dụng của SOM đã được sử dụng làm công nghệ và các lĩnh vực khoa học khác. Trên hình 3.1 là một ví dụ sử dụng mạng Kohonen cho phân loại các thực phẩm (gom cụm các loại thực phẩm) theo:

- Loại hoa, quả ăn được ngay không cần chế biến; - Loại hoa, quả phải nấu chín mới ăn được;

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

- Loại thực phẩm là đồ uống;

- Loại thực phẩm đã được chế biến từ thịt có thể dùng được ngay; - Loại thực phẩm cần được nấu chín mới ăn được.

Hình 3.1.a: Thực phẩm trước khi được phân loại

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

Hình 3.1.b: Phân loại thực phẩm theo các thuộc tính sử dụng mạng Kohonen

Mạng Kohonen (SOM) cho phép gom cụm các sản phẩm như vậy. Vấn đề đặt ra là cần phải kết hợp với quá trình phát triển với kỹ thuật mới có thể xử lý các thuật toán một cách hoàn hảo.

Căn cứ vào quy trình thực tế của việc phân loại sản phẩm tôi muốn đề xuất áp dụng SOM trong việc đánh giá, phân loại sản phẩm nông nghiệp.

3.2 Mạng Kohonen cho phân loại sản phẩm

3.2.1 Cấu trúc mạng

Mạng Kohonen xây dựng cho phân loại sản phẩm bao gồm 2 lớp: - Lớp vào Kohonen

Lớp vào Kohonen có cấu trúc bao gồm các vector đầu vào thể hiện qua X = { x1 … x2 }.

Với i = 1,n bao gồm các thuộc tính của sản phẩm. Ví dụ : Trong trường hợp này là các dữ liệu

- Độ lớn ( Kích thước của hạt sản phẩm ); - Màu sắc của hạt sản phẩm;

...

Khi thực hiện ở bất kỳ bài toán trên SOM nào đều phải thực hiện theo: - Xây dựng tập hợp dữ liệu

- Tiền xử lý dữ liệu - Khởi tạo SOM - Huấn luyện SOM

- Phân tích kết quả của SOM

Để cho đơn giản biểu diễn mô hình phân loại sản phẩm như sau theo thuật toán :

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

Hình 3.2: Sơ đồ khối thuật toán quá trình phân loại sản phẩm

3.2.2 Chuẩn bị dữ liệu

Trong giai đoạn chuẩn bị dữ liệu có 2 việc cần thực hiện đó là : Thu thập dữ liệu và xử lý dữ liệu

- Thu thập dữ liệu

Chuẩn bị dữ liệu - Thu thập dữ liệu; - Tiền xử lý dữ liệu.

Huấn luyện mạng Sai

Xác định các thông số của mạng - Số nơ ron đầu vào

- Số nơ ron đầu ra - Độ lớn của vào / ra - Hệ số học ban đầu

- Độ lớn ban đầu của các nơ ron lân cận - Số liên kết. Phát triển mạng Kohonen - Lớp vào; - Lớp ra 2 chiều hình chữ nhật. Kiểm tra mạng Đánh giá kết quả Bắt đầu Kết thúc download by : skknchat@gmail.com

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

Việc thu thập dữ liệu của 1 đối tượng cũng như các thuộc tính của nó cho phân loại sản phẩm có thể thực hiện theo nhiều cách khác nhau.

Dữ liệu có thể được biết như là các bản ghi , các ví du , các thực thể hay 1 cá biệt nào đó. Thuộc tính , các đặc trưng của 1 đối tượng cũng là các dữ liệu cần phải thu thập cho việc phân loại thuộc tính. Có thể coi như là các biểu tượng , đặc trưng hay tính chất nó được gán các giá trị thuộc tính trong không gian nhiều chiều.

Tập các dữ liệu ta có thể thấy như các tế bào ung thư, ris, rượu vang … Tập các dữ liệu có thể được coi như các mẫu của đầu vào cho huấn luyện mạng Kohonen.

Ví dụ :

- Tiền xử lý dữ liệu

Các dữ liệu mới thu nhận chưa thể sử dụng được ngay vì còn rất thô, do vậy cần phải xử lý trước 1 bước và được gọi là Tiền xử lý dữ liệu. Các công đoạn cho tiền xử lý dữ liệu như sau :

- Làm sạch dữ liệu gồm: Thêm các dữ liệu thiếu, loại bỏ dư thừa. - Tách hợp dữ liệu

- Chuyển đi dữ liệu qua chuẩn hóa - Giảm bớt kích cỡ dữ liệu.

- Rời rạc hóa dữ liệu

Ví dụ : Việc chuẩn hóa có thể thực hiện theo : Xnor =𝑋𝑖𝑛 − 𝑋𝑚𝑖𝑛

𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛 Trong đó :

Xnor : Giá trị mới của dữ liệu Xin : Giá trị hiện hành của dữ liệu Xmin: Giá trị thấp nhất khi thu thập Xmax: Giá trị cao nhất khi thu thập

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn

3.2.3 Mô hình mạng Kohonen

Như đã trình bày ở đầu mục này mô hình mạng Kohonen bao gồm 2 lớp: lớp vào Kohonen và lớp ra Kohonen

Một phần của tài liệu (LUẬN văn THẠC sĩ) mạng nơ ron kohonen và ứng dụng phân loại sản phẩm (Trang 50)

Tải bản đầy đủ (PDF)

(74 trang)