2.1.408.
2.1.409. Hình 2.12: Mô hình M
2.2.3. Thu SOM
2.1.410. Xét một tập dữ liệu là các vectơ trong không gian n chiều:
2.1.411. V = [VbV2,..., vn]
2.1.412. Khởi tạo tham số thời gian t: t=0.
2.1.413. Bước 1: Khởi tạo véc tơ trọng số Wij cho mỗi потоп i trong mạng Kohonen.
2.1.414. Trước khi huấn luyện các giá trị ban đầu được đưa ra là các vectơ trọng số. SOM là không phụ thuộc nhiều đối với dữ liệu ban đầu (dữ liệu có thể bị thiếu), nhưng thuật toán SOM vẫn hội tụ nhanh. Dùng một trong ba thủ tục khởi tạo điển hình sau:
9
- Khởi tạo ngẫu nhiên, vectơ trọng số ban đầu được gán giá trị là các giá trị ngẫu nhiên đủ nhỏ.
- Khởi tạo ví dụ, vectơ trọng số ban đầu được gắn với các ví dụ ngẫu nhiên rút ra từ tập dữ liệu.
- Khởi tạo tuyến tính, vectơ trọng số ban đầu được gắn trong một không gian con tuyến tính bởi hai vectơ của tập dữ liệu ban đầu.
2.1.415. Bước 2: Lấy một mẫu huấn luyện X từ tập huấn luyện.
2.1.416. Bước 3: Tìm mẫu khóp tốt nhất (BMU) - phần tử noTon chiến thắng:
2.1.417.
- Duyệt tất cả các nút và tính khoảng cách Euclide giữa vector trọng số của mỗi nút và vector nhập hiện hành.
2.1.418. Công thức để tính khoảng cách Euclide được cho như sau:
2.1.419. (3.10)2.1.420. V: vector hiện hành. 2.1.420. V: vector hiện hành. 9 2.1.126. 2.1.127. H ình 2.13: Ph 2.1.128. chỉ
2.1.421. W: vector trọng số của phần tử được chọn.
- Nút có vector trọng số gần nhất vói giá trị của vector nhập sẽ được chọn là BMU. 9
2.1.422. Bước 4: Xây dựng các phần tử lân cận.
2.1.423. Các nơron lân cận tuỳ thuộc vào bán kính, được sắp xếp trong lưới theo hình chữ nhật hoặc hình lục giác, số các lân cận xác định trọng tâm của ma trận kết quả, có ảnh hưởng đến độ chính xác và khả năng sinh ma trận của SOM.
2.1.424.
- Đặc tính duy nhất của thuật toán Kohonen là vùng lân cận của BMU được xây dựng trên vector khoảng cách sẽ được co lại sau một số lần lặp nhất định. Điều này được thực hiện bằng cách co lại bán kính của vùng lân cận theo số lần lặp.
- Phép co sẽ được thực hiện theo hàm mũ nội suy sau:
2.1.425.
2.1.426. (t= 1,2,3...)
2.1.427. 2.1.428. 2.1.429.
2.1.430. ơ: bán kính lân cận của BMU tại thời điểm t.
2.1.431. GQ : bán kính lân cận của BMU tại thời điểm to.
2.1.432. X: hằng số thời gian, t: là bước lặp hiện tại.
- Giá trị của hằng số X phụ thuộc vào ơ và số lần lặp để chạy giải thuật, được tính theo công thức:
9
2.1.129.
2.1.130. Hình 2.14: Các vùng lân c
2.1.433. X = N/log (ơo)
(3.12)
2.1.434. N: so lần lặp để chạy giải thuật (số lần học).
2.1.435. a, X sẽ được
dùng để tính bán kính lân cận trong mỗi lầnlặp của giải
2.1.436. thuật.
- Khi bán kính lân cận đã được xác định, việc xác định các phần tử lân cận của BMU sẽ được thực hiện đon giản bằng cách duyệt tất cả các phần tử trong mạng để xem nó có nằm trong bán kính lân cận hay không
2.1.437. Bước 5: Hiệu
chỉnh trọng số của các phần tử lân cận - quátrình học
2.1.438. của giải thuật SOM.
2.1.439.Trọng số của phần tủ’ lân cận được xác định ở bước trên bao gồm cả
BMU sẽ được điều chỉnh để chúng có giá trị gần giống với giá trị của vector nhập hơn.Phần tử càng gần BMU thì trọng số của nó sẽcàng dễ bị thay đổi
2.1.440. nhiều hơn. Các vector trọng số sẽ được tính theo công thức:
2.1.441. W(Í+1)=W(Í)+ (t)L(t)(V(t) W(t))
(3.13)
2.1.442. 0: Hàm nội suy theo thời gian học, nó thể hiện sự tác động của khoảng cách đối với quá trình học và được tính theo công thức sau:
2.1.443.
2.1.444. dist: Khoảng cách từ một nơron đến nơron chiến thắng t: Bước lặp hiện tại
2.1.445. L: Tốc độ học (sẽ giảm dần theo số lần lặp)
- Biểu thức trên cho thấy trọng số của mỗi nút sau khi hiệu chỉnh chính
2.1.446. là giá trị trọng số cũ w của nó cộng thêm phần giá trịkhác biệt giữa trọng số 9 dỉst 0(f) (3.14 2 ơ- (t= 1,2,3...)
2.1.447. w và vector nhập V theo hệ số tốc độ học
- Hàm nội suy tốc độ học L (t) cho mỗi bước lặp được tính theo công thức sau: 9
2.1.448. t_ (t= 1,2,3...)
2.1.449. A] (3.15)
2.1.450. L0: giá trị khởi tạo ban đầu của tốc độ học.
- Càng tiến gần về điểm giữa thì tốc độ học càng giống vói hàm mũ nội suy của phép co. Tốc độ học sẽ được nội suy dần theo tốc độ học và giá trị của hàm sẽ tiến dần về không khi số lần lặp đạt tới những bước cuối cùng.
2.1.451. Bước 6: Vòng lặp.
- Tăng t, lấy mẫu học tiếp theo. Lặp lại bước 2 cho đến khi giải thuật tối ưu hoặc đạt đến số lần lặp xác định N cho trước.
2.1.452. Chú ý: Số lượng vector của tập huấn luyện là có giới hạn. Đe cho việc huấn luyện mạng đưa lại kết quả tốt nhất đòi hỏi số bước huấn luyện phải lớn, và nếu kích thước của tập huấn luyện là nhỏ thì những mẫu huấn luyện có thể được sử dụng lặp lại. những mẫu có thể được áp dụng đều đặn theo chu kì hoặc theo một trật tự hoán vị ngẫu nhiên.
2.1.453. Tr
- The U-matrix là phương thức được sử dụng phổ biến nhất để thể hiện khoảng cách giữa các nơron một cách trục quan. Phương thức này sử dụng khoảng cách giữa nơron như là một tiêu chuẩn để xác định ranh giới giữa các cụm dữ liệu. Nó chứa khoảng cách Euclid từ mỗi nơron trung tâm đến các lân cận của nó.
2.1.454.
2.1.455. Hình 2.15: ư- matrix bi
9
L(r) = Lj)
- Sau khi U-matrix được xác định thì sẽ được hiển thị dưới dạng lưới các hình lục giác như một công cụ trực quan mạng. Khoảng cách giữa các nơron cũng được hiển thị với những màu sắc khác nhau.
2.1.456. D
2.1.457. Xác định ranh giới giữa các cụm.
2.1.458. Cách dịch U-matrix như sau: Neu giá trị khoảng cách giữa các nơron lớn biểu thị cho những dữ liệu giống nhau (không cùng cụm) và ngược lại, giá trị bé biểu thị cho những dữ liệu giống nhau. Ta có thể tưởng tượng trong không gian 3 chiều, giá trị càng lớn thì độ cao càng lớn và do đó nó tạo thành những bức tường phân ranh giới, trong khi đó giá trị bé tạo thành những thung lũng (valley) bị bao quanh bởi những bức tường. Do đó, dữ liệu trong những thung lũng là được gộp nhóm cùng nhau và hiển thị một cụm. Khoảng cách giữa các nơron sau khi được tính, có thể được biểu thị với những màu khác nhau. Màu tối giữa các nơron biểu thị cho khoảng cách lớn, mầu sáng giữa các nơron biểu thị các giá trị nhập là gần nhau. Và do đó vùng màu sáng biểu thị dữ liệu cùng thuộc một cụm và vùng màu tối chính là ranh giới cách giữa các cụm. Việc hiển thị này giúp ta có một cái nhìn trực quan, đầy đủ, rõ ràng, chính xác về dữ liệu.
2.1.459. Xác định tính chất của từng cụm:
2.1.460. Việc xác định tính chất của từng cụm được thực hiện bằng vector trọng số của các nơron thuộc cụm đó. Sử dụng phương pháp của Sestilo và Dillon, 1997. Thành phần thứ k của vector trọng số phản ánh mức độ đóng góp của thành phần thứ k của vector nhập. Gọi (Wij 1, Wij2, ... Wijn) là vector trọng số tại nút ij trên lóp ra Kohonen.
2.1.461. Tìm Wijmax = max (Wij 1, Wij2...Wijn).
2.1.462. Các lóp vào k có I Wijmax - Wijkl < T với T là ngưỡng nằm trong khoảng tù’ 0 đến 1. Giá trị ngưỡng T phản ánh mức độ biến thiên quang trị Wijmax.
2.1.463. Thuật toán SOM với những ưu điểm của nó, đã trở thành công cụ có ích trong phân cụm dữ liệu. Đó là tạo ra hàm phân bố xác suất cho tập dữ liệu
bao lớp, dễ giải thích và quan trọng nhất là trực quan mạng tốt. Tùy theo vấn đề cần giải quyết, các chuyên gia phân cụm dữ liệu có thể chọn phương pháp khác nhau để phân tích dữ liệu đưa ra. Thế nhưng với phương pháp SOM có thể làm nhiều công việc cùng một lúc và cho ra kết quả tương đương với việc kết hợp nhiều phương pháp khác với nhau. Thuật toán SOM rất hiệu quả trong việc phân cụm và rứt gọn kích thước dữ liệu. Neu tích họp SOM với các phương pháp khác có thể sinh luật.
2.1.464. Trong phân cụm dữ liệu, có rất nhiều phương pháp quen thuộc ứng dụng nó như: Phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa theo mật độ, phân cụm vào lưới... Ví dụ trong phân cụm phân hoạch ta thường nhắc đến K- thành phần chính có nhiệm vụ tối thiểu khoảng cách trong cụm và cực đại khoảng cách giữa các cụm. Độ đo khoảng cách có thể căn cứ vào liên kết đơn hoặc liên kết đầy đủ. Hạn chế trong liên kết đó là các cụm dễ trở thành chuỗi dài do đó không điển hình cho dữ liệu. Mặt khác liên kết đẩy đủ đôi khi vượt quá giới hạn cho phép. Ý tưởng kết họp liên kết giữa liên kết đơn và liên kết đầy đủ có thể thực hiện được. Bằng cách gắn độ đo các điểm trong cụm với trọng số phù họp. Như vậy, độ đo vừa gắn được giá trị cho tất cả các điểm giống như khoảng cách vừa giữ được hình thái của cụm dữ liệu. Phương pháp SOM có thể hoàn toàn được dùng như một phép đo.
2.1.465. SOM là phương pháp phân cụm theo cách tiếp cận mạng потоп.Vectơ trọng số của ma trận SOM chính là trọng tâm cụm, việc phân cụm có thể cho kết quả tốt hơn bằng cách kết hợp các đơn vị trong ma trận để tạo thành các cụm lớn hơn.
2.1.466. Dùng SOM như một bước trung gian đế phân cụm, đó là cách tiếp cận gồm hai mức: lớp đầu tiên phân cụm tập dữ liệu, và sau đó phân cụm SOM. Với mỗi vectơ dữ liệu của tập dữ liệu ban lớp thuộc cùng một cụm có mẫu gần nó nhất. Một un điểm của cách tiếp cận này là giảm thời gian tính toán, điều này dễ dàng phân biệt được với các thuật toán phân cụm khác mà điển hình là cây phân cấp thậm chí với một lượng nhỏ các ví dụ bao lóp cũng trở nên nặng nề. Chính vì vậy cách tiếp cận này là hoàn toàn phù hợp cho việc phân cụm một tập các mẫu hon là
làm trực tiếp trên tập dữ liệu [4], [5].
2.2.4. M àỉ bi
2.1.467. Batch SOM
2.1.468. Batch SOM là một biến thể của SOM nhưng có tốc độ nhanh hơn kể và có ít tham số điều chỉnh hơn.
2.1.469. Mặc dù thuật toán là khác nhau nhưng về mặt kiến trúc của bản đồ thì lại tương tự nhau. Bản đồ phụ gồm có đơnvị bản đồ (map unit) được sắp xếp có thứ tự trên lưới. Thông thường lưới này có hình chữ nhật và 2 chiều và được dung để mô tả hình hóa dữ liệu.
2.1.470. Tree- structured SOM
2.1.471. Tree - Structured SOM là một phiên bản đặc biệt nhanh của SOM. Nó gồm tập các lóp (Layer), mỗi lóp là một mức lượng tử hoàn chỉnh của không gian dữ liệu. Sự khác biệt giữa các lớp là ở số lượng các mẫu tăng theo hàm mũ tương tụ’ như cây phát triển hướng xuống. Ví dụ, lóp đầu tiên chỉ có 4 vector mẫu, lóp thứ 2 là 16, lớp thứ 3 là 64.... Như vậy mỗi vector mẫu của một lớp có bốn lóp con trong lóp kế tiếp. Các lớp trên cùng được sử dụng trong việc huấn luyện lóp đi sau: Thay vì so sánh vector dữ liệu nhận được với tất cả các vector mẫu, giả sử của lóp 3, đầu tiên nó so sánh với cá mẫu có trong lóp thứ nhất, sau đó so sánh tiếp với các lóp con của lóp chiến thắng thứ nhất và các lân cận của lớp này, và cứ thế tiếp tục. Các kết quả tính toán số khoảng cách thì giảm một cách đáng kể, đặc biệt là trên các lớp thấp hơn. Ngoài ra, các lớp được thêm vào theo từng lớp vì vậy bản đồ dữ liệu sẽ được chi tiết dần lên.
2.1.472. MST-SOM
2.1.473. Trong mô hình MST-SOM, các mối quan hệ ỉân cận được xác định bằng cách dung cây cân bằng tối thiểu (MST - Minimal spanning Tree). MST định nghĩa một cách gắn gọn nhất có thế được tập liên kết của tập vector. Trong vector lượng tử hóa, MST-SOM nhanh và ổn định hơn SOM cơ bản. Hay nói cách khác, vị trí các mẫu trên một lưới có số chiều thấp là không được hoàn toàn xác định,
vì vậy việc mô tả cũng sẽ khó khăn hơn.
2.1.474. Neural Gass
2.1.475. Neural Gass cũng là một bien thể khác của SOM với các lân cận được xác định trong suốt quá trình huấn luyện. Các lân cận được xác định theo vị trí thứ tự của khoảng cách các vector mẫu từ tập huấn luyện giải thiết.
2.1.476. Growing Cell Structures
2.1.477. Trong thuật toán Growing Cell Structures, khả năng thích nghi đã được thực hiện từng bước sâu hơn. Thay cho việc phải có một số lượng cố định các vector mẫu, thuật toán chỉ bắt đầu với 2 và sau đó thêm vào các vector mẫu tùy thuộc vào tiêu chuẩn hàm báo lỗi. Các lân cận được xác định tại thời điếm một mẫu mới được thêm vào mạng và các vector mẫu cũng được xóa đi.
2.1.478. Các gi
2.1.479. Huấn luyện mạng neural theo mô hình song song hoặc thực hiện việc phân chia mạng theo số bộ xử lý (network portioning) hoặc thực hiện theo hướng phân chia dữ liệu đi qua bộ xử lý (data portioning). Trong mô hình network portioning mỗi bộ xử lý, hoặc mỗi tác vụ song song phải xử lý tất cả các bản ghi huấn luyện xử dụng phần mạng neural được gắt kết tương ứng với nó. Trong mô hình data portioning, mỗi bộ xử lý là một bản sao đầy đủ của mạng chỉ sử dụng các bản ghi được gửi đến cho nó.
2.2.5. M
2.1.480. Thuật toán SOM đã được sử dụng trong nhiều lĩnh vực khác nhau với nhiều ứng dụng, SOM đã khẳng định được các ưu điểm sau:
- SOM rất có hiệu quả trong quá trình phân tích điếm. Nó giúp cho người phân tích hiểu vấn đề hơn trên một tập dữ liệu tương đối lớn
- Xác định các cụm dữ liệu (ví dụ các nhóm điếm trung bình ) giúp cho việc tối ưu, phân nhóm số học sinh giỏi, khá và trung bình [4], [5].
2.1.481. III: GI ÀI TOÁN PHÂN c