Nhƣ đã trình bày với tốc độ giải thuật của mạng SOM khi ứng dụng trên ảnh số mang lại những kết quả không thực tế. Kết quả cũng sẽ diễn ra tƣơng tự đối với các giải pháp PCDL trên các tập dữ liệu khác. Điều này đòi hỏi phƣơng pháp tăng tốc giải thuật tới mức chấp nhận đƣợc.
41
Mạng thu gọn : Qua quá trình nghiên cứu phƣơng pháp phân cụm trên ảnh số để phân loại một màu mạng SOM phải tiến hành tìm kiếm neural chiến thắng tƣơng ứng với màu đó. Nhƣ vậy để tăng tốc độ giải thuật phải tăng tốc quá trình tìm kiếm. Trên thực tế khi thực hiện quá trình huấn luyện và phân cụm nhóm nhƣ giải thuật đƣợc đề ra ở mục trƣớc thì các nhóm tự nó đã mang những đặc điểm riêng có, và quá trình phân nhóm dựa trên 4 nguyên tắc cơ bản để ra đã tạo lên những đặc trƣng nhóm, vì vậy khi huấn luyện xong trên thực tế chỉ còn lại một số lƣợng nhóm giới hạn tồn tại trên mạng SOM. Ta sẽ tiến hành trích chọn ra những nhóm đặc trƣng cơ bản trên mạng này tạo thành một mạng SOM rút gọn và sử dụng mạng này thay thế cho mạng SOM đã đƣợc huấn luyện.
Quá trình tiến hành tạo nhóm đƣợc thực hiện theo nguyên tắc duyệt lần lƣợt các neural trong mạng SOM đã đƣợc huấn luyện khi thấy một nhóm mới chƣa có trong mạng thu gọn thì thêm nhóm đó vào mạng thu gọn.
Theo những kết quả trên thực tế khi tiến hành thu gọn mạng thì mạng thu gọn có số lƣợng từ 45 tới 55 neural với mạng đầu vào ban đầu có kích thƣớc 30x30. Nhƣ vậy từ một số lƣợng 900 neural giảm xuống còn khoảng 50 neural điều này đồng nghĩa với thuật toán sẽ chạy nhanh hơn gấp khoảng 20 lần.
Nhƣ vậy ta dùng một mạng thu gọn là một ánh xạ đặc trƣng nhóm từ mạng gốc thể hiện đầy đủ các đặc trƣng nhóm nhƣng số lƣợng neural giảm xuống đáng kể. Đồng thời tắc động tới kết quả thu đƣợc là rất nhỏ.
Tăng tốc độ tìm kiếm
Giải pháp về mặt giải thuật
Quá trình tìm kiếm trên mạng thu gọn có thể tối ƣu tốc độ qua quá trình sắp xếp mạng và dùng giải thuật tìm kiếm nhị phân trên mạng đã đƣợc sắp xếp điều này làm thuật toán giảm xuống từ (n) xuống còn log(n). Đây là giải pháp hiệu quả cho quá trình tăng tốc giải thuật vì việc tìm kiếm BMU đƣợc thực hiện thƣờng xuyên trong mạng SOM. Tuy nhiên để thực hiện đƣợc tìm kiếm nhị phân trƣớc hết ta phải sắp xếp lại các nhóm theo thứ tự nhất định và đƣa ra phƣơng pháp so sánh giữa 2 nhóm. Việc so sánh 2 nhóm có thể dựa trên việc so sánh các trọng số đƣợc huấn luyện của từng nhóm và ta có thể vận dụng phƣơng pháp sắp xếp tƣơng tự nhƣ từ
42
điển, đây là một lĩnh vực không đòi hỏi giải thuật mới và ta hoàn toàn có thể ứng dụng những thành tựu đã có .
Giải pháp về mặt kĩ thuật
Xử lý ảnh đòi hỏi phải thực hiện trên toàn bộ bức ảnh và phải lặp qua toàn bộ các pixcel, và khi phân cụm một tập dữ liệu bất kì thì phải lặp trên tập dữ liệu đó. Về mặt giải thuật thì quá trình này là không thể tối ƣu hơn đƣợc nữa. Một giải pháp đề ra giải quyết vấn đề này là quá trình phân luồng tận dụng CUP tối đa cho quá trình xử lý. Và nhƣ vậy một tập dữ liệu sẽ đƣợc phân chia ra thành nhiều phần. Mỗi phần sẽ đƣợc xử lý bởi một luồng riêng biệt. Về bản chất là phân chia quá trình tìm kiếm neural chiến thắng thành nhiều luồng song song cùng tìm kiếm. Điều này sẽ giảm thời gian xử lý giải thuật trên tập dữ liệu định sẵn.
Với những thay đổi mang tính đột phá nhƣ vậy đã đƣa mạng SOM tới gần hơn cho việc ứng dụng trên thực tế và có thể mang lại những hiệu quả nhất định đối với việc phân cụm dữ liệu. Việc phát triển mạng SOM và tăng tính tối ƣu cho các quá trình vận hành mạng không chỉ là đòi hỏi riêng phải có ở mạng SOM mà trên toàn mạng neural nói chung. Vì đa phần các mạng neural đều có khoảng thời gian huấn luyện và vận hành tƣơng đối lớn. Điều đó yêu cầu rất nhiều tài nguyên cho sự vận hành thành công một mạng nhất định.
2.6.3 Giới hạn điều chỉnh số lượng nhóm trên mạng SOM
Để làm giảm số lƣợng nhóm trên mạng thì giải pháp chính là tìm cách thu gọn mạng hơn nữa. Đồng thời do tồn tại quá trình tự phân ly trên mạng khi huấn luyện theo nguyên tắc phân ly. Nhƣ vậy có thể thấy có 2 phƣơng pháp có thể dùng để điều chỉnh số lƣợng nhóm trong trƣờng hợp này một phƣơng pháp mang tính tự nhiên và một phƣơng pháp cố định nhóm.
Điều chỉnh tham số phân ly trong quá trình hình thành nhóm:
Khi các nhóm hình thành bán kính tác động và quá trình sinh nhóm mới phụ thuộc vào thám số phân ly. Tham số này lớn đồng nghĩa với việc một nhóm mới đƣợc hình thành trở lên khó khăn và ngƣợc lại một nhóm mới có thể dễ dàng
43
hình thành khi tham số phân ly là nhỏ. Và có thể thấy số lƣợng nhóm bị ảnh hƣởng rất lớn từ tham số này.
Quá trình sát nhập nhóm bắt buộc:
Sau quá trình huấn luyện khi số lƣợng nhóm đƣợc hình thành là cố định, khi đó phải thực hiện quá trình sát nhập nhóm bắt buộc làm giảm số lƣợng nhóm hiện tại. Qua nghiên cứu cho thấy từ nhóm các neural có đƣợc sau quá trình huấn luyện ta có thể lập đƣợc một ma trận khoảng cách giữa các nhóm. Đây thực chất là ma trận đƣợc tính theo hàm khoảng cách tƣơng tự nhƣ đối với các neural, vì vậy khi sát nhập nhóm thì 2 nhóm có khoảng cách gần nhau nhất tức là giá trị khoảng cách đạt nhỏ nhất (min) trên ma trận khoảng cách sẽ sát nhập với nhau. Khi sát nhập sẽ tạo ra nhóm mới mang đặc tính của 2 nhóm trƣớc đó. Về mặt bản chất thì đó chính là một nhóm mới có trọng số bằng trung bình cộng của 2 nhóm trƣớc đó. Tuy nhiên quá trình này là không tự nhiên và không khuyến khích thực hiện nhiều trên mạng.
2.7. Đánh giá kết quả phân cụm
Các hệ số Precision, Recall và F-measure đƣợc sử dụng để đánh giá kết quả phân cụm. Tôi so sánh kết quả phân cụm học sinh theo giải pháp đề xuất và so sánh với kết quả phân cụm học sinh bằng tay (do ngƣời làm). Kết qủa phân cụm học sinh bằng tay dựa trên các tiêu chí khác nhau do giáo viên thực hiện, trong đó mỗi tiêu chí là một cụm. Xét tập có n học sinh, sau khi phân cụm bằng tay ta có m cụm, và sau khi phân cụm bằng hệ thống phần mềm phân cụm học sinh có k cụm. Trong quá trình thử nghiệm ta có m≤ k. Để đánh giá kết quả của hệ thống, ta tiến hành xác định ba hệ số Precision, Recall và F-measure giữa hai cụm trong hai hệ thống.
44
Gọi a=|A|, b=|B| và c=|C|.Trong hình ?, cụm mi do con ngƣời tạo ra là AB gồm có a+b học sinh, cụm ki do hệ thống phân gồm là AC có a + c học sinh. Hai cụm trên có phần chung là A và gồm a học sinh. Hệ số Precision giữa hai cụm trên đƣợc ký hiệu là P (Precision) phản ánh độ chính xác của truy vấn và đƣợc tính bằng
công thức: a P a c
Hệ số Precision cho biết tỉ lệ giữa số học sinh đƣợc phân cụm đúng. Nếu P=1 thì các học sinh trong cụm ki nằm trong các học sinh của cụm mi. Hệ số Recall giữa hai cụm mi và ki đƣợc ký hiệu là R (recall) và đƣợc tính bằng công thức sau:
a R
a b
Nếu R =1 thì các học sinh trong cụm mi thuộc các học sinh nằm trong cụm ki . Có thể kết hợp hai hệ số Precision và Recall lại thành hệ số F-Measure. Hệ số F-Measure đƣợc tính bằng công thức: 1 1 1 (1 ) F P R
Giá trị α càng cao sẽ tác động mạnh đến hệ số Recall, ngƣợc lại giá trị α thấp sẽ tác động mạnh lên hệ số Presicion Thông thƣờng hệ số a trong công thức trên đƣợc chọn là 0.5. Khi đó công thức trên đƣợc viết lại:
0.5 2PR F P R
Brew C. [tên tác giả trong tài liệu 2 ở dƣới thêm vào phần tài liệu than khảo và chỉnh lại nhé] đề nghị cách đánh giá nhƣ sau: Tƣơng ứng với một cụm trong kết quả phân cụm của hệ thống ta đi tính giá trị của độ đo F-measure với tất cả các cụm đƣợc phân bằng tay. Chọn ra giá trị của F-measure cao nhất và loại cụm này ra. Tiếp tục công việc trên, cho các cụm còn lại. Tổng các giá trị F-measure càng cao thì hệ thống phân cụm càng chính xác. Tập kết quả thử nghiệm phân cụm có 500 học sinh thuộc về 5 tiêu chí khác nhau, mỗi tiêu chí có 100 học sinh. Kích
45
thƣớc lớp ra Kohonen là 8x8; Chu kỳ lặp max là 5000; Chu kỳ cập nhật bán kính vùng lân cận là 50.
Phương pháp phân cụm k-means
Kết quả: Phƣơng pháp phân cụm bằng tay: cho 5 cụm mỗi cụm có 100 học sinh. Phƣơng pháp phân cụm học sinh theo kmean. Số cụm thu đƣợc sau khi phân cụm là 8 cụm. Sử dụng các công thức trên để tính các hệ số Precision, Recall, F- measure. Ta có kết quả tính F-measure nhƣ trong bảng:
Ngƣời Máy Cụm 1 Cụm 2 Cụm 3 Cụm 4 Cụm 5 Cụm 1 0.33 0.21 0.26 0.12 0.15 Cụm 2 0.12 0.13 0.18 0.21 0.35 Cụm 3 0.21 0.16 0.29 0.19 0.16 Cụm 4 0.09 0.28 0.18 0.17 0.16 Cụm 5 0.25 0.22 0.09 0.31 0.18 Max 0.33 0.28 0.29 0.31 0.35
Kết quả tính F-measure giữa phân cụm bằng tay và phân cụm vector
Tổng Max cho phân cụm vector = 0.33+0.28+0.29+0.31+0.35= 1.56 Phƣơng pháp phân cụm sử dụng mạng noron SOM Kohonen
Số cụm học sinh thu đƣợc là 5 cụm. Tính giá trị của các hệ số giữa kết quả của phƣơng pháp phân cụm đồ thị và phƣơng pháp phân cụm bằng tay. Sử dụng các công thức trên để tính các hệ số Precision, Recall, F-measure. Ta có kết quả tính F- measure nhƣ trong bảng sau:
46 Ngƣời Máy Cụm 1 Cụm 2 Cụm 3 Cụm 4 Cụm 5 Cụm 1 0.12 0.14 0.39 0.22 0.25 Cụm 2 0.12 0.13 0.09 0.18 0.30 Cụm 3 0.23 0.13 0.25 0.31 0.06 Cụm 4 0.09 0.52 0.18 0.08 0.11 Cụm 5 0.44 0.08 0.09 0.11 0.23 Max 0.44 0.52 0.39 0.41 0.35
Kết quả tính F-measure giữa phân cụm bằng tay và phân cụm đồ thị nơron
Tổng Max cho phân cụm đồ thị = 0.44+0.52+0.39+0.41+0.35=2.11
Tôi cũng đã thử nghiệm với 5 tập mẫu ngẫu nhiên khác mỗi tập có 500 học sinh. Kết quả đƣợc nêu trong bảng sau:
Tập mẫu ngẫu nhiêu Tổng Max cho phân cụm Kmean
Tổng Max cho phân cụm nơron Tập mẫu 1 1.56 2.11 Tập mẫu 2 1.23 2.56 Tập mẫu 3 1.98 2.12 Tập mẫu 4 1.74 2.43 Tập mẫu 5 1.67 2.76
Kết quả thử nghiệm với các tập mẫu ngẫu nhiên
Nhận xét: Qua thử nghiệm và tính tổng giá trị lớn nhất của hệ số F- Measure cho nhiều tập mẫu khác nhau, tôi nhận thấy tổng giá trị lớn nhất của hệ số F-Measure của hệ thống phân cụm học sinh đƣợc thực hiện bởi mạng nơron lớn hơn nhiều so với hệ thống phân cụm học sinh bằng thuật toán Kmean. Điều này khuyến khích tôi tiếp tục phát triển phƣơng pháp phân cụm học sinh bằng mạng nơron thay thế cho các phƣơng pháp phân cụm khác với mục đích nâng cao chất lƣợng phân cụm.
2.8. Kết luận :
47
SOM. SOM là một kỹ thuật mạng neural truyền thẳng sử dụng thuật toán học không giám sát (học ganh đua) và qua một quá trình “tự tổ chức”. Sử dụng SOM trong khai phá dữ liệu nhƣ một bƣớc trung gian để giải quyết bài toán phân cụm dữ liệu. Mà trƣớc tiên là dùng SOM để phân cụm tập dữ liệu đầu vào, sau đó SOM thu đƣợc lại đƣợc phân cụm bằng phƣơng pháp phân cụm theo phân cấp hoặc phân cụm bộ phận.
So sánh SOM với một số phƣơng pháp phân cụm khác thấy rằng phƣơng pháp SOM có nhiều ƣu điểm nhƣ:
- Dữ liệu đầu vào có thế lớn, không hạn chế kích thƣớc của dữ liệu.
- Mô phỏng trực quan dữ liệu chính xác từ đó hiểu đƣợc cấu trúc của dữ liệu.
- Tiết kiệm đƣợc thời gian vì khi làm việc trên các mẫu thì nhanh hơn so với dữ liệu trực tiếp.
48
CHƢƠNG 3
ỨNG DỤNG MÔ HÌNH SOM TRONG PHÂN NHÓM HỌC SINH
---
Chương này đề cập các vấn đề sau: 3.1. Mô tả bài toán
3.2. Phân tích thiết kế cho ứng dụng 3.3. Chương trình ứng dụng
---
3.1 . Mô tả bài toán
3.1.1. Dữ liệu vào:
Dữ liệu vào cho bài toán đƣợc thu thập từ điểm thi học kỳ và thi tháng của trƣờng THPT Ngô Sĩ Liên và các cuộc thi của Sở Giáo dục – Đào tạo Bắc Giang. Cơ sở dữ liệu lƣu trữ điểm học sinh cho thấy cơ sở dữ liệu của con ngƣời trong bài toán quản lý điểm thƣờng là những file excel.
3.1.2. Dữ liệu ra:
Chƣơng trình ứng dụng những thành công đối với mạng SOM vào trong quá trình phân cụm học sinh, dựa vào những kết quả phân cụm do ứng dụng mang lại ngƣời quản lý sẽ có những định hƣớng cho các nhóm học sinh cũng nhƣ đánh giá đƣợc năng lực học tập hiện tại dựa trên tập cơ sở dữ liệu đƣa vào.
3.1.3.Quá trình cài đặt:
Quá trình cài đặt của thuật toán:
Ngôn ngữ sử dụng là Visual Studio 2008 hoặc net framework 3.5
Ngôn ngữ lập trình: C#
3.1.4. Mục đính- Yêu cầu
Với nội dung bài toán đƣợc phát biểu nhƣ trên có thể thấy ứng dụng sẽ đƣợc xây dựng sử dụng mạng neural cho quá trình phân cụm điểm học sinh với một tập dữ liệu đƣợc chọn. Ứng dụng các thành tựu có đƣợc trong quá trình nghiên cứu mạng SOM có thể giải quyết cho bài toán phân cụm điểm khi cấu hình trọng số mạng thay đổi phù hợp với bài toán. Mục đích chính đƣợc xác định khi xây dựng
49
ứng dụng là phải phân nhóm tập dữ liệu vào và phân chia học sinh thành các nhóm khác nhau để có thể đánh giá đƣợc sự khác nhau trong kết quả học tập. Bên cạnh đó để phù hợp hơn với mục đính cải thiện chất lƣợng quản lý khi phân cụm xong đòi hỏi phải có những phƣơng pháp trực quan nhóm giúp ngƣời quản lý có thể quan sát đƣợc dễ dàng những kết quả có đƣợc từ mạng. Vì con ngƣời thƣờng có nhận thức kém với tập các số học, mà kết quả của mạng sau quá trình phân cụm lại là một tập các nhóm cùng tập các trọng số của nó. Từ đó tạo ra yêu cầu trực quan hóa kết quả