Xác định các tác nhân và các Use case

Một phần của tài liệu Mạng Kohonen Som và ứng dụng phân cụm điểm học sinh THPT (Trang 57 - 72)

Tác nhân : Ngƣời dùng

Danh sách các Use Case : Để thực hiện đƣợc mục tiêu của bài toán qua quá trình khảo sát phân tích, thiết kế chƣơng trình xây dựng đƣợc các chức năng chính thể hiện nhƣ sau :

 Chọn cơ sở dữ liệu

 Tạo và huấn luyện mạng neural

 Tạo biểu đồ theo nhóm

 Phân cụm học sinh theo nhóm

 Cấu hình mạng neural

 Chọn loại biểu đồ

 Chọn và hiển thị biểu đồ

50

3.2.2. Biểu đồ Use Case

Hình 3.1: Mô hình Use Case tổng thể của bài toán

3.2.3. Biểu đồ trình tự cho từng Use Case

3.2.3.1. Chọn cơ sở dữ liệu

51

3.2.3.2. Tạo và huấn luyện mạng neural

Hình 3.3: Biểu đồ trình tự tạo và huấn luyện mạng neural. 3.2.3.3. Tạo biểu đồ theo nhóm

52

3.2.3.4. Phân cụm học sinh theo nhóm

Hình 3.5: Biểu đồ trình tự phân cụm học sinh theo nhóm. 3.2.3.5. Cấu hình mạng neural

53

3.2.3.6. Chọn loại biểu đồ

Hình 3.7: Biểu đồ trình tự chọn loại biểu đồ. 3.2.3.7. Chọn và hiển thị biểu đồ

54

3.3. Chƣơng trình ứng dụng

3.3.1. Giao diện tổng quan cho ứng dụng

Qua quá trình phân tích, thiết kế kết hợp với những thành tựu đã đạt đƣợc trong mạng neural ứng dụng ngôn ngữ lập trình Visual C# của Microsoft trong luận văn đã xây dựng một chƣơng trình tƣơng đối hoàn thiện giải quyết bài toán phân cụm dữ liệu điểm cho học sinh thỏa mãn những yêu cầu đã đề ra ban đầu. Sau đây là hình ảnh cho ứng dụng sau quá trình cài đặt và chạy thử nghiệm.

Hình 3.9: Giao diện chương trình

3.3.2 Một số tính năng cho ứng dụng

Khả năng đọc và chọn dữ liệu: đây là tính năng bắt buộc, để có thể vận dụng đƣợc thuật toán từ mạng neural thì trƣớc hết chƣơng trình phải có khả năng chọn, đọc dữ liệu excel và hiện thị dữ liệu trên giao diện. Tiếp đó là khả năng chọn các môn học cho quá trình phân cụm, khi đã phân cụm kết quả cuối cùng sẽ đƣợc hiển thị chi tiết. Để hỗ trợ cho quá trình chọn và phân cụm dữ liệu trong ứng dụng đã xây dựng một số thành phần hỗ trợ những nhiệm vụ này.

55 (adsbygoogle = window.adsbygoogle || []).push({});

Hình 3.10: Tab hỗ trợ nhập và chọn dữ liệu

Trên đây là 2 tab hỗ trợ khả năng chọn lựa tập dữ liệu đầu vào đồng thời hỗ trợ khả năng chọn các môn muốn phân cụm. Trong file excel có những trƣờng không phải là dữ liệu điềm mà đó là các nhãn thể hiện tên, thứ tự hoặc là số báo danh do vậy chức năng này cũng hỗ trợ việc phân biệt các trƣờng hợp này tránh cho việc phân cụm không cần thiết.

Khả năng kết xuất biểu đồ cho từng nhóm: đây là một tính năng đặc biệt hỗ trợ khả năng hiện thị kết quả một cách trực quan giúp ngƣời quản lý dễ dàng quan sát và đánh giá nhóm tốt hơn. Tính năng này thƣờng thấy trong các bài toán thống kê và việc phân cụm điểm là một bài toán đặc biệt cần có những biểu đồ hỗ trợ so sánh và đánh giá. Ứng dụng hỗ trợ ngƣời dùng nhiều loại biểu đồ khác nhau tùy theo những phƣơng pháp quan sát khác nhau trong đó gồm cả biểu đồ 3D và 2D và hỗ trợ hơn 20 loại biểu đồ khác nhau.

56

57

58

Khả năng phân cụm và kết xuất chi tiết: đây là tính năng cơ bản cho việc giải quyết bài toán phân cụm điểm. Chƣơng trình có khả năng phân cụm và chỉ ra cấu hình cũng nhƣ những học sinh có kết quả tƣơng đồng cùng một nhóm. Dựa vào SOM từ một tập dữ liệu ban đầu mạng sẽ tự học trong quá trình huấn luyện và tiến hành phân chia tập dữ liệu đầu vào thành các nhóm theo một quan hệ nào đó (quan hệ không định trƣớc và do mạng tự động đƣa ra sau quá trình học).

Hình 3.13: Nhóm và cấu hình nhóm

Từ dữ liệu đầu vào là một file excel chƣơng trình phân ra làm các nhóm học sinh khác nhau và ngƣời quản lý có thể dễ dàng đƣa ra phƣơng pháp tác động tới nhóm này nhằm đạt một hiệu quả nhất định nào đó.

59

Hình 3.14: Một phần dữ liệu và khả năng phân nhóm.

3.3.2 Hướng dẫn sử dụng, chạy thử nghiệm

Chƣơng trình đƣợc cài đặt trên ngôn ngữ lập trình Visual C# của Microsoft, chạy trên nền net framework 3.5, vì thế để có thể chạy đƣợc chƣơng trình cần tiến

60

hành cài đặt net framework 3.5 trở lên. Bên cạnh đó ứng dụng dành cho phân cụm dữ liệu trên các file excel do đó cần tiến hành cài đặt phần mềm Microsoft Office Excel để hỗ trợ khả năng truy suất trên dữ liệu. Các công cụ cơ bản đƣợc mô tả nhƣ sau:

Danh sách phân nhóm Khởi tạo mạng neural Hiển thị cấu hình nhóm Hiển thị biểu đồ

Hiển thị dữ liệu đầu vào Phân cụm dữ liệu

Khởi tạo biểu đồ

Hình 3.15: Các phần của ứng dụng

Tab chọn loại biểu đồ. Tab chọn file chứa dữ liệu.

61

Tab chọn nhóm sau phân cụm.

Tab chọn môn để phân cụm và nhãn tƣng ứng. Tab chọn biểu đồ để hiển thị.

Nhƣ kết quả thực nghiệm đã thấy ứng dụng có khả năng phân cụm dữ liệu trên tập sinh viên đầu vào và hiển thị chi tiết đặc tính cũng nhƣ danh sách các sinh viên thuộc nhóm đó. Vậy thao tác nhƣ thế nào để có đƣợc kết quả nhƣ vậy trên phần mềm ứng dụng, sau đây là các bƣớc cơ bản của quá trình sử dụng.

Bƣớc 1: Chọn cơ sở dữ liệu.

Để chọn cơ sở dữ liệu có thể dùng tab Group hỗ trợ trên giao diện hoặc chọn tab home\Open. Với tab Group hỗ trợ chỉ chọn đƣợc những file đúng định dạng excel.

Bƣớc 2: Chọn môn cần phân cụm và nhãn cho đối tƣợng phân cụm.

Trong tab Properties giúp việc chọn môn để phân cụm phía bên trái và nhãn để phân cụm phía bên phải.

Bƣớc 3: Khởi tạo mạng neural và tiến hành phân cụm.

Click vào button Create có trên giao diện thực hiện quá trình khởi tạo huấn luyện, phân nhóm trong mạng neural. (adsbygoogle = window.adsbygoogle || []).push({});

Bƣớc 4: Khởi tạo biểu đồ cho các nhóm.

Click vào button Chart trên giao diện khởi tạo một luồng mới vẽ biểu đồ cho các nhóm đã đƣợc phân cụm sau bƣớc 3, trong đó có một biểu đồ tổng quát. Có thể cấu hình loại biểu đồ trong tab Control phía bên phải đƣợc ẩn đi.

Bƣớc 5: Phân chia dữ liệu thành các nhóm và quan sát kết quả.

Click vào button Split trên giao diện thực hiện quá trình phân nhóm cho dữ liệu đƣợc chọn ban đầu. Có thể quan sát cấu hình, danh sách và các đặc trƣng khác của các nhóm trên giao diện.

Chƣơng trình ứng dụng những thành công đối với mạng SOM vào trong quá trình phân cụm học sinh, dựa vào những kết quả phân cụm do ứng dụng mang lại ngƣời quản lý sẽ có những định hƣớng để cải thiện chất lƣợng học cho các nhóm

62

học sinh cũng nhƣ đánh giá đƣợc năng lực học tập hiện tại dựa trên tập cơ sở dữ liệu đƣa vào.

3.4. Kết luận

Mạng neural là một lĩnh vực nghiên cứu tƣơng đối rộng và đòi hỏi nhiều công sức và lỗ lực trong quá tình nghiên cứu. Bên cạnh đó việc cài đặt và ứng dụng mạng neural gặp nhiều khó khăn do độ phức tạp tƣơng đối cao của giải thuật. Vì lí do đó trong luận văn chỉ hƣớng tới một mạng neural dùng để phân cụm dữ liệu là mạng SOM để nghiên cứu và phát triển.Thực tế đã chứng minh mạng SOM có rất nhiều ứng dụng và việc nghiên cứu khai thác mạng này sẽ đem lại nhiều kết quả thực tiễn.

Việc nghiên cứu mạng SOM bắt đầu từ quá trình phát triển lý thuyết mạng neural và đem lại những hiểu biết về mạng neural nhân tạo. Trong nội dung luận văn đã trình bày những hiểu biết chung nhất về mạng, đồng thời cho ngƣời đọc có đƣợc những quan niệm chung nhất về lĩnh vực khoa học còn nhiều mới mẻ này. Bên cạnh đó quá trình phát triển về mặt nền tảng lý thuyết cũng đã đem lại những thành công nhất định. Cụ thể trong nội dung báo cáo đã đề xuất một số phƣơng pháp cải tiến trên mạng SOM, những phƣơng pháp phân nhóm mới hiệu quả hơn, phƣơng pháp khởi tạo mạng thu gọn… Và những cải tiến này đã đem lại những hiệu quả nhất định cho quá trình xử lý mạng neural và ứng dụng thực tế của chúng. Ứng dụng phân biệt màu và phân cụm điểm là những ví dụ đƣợc sử dụng minh họa cho khả năng ứng dụng của mạng neural.

Những kết quả mà luận văn đã thực hiện:

+ Về lý thuyết, luận văn tập trung tìm hiểu các kỹ thuật phân loại, phân cụm truyền thống. Tìm hiểu mạng neural cụ thể là mạng Kohonen-SOM để phân cụm dữ liệu.

+ Về thực tiễn, luận văn đã đƣa ra các kết quả cài đặt thử nghiệm trên bộ dữ liệu bao gồm các kết quả phân loại, phân nhóm.

Qua quá trình thực nghiệm và nghiên cứu lý thuyết có thể đƣa ra một số kết luận nhƣ sau:

63

• Mỗi một giải thuật phân cụm áp dụng cho một số mục tiêu và kiểu dữ liệu nhất định.

• Mỗi giải thuật có một mức độ chính xác riêng và khả năng thực hiện trên từng kích thƣớc dữ liệu là khác nhau. Điều này còn tuỳ thuộc vào cách thức tổ chức dữ liệu ở bộ nhớ chính, bộ nhớ ngoài... của các giải thuật.

• Khai phá dữ liệu sẽ hiệu quả hơn khi bƣớc tiền xử lý, lựa chọn thuộc tính, mô hình đƣợc giải quyết tốt.

Với những gì mà luận văn đã thực hiện, các hƣớng phát triển sau này của luận văn nhƣ sau:

• Độ chính xác phân lớp, phân cụm phụ thuộc vào nhiều yếu tố nhƣ chất lƣợng dữ liệu, thuật toán cài đặt, phƣơng pháp tính độ tƣơng đồng của các đối tƣợng dữ liệu. Ngoài ra, các giá trị khuyết hay các thuộc tính dƣ thừa cũng phần nào làm ảnh hƣởng đến chúng. Vì vậy hƣớng phát triển sau này là xử lý các giá trị khuyết, phát hiện và loại bỏ các thuộc tính dƣ thừa, cải tiến phƣơng pháp tính độ tƣơng đồng,... nhằm nâng cao chất lƣợng và tốc độ phân lớp, phân cụm.

• Sau khi phân cụm theo nhóm học sinh đã có sự tƣơng đồng về điểm có thể phối hợp với các chuyên gia để đƣa đến định hƣớng nghề nghiệp cho học sinh THPT.

• Tiến hành cài đặt và tiếp tục nghiên cứu nhiều kỹ thuật khai phá dữ liệu hơn nữa, đặc biệt là triển khai giải quyết các bài toán cụ thể trong thực tế.

Trong quá trình thực hiện đồ án rất mong đƣợc sự đóng góp chỉ bảo của các thầy, cô giáo. Em xin trân thành cảm ơn sự ủng hộ và góp ý của các thầy cô, đặc biệt là thầy Nguyễn Văn Tảo đã có những hƣớng dẫn chiến lƣơc cho quá trình nghiên cứu và thực hiện luận văn.

64

TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT

[1]. Nguyễn Đình Thúc (2000), Trí tuệ nhân tạo Mạng nơron phương pháp & ứng dụng, Nhà xuất bản Giáo Dục.

[2]. Trần Đức Minh (2002), Mạng nơron truyền thẳng và thuật toán lan truyền ngược, Luận văn Thạc sĩ cao học, Khoa Công nghệ, Trƣờng Đại học Quốc gia Hà Nội.

[3]. An Hồng Sơn (2008), Nghiên cứu một số phƣơng pháp phân cụm mờ và ứng dụng. Luận văn Thạc sĩ cao học, Trƣờng Đại học công nghệ thông tin và Truyền thông, Đại học Thái nguyên.

[4]. Ngô Quốc Tạo, “Bài giảng môn Data Mining”, Lớp CHK9 - Trƣờng Đại học công nghệ thông tin và Truyền thông, Đại học Thái nguyên 2010-2012.

TÀI LIỆU TIẾNG ANH (adsbygoogle = window.adsbygoogle || []).push({});

[5] M. A. Kraaijveldd, J. Mao, and A. K. Jain, “A nonlinear projection method based on kohonen’s topology preserving maps”, IEEE Transactions on Neural Networks, 6(3):548-559, 1995.

[6] Merja Oja, Samuel Kaski, and Teuvo Kohonen, “Bibliography of Self- Organizing Map (SOM) Papers”, 1998-2001 Addendum, Neural Computing Surveys

(3), pp.1-156, 2003.

[8] Juha Vesanto, “Data Mining techniques based on the Self-Organizing Map”,

Thesis for the degree of Master in Engineering, Helsinki University of Technology, 1997.

[9] Jari Kangas and Teuvo Kohonen, “Developments and Application of the Self- Organizing Map and Related Algorithms”, Mathematics and Computers in Simulation, 1996.

[10] Teuvo Kohonen, “Self-Organizing Maps”, Springer,3rd Edition, 2001.

[11] Juha Vesanto, “Using SOM in Data Mining”, Licentiate’s thesis, Helsinki University of Technology, 2000.

Một phần của tài liệu Mạng Kohonen Som và ứng dụng phân cụm điểm học sinh THPT (Trang 57 - 72)