Mạng Kohonen Som và ứng dụng phân cụm điểm học sinh THPT

72 425 2
Mạng Kohonen Som và ứng dụng phân cụm điểm học sinh THPT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐH CNTT VÀ TRUYỀN THÔNG HÀ THỊ THƢ MẠNG KOHONEN-SOM VÀ ỨNG DỤNG PHÂN CỤM ĐIỂM HỌC SINH THPT CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC HƢỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN TẢO THÁI NGUYÊN - 2012 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐH CNTT VÀ TRUYỀN THÔNG HÀ THỊ THƢ MẠNG KOHONEN-SOM VÀ ỨNG DỤNG PHÂN CỤM ĐIỂM HỌC SINH THPT CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC HƢỚNG DẪN KHOA HỌC TS NGUYỄN VĂN TẢO THÁI NGUYÊN - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan luận văn là công trình nghiên cứu của cá nhân tôi, không sao chép của ai. Nội dung lý thuyết trong luận văn có sự tham khảo và sử dụng của một số tài liệu, thông tin đƣợc đăng tải trên các tác phẩm, tạp chí và các trang web theo danh mục tài liệu của luận văn. Các số liệu, chƣơng trình phần mềm và những kết quả trong luận văn là trung thực và chƣa đƣợc công bố trong bất kỳ một công trình nào khác. Thái Nguyên, ngày 15 tháng 9 năm 2012 Học viên thực hiện HÀ THỊ THƢ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC CHƢƠNG 1: TỔNG QUAN VỀ MẠNG KOHONEN-SOM 1.1. Sơ lược về mạng neural 2 1.1.1. Lịch sử phát triển 2 1.1.2. Ứng dụng 3 1.1.3. Căn nguyên sinh học 4 1.2. Tổng quan về mạng Kohonen-SOM 5 1.2.1. Vecto Quantization – VQ 6 1.2.2. Lerning Vector Quantization – LVQ 6 1.2.3. Bản đ tự t chức – SOM 7 1.3. Cấu trúc mạng neural Kohonen 7 1.3.1. Mạng neural Kohonen 7 1.3.2. Cấu trúc của mạng neural Kohonen 8 1.4. Thực thi mạng neural Kohonen 12 1.5. Kết luận 13 2.1. Phân cụm dữ liệu: 14 2.1.1. Khái niệm: 14 2.1.2. Các bƣớc cơ bản trong phân cụm: 15 2.2. Những kỹ thuật tiếp cận trong phân cụm dữ liệu 15 2.2.1. Phƣơng pháp phân cụm phân hoạch 15 2.2.2. Phƣơng pháp phân cụm phân cấp 16 2.2.3. Phƣơng pháp phân cụm dựa trên mật độ 16 2.2.4. Phƣơng pháp phân cụm dựa trên lƣới 17 2.2.5. Phƣơng pháp phân cụm dựa trên mô hình 18 2.2.6. Phƣơng pháp phân cụm có dữ liệu ràng buộc 18 2.3. Một số thuật toán cơ bản trong phân cụm dữ liệu 19 2.3.1. Thuật toán phân cụm phân hoạch 19 2.3.2. Thuật toán phân cụm phân cấp 21 2.3.3. Thuật toán phân cụm dựa trên mật độ 23 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.3.4. Thuật toán phân cụm dựa trên lƣới 24 2.3.5. Các thuật toán phân cụm dựa trên mô hình 25 2.4. Dùng mạng neural trong phân cụm: 26 2.5. SOM –Bài toán phân cụm: 28 2.5.1. Thuật toán SOM: 28 2.5.2. Sử dụng SOM trong khai phá dữ liệu 31 2.5.3. SOM –Thách thức phân nhóm 36 2.5.4. SOM –Thách thức tốc độ giải thuật 37 2.5.5. SOM –Vấn đề số lƣợng nhóm 38 2.6. SOM –Giải quyết những vấn đề tồn tại khi phân cụm 38 2.6.1 Giải pháp phân cụm tự nhiên trong quá trình học 38 2.6.2 Mạng thu gọn và tăng tốc giải thuật 40 2.6.3 Giới hạn điều chỉnh số lƣợng nhóm trên mạng SOM 42 2.7. Đánh giá kết quả phân cụm 43 2.8. Kết luận : 46 3.1 . Mô tả bài toán 48 3.1.1. Dữ liệu vào: 48 3.1.2. Dữ liệu ra: 48 3.1.3.Quá trình cài đặt: 48 3.1.4. Mục đính- Yêu cầu 48 3.2. Phân tích thiết kế hệ thống cho ứng dụng 49 3.2.1. Xác định các tác nhân và các Use case 49 3.2.2. Biểu đ Use Case 50 3.3. Chương trình ứng dụng 54 3.3.1. Giao diện tng quan cho ứng dụng 54 3.3.2 Một số tính năng cho ứng dụng 54 3.3.2 Hƣớng dẫn sử dụng, chạy thử nghiệm 59 3.4. Kết luận 62 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC VIẾT TẮT CSDL KPDL FCM PCDL Cơ sở dữ liệu Khai phá dữ liệu Fuzzy C-Means Phân cụm dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH Hình 1.1 Cấu tạo tế bào neural………………………………………… 4 Hình 1.2 Giáo sƣ Kohonen và mạng neural………………………………… 6 Hình 1.3 Cấu trúc mạng Kohonen…………………………………………… 8 Hình 1.4 Những bức tƣờng trong Kohonen………………………………… 12 Hình 2.1 Các chiến lƣợc phân cụm phân phân cấp…………….…………… 16 Hình 2.2 Cấu trúc phân cấp……………………………………….………… 17 Hình 2.3 Các cách mà các cụm có thể đƣa ra………………………………. 18 Hình 2.4 Các thiết lập để xác định ranh giới các cụm ban đầu…………… 20 Hình 2.5 Tính toán trọng tâm của các cụm mới…………………………… 20 Hình 2.6 Khái quát thuật toán CURE……………………………………… 22 Hình 2.7 Các cụm dữ liệu đƣợc khám phá bởi CURE………………… 22 Hình 2.8 Hình dạng các cụm đƣợc khám phá bởi thuật toán DBSCAN……. 23 Hình 2.9 Đơn vị xử lý ganh đua SOM……………………………………… 28 Hình 2.10 Không gian ban đầu và SOM 29 Hình 2.11 BMU 31 Hình 2.12 Vecto chiến thắng liên tục đối với SOM 35 Hình 2.13 Định nghĩa một U-Matrix 36 Hình 2.14 U-Matrix của SOM 36 Hình 2.15 Quan hệ giữa 2 cụm………………………………………………. 44 Hình 3.1 Mô hình Use Case tng thể của bài toán 47 Hình 3.2 Biểu đ trình tự chọn CSDL 47 Hình 3.3 Biểu đ trình tự tạo và huấn luyện mạng neural………………… 48 Hình 3.4 Biểu đ trình tự tạo biểu đ theo nhóm…………………………… 48 Hình 3.5 Biểu đ trình tự phân cụm học sinh theo nhóm………………… 49 Hình 3.6 Biểu đ trình tự cấu hình mạng neural……………………………. 49 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 3.7 Biểu đ trình tự chọn loại biểu đ………………………………… 50 Hình 3.8 Biểu đ trình tự chọn và hiển thị biểu đ…………………………. 50 Hình 3.9 Giao diện chƣơng trình…………………………………………… 51 Hình 3.10 Tab hỗ trợ nhập và chọn dữ liệu………………………………… 52 Hình 3.11 Một số biểu đ trợ giúp dạng 3D…………………………………. 53 Hình 3.12 Một số biểu đ trợ giúp dạng 2D…………………………………. 54 Hình 3.13 Nhóm và cấu hình nhóm………………………………………… 55 Hình 3.14 Một phần dữ liệu và khả năng phân nhóm……………………… 56 Hình 3.15 Các phần của ứng dụng…………………………………………… 57 1 MỞ ĐẦU Sự phát triển mạnh mẽ của Công nghệ nói chung và Công nghệ thông tin nói riêng đã tạo nên nhiều hệ thống thông tin phục vụ việc tự động hoá mọi hoạt động kinh doanh cũng nhƣ quản lý trong xã hội. Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện đã giúp con ngƣời khai thác có hiệu quả các ngun tài nguyên dữ liệu lớn. Trong đó, khai phá dữ liệu (Data Mining) là quá trình chính trong phát hiện tri thức. Sử dụng các kỹ thuật và các khái niệm của các lĩnh vực đã đƣợc nghiên cứu từ trƣớc nhƣ học máy, nhận dạng, thống kê, hi quy, xếp loại, phân nhóm, đ thị, mạng nơron, mạng Bayes, đƣợc sử dụng để khai phá dữ liệu nhằm phát hiện ra các mẫu mới, tƣơng quan mới, các xu hƣớng có ý nghĩa. Luận văn với đề tài “Mạng Kohonen-SOM và ứng dụng phân cụm điểm học sinh THPT” khảo sát lĩnh vực KPDL dùng mạng nơron. Luận văn tập trung vào phƣơng pháp học mạng nơron không có giám sát, dùng thuật toán SOM để giải quyết bài toán phân cụm theo mô hình mạng nơron. Luận văn đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của TS. Nguyễn Văn Tảo. Tôi xin chân thành cảm ơn sâu sắc tới Thầy đã chỉ dẫn tận tình giúp tôi có thể hoàn thành bản luận văn này. Tôi cũng vô cùng cảm ơn sự giúp đỡ và động viên khích lệ của ngƣời thân trong gia đình tôi, bạn bè và các đng nghiệp trong trƣờng THPT Ngô Sĩ Liên trong suốt quá trình thực hiện luận văn. Bắc giang, ngày 15 tháng 9 năm 2012 Hà Thị Thƣ 2 CHƢƠNG 1 TỔNG QUAN VỀ MẠNG KOHONEN-SOM Chương này đề cập các vấn đề sau: 1.1. Sơ lược về mạng neural 1.2. Tổng quan về mạng KOHONEN-SOM 1.3. Cấu trúc của mạng neural KOHONEN 1.4. Thực thi của mạng neural KOHONEN 1.5. Kết luận 1.1. Sơ lƣợc về mạng neural 1.1.1. Lịch sử phát triển Mạng neural nhân tạo đƣợc xây dựng từ những năm 1940 nhằm mô phỏng một số chức năng của bộ não ngƣời. Dựa trên quan điểm cho rằng bộ não ngƣời là bộ điều khiển. Mạng neural nhân tạo đƣợc thiết kế tƣơng tự nhƣ neural sinh học sẽ có khả năng giải quyết hàng loạt các bài toán nhƣ tính toán tối ƣu , điều khiển, công nghệ robot… Dƣới đây là các mốc đáng chú ý trong lịch sử phát triển của mạng neural: - Giai đoạn 1: Có thể tính từ nghiên cứu của William (1890) về tâm lý học với sự liên kết các neural thần kinh. Năm 1940 Mc Culloch và Pitts đã cho biết neural có thể mô hình hoá nhƣ thiết bị ngƣỡng (Giới hạn) để thực hiện các phép tính logic và mô hình mạng neural của Mc Culloch – Pitts cùng với giải thuật huấn luyện mạng của Hebb ra đời năm 1943. - Giai đoạn 2: vào khoảng gần những năm 1960, một số mô hình neural hoàn thiện hơn đã đƣợc đƣa ra nhƣ: Mô hình Perceptron của Rosenblatt (1958), Adalile của Widrow (1962). Trong đó mô hình Perceptron rất đƣợc quan tâm vì nguyên lý đơn giản, nhƣng nó cũng có hạn chế vì nhƣ Marvin Minsky và Seymour papert của MIT (Massachurehs Insritute of Technology) đã chứng minh nó không dùng đƣợc cho các hàm logic phức (1969). Còn Adaline là mô hình tuyến tính, tự [...]... nghiên cứu để ứng dụng mạng neural vào các lĩnh vực nhƣ: Kỹ thuật tính, điều khiển, bài toán tối ƣu, y học, sinh học, thống kê, giao thông, hoá học, Cho đến nay mạng neural đã tìm và khẳng định đƣợc vị trí của mình trong rất nhiều ứng dụng khác nhau 1.1.2 Ứng dụng Kể từ khi ra đời và phát triển mạng neural đã đƣợc ứng dụng trong rất nhiều lĩnh vực Do vậy, liệt kê đƣợc tất cả các ứng dụng của mạng neural... trúc của mạng neural Kohonen Mạng Kohonen hai chiều gồm có 2 lớp đó là lớp vào và lớp ra Kohonen Lớp vào (Input layer): dùng để đƣa dữ liệu huấn luyện vào mạng Kohonen Kích thƣớc của lớp vào tƣơng ứng với kích thƣớc của mỗi mẫu học Trong mạng Kohonen hai chiều, các neural của lớp ra đƣợc sắp xếp trên một mảng 2 chiều, mảng này đƣợc gọi là lớp ra Kohonen Tất cả các neural của lớp vào đều đƣợc nối với... hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lí Phân cụm mờ: Sử đụng kỹ thuật mờ để PCDL Các thuật toán thuộc loại này chỉ ra lƣợc đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các mạng neural Mạng Kohonen có tầng neural vào và các tầng neural... luyện có thể chứa cả các phần tử dữ liệu đầu vào và dữ liệu đầu ra 1.5 Kết luận Trong chƣơng này, luận văn đã trình bày những nội dung chính chủ yếu về: sơ lƣợc mạng neural; mạng Kohonen - SOM Mạng Kohonen gồm 2 lớp: lớp vào và lớp ra Mối liên kết giữa lớp vào và lớp ra của chúng tƣơng ứng với trọng số Hơn nữa mạng Kohonen là một phƣơng pháp KPDL mạnh và có thể đạt đƣợc kết quả tốt hơn, hoàn hảo hơn... chính xác 13 CHƢƠNG 2 SOM VÀ PHÂN CỤM DỮ LIỆU -Chương này đề cập các vấn đề sau: 2.1 Phân cụm dữ liệu 2.2 Những kỹ thuật tiếp cận trong PCDL 2.3.Một số thuật toán cơ bản trong PCDL 2.4 Mạng neural trong phân cụm 2.5 SOM- Bài toán phân cụm 2.6 Giải quyết các vấn đề tồn tại khi phân cụm -2.1 Phân cụm dữ liệu: 2.1.1... một số ứng dụng điển hình của mạng neural nhƣ sau: - Xử lý ảnh, nhìn máy: Gồm trùng khớp ảnh, tiền xử lý ảnh, phân đoạn và phân tích ảnh, nén ảnh, - Xử lý tín hiệu: Phân tích tín hiệu địa chấn và hình thái học - Nhận dạng mẫu: Gồm việc tách các nét đặc biệt của mẫu, phân loại và phân tích tín hiệu của rada, nhận dạng và hiểu tiếng nói, nhận dạng vân tay, ký tự, chữ viết, 3 - Y học: Phân tích và hiểu... thuật toán phân cụm Hình 2.3:Các cách mà các cụm có thể đưa ra Hiện nay, các phƣơng pháp phân cụm trên đã và đang đƣợc phát triển các phƣơng pháp: 18 Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tƣơng tự để phân hoạch các đối tƣợng, nhƣng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số Phân cụm khái niệm: Kỹ thuật này đƣợc phát triển áp dụng cho... diễn bởi hàm chi phí hay một vài quy tắc khác và cũng phụ thuộc vào ngƣời lập trình Thuật toán phân cụm: Lựa chọn một thuật toán riêng biệt nhằm sáng tỏ cấu trúc phân cụm của tập dữ liệu Công nhận kết quả: Khi có kết quả phân cụm thì cần kiểm tra tính đúng đắn bằng cách đánh giá độ chính xác Giải thích kết quả: Phải kết hợp kết quả phân cụm với những bằng chứng thực nghiệm và phân tích để đƣa ra các kết... nhiều chiều mà phƣơng pháp phân phân cụm dựa trên mật độ không giải quyết đƣợc Ƣu điểm của phƣơng pháp phân cụm dựa trên lƣới là thời gian xử lí nhanh và độc lập với số đối tƣợng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lƣới Hình 2.2: Cấu trúc phân cấp 17 2.2.5 Phương pháp phân cụm dựa trên mô hình Phƣơng pháp phân cụm dựa trên mô hình cố... neural trên lớp ra Kohonen Mỗi liên kết giữa đầu vào và đầu ra của mạng Kohonen tƣơng ứng với một trọng số Kích thƣớc của mỗi vetor trọng số bằng kích thƣớc của lớp vào Ta có thể hình dung cấu trúc mạng Kohonen theo hình sau: Hình 1.3: Cấu trúc mạng Kohonen 8 Giải thuật huấn luyện mạng: Khởi tạo tham số thời gian t: t = 0 Bước 1: Khởi tạo vector trọng số Wij cho mỗi neural i trong mạng Kohonen Bước 2: . tài Mạng Kohonen- SOM và ứng dụng phân cụm điểm học sinh THPT khảo sát lĩnh vực KPDL dùng mạng nơron. Luận văn tập trung vào phƣơng pháp học mạng nơron không có giám sát, dùng thuật toán SOM. ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐH CNTT VÀ TRUYỀN THÔNG HÀ THỊ THƢ MẠNG KOHONEN- SOM VÀ ỨNG DỤNG PHÂN CỤM ĐIỂM HỌC SINH THPT CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH. trong phân cụm: 15 2.2. Những kỹ thuật tiếp cận trong phân cụm dữ liệu 15 2.2.1. Phƣơng pháp phân cụm phân hoạch 15 2.2.2. Phƣơng pháp phân cụm phân cấp 16 2.2.3. Phƣơng pháp phân cụm dựa

Ngày đăng: 15/11/2014, 22:25

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan