Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 98 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
98
Dung lượng
287,51 KB
Nội dung
Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2 r m> ụ? ễ H X 5 LÊ SƠN THẢO MẠNG Nơ RON ỨNG DỤNG CHO PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH, SINH VIÊN TRƯỜNG CAO ĐẲNG NGHÈ LỜI CẢM ƠN HÀ NỘI, 2014 p > •o o Đầu tiên tôi xin gửi lời cảm ơn chân thành đến thầy PGS.TS Lê Bá Dũng - Viện Công nghệ thông tin - Viện khoa học và công nghệ Việt Nam đã tận tình hướng dẫn, chỉ bảo cho tôi trong suốt quá trình tôi làm luận văn. Tôi cũng xin gửi lời cảm ơn đến các thầy cô trường Đại học sư phạm Hà Nội 2, các thầy cô Viện Công nghệ thông tin - Viện khoa học và công nghệ Việt Nam đã truyền đạt những kiến thức và giúp đỡ tôi trong suốt quá trình học của mình. Tôi cũng xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn bè những người đã động viên tạo mọi điều kiện giúp đỡ tôi trong suốt hai năm học. LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung trong luận văn này do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện, đây là công trình nghiên cứu của tôi dưới sự hướng dẫn khoa học của thầy PGS.TS Lê Bá Dũng. Các số liệu, kết quả trong luận văn là trung thực, rõ ràng. Trong luận văn tôi có sử dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo. Tôi xin chịu trách nhiệm với những nội dung được viết trong luận văn này Hà Nội, ngày 16 tháng 12 năm 2014 Người viết luận văn Lê Sơn Thảo 2 HÀ NỘI, 2014 MUC LUC • • • DANH MUC CAC KIHIEU, CHU* CAI VIET TAT • • * 7 • SOM (Self Organizing Maps) • Mang noron tu t6 chuc • PE (Processing element) • Phan tu: xu ly • U-matrix (unified distance matrix) • Ma tran thong nhat khoang cach • EM (Expectation maximization) • Thuat toan toi da hoa • MST (Minimum spanning tree) • Thuat toan t6i thilu cay ma rong • BMU (Best - Matching unit) • Dan vi phu hgfp nhat • DBSCAN (Density Based Spatial Clustering of Applications with Noise) • Phan cum dir lieu dua tren khong gian mat do ling dung vai nhilu • • DANH MUC CÁC HÌNH VẼ • • • • • MỞ ĐẦU 1. Lý do chọn đề tài • Ngày nay, cùng với sự phát triển của mô hình dữ liệu, chúng ta ngày càng có nhiều kho dữ liệu với lượng dữ liệu rất lớn. Để khai thác có hiệu quả những dữ liệu khổng lồ này, đòi hỏi chúng ta (những người sử dụng) phải biết khai thác và chọn lọc dữ liệu có ích cho mình. Đó cũng chính là lý do mà Data Mining (DM) ra đời và đã được áp dụng trong thực tế theo nhiều hướng quan trọng và một trong các hướng đó là phân cụm dữ liệu (Data Clustering). • Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không 3 tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy. • Hiện nay, có rất nhiều các phương pháp phân cụm dữ liệu đã và đang được phát triển và áp dụng trong các lĩnh vực khác nhau, bao gồm: nhận dạng, phân tích dữ liệu, nghiên cứu thị trường, xử lý ảnh, Các phương pháp phân cụm đó như phương pháp phân cụ thống kê, phân cụm khái niệm, phân cụm mờ, phân cụm sử dụng mạng Kohonen. Trong số này, mạng Kohonen (hay còn gọi là Self-Organizing Maps viết tắt là: SOMs) là một giải thuật được phát triển bởi Giáo sư Teuvo Kohonen, nó có thể được áp dụng cho nhiều lớp bài toán khác nhau như dự báo thông tin thị trường, thòi tiết, phụ tải điện nó giúp giảm số chiều (kích thước) của dữ liệu, qua đó giúp chúng ta hiểu được dữ liệu có kích thuớc lớn đó. Một trong những khía cạnh thú vị nhất đó là: Kohonen là một dạng của thuật toán học để phân loại dữ liệu huấn luyện mà không cần bất cứ sự giám sát bên ngoài nào - học không giám sát và rất hiệu quả trong việc phân cụm và rút gọn kích thước dữ liệu. • Trong nhiều biện pháp để cải cách, nâng cao chất lượng giáo dục phải kể đến vai trò của công nghệ thông tin. Công nghệ thông tin đã được ứng dụng để hỗ trợ các công tác giảng dạy, kiểm tra đánh giá, quản lý dữ liệu học tập, thống kê, báo cáo, • Việc phân tích, đánh giá, phân loại kết quả học tập của học sinh, sinh viên có ý nghĩa quan trọng trong công tác quản lý, giúp ta có thể thấy được toàn cảnh về các môn học trong chương trình, từ đó có sự đánh giá đúng đắn về tính chất môn học và khả năng nhận thức của người học, từ đó có biện pháp tác động phù họp để cải thiện chất lượng dạy và học. Ngoài ra, việc phân cụm cũng có thể giúp thấy được khả năng học tập của mỗi Học sinh, Sinh viên với từng môn học, từ đó có biện pháp áp dụng phương pháp dạy học cá biệt hóa thích họp, dựa trên kết quả phân cụm này cũng có thể giúp người học có định hướng phù họp cho quá trình học tập tiếp theo. 4 • Chính vì lý do đó tác giả chọn đề tài “Mạng Nơ ron ứng dụng cho phân tích, đánh giá kết quả học tập của Học sinh, Sinh viên trong trường Cao đẳng nghề”. 2. Mục đích nghiên cứu - Hiểu rõ các khái niệm, các thuật toán liên quan đến phân cụm dữ liệu, hình thành luật từ các cụm đã được phân. - Dựa ừên kiến thức đã nghiên cứu, thiết kế mạng nơron Kohonen ứng dụng để phân tích, đánh giá kết quả học tập của Học sinh, Sinh viên trong trường Cao đẳng nghề Cơ khí nông nghiệp, từ đó có những nhận xét và các biện pháp tác động phù hợp để cải thiện chất lượng dạy và học. 3. Nhiệm vụ nghiên cứu - Nghiên cứu lý thuyết về mạng nơron Kohonen, các giải pháp kết hợp giữa mạng nơron Kohonen SOM với logic mờ, giải thuật di truyền để nâng cao hiệu quả và tốc độ hội tụ của mạng. - Thiết kế mô hình mạng nơron Kohonen’s SOM phục vụ cho việc phân tích, đánh giá kết quả học tập của Học sinh, Sinh viên trong trường Cao đẳng nghề. Từ đó đưa ra những nhận xét, biện pháp dựa trên những phân tích từ việc phân cụm môn học, phân nhóm các Học sinh, Sinh viên theo kết quả học tập và khả năng học để từ đó có những định hướng và các biện pháp tác động phù họp để cải thiện chất lượng dạy và học. 4. Đối tượng và phạm vỉ nghiên cứu - Đối tượng nghiên cứu là lớp bài toán phân tích, đánh giá kết quả học tập của Học sinh, Sinh viên sử dụng mạng nơron nhân tạo truyền thẳng huấn luyện bằng thuật toán lan truyền ngược. 5 - Phạm vi nghiên cứu là lý thuyết ứng dụng mạng Nơ ron nhân tạo cho bài toán phân tích, đánh giá kết quả học tập của Học sinh, Sinh viên trong trường Cao đẳng nghề. 5. Giả thuyết khoa học - Phát hiện những yêu cầu và thách thức trong thực tế đối với vấn đề phân tích, đánh giá được kết quả học tập của học sinh, sinh viên. - Cài đặt và thử nghiệm đánh giá kết quả học tập của Học sinh, Sinh viên sử dụng mạng nơron nhân tạo truyền thẳng huấn luyện bằng thuật toán lan truyền ngược. 6. Phương pháp nghiên cứu - Phương pháp nghiên cứu chính là tìm hiểu các tài liệu bài báo viết về mạng SOM và sử dụng công cụ SOM Toolbox để huấn luyện mạng SOM phân cụm các trường đại học, cao đẳng của Việt Nam từ đó đưa ra những nhận xét, đánh giá, tư vấn cho học sinh đăng kí dự thi vào các trường. - Tìm hiểu và phát hiện các vấn đề ừong thực tế, từ đó đưa ra so sánh, đánh giá và các giải pháp khắc phục • Chưong 1 • GIỚI THIỆU VÈ MẠNG NƠRON NHÂN TẠO • • • • Học máy là một ngành khoa học nghiên cứu các THUẬT TOÁN cho phép máy tính có thể học được các khái niệm. • Phân loại: Có hai loại phương pháp học máy chính - Phương pháp quy nap: Máy học/phân biệt các khái niệm dựa trên dữ liệu đã thu thập được trước đó. Phương pháp này cho phép tận dụng được nguồn dữ liệu rất nhiều và sẵn có. - Phương pháp suy diễn: Máy học/phân biệt các khái niệm dựa vào các luật. Phương pháp này cho phép tận dụng được các kiến thức chuyên ngành để hỗ trợ máy tính. 6 • Hiện nay, các thuật toán đều cố gắng tận dụng được ưu điểm của hai phương pháp này. • Các ngành khoa học liên quan: - LỶ thuyết thống kê: các kết quả ừong xác suất thống kê là tiền đề cho rất nhiều phương pháp học máy. Đặc biệt, lý thuyết thống kê cho phép ước lượng sai số của các phương pháp học máy. - Các phương pháp tính: các thuật toán học máy thường sử dụng các tính toán số thực/số nguyên trên dữ liệu rất lớn. Trong đó, các bài toán như: tối ưu có/không ràng buộc, giải phương trình tuyến tính v.v được sử dụng rất phổ biến. - Khoa hoc máv tính: là cơ sở để thiết kế các thuật toán, đồng thời đánh giá thời gian chạy, bộ nhớ của các thuật toán học máy. • ứng dụng: HỌC MÁY có ứng dụng rộng khắp trong các ngành khoa học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ. Một số ứng dụng thường thấy như: - Xử lý ngôn ngữ tự nhiên: xử lý văn bản, giao tiếp người - máy, - Nhận dạng: nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy • (Computer Vision) - Tìm kiếm - Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chần đoán tự động. - Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein - Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt - Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tỉn dụng - Phân tích thị trường chứng khoán (stock market analysis) - Chơi trò chơi: tự động chơi cờ, hành động của các nhân vật ảo - Rôbốt: là tổng họp của rất nhiều ngành khoa học, trong đó HỌC MÁY tạo nên hệ thần kinh/bộ não của người máy. 7 - Các nhóm giải thuật học máy: Học có giám sát, học không giám sát, học nửa giám sát, học tăng cường, 1.1 Cấu trúc và mô hình mạng noron 1.1.1 Mô hình môt nơron sinh hoc • ■ • • Phần tử xử lý cơ bản của một mạng nơron sinh học là một nơron, phần tử này có thể chia làm bốn thành phần cơ bản như sau: dendrites, soma, axon, và synapses. - Dendrites: Là phần nhận tín hiệu đầu vào. - Soma: Là hạt nhân. - Axon: Là phần dẫn ra tín hiệu xử lý. - Synapses: Là đường tín hiệu điện hóa giao tiếp giữa các nơron. • Kiến trúc cơ sở này của bộ não con người có một vài đặc tính chung. • Một cách tổng quát, thì một nơron sinh học nhận đầu vào từ các nguồn khác nhau, kết họp chúng tại với nhau, thực thi tổ họp phi tuyến chúng để cho ra kết quả cuối cùng ở đầu ra. Hình 1.1 chỉ ra mối quan hệ giữa bốn phần tử của một nơron sinh học. • • Hình LI Một nơron sinh học Một nơron sinh học chỉ có một số chức năng cơ bản như vậy, ta nhận • thấy khả năng xử lý thông tin của nó là rất yếu. Để có được khả năng xử lý 8 • • thông tin hoàn hảo như bộ não con người, thì các nơron phải kết hợp và trao • đổi thông tin với nhau. Ta hình dung sơ đồ liên kết, và ưao đổi thông tin giữa • hai nơron như hình 1.2. • • Hình 1.2. Sự liên kết các nơron 1.1.2 Cấu trúc và mô hình của một nơron nhân tạo • Mô hình toán học của mạng nơron sinh học được đề xuất bởi • McCulloch và Pitts, thường được gọi là nơron M-P, ngoài ra nó còn được gọi • là phần tử xử lý và được ký hiệu là PE (Processing Element). • Mô hình nơron có m đầu vào Xi, X2, X m , và một đầu ra yi như sau: • 9 • • • Đầu vào Trọng số liẽnkểt Ыgưỡng • Hình 1.3 Mô hình một nơron nhân tạo • Giải thích các thành phần cơ bản: - Tập các đầu vào: Là các tín hiệu vào của nơron, các tín hiệu này thường được đưa vào dưới dạng một vector m chiều. - Tập các liên kết (các trọng số): Mỗi liên kết được thể hiện bởi một trọng số (thường được gọi là ừọng số liên kết). Trọng số liên kết giữa tín hiệu vào thứ j cho nơron i thường được ký hiệu là Wij. Thông thường các trọng số này được khởi tạo ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng. - Bộ tổng (Hàm tổng): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó. - Ngưỡng: Ngưỡng này thường được đưa vào như một thành phần của hàm truyền. - Hàm truyền: Hàm này dùng để giới hạn phạm vi đầu ra của mỗi nơron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho. Thông thường, phạm vi đầu ra của mỗi nơron được giới hạn trong đoạn [0,1] hoặc [- 1,1]. Các hàm truyền rất đa dạng, có thể là các hàm tuyến tính hoặc phi tuyến. Việc lựa chọn hàm truyền tùy thuộc vào từng bài toán và kinh nghiệm của người thiết kế mạng. - Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa một đầu ra. 1 0 [...]... có tên là n ron nội hay n ron ản Đầu ra của các n ron này được đưa đến 2 n ron đưa tín hiệu ra môi trường bên ngoài Các n ron trong lớp đầu ra này được gọi là n ron đầu ra • • Lóp vào Lớp ra Lơp ẩn • • • • Hình 1.5 Mạng n ron ba lớp Mạng n ron được xây dựng như trên là mạng gồm 3 lớp mắc nối tiếp nhau đi từ đầu vào đến đầu ra Trong mạng không tồn tại bất kỳ một mạch hồi tiếp nào Một mạng n ron có cấu... mạng mà đàu ra của mỗi n ron được quay trở lại nối với đầu vào của các n ron cùng lớp được gọi là mạng Laeral như hình 1.6b 1.2. 4Mạng n ron hồi quy • Mạng n ron phản hồi có thể thực hiện đóng vòng được gọi là mạng n ron hồi quy như hình 1.6d Mạng n ron hồi quy có trọng số liên kết đối xứng như mạng Hopfield, mạng luôn hội tụ về ừạng thái ổn định (Hình 1.6.b) Mạng ВАМ thuộc nhóm mạng n ron hồi quy, gồm... của mạng n ron • Dựa trên những phương pháp xây dựng n ron đã trình bày ở mục trên, ta có thể hình dung mạng n ron như là một hệ truyền đạt và xử lý tín hiệu Đặc tính truyền đạt của n ron phần lớn là đặc tính truyền đạt tĩnh • Khi liên kết các đầu vào/га của nhiều n ron với nhau, ta thu được một mạng n ron, việc ghép nối các n ron trong mạng với nhau có thể là theo một nguyên tắc bất kỳ Vì mạng n ron. .. tử n ron Mạng có ba đầu vào là Xi, X2, Хз và hai đầu ra Уь У2 Các tín hiệu đầu vào được đưa đến 3 noron đầu vào, 3 n ron này làm thành lớp đầu vào của mạng Các n ron trong lóp này được gọi là n ron đầu vào Đầu ra của các n ron này được đưa đến đầu vào của 3 n ron tiếp theo, 3 n ron này không trực tiếp tiếp xúc với môi trường bên ngoài mà làm thành lớp ần, hay còn gọi là lớp trung gian Các nơrontrong... thể phân biệt các loại noron khác nhau, các noron có đầu vào nhạn thông tín từ môi trường bên ngoài khác với các n ron có đầu vào được nối với các n ron khác trong mạng, chúng được phân biệt với nhau qua vector hàm trọng số ở đầu vào w 1 3 • Nguyên lý cấu tạo của mạng n ron bao gồm nhiều lớp, mỗi lớp bao gồm nhiều n ron có cùng chức năng ừong mạng Hỉnh 1.5 là mô hình hoạt động của một mạng n ron 3... không tương tự trong số các đối tượng • (1.12) mô tả cấu trúc chung của quá trình học của phương ba pháp học đã nêu ở trên Trong tín hiệu vào Xj (j = thể • đầu ra của các n ron khác hoặc có 2 7 thể được lấy ra từ bên ngoài Trọng số của n ron thứ i được thay đổi tùy theo tín hiệu ở đầu vào mà nó thu nhận giá trị đầu ra của nó Dạng tổng quát của luật học trọng số của mạng n ron cho biết số gia của vector... mạng • ^ 9 • (a) Mạng truyên thăng một lớp • (b) Mạng hôi tiêp một lớp (d) Mans n ron hồi ơuv Hình 1.6 Một sể dạng mạng n ron 1.2.2 Mạng truyền n ron thẳng nhiều lớp • Mạng n ron 1.6.C) có các lớp được phân nhiều lớp (Hình chia thành 3 loại sau đây: • •Lớp vào là lớp n ron đầu tiên nhận tín hiệu vào Xi (i = 1, 2, n) • Mỗi tín hiệu Xi được đưa đến tất cả các n ron của lớp đầu vào Thông thường, các n ron. .. liên kết • Giả sử ma trận trọng số bao gồm tất cả các phàn tử thích ứng của mạng n ron Nhiệm vụ của việc học tham số là tìm ra được ma ừận chính xác mong muốn từ ma ừận giả thiết ban đầu (với cấu trúc của mạng n ron có sẵn) Để làm được điều này thì mạng n ron phải sử dụng các trọng số điều chỉnh, 2 1 với nhiều phương pháp học khác nhau để có thể tính toán gần đúng ma trận w cần tìm đặc trưng cho mạng. .. và một đáp ứng đầu ra Các nhóm có thể được hình thành trong quá trình học, và cũng có thể không hình thành trong quá trình học • Hình 1.6 là một số liên kết đặc thù của mạng n ron N ron được vẽ là các vòng tròn xem như một tế bào thần kỉnh, chúng có các mối liên hệ đến các n ron khác nhờ các ừọng số liên kết Tập hợp các trọng số liên kết này sẽ lập thành các ma trận trọng số tương ứng 1.2. 1Mạng потоп... sự tổ chức hợp nhất giữa các thông tin đầu vào của mạng và các đáp ứng đầu ra • •Nếu nhiệm vụ của một mạng là hoàn chỉnh hoặc hiệu chỉnh các thông tin thu được không đầy đủ hoặc bị tác động của nhiễu Mạng n ron kiểu này được ứng dụng ừong lĩnh vực hoàn thiện mẫu, trong đó có một • ứng dụng cụ thể là nhận dạng chữ viết • Nhiệm vụ tổng quát của một mạng n ron là lưu giữ động các thông tin Dạng thông tin . thức trong thực tế đối với vấn đề phân tích, đánh giá được kết quả học tập của học sinh, sinh viên. - Cài đặt và thử nghiệm đánh giá kết quả học tập của Học sinh, Sinh viên sử dụng mạng n ron nhân. nghiên cứu là lý thuyết ứng dụng mạng Nơ ron nhân tạo cho bài toán phân tích, đánh giá kết quả học tập của Học sinh, Sinh viên trong trường Cao đẳng nghề. 5. Giả thuyết khoa học - Phát hiện những. Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2 r m> ụ? ễ H X 5 LÊ SƠN THẢO MẠNG Nơ RON ỨNG DỤNG CHO PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH, SINH VIÊN TRƯỜNG CAO ĐẲNG