Bảo toàn cấu trúc liên kết

Một phần của tài liệu Tìm hiểu mô hình som và ứng dụng trong tư vấn thi đại học. (Trang 49 - 76)

Phân cụm 2 pha của SOM cho phép xác định bảo toàn cấu trúc của các cụm. Ở pha thứ nhất huấn luyện SOM với hàm lân cận Gausian đƣợc áp dụng tốt hơn cho bảo toàn cấu trúc, có thể trực quan các thành phần trình bày. Ở pha thứ 2 bản đồ đƣợc huấn luyện chia thành các cụm bằng cách sử dụng phát

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

triển các cụm bắt đầu bằng các điểm cực tiểu của ma trận khoảng cách. Tập các điểm có thể tìm đƣợc bằng cách: i i j i i f (m , N ) f (m , N ) j N      (2.19) Với mi 

là vector nguyên mẫu, Ni, Nj là tập các nút lân cận, f (m , N )i i

 = median{||mi  -mk  ||} với k  Ni

Huấn luyện SOM

Ma trận đặc trƣng

Hai pha phân cụm SOM Thành phần

trình bày Các cụm

Hàm/ Phân tích điều chỉnh

Hình 2.5: Bảo toàn cấu trúc liên kết các cụm 2.5 SOM sử dụng trong phân cụm dữ liệu

Phân cụm dữ liệu đƣợc sử dụng để xác định các nhóm tự nhiên của dữ liệu. Trong phân cụm các lớp của các mẫu không có sẵn và số lƣợng các lớp không rõ ràng. Để tìm kiếm các mẫu thƣờng sử dụng một số biện pháp tƣơng tự. Biện pháp tƣơng tự thƣờng sử dụng là xác định khoảng cách giữa các điểm gần nhau hoặc có thể sử dụng các thuộc tính khác nhau nhƣ xác định hƣớng của vector trong không gian đo. Phƣơng pháp tìm kiếm các cụm có thể sử dụng hai phƣơng pháp phỏng đoán hoặc dựa vào giảm thiểu các tiêu chuẩn cụm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

2.5.1 SOM phân cụm với bản đồ một chiều

Phân cụm dữ liệu trong bản đồ một chiều vector trọng số của phần tử xử lý tƣơng ứng với vector trung bình cụm. Kết thúc quá trình học đầu vào đại diện và mỗi đầu vào đƣợc chỉ định vector trọng số gần nhất tƣơng ứng với cụm riêng biệt.

2.5.2 SOM phân cụm với bản đồ 2 chiều

Phân cụm dữ liệu sử dụng bản đồ 2 chiều. Một hoặc một số vector trọng số tƣơng ứng với một cụm. Để tìm vector trọng số tƣơng ứng với các cụm có thể sử dụng 2 phƣơng pháp:

2.5.2.1 Phân cụm trong không gian bản đồ

Phân cụm dữ liệu có thể đƣợc thực hiện bằng cách sử dụng hàm mật độ ƣớc lƣợng của dữ liệu để tìm ra các điểm lồi lõm. Sử dụng SOM để ƣớc lƣợng giá trị hàm mật độ cho mỗi phần tử xử lý. Để thực hiện đƣợc ƣớc lƣợng đó đƣợc thực hiện bằng cách tìm kiếm các phần tử xử lý chiến thắng cho vector đầu vào và phần tử xử lý tính toán tổng vector đầu vào và tổng của lỗi lƣợng tử. Lỗi lƣợng tử là bình phƣơng khoảng cách giữa vector đầu vào và phần tử xử lý chiến thắng. Ƣớc lƣợng hàm mật độ có thể đƣợc thực hiện bằng cách tính trung bình lỗi lƣợng tử. Nếu trung bình lỗi lƣợng tử nhỏ thì mật độ bề mặt cao và ngƣợc lại mật độ bề mặt sẽ thấp hơn. Các hàm mật độ đƣợc ƣớc lƣợng và đƣợc phân chia vào các cụm khác nhau bằng cách sử dụng tìm kiếm độ dốc đơn. Đầu tiên giá trị nhỏ nhất của hàm mật độ đƣợc tìm kiếm và phần từ xử lý của nó đƣợc gán nhãn về cụm 1. Sau đó tìm kiếm độ dốc đơn trong 8 lân cận và các phần tử xử lý sử dụng trong tìm kiếm độ dốc đƣợc liên kết với phần tử xử lý trƣớc đó. Xác định sự khác biệt lớn nhất về giá trị ƣớc lƣợng xung quanh phần tử xử lý hiện tại và xác định hƣớc tăng giá trị của hàm mật độ. Quá trình này đƣợc lặp để tìm ra giá trị cao nhất của hàm mật độ hoặc các

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

phần tử xử lý. Quá trình này đƣợc lặp cho đến khi tất cả các phần tử xử lý đƣợc dán nhãn.

2.5.2.2 Phân cụm trong không gian trọng số

SOM di chuyển vector trọng số của các phần tử xử lý đến vị trí lựa chọn theo hàm mật độ của dữ liệu đầu vào. Theo cách này vùng mật độ cao có số lƣợng vector trọng số lớn hơn các vùng còn lại. Sự hình thành các cụm dựa trên sự di chuyển của vector trọng số về hƣớng độ dốc của hàm mật độ. Vector trọng số di chuyển đƣợc ƣớc lƣợng tính toán giá trị trung bình lân cận của vector trọng số, vector trọng số ban đầu đƣợc thay thế bởi tính toán trung bình cục bộ. Quá trình đƣợc thực hiện cho tới khi không có vector trọng số nào đƣợc di chuyển. Vector trọng số đƣợc phân nhóm rõ ràng và các vector trọng số trong một nhóm tƣơng ứng với một cụm.

2.5.3 Xác định ranh giới các cụm

Ranh giới từ các thành phần/U-matrix đƣợc lựa chọn từ đơn vị biên thích hợp nhất rút ra từ giá trị của đơn vị đƣợc chọn hiện tại tới đơn vị liền kề của nó. Để rút ra ranh giới đầu tiên phải tính toán 2 đơn vị lân cận thích hợp nhất để tạo một ranh giới. Sử dụng sự khác biệt tƣơng đối của các đơn vị biên đƣợc chọn. Hai đơn vị lân cận đƣợc chọn là hai đơn vị có sự khách biệt tƣơng đối cao nhất đƣợc xác định là ranh giới. Sự khác biệt giữa khoảng cách trung bình của đơn vị hiện tại và 2 đơn vị ranh giới đƣợc chọn so với khoảng cách trung bình của các đơn vị còn lại. Để tìm ra sự khác biệt đó sử dụng biện pháp tìm ra giá trị khác biệt của ranh giới BDV (boundary difference value):

L 0 0 M M BDV R   (2.20)

Với ML là trung bình của 3 đơn vị ranh giới đƣợc chọn. M0 là trung bình của các lân cận còn lại. R0 là vùng của các đơn vị còn lại.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Khi có sự kết hợp của các đơn vị ranh giới đƣợc tính toán đơn vị có sự khác biệt BDV cao nhất là những đơn vị đƣợc chọn đề hình thành ranh giới. Quá trình này đƣợc lặp đi lặp lại cho đến khi các ranh giới mạnh nhất đƣợc lựa chọn. Bƣớc tiếp theo tìm BDV cao nhất và tạo thành ranh giới dọc theo các đơn vị lân cận BDV cao nhất. Quá trình xử lý đƣợc lặp cho tới khi xác định đƣợc ranh giới của tất cả các cụm.

2.5.4 Trực quan mạng

Dựa trên các thuật toán đồ tự tổ chức, năm kỹ thuật trực quan hóa chính đã đƣợc khám phá: U-matrix, trực quan lƣới, trực quan hóa bản đồ thành phần, bề mặt đồ thị 2D và 3D của ma trận khoảng cách. (adsbygoogle = window.adsbygoogle || []).push({});

Đại diện thống nhất khoảng cách ma trận cho trực quan cụm: Ma trận thống nhất khoảng cách (U-matrix) là một đại diện của bản đồ tự tổ chức xác định khoảng cách giữa các nơron hoặc các đơn vị. Chứa khoảng cách từ mỗi đơn vị trung tâm cho tất cả các lân cận. Các nơron của mạng SOM đƣợc đại diện bởi các ô lục giác. Khoảng cách giữa các nơron liền kề đƣợc tính toán và xuất hiện với các màu khác nhau. Màu tối giữa các nơron tƣơng ứng với khoảng cách lớn và đại diện cho sự chênh lệch khoảng cách giữa các giá trị trong không gian đầu vào. Màu sáng giữa các nơron thể hiện các vectơ gần nhau trong không gian đầu vào. Vùng sáng đại diện cho các cụm và vùng tối đại diện cho sự phân chia cụm. Những đại diện này đƣợc sử dụng để trực quan hóa cấu trúc của không gian đầu vào. Các đại diện U-matrix cho thấy cấu trúc các cụm của tập dữ liệu. Các giá trị có đặc tính tƣơng tự đƣợc sắp xếp gần nhau và khoảng cách giữa chúng đại diện cho mức độ tƣơng tự hoặc không tƣơng tự.

Trực quan lƣới đƣợc sử dụng để hình dung hình dạng của SOM trong không gian đầu vào. Đại diện cho mỗi đơn vị của bản đồ sử dụng một phép chiếu do đó khoảng cách giữa các cặp dữ liệu mẫu đƣợc bảo toàn một cách

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

chính xác. Sử dụng lƣới SOM để hình dung tập các đối tƣợng với vị trí, màu sắc, hình dạng duy nhất. Phép chiếu của SOM cung cấp hình ảnh thông tin của hình dạng tổng thể và độ mịn của SOM. Một số các tính năng tƣơng tác trực quan có thể đƣợc cung cấp cho ngƣời sử dụng: Kiểm soát trên các tọa độ của mỗi đơn vị trong không gian 2D hoặc 3D. Màu sắc và kích thƣớc của điểm đánh dấu đƣợc sử dụng cho mỗi đơn vị bản đồ và các thuộc tính của đƣờng để kết nối các đơn vị bản đồ. SOM làm giảm các dữ liệu đầu vào cho một số lƣợng nhỏ các vector có thể đƣợc kết hợp với các kỹ thuật chiếu khác nhƣ phân tích thành phần chính và lập bản đồ Sammon để tạo các kết quả chiếu tốt hơn trong khi giảm bớt gánh nặng tính toán liên quan đến các phƣơng pháp chiếu.

Trực quan hóa bản đồ thành phần: Hiển thị giá trị các thuộc tính khác nhau của các phần tử bản đồ. Trực quan hóa của các thành phần bản đồ cho thấy mỗi vetor đầu vào thay đổi trên không gian của các đơn vị SOM. Mỗi thành phần của bản đồ cho thấy giá trị của một biến trong mỗi đơn vị của bản đồ bằng cách sử dụng màu sắc mã hóa. Bằng cách sử dụng vị trí và màu sắc của bản đồ có thể tìm ra mối quan hệ giữa các đơn vị bản đồ khác nhau.

Bề mặt đồ thị 2D và 3D của ma trận khoảng cách: Sử dụng màu sắc và tọa độ z để chỉ ra khoảng cách trung bình đến đơn vị bản đồ lân cận. Sử dụng trực quan bề mặt đồ thị 2D và 3D của ma trận khoảng cách thể hiện mật độ, hình dạng, kích thƣớc và số lƣợng các cụm. Ngƣời sử dụng có sự linh hoạt để thao tác các tọa độ và xem trong không gian 2D hoặc 3D.

2.6 Kết luận chƣơng 2

Trong chƣơng này giới thiệu một số thuật toán phân cụm dữ liệu. Nêu các bƣớc thực hiện thuật toán trong phân cụm. Đƣa ra đƣợc một số ƣu nhƣợc điểm của từng thuật toán trong phân cụm dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Phần chính của chƣơng giới thiệu về mạng SOM trình bày cấu trúc của SOM, huấn luyện mạng SOM và một số hàm liên quan. Phần cuối của chƣơng giới thiệu về sử dụng SOM trong phân cụm dữ liệu. Trong phần này trình bày các phƣơng pháp sử dụng SOM trong bản đồ 1 chiều và 2 chiều và các phƣơng pháp trực quan mạng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Chƣơng 3 : ỨNG DỤNG CỦA MẠNG SOM CHO TRỢ GIÚP HỌC SINH THI ĐẠI HỌC

3.1 Giới thiệu về bài toán trợ giúp học sinh thi đại học

Mạng SOM đƣợc sử dụng trong nhận dạng, dự báo, phân cụm dữ liệu. Khuôn khổ của chƣơng này sẽ trình bày ứng dụng cụ thể của mạng SOM sử dụng trong phân cụm dữ liệu đƣợc áp dụng vào bài toán sử dụng SOM phân cụm dữ liệu các trƣờng đại học để trợ giúp cho học sinh thi đại học.

Vào đầu năm học phụ huynh và học sinh lớp 12 đã bắt đầu tìm hiểu những thông tin của các trƣờng đại học và cao đẳng. Thông tin mà phụ huynh và học sinh thƣờng quan tâm về các trƣờng đại học và cao đẳng là những thông tin: Khối thi, điểm chuẩn và tỉ lệ chọi của những năm học trƣớc, học phí, kí túc xá…Những thông tin này phụ huynh thƣờng tìm hiểu thông qua cuốn “Những điều cần biết về tuyển sinh đại học và cao đẳng”, những thông tin từ trên mạng và thông qua sự tƣ vấn góp ý của mọi ngƣời.

Áp dụng mạng SOM để phân cụm dữ liệu các trƣờng đại học và cao đẳng. Dựa vào những thông tin trực quan đó giúp cho học sinh và phụ huynh có những hiểu biết cụ thể hơn về các trƣờng đại học và cao đẳng. Dựa vào những thông tin đó kết hợp với sức học của học sinh để có thể đƣa ra những lựa chọn đúng đắn về trƣờng mà học sinh sẽ đăng kí dự thi.

3.2 Giới thiệu công cụ SOM Toolbox

Công cụ SOM Toolbox là một thƣ viện gồm các hàm đƣợc viết trên Matlab của một nhóm tác giả thuộc trƣờng Đại học Helsinki Phần Lan[4]. SOM Toolbox là bộ công cụ đƣợc sử dụng với mục đích nghiên cứu. Đặc biệt trong lĩnh vực khai phá dữ liệu. Công cụ SOM Toolbox có thể đƣợc dùng để xử lý dữ liệu, khởi tạo và huấn luyện SOM trên một loạt các trạng thái hình học. SOM thể hiện trực quan bằng nhiều cách khác nhau và phân tích các thuộc tính của SOM và dữ liệu đầu vào.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Cấu trúc của chƣơng trình:

Công cụ SOM đƣợc viết bằng Matlab. Sử dụng công cụ này để trợ giúp cho học sinh thi đại học đƣợc thực hiện qua các bƣớc:

- Đọc dữ liệu

- Xây dựng cấu trúc dữ liệu

- Xử lý tập dữ liệu trƣớc khi huấn luyện

- Khởi tạo mẫu và huấn luyện theo thuật toán SOM - Mô phỏng kết quả.

- Phân tích kết quả và trợ giúp cho học sinh.

3.3 Chƣơng trình thử nghiệm

3.3.1 Thu thập dữ liệu

Hiện nay trên thế giới có nhiều tổ chức, quốc gia đƣa ra các tiêu chí đánh giá các trƣờng đại học và cao đẳng [1]. Ở Việt Nam tháng 10 năm 2010 tại Hội nghị quốc tế về xếp hạng các trƣờng đại học đã giới thiệu về đánh giá các trƣờng đại học và cao đẳng của Việt Nam. Việc đƣa ra các tiêu chí đánh giá các trƣờng đại học Việt Nam giúp cho phụ huynh và học sinh có cái nhìn khái quát về trƣờng đại học và cao đẳng mà học sinh sẽ dự thi. Trong khuôn khổ của luận văn này em lấy một số các tiêu chí đánh giá về các trƣờng đại học và cao đẳng mà phụ huynh và học sinh thƣờng hay quan tâm nhất khi lựa chọn các trƣờng dự thi để làm tƣ liệu cho luận văn của mình. Các tài liệu thống kê về các trƣờng đại học đƣa vào trong bảng đƣợc tham khảo từ cuốn Những điều cần biết về tuyển sinh đại học và cao đẳng năm 2010 và năm 2011 của Nhà xuất bản Giáo dục Việt Nam. Ngoài ra những số liệu thống kê đƣợc sử dụng trong luận văn lấy từ các trang web của các trƣờng đƣợc lấy làm mẫu và các trang web liên quan.

Bảng thống kê một số tiêu chí của trƣờng đại học. Bảng dữ liệu đƣa ra thông tin của 30 trƣờng đại học đại diện cho các vùng miền của Việt Nam. (adsbygoogle = window.adsbygoogle || []).push({});

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Trong bảng thống kê có 18 tiêu chí đƣợc thu thập và tính toán số liệu bao gồm các tiêu chí: Khối thi đại học của mỗi trƣờng mang đặc trƣng riêng của từng trƣờng có nhiều khối thi đại học khác nhau. Số khoa ngành đƣa ra số khoa, số ngành học của từng trƣờng. Tổng số sinh viên đang theo học tại trƣờng đƣợc tính 1000 sinh viên. Các cột tỉ lệ giảng viên, số chỗ ở kí túc xá, số học bổng hàng năm, số sinh viên đƣợc cử đi học tại nƣớc ngoài đƣợc tính. Học phí các trƣờng đƣợc tính theo đơn vị 1000 đồng các tiêu chí diện tích phòng thực hành/ thí nghiệm, diện tích của trƣờng, số tài liệu thƣ viện bao gồm cả tài liệu điện tử đƣợc tính tỉ lệ trên 1 sinh viên. Chỉ tiêu tuyển sinh đƣợc xác định theo chỉ tiêu hàng năm của các trƣờng. Nguyện vọng 1, nguyện vọng 2 là điểm tuyển sinh đầu vào của từng trƣờng. Tỉ lệ chọi đƣợc tính dựa trên tổng số hồ sơ đăng kí dự thi trên tổng chỉ tiêu của trƣờng. Tỉ lệ dự thi là số lƣợng thí sinh

Một phần của tài liệu Tìm hiểu mô hình som và ứng dụng trong tư vấn thi đại học. (Trang 49 - 76)