Thuật toán K-mean trên khối

Một phần của tài liệu Khai phá dữ liệu trong mô hình dữ liệu dạng khối (Trang 52)

7. Cấu trúc của luận văn

2.2.2. Thuật toán K-mean trên khối

Input: Số cụm k và các trọng tâm cụm {mj}kj=1.

Output: Các cụm C[i] (1 ≤ i ≤ k) và hàm tiêu chuẩn E đạt giá trị tối thiểu.

Begin

For x ∈ id do

Begin

Bước 1: Khởi tạo

Chọn k trọng tâm {mj}k

j=1 ban đầu trong không gian Rd (d là số chiều của dữ liệu). Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm.

Bước 2: Tính toán khoảng cách

Đối với mỗi điểm Xi (1 i n), tính toán khoảng cách của nó tới mỗi trọng tâm mj (1 j k). Sau đó tìm trọng tâm gần nhất đối với mỗi điểm.

Bước 3: Cập nhật lại trọng tâm

Đối với mỗi 1 j k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng các vectơ đối tượng dữ liệu.

Điều kiện dừng:

Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi. End;

Giao các cụm tương ứng tìm được trên các lát cắt rx đã tìm được, ∀ x ∈ id

End.

Mệnh đề 2.7:

Thuật toán K-mean trên khối là đúng.

Mệnh đề 2.8:

Thuật toán K-mean trên khối có độ phức tạp là: O((3mnkd)τTflop)

Trong đó, n là số đối tượng dữ liệu, m là số phần tử của tập id, k là số cụm dữ liệu, d là số chiều, τ là số vòng lặp, Tflop là thời gian để thực hiện một phép tính cơ sở như phép tính nhân, chia,...

Chứng minh:

Thật vậy, như ta đã biết thuật toán K-mean trên các lát cắt chính là thuật toán K-mean trên quan hệ có độ phức tạp là O((3nkd)τTflop) * m. Vì mỗi một khối được chia thành nhiều lát cắt, số lượng lát cắt đúng bằng số phần tử của tập id => nếu số phần từ id = m thì độ phức tạp của thuật toán K-mean trên khối sẽ là:

Kết luận chương 2

Chương này gồm hai phần:

Phần một giới thiệu về mô hình khối với các khái niệm khối, lược đồ khối, đại số quan hệ trên khối, phụ thuộc hàm, bao đóng của tập phụ thuộc hàm, khóa của lược đồ khối.

Phần hai, áp dụng khai phá dữ liệu trên mô hình khối phần này đã chứng minh một số tính chất của việc khai phá dữ liệu bằng phân cụm trên mô hình khối thể hiện qua các mệnh đề 2.5, 2.6, đã đề xuất ra một thuật toán mới dựa trên thuật toán K- means đã có trên mô hình quan hệ đó là thuật toán K-means trên mô hình khối và thuật toán này cũng đã có mệnh đề khẳng định tính đúng đắn của nó và một mệnh đề khẳng định độ phức tạp của thuật toán K-means trên khối.

CHƯƠNG 3

PHÂN CỤM KẾT QUẢ HỌC TẬP TẠI

TRƯỜNG CAO ĐĂNG NGHỀ CƠ KHÍ NÔNG NGHIỆP 3.1. Giới thiệu Trường Cao đẳng nghề Cơ khí nông nghiệp

Trường Cao đẳng nghề Cơ khí nông nghiệp trực thuộc Bộ NN và PTNT, tiền thân là Trường Máy kéo Hà Trung thành lập năm 1960 tại Hà Trung - Thanh Hoá. Tháng 8 năm 1965 Trường chuyển đến xã Trung Mỹ - huyện Bình Xuyên - tỉnh Vĩnh Phúc, tháng 4 năm 1966 đổi tên thành Trường Trung học Cơ khí nông trường, đến tháng 08 năm 1972 đổi tên thành Trường Công nhân Cơ khí nông nghiệp 1 Trung Ương.

Tháng 1 năm 2007, Trường Cao đẳng nghề Cơ khí nông nghiệp được thành lập trên cơ sở nâng cấp từ Trường Công nhân Cơ khí nông nghiệp 1 Trung Ương theo quyết định số 77/QĐ-Bộ LĐTB-XH của Bộ Lao động - Thương binh và Xã hội ngày 12/01/2007 và quyết định số 197/QĐ-BNN-TCCB ngày 24/01/2007 của Bộ NN và PTNT về chức năng nhiệm vụ và cơ cấu tổ chức của Trường Cao đẳng nghề Cơ khí nông nghiệp.

Với truyền thống 52 năm xây dựng và phát triển, Trường đã xây dựng được đội ngũ giáo viên đoàn kết một lòng, có kiến thức, có tay nghề cao, luôn luôn đổi mới và tâm huyết với nghề. Hiện tại nhà trường có 234 cán bộ công chức viên chức trong đó có 212 giáo viên với 126 người có trình độ trên đại học, có quy mô HSSV với lưu lượng đào tạo hiện tại từ 2000 - 3000 HSSV và HV. Trường đã đào tạo được nhiều thế hệ HSSV những kiến thức và kỹ năng cần thiết để khẳng định được mình. Xây dựng được thương hiệu của Trường và luôn có vị thế xứng đáng trong ngành NN & PTNT, tỉnh Vĩnh Phúc và khu vực.

Trường đã tạo lập được không gian văn hóa riêng đảm bảo điều kiện tốt nhất để cán bộ giáo viên phát huy hết nội lực và cống hiến cho sự nghiệp chung của nhà trường.

Trường có nhiệm vụ:

Đào tạo nguồn nhân lực chất lượng cao phục vụ Công nghiệp hoá Hiện đại hoá thực hiện ứng dụng, chuyển giao tiến bộ khoa học và hội nhập quốc tế, trong đó lấy đào tạo nguồn nhân lực các lĩnh vực: Cơ điện nông nghiệp, Cơ khí, Động lực, Điện, Sư phạm dạy nghề làm trọng điểm. Trường Đào tạo nghề theo 3 cấp trình độ: Cao đẳng nghề, Trung cấp nghề và Sơ cấp nghề theo qui định. Bồi dưỡng nâng cao trình độ kỹ năng nghề cho người lao động theo yêu cầu của cơ sở sản xuất, kinh doanh, dịch vụ và người lao động. Tham gia phổ cập nghề cho người lao động, dạy kỹ thuật và hướng nghiệp cho học sinh phổ thông. Tham gia đào tạo bồi dưỡng nâng cao trình độ cho đội ngũ giáo viên dạy nghề, tham gia nghiên cứu, ứng dụng các tiến bộ khoa học công nghệ liên quan đến các nội dung đào tạo của Trường và chuyển giao các tiến bộ kỹ thuật vào phục vụ sản xuất. Liên kết và hợp tác với các tổ chức: cơ sở đào tạo, nghiên cứu, sản xuất kinh doanh trong nước và ngoài nước để kết hợp đào tạo với sản xuất, tăng nguồn thu cho nhà trường. Quản lý tổ chức, viên chức và tài sản của Trường theo phân cấp quản lý của Bộ và quy định của Nhà nước.

Trong những năm qua, thực hiện chủ trương của Đảng, Nhà nước, các cấp các ngành và toàn xã hội, dạy nghề đang được phục hồi và phát triển mạnh mẽ trên nhiều mặt. Đào tạo nghề kết hợp chặt chẽ với sản xuất, tạo việc làm trong nước và xuất khẩu lao động, góp phần chuyển dịch cơ cấu lao động và cơ cấu kinh tế, xoá đói giảm nghèo, nâng cao chất lượng lao động. Tuy nhiên, việc triển khai xây dựng các trường chất lượng cao, trường đạt trình độ tiên tiến của khu vực còn chậm, cơ cấu ngành nghề đào tạo chưa sát với nhu cầu thị trường lao động, các điều kiện đảm bảo chất lượng dạy nghề còn hạn chế. Chất lượng dạy nghề chưa đáp ứng yêu cầu phát triển ngày càng cao của sự nghiệp Công nghiệp hoá, hiện đại hoá và hội nhập kinh tế quốc tế.

Với nhiệm vụ được giao, trường Cao đẳng nghề Cơ khí Nông nghiệp không thể nào khác là phải tự đổi mới toàn diện để đào tạo nguồn nhân lực có chất lượng cao;

nghiên cứu, ứng dụng và chuyển giao các tiến bộ khoa học công nghệ vào phục vụ sản xuất.

Các khoa và các ngành nghề đào tạo cụ thể:

1. Khoa công nghệ thông tin gồm các nghề đào tạo: Công nghệ thông tin (ứng dụng phần mềm), Sửa chữa và lắp ráp máy tính; Quản trị mạng; Tin văn phòng.

2. Khoa động lực gồm các nghề đào tạo: công nghệ ô tô.

3. Khoa điện gồm các nghề đào tạo: Điện dân dụng; Kỹ thuật lắp đặt điện và điều khiển trong công nghiệp.

4. Khoa điện tử gồm các nghề đào tạo: Điện tử công nghiệp; Kỹ thuật máy lạnh và điều hòa không khí; Điện tử dân dụng.

5. Khoa cơ khí gồm các nghề đào tạo: Hàn; Cắt gọt kim loại.

6. Khoa cơ giới gồm các nghề đào tạo: Xếp dỡ cơ giới tổng hợp; Vận hành máy xây dựng; Vận hành máy thi công nền; Vận hành máy nông nghiệp; Vận hành và sửa chữa trạm bơm điện; Kỹ thuật máy nông nghiệp.

7. Khoa sư phạm dạy nghề đào tạo các nghề: Sư phạm dạy nghề. 8. Khoa kế toán đào tạo các nghề: Kế toán doanh nghiệp.

3.1.1. Cơ cấu tổ chức

Tổ chức bộ máy nhà trường được thực hiện theo quyết định số 197/QĐ-BNN- TCCB ngày 24/01/2007 của Bộ Nông nghiệp và PTNT về chức năng nhiệm vụ và cơ cấu tổ chức của Trường Cao đẳng nghề Cơ khí nông nghiệp:

Hình 3.1: Sơ đồ tổ chức trường CĐN Cơ khí nông nghiệp

3.1.2. Yêu cầu xây dựng CSDL:

Hàng năm nhà trường được Bộ Lao động Thương binh và Xã hội và sở giáo dục đào tạo Vĩnh Phúc phê duyệt chỉ tiêu tuyển sinh. Trung tâm tuyển sinh và dịch vụ việc làm có nhiệm vụ thông báo tuyển sinh trên các địa bàn trong cả nước. Trung tâm tuyển sinh và dịch vụ việc làm làm nhiệm vụ phân công mọi người đi tuyển sinh các tỉnh phía Bắc (tập trung chủ yếu ở tỉnh Vĩnh Phúc và một số tỉnh miền núi phía Bắc). Mỗi người phụ trách một số tỉnh thành và đến các trường thông báo tuyển sinh trực tiếp tại trường đó. Sau khi học sinh tham gia học tập tại trường phòng đào tạo kết hợp với trung tâm tuyển sinh và dịch vụ việc làm nhập danh sách học sinh gồm các thông tin: Họ tên học sinh, ngày sinh, giới tính, nơi sinh, địa chỉ liên hệ, số điện thoại, mã nghề đăng ký. Vì vậy nhà trường cần lưu trữ dữ liệu học sinh trong vòng 5-10 năm để thực hiện việc tra cứu đối chiếu số liệu.

Bài toán đặt ra đối với hệ thống cơ sở dữ liệu là phân tích số liệu theo một số chủ đề quan tâm, phục vụ công tác quản lý đào tạo, như liệt kê sau :

1. Kết quả học tập của học sinh: Giỏi, khá, trung bình, yếu, kém 2. Kết quả vùng miền đến kết quả học tập đó như thế nào. 3. Các dân tộc khác nhau có kết quả học tập ra sao.

4. Hoàn cảnh gia đình, đạo đức lối sống của học sinh

5. Phân tích số liệu ảnh hưởng của các môn học tự nhiên đến các môn học xã hội và ngược lại, ở đây cụ thể là môn học toán, văn ảnh hưởng đến các môn học khác như thế nào.

Nhu cầu xử lý dữ liệu theo nhu cầu của nhà trường cần được phân tích theo các chủ đề, chiều khác nhau. Chúng được chi tiết hoá theo bảng sau:

Phân tích theo chủ đề Giỏi Khá TB Yếu Kém

Điểm trung bình môn học X X X X X

Hoàn cảnh gia đình X X X X X

Vùng miền X X X X X

Kết quả môn toán X X X X X

Kết quả môn văn X X X X X

Dân tộc X X X X X

Giới tính X X X X X

Bảng 3. 1: Các chiều phân tích theo chủ đề

3.1.3. Phạm vi thực hiện

Với bài toán đặt ra, việc phân tích, thiết kế và xây dựng CSDL phải đáp ứng các chủ đề như trên nhưng điểm trung bình môn học của học sinh là quan trọng nhất vì học sinh có kết quả học tập tốt sẽ thúc đẩy sự phát triển của nhà trường, động cơ học tập của học sinh và giảng dạy của giáo viên.

1. Học sinh ở vùng nào thì có kết quả học tập tốt hơn, dân tộc nào có kết quả học tập cao hơn;

2. Ảnh hưởng của các vùng miền đến kết quả học tập của học sinh như thế nào? 3. Môn toán học tốt có tác động đến kết quả của các môn khác không ? đặc biết các môn khoa học xã hội;

4. Đánh giá hạnh kiểm có ý nghĩa ra sao : Các em có đạo đức tốt thì kết quả học tập có tốt không?

5. Phân lớp học sinh thế nào là hiệu quả nhất.

Việc phân cụm dữ liệu dựa trên kết quả học tập, tu dưỡng của học sinh sẽ giải quyết các yêu cầu trên. Hay nói khác đi, trả lời các câu hỏi trên, người ta đã phân hoạch các học sinh theo các cụm khác nhau.

3.2. Công cụ xử lý dữ liệu IBM SPSS 3.2.1. Giới thiệu chung 3.2.1. Giới thiệu chung

Công cụ SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp-thông tin được thu thập trực tiếp từ đối tượng nghiên cứu. Thông tin được xử lý là thông tin định lượng (có ý nghĩa về mặt thống kê). Một vài nhận xét về công cụ này :

- SPSS là một bộ chương trình mà nhiều người sử dụng ưa thích do nó rất dễ sử dụng;

- SPSS có một giao diện giữa người và máy cho phép sử dụng các menu thả xuống để chọn các lệnh thực hiện. Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xem xét;

- SPSS cũng có một ngôn ngữ cú pháp có thể học bằng cách dán cú pháp lệnh vào cửa sổ cú pháp từ một lệnh vừa chọn và thực hiện, nhưng nói chung khá phức tạp và không trực giác.

- SPSS có một bộ soạn thảo dữ liệu tương tự như Excel, bộ soạn thảo cho phép vào các dữ liệu và mô tả các thuộc tính của chúng, tuy nhiên SPSS không có những công cụ quản lý dữ liệu thật. SPSS xử lý mỗi file dữ liệu ở một thời điểm và không mạnh khi thực hiện các nhiệm vụ phân tích cần làm việc với nhiều file dữ liệu cùng một lúc. Các file dữ liệu có thể có đến 4096 biến và số lượng bản ghi chỉ bị giới hạn trong dung lượng của đĩa cứng.

Sức mạnh lớn nhất của SPSS là lĩnh vực phân tích phương sai (SPSS cho phép thực hiện nhiều loại kiểm định tác động riêng biệt) và phân tích nhiều chiều (thí dụ phân tích phương sai nhiều chiều, phân tích nhân tố, phân tích cụm). SPSS phiên bản 11 còn bổ sung thêm một số khả năng phân tích các mô hình hỗn hợp. Cái yếu nhất của SPSS là khả năng xử lý đối với những vấn đề ước lượng phức tạp và do đó khó đưa ra được các ước lượng sai số đối với các ước lượng này. SPSS cũng không hỗ trợ các công cụ phân tích dữ liệu theo lược đồ mẫu.

SPSS có một giao diện giữa người và máy rất đơn giản để tạo ra các đồ thị và khi đã tạo được một đồ thị, nhờ giao diện này mà người sử dụng có thể tuỳ ý hiệu chỉnh đồ thị cũng như hoàn thiện chúng. Các đồ thị có chất lượng rất cao và có thể dán vào các tài liệu khác, thí dụ như Word hoặc Powerpoint. SPSS có ngôn ngữ cú pháp để tạo ra các đồ thị, nhưng nhiều điểm trong giao diện tạo đồ thị lại không sẵn sàng trong ngôn ngữ cú pháp. SPSS nhắm vào mục tiêu dễ sử dụng, nhưng nếu ta dự định sử dụng SPSS như một người sử dụng mạnh, thì nó có thể không đáp ứng được yêu cầu. SPSS mạnh về lĩnh vực đồ thị và lập biểu bảng, báo cáo tổng hợp số liệu.

3.2.2. Công cụ SPSS

Hình 3.2: Màn hình quản lý dữ liệu của SPSS

- Data view : Màn hình quản lý dữ liệu. Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao gồm cột, hàng và các ô giao nhau giữa cột và hàng. Các ô ở đây sẽ hiểu thị dữ liệu tương ứng với trường CSDL. Nhìn chung ở giao diện này ta có thể nhập dữ liệu trực tiếp tương tự như trên bất kỳ một hệ quản trị CSDL nào khác hoặc ta cũng có thể nhập tương tự như trong Excel.

- Màn hình khai báo và quản lý biến gồm có như sau:

Cột Name (tên), là tên đại diện cho biến, tên biến này sẽ được hiển thị trên đầu mỗi cột trong màn hình dữ liệu. Cột Type (kiểu dữ liệu), dùng để khai báo kiểu cho biến tên gồm có dạng số và dạng chuỗi, dạng ngày tháng. Cột Label (nhãn), dùng để hiển thị tên thay cho tên biến để chỉ rõ hơn về ý nghĩa của biến. Values (Giá trị trong biến ): Cho phép khai báo các giá trị trong biến với ý nghĩa cụ thể. Missing (Giá trị khuyết): SPSS mặc định giá trị khuyết (system missing) là một dấu chấm và tự động loại bỏ các giá trị này ra khỏi các phân tích thống kê. Measures (Dạng thang đo): Hiễn thị dạng thang đo của giá trị trong biến.

Hình 3.3: Màn hình khai báo tên trường sử dụng trong SPSS

Một phần của tài liệu Khai phá dữ liệu trong mô hình dữ liệu dạng khối (Trang 52)

Tải bản đầy đủ (PDF)

(87 trang)