Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
612,78 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đỗ Văn Minh ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ ĐIỂM CỦA HỌC SINH Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: GS.TS Vũ Đức Thi Phản biện 1: ………………………………………… Phản biện 2: ………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác mang lại lợi ích to lớn Những vấn đề quan tâm khai phá liệu phân lớp, luật kết hợp, phân cụm liệu… Phân cụm liệu (PCDL) trình tìm kiếm để phân cụm liệu, mẫu liệu từ tập CSDL lớn PCDL kỹ thuật để khai thác liệu có hiệu PCDL ứng dụng nhiều lĩnh vực khác nhau: kinh tế, y học, sinh học, bảo hiểm, quy hoạch đô thị, phân đoạn ảnh … Ngành giáo dục nói chung trường học nói riêng có lượng liệu lưu trữ lớn việc phân tích, đánh giá để đưa chiến lược phát triển phù hợp, cung cấp chất lượng giáo dục tốt hỗ trợ hoạt động quản lí chưa thực quan tâm mức khai thác có hiệu Với lý chọn đề tài “Ứng dụng phân cụm liệu phân tích, đánh giá kết điểm học sinh” làm đề tài luận văn tốt nghiệp Bố cục luận văn gồm chương: Chương 1: Tìm hiểu tổng quan khai phá liệu kỹ thuật phân cụm liệu KPDL Chương 2: Tìm hiểu số thuật tốn điển hình phân cụm liệu Chương 3: Ứng dụng thuật toán k-means để thử nghiệm phân cụm liệu điểm học sinh CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM DỮ LIỆU 1.1 Khai phá liệu 1.1.1 Giới thiệu Khai phá liệu Khai phá liệu (Data Mining) khái niệm đời vào năm cuối thập kỷ 80 kỉ XX Khai phá liệu lĩnh vực nghiên cứu nhằm tự động khai thác thơng tin, tri thức hữu ích, tiềm ẩn từ CSDL lớn, kho liệu… Khai phá liệu lĩnh vực trở thành hướng nghiên cứu thu hút quan tâm nhiều chuyên gia CNTT giới Trong năm gần đây, nhiều phương pháp thuật tốn KPDL liên tục cơng bố Điều chứng tỏ ưu thế, lợi ích khả ứng dụng thực tế to lớn khai phá liệu 1.1.2 Quá trình khai phá liệu Về chất khai phá liệu giai đoạn tìm thơng tin mới, tiềm ẩn CSDL chủ yếu phục vụ cho q trình mơ tả dự đốn Q trình khai phá liệu gồm bước thể hình sau: Hình 1.2 Quá trình khai phá liệu 1.1.3 Các kỹ thuật khai phá liệu Với mục đích mơ tả dự đốn, kỹ thuật thường sử dụng là: - Luật kết hợp (Association rules) - Phân cụm (Clustering) - Phân lớp (Classfication) - Hồi quy (Regression) - Cây định (Decision Trees) - Mạng nơ-ron (Neural Network) - Trực quan hóa (Visualization) - Biểu diễn mơ hình (Model Evaluation) - Phương pháp tìm kiếm (Search Method) - Phân tích theo trình tự thời gian (Time series Analysis) 1.1.4 Ứng dụng Khai phá liệu 1.1.5 Các xu vấn đề cần giải khai phá liệu 1.2 Kỹ thuật phân cụm Khai phá liệu 1.2.1 Tổng quan kỹ thuật phân cụm Phân cụm liệu q trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu kỹ thuật KPDL nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn để từ cung cấp thông tin, tri thức cho việc định Phân cụm liệu cịn sử dụng bước tiền xử lí cho thuật toán khai phá liệu khác phân loại mơ tả đặc điểm, có tác dụng việc phát cụm 1.2.2 Một số khái niệm cần thiết tiếp cận phân cụm liệu 1.2.2.1 Các kiểu liệu thuộc tính phép phân cụm 1.2.2.2 Đo độ tương đồng 1.2.3 Các yêu cầu kỹ thuật phân cụm liệu - Có khả mở rộng - Thích nghi với kiểu liệu khác - Khám phá cụm với hình thù - Tối thiểu lượng tri thức cần cho xác định tham số vào - Khả thích nghi với liệu nhiễu cao - Ít nhạy cảm với tham số đầu vào - Thích nghi với liệu đa chiều - Dễ hiểu, dễ cài đặt khả thi 1.2.4 Các hướng tiếp cận phân cụm liệu 1.2.4.1 Phương pháp phân hoạch (Partitioning Methods) chia tập hợp liệu có n phần tử thành k nhóm xác định số cụm thiết lập Số cụm thiết lập đặc trưng lựa chọn trước Phương pháp tốt cho việc tìm cụm hình cầu khơng gian Euclid 1.2.4.2 Phương pháp phân cụm phân cấp (Hierarchical Methods) xây dựng phân cấp sở đối tượng liệu xem xét Phương pháp làm việc tốt với tập liệu lớn khó khăn với cụm có hình dạng lồi 1.2.4.3 Phương pháp phân cụm dựa mật độ (DensityBased Methods) nhóm đối tượng liệu dựa hàm mật độ xác định, mật độ số đối tượng lân cận đối tượng liệu theo nghĩa Phương pháp phân cụm dựa mật độ đối tượng để xác định cụm liệu phát cụm liệu với hình thù 1.2.4.4 Phương pháp phân cụm dựa lưới (Grid-Based Methods) thích hợp với liệu nhiều chiều, dựa cấu trúc liệu lưới để phân cụm, phương pháp chủ yếu tập trung áp dụng cho lớp liệu không gian 1.2.4.5 Phương pháp phân cụm dựa mơ hình (ModelBased Clustering Methods) khám phá phép xấp xỉ tốt tham số mơ hình cho khớp với liệu cách tốt Kết luận chương Chương tìm hiểu kiến thức khai phá liệu kỹ thuật áp dụng KPDL, ứng dụng xu KPDL, Chương tìm hiểu hướng nghiên cứu ứng dụng KPDL phân cụm liệu, gồm tổng quan kỹ thuật phân cụm, yêu cầu kỹ thuật phân cụm, hướng tiếp cận phân cụm liệu, kiểu liệu, độ đo tương tự, v.v CHƯƠNG II MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐIỂN HÌNH 2.1 Các thuật tốn phân cụm phân hoạch 2.1.1 Thuật toán K-means Đầu vào: Một CSDL gồm n đối tượng số cụm k Đầu ra: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn E đạt giá trị tối thiểu Bước 1: Khởi tạo Chọn k đối tượng mj (j=1 k) trọng tâm ban đầu k cụm từ tập liệu Bước 2: Tính tốn khoảng cách Đối với đối tượng Xi (i=1, ,n) , tính tốn khoảng cách từ tới trọng tâm mj với j=1, ,k; sau tìm trọng tâm gần đối tượng Bước 3: Cập nhật lại trọng tâm Đối với j=1, ,k; cập nhật trọng tâm cụm mj cách xác định trung bình cộng véc-tơ đối tượng liệu Bước 4: Điều kiện dừng Lặp bước trọng tâm cụm khơng thay đổi 2.1.2 Thuật tốn PAM Đầu vào: Số cụm k sở liệu D chứa n đối tượng Đầu ra: Một tập k cụm tối thiểu hố tổng độ đo khơng tương đồng tất đối tượng tới medoid gần chúng Bắt đầu Chọn tuỳ ý k đối tượng đại diện ban đầu; Repeat Ấn định đối tượng vào cụm có đối tượng đại diện (medoid) gần nhất; Lựa chọn ngẫu nhiên đối tượng khơng điển hình orandom Tính hàm mục tiêu S (tổng độ đo tương đồng tất đối tượng tới medoid gần cùa chúng) việc tráo đổi oj với orandom; Nếu S