1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Phát hiện các điểm bất thường dựa trên phân cụm K-Means

3 0 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Bài viết Phát hiện các điểm bất thường dựa trên phân cụm K-Means áp dụng phương pháp phân cụm K-means và khoảng cách Euclid để phát hiện những điểm thi bất thường trong kì thi PTTH 2018 tại Hà Giang. Thực nghiệm cho thấy phương pháp này có thể hỗ trợ khoanh vùng ra các điểm thi bất thường với một tỉ lệ chọn trước.

Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 PHÁT HIỆN CÁC ĐIỂM BẤT THƯỜNG DỰA TRÊN PHÂN CỤM K-MEANS Đinh Phú Hùng Trường Đại học Thủy lợi, email: hungdp@tlu.edu.vn GIỚI THIỆU CHUNG Điểm bất thường liệu điểm mà có giá trị khác đáng kể so với điểm lại Việc phát điểm bất thường đóng vai trị quan trọng nhiều lĩnh vực Ví dụ, lĩnh vực ngân hàng, phát giao dịch bất thường, lĩnh vực giáo dục, phát điểm thi gian lận… Có nhiều phương pháp tiếp cận để giải vấn đề Ví dụ phương pháp dựa mật độ (DBSCAN, LOF,…) [1], phương pháp dựa khoảng cách (K-NN, K-Means,…) [1], phương pháp dựa mơ hình tham số (GMM, One Class SVM,…) [1] Ngồi ra, có số phương pháp khác kiểm định thống kê (Z-score) [1] Bài báo áp dụng phương pháp phân cụm K-means khoảng cách Euclid để phát điểm thi bất thường kì thi PTTH 2018 Hà Giang Thực nghiệm cho thấy phương pháp hỗ trợ khoanh vùng điểm thi bất thường với tỉ lệ chọn trước Bước 2: Tính khoảng cách Euclid điểm liệu đến K tâm Bước 3: Nhóm đối tượng vào nhóm gần dựa vào khoảng cách tính bước Bước 4: Xác định lại tâm cho nhóm Bước 5: Thực lại bước khơng có thay đổi nhóm đối tượng GIẢI THUẬT XÁC ĐỊNH ĐIỂM BẤT THƯỜNG DỰA TRÊN PHÂN CỤM Đầu vào: Tập liệu D, số cụm K Đầu ra: Tập điểm bất thường (n điểm m% cho trước) Bước 1: Áp dụng giải thuật K-means để phân liệu D cho vào K cụm tương ứng Bước 2: Tính khoảng cách Euclid từ tất điểm liệu cụm đến tâm cụm tương ứng Sau xếp khoảng cách theo thứ tự giảm dần Bước 3: Chọn n (hoặc m %) điểm liệu có khoảng cách lớn làm điểm tình nghi KIẾN THỨC NỀN TẢNG KẾT QUẢ THỰC NGHIỆM 2.1 Giải thuật phân cụm K-Means Giải thuật đề xuất MacQueen[2], phương pháp phân cụm Giải thuật mô tả sau: Đầu vào: - Tập điểm liệu, Số cụm K Đầu ra: - Các điểm phân cụm Bước 1: Khởi tạo ngẫu nhiên K tâm cho K cụm Dữ liệu thực nghiệm điểm thi PTTH năm 2018 Hà Giang1 Tuy nhiên, sử dụng điểm thi mơn bao gồm: Tốn, Lý, Hóa Sinh Việc lựa chọn mơn thi môn thuộc ngành khoa học tự nhiên, quan trọng môn thuộc tổ hợp xét tuyển Đại học (Tốn-LýHóa, Tốn-Hóa-Sinh) Tập liệu D gồm có: 630 thi sinh thi đủ môn Sở https://github.com/maiing/DataTalk-Materials/tree/master/diem_thi_THPT_2018 133 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 dĩ chọn điểm thi Hà Giang làm thực nghiệm việc thống kê điểm thi cho thấy bất thường (số lượng điểm thi từ đến 10 tăng đột biến) theo Hình (bao gồm: biểu đồ Histogram, đồ thị mật độ theo điểm thi thực tế (đường màu xanh), biểu đồ phân phối chuẩn (đường màu đen) Hình Đồ thị thống kê điểm môn Sử dụng ngôn ngữ Python số thư viện cần thiết cho phần thực nghiệm : numpy, pandas, scipy, sklearn Phần biểu đồ sử dụng thư viện: matplotlib.pyplot seaborn Áp dụng phương pháp phân cụm K-means cho tập liệu D với số cụm K = lựa chọn theo phương pháp Elbow Hình Hình Đồ thị thăm dò số cụm k Sau liệu phân vào cụm Thực việc tính giá trị trung bình điểm mơn học cụm ta có kết sau: Từ Bảng 1, ta có nhận xét sau cụm: Cụm thứ nhất: Các điểm Tốn, Lý, Hóa cao, điểm Sinh thấp Những thí sinh thuộc cụm thi khối A (Tốn, Lý, Hóa) mơn Sinh mơn xét tốt nghiệp nên việc thí sinh khơng đầu tư học mơn dẫn đến điểm thi thấp Sự lệch đáng kể điểm không gây nhiều đáng ngờ nên cụm xét cần Cụm thứ hai: Tất điểm mơn trung bình, cụm đại điện cho thí sinh học lực trung bình yếu, nên khơng đáng nghi ngờ Vì vậy, bỏ qua xét Cụm thứ ba: Có điểm Tốn Lý cao, điểm Hóa Sinh thấp, cụm đáng ngờ thi sinh thi khối A (Tốn, Lý, Hóa) thường có điểm thi mơn khơng thể chênh lệch nhiều Cụm cần thiết phải xét đến Cụm thứ tư: Các điểm quay quanh mức trung bình, cụm đại diện cho thí sinh có học lực trung bình nên khơng đáng ngờ Vì vậy, bỏ qua xét Cụm thứ năm: Có điểm thi mơn thấp, cụm đại diện cho thí sinh thuộc loại yếu kém, nên khơng đáng nghi ngờ Vì vậy, bỏ qua xét Để chọn thí sinh có điểm nghi ngờ, thực tính khoảng cách Euclid từ điểm cụm tới tâm cụm Phần thực nghiệm tiến hành trường hợp: Trường hợp 1: Xét điểm bất thường tất cụm Lựa chọn 5% điểm có khoảng cách lớn (khoảng 32 điểm) cho tất cụm Bảng Trung bình điểm thi cụm Cluster Math Physics Chemistry Biology 8.78235 9.02205 9.06617 3.00735 4.83743 3.89285 4.13054 4.51231 8.84 9.03 3.00 2.68 6.52715 5.92715 5.95364 4.97351 2.97419 2.62096 2.70737 3.44354 Hình Các điểm bất thường (Tốn - Lý) 134 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 Hình Các điểm bất thường (Tốn - Hóa) Hình Các điểm bất thường (Tốn - Hóa) Hình Các điểm bất thường (Tốn - Sinh) Hình Các điểm bất thường (Tốn - Sinh) Hình 10 Các điểm bất thường (Hóa - Sinh) Hình Các điểm bất thường (Hóa - Sinh) Các điểm bất thường khoanh trịn đồ thị Hình (Tốn-Lý), Hình (Tốn-Hóa), Hình (Tốn-Sinh), Hình (Hóa-Sinh) Trường hợp 2: Chỉ xét riêng cụm thứ cụm thứ ba dựa vào nhận xét cụm theo Bảng Lấy khoảng 24 điểm cụm thứ thứ ba mà có khoảng cách tới tâm cụm lớn Các điểm bất thường khoanh trịn Hình (Tốn-Lý), Hình (Tốn-Hóa), Hình (Tốn-Sinh), Hình 10 (Hóa-Sinh) Như vậy, với phương pháp phân cụm K-mean khoảng cách Euclid hỗ trợ việc chọn n điểm tình nghi (với số lượng điểm n chọn trước) Cần nhấn mạnh phương pháp giúp khoanh vùng đối tượng thí sinh có điểm tình nghi mà khơng thể khẳng định chắn tất số họ gian lận, việc chấm thi cụ thể thí sinh khoanh vùng khẳng định chắn họ có gian lận hay khơng TÀI LIỆU THAM KHẢO Hình Các điểm bất thường (Tốn - Lý) [1] Charu C Aggarwal, 2017, “Outlier analysis”, Springer, Second Edition [2] J B MacQueen, 1967, “Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability”, Berkeley, University of California Press 135 ... - Hóa) Hình Các điểm bất thường (Tốn - Sinh) Hình Các điểm bất thường (Tốn - Sinh) Hình 10 Các điểm bất thường (Hóa - Sinh) Hình Các điểm bất thường (Hóa - Sinh) Các điểm bất thường khoanh tròn... Hình Các điểm bất thường (Tốn - Lý) 134 Tuyển tập Hội nghị Khoa học thường niên năm 2019 ISBN: 978-604-82-2981-8 Hình Các điểm bất thường (Tốn - Hóa) Hình Các điểm bất thường (Tốn - Hóa) Hình Các. .. (Hóa-Sinh) Trường hợp 2: Chỉ xét riêng cụm thứ cụm thứ ba dựa vào nhận xét cụm theo Bảng Lấy khoảng 24 điểm cụm thứ thứ ba mà có khoảng cách tới tâm cụm lớn Các điểm bất thường khoanh trịn Hình (Tốn-Lý),

Ngày đăng: 30/07/2022, 16:13

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN