ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH

14 473 2
ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH HỌ TÊN: MÃ SỐ: TRẦN MINH HÙNG CH1101087 GIỚI THIỆU Khai phá liệu (data mining), nhiều người ý Nó thực đem lại lợi ích đáng kể việc cung cấp thông tin tiềm ẩn sở liệu lớn Ngày tình trạng bùng nổ thơng tin, lượng thơng tin trở nên phong phú, đa dạng khổng lồ Thế để có thơng tin q giá, đáng quan tâm, lại phải tốn nhiều cơng sức để tìm kiếm khối lượng thông tin khổng lồ Xét lĩnh vực khối lượng thơng tin lớn cơng việc trở nên khó khăn Những phương pháp thống kê truyền thống, phần lớn định trước mục đích cơng việc, sau việc sử dụng phương pháp thích hợp để có thông tin mà cần Đối với khai phá liệu nghĩa tên gọi nó, tìm “mỏ”, khơng biết “có mỏ hay khơng?” có “mỏ vàng hay bạc, hay chì ?” Khai phá liệu cơng cụ, giúp tìm “mỏ” “dãy núi khổng lồ”, núi lớn, dài hy vọng tìm mỏ cao khó khăn phức tạp Tất nhiên tìm thơng tin cuối việc ứng dụng thơng tin vào thực tế lại địi hỏi trình vận dụng từ lý thuyết vào thực tiễn Những luật kết hợp, mẫu thông tin chưa gặp tiền đề cho dự đốn, để từ có hoạch định cho hướng phát triển tương lai, yếu tố mà quan đơn vị cần tới nó, dù mức qui mơ lớn hay nhỏ Khai phá liệu Giáo dục Đào tạo thật việc làm có ý nghĩa, cung cấp thơng tin dựa sở khoa học đáng tin cậy, thơng tin q giá hỗ trợ nhiều công tác quản lý giáo dục Hiện khai phá liệu ứng dụng nhiều thực tế, lĩnh vực kinh doanh, công nghệ sinh học Tuy nhiên lĩnh vực Giáo dục Đào tạo, thật Dữ liệu giáo dục có đặc điểm riêng nó, địi hỏi phải có phương pháp khám phá phù hợp phát huy tốc độ, không gian nhớ Mặt khác để có thơng tin mang tính xã hội thực tế cao việc đưa khái niệm tập mờ để đánh giá phân loại học sinh có tính thuyết phục Trong báo cáo này, tác giả muốn giới thiệu phương pháp khai phá luật kết hợp mờ sở liệu kết thi tốt nghiệp THPT LUẬT KẾT HỢP MỜ GIỚI THIỆU Khai phá luật kết hợp vấn đề nghiên cứu quan trọng khai phá liệu Một ví dụ luật kết hợp xét thuộc tính tuyệt đối sau: (1)_Nếu Sử Kết_quả Đậu , sup: 1126 (16.9%), conf: 80.8 % (2)_Nếu Sử Kết_quả Đậu , sup: 1240 (18.6%), conf: 94.1 % (3)_Nếu Sử Kết_quả Đậu , sup: 1532 (23.0%), conf: 88.4 % Với thuộc tính định lượng thơng thường giá trị thay đổi cách liện tục, có nhiều giá trị khác Vì phải dùng kỷ thuật để phân chia miền thuộc tính Sử dụng tập mờ để phân chia miền thuộc tính, theo hàm thành viên có dạng sau: Vối hàm thành viên có dạng sau: Thì luật kết hợp mờ có dạng: (1)_Nếu Sử Khá Kết_quả Đậu , sup: 4632 (69.5%), conf: 85.0 % vớiự: Sử Khá (0.7) [5451 = 81.8%] 0.7 giá trị mờ xác định hàm thành viên cho Như luật kết hợp mờ mang tính tổng quát hơn, theo độ hỗ trợ (sup) độ tin cậy (conf) cao nhiều so với luật kết hợp xét thuộc tính tuyệt đối Với tập hợp mờ, học sinh hai, thành viên “sử khá” với 80% tham gia, thành viên “sử trung bình” với 20% tham gia Hàm thành viên xác định đối tượng liệu thuộc tập mờ xác định đặc điểm cho thuộc tính số Những tập hợp mờ cung cấp chuyển tiếp mịn thành viên không thành viên tập hợp Luật kết hợp mờ hiểu dễ dàng thuật ngữ ngơn ngữ liên quan đến tập hợp mờ MÃ HÓA DỮ LIỆU Để nâng cao hiệu suất khai phá liệu tiến hành mã hoá liệu sau: Sau bước chuẩn bị liệu (đã số hoá items) đọc liệu để xử lý Tuy nhiên, có tượng giá trị số cột giống thực tế lại items khác Ví dụ, cột TOAN có số điểm 5, cột LY có số điểm 5, hai số có ý nghĩa hồn tồn khác chúng items khác Như phải phân biệt chúng Dùng số integer 16 bit để lưu giữ, bit đầu để lưu số cột (tổng số cột không 256), dùng bit sau để lưu giữ giá trị cột tương ứng (giá trị khơng q 255) Ví dụ TOAN cột 3, điểm 5; LY cột 4, điểm 5, hai items lưu vào hai số tương ứng là: 0000001100000101, 0000010000000101 Với cách mã hoá liệu có tổng số cột không 256 cột, giá trị ô sau số hoá phải nằm khoảng từ đến 255 Với yêu cầu liệu thực tế chương trình quản lý thi khơng bị vi phạm Cách mã hố giúp khơng cần phải biến đổi hình thức thể liệu Chúng ta giữ nguyên hình thức thể theo chiều ngang giống hình thức chuẩn thường có Điều tiết kiệm nhiều thời gian chuyển đổi xử lý Ví dụ TOAN LY 5 10 Một số chương trình thực chuyển sang dạng sau: T0 T1 T5 T10 L0 L1 L5 L10 No No No Yes No No No No No Yes No No No Yes No No No No No No No No No Yes Việc chuyển liệu theo cách thức tiêu tốn thời gian đáng kể liệu khổng lồ, với cách mã hoá tránh cơng việc TÌM CÁC ITEMSETS THƯỜNG XUYÊN Cấu trúc lưu giữ items, itemsets Như trình bày, tuỳ vào điều kiện thực tế sở liệu mà tìm chọn phương pháp phù hợp Cụ thể sở liệu thi tốt nghiệp ngành Giáo Dục Đào Tạo tỉnh, có ước định sau: Giới Học Hạnh Điểm Kết Tổng tính Số lượng Mã trường lực kiểm môn thi items 50 132 193 items Với tổng số items vào khoảng gần 200, thực cấu trúc lưu giữ item sau: Chúng ta xem item trường hợp đặc biệt itemset (itemset mà có phần tử), cấu trúc item itemset Chúng ta gắn vào item mảng có giá trị BOOLEAN chiều để lưu giữ vị trí (mảng ghi vị trí) item sở liệu Độ dài mảng tổng transaction sở liệu Giả sử sở liệu có max transaction Như số bytes cần để lưu giữ vị trí item (max DIV 8) + IF(max MOD 0, 1, 0) bytes Cụ thể sau: Giả sử có bảng liệu: TID (Transaction ID) TOAN LY HOA 7 4 Chúng ta có items: 0000000000000100 (TOAN – 4) Chỉ số mảng Giá trị 1 1 0000000000000101 (TOAN – 5) Chỉ số mảng Giá trị 0 0000000100000101 (LY – 5) Chỉ số mảng Giá trị 0 0 0000000100000110 (LY – 6) Chỉ số mảng Giá trị 1 1 0000001000000111 (HOA – 7) Chỉ số mảng Giá trị 1 1 0000001000001000 (HOA – 8) Chỉ số mảng Giá trị 0 Một vài itemsets: {0000000100000110,0000001000001000} (LY – 6, HOA – 8) Chỉ số mảng Giá trị 0 {0000000000000100,0000000100000110 (TOAN – 4, } LY – 6) Chỉ số mảng Giá trị 0 1 Với cấu trúc cần duyệt qua sở liệu có lần, duyệt ghi vị trí item vào mảng chiều cách truy cập trực tiếp (khơng dùng vịng lặp), cụ thể số định danh transaction item số mảng mà giá trị mảng Còn việc đếm support tổng giá trị mảng Cách thức kết hợp items thành itemset Sự kết hợp giữ items để trở thành itemset itemsets với xét mảng ghi vị trí có trước chúng Căn vào đặc điểm liệu để hạn chế mối kết hợp khơng thể có Ví dụ items cột (8 bits đầu nhau) không kết hợp với nhau, xét items theo thứ tự cột (8 bits đầu) có item đứng trước kết hợp với item đứng sau (khơng có trường hợp ngược lại) Có thể hình thức hố sau: IF((x1 >> 8) > (x2 >> 8), kết hợp, khơng thể kết hợp) Trong x1, x2 giá trị items sau mã hoá thành số integer 16 bits Với qui định giảm thời gian thực việc tìm itemsets thường xuyên Chọn đưa items vào tập mờ Phương thức đưa items vào tập mờ, chủ yếu thực thuộc tính điểm số học sinh Cụ thể sau: Chúng ta phân điểm số học sinh vào tập mờ gọi tập (“YếU”), tập (“TRUNG BìNH”), tập 10 (“KHá”), với hàm thành viên thay đổi lúc chạy chương trình (trong giới hạn cho phép) Hàm thành viên sử dụng có dạng hình thang “Hình 2.1” Sau vài dạng cụ thể cho “Hình vẽ 2.1” Hình 2.1: Dạng cụ thể hàm hình thang Như có ba tập mờ cho cột điểm Sau item đưa vào tập mờ giá trị tập mờ bị thay đổi, giá trị mờ, p ∑ ( itemi fuzzy ) mảng vị trí Với giá trị mờ tính theo cơng thức p i =1 , (itemi.fuzzy xác định hàm thành viên), mảng vị trí tập mờ đánh dấu vị trí vị trí item Một item đưa vào hai tập mờ khác với hai giá trị mờ khác “Hình vẽ 2.2” (tuỳ thuộc vào hàm thành viên) Hình 2.2: Minh hoạ tập mờ Đối với mốt kết hợp mờ hình hố “Hình vẽ 2.3” sau: Giả sử sở liệu là: TOAN LY 4 5 6 Hình 2.3: Minh hoạ mối kết hợp mờ Xử lý mảng vị trí tập mờ, thực cách hội giá trị tương ứng hai mảng lại với Kết mảng ghi vị trí tập mờ sau: YẾU TOÁN TB TOÁN Chỉ số mảng Chỉ số mảng Giá trị 1 0 Giá trị 1 YẾU LÝ Chỉ số mảng Giá trị TB LÝ 0 Chỉ số mảng Giá trị KHÁ LÝ 1 Chỉ số mảng Giá trị 0 Với cách xử lý thấy rằng, với tập cổ điển ta có bốn mối kết hợp – 4, – 5, – 6, – Với tập mờ ta có tất bảy mối kết hợp, YếU – YếU (1), YếU – TB (2), TB – TB (3), TB – KHá (1) Qua nhận xét rằng: Sử dụng tập mờ cho luật tổng quát dễ tìm luật Những khái niệm mờ phù hợp với ý nghĩa thực tế so với khái niệm tập cổ điển Tập mờ làm giảm thiểu đáng kể ứng viên danh sách ứng viên thường xuyên đặc điểm quan trọng để lưu giữ ứng viên nhớ làm cho tốc độ chương trình tăng nhanh cách đáng kể Tuy nhiên phải trả giá lại cho việc tính tốn giá trị mờ, giá trị mờ lại cung cấp cho ta thêm thơng tin Tìm itemset thường xuyên Sau lần duyệt mhất có danh sách items sở liệu, đếm support giữ lại items thường xuyên (support ≥ minsup) Với cách lưu lại vị trí item vào mảng ghi vị trí nói trên, tìm tất itemsets thường xuyên danh sách (không cần duyệt thêm lần sở liệu) Chúng ta thực phép giao (tuyển) itemset với items có lúc ban đầu có itemset có số items tăng lên một, sau đếm support itemset thường xun lưu lại TÌM LUẬT KẾT HỢP Cơng việc địi hỏi nhiều cơng sức tìm itemsets thường xun Sau từ itemsets đưa luật kết hợp có độ tin cậy cao Thơng thường giai đoạn có người tâm tới, khơng phải vấn đề khó Tuy nhiên đề cập trên, việc đưa nhiều luật mà có nhiều luật không cần phải quan tâm công việc không đưa lại hiệu cao Riêng trường hợp liệu ngành Giáo Dục, nhiều điều mẻ, qui luật chưa thể rõ có nhiều thay đổi chủ trương sách chương trình, sách giáo khoa… thời gian qua Vì chưa thể đưa luật mà không cần quan tâm Với lý đó, báo cáo chưa đề cập đến vấn đề Với đặc tính sở liệu để có luật có độ tin cậy 100% vơ đa phần luật có độ tin cậy nhỏ 100% Với luật có độ tin cậy nhỏ 100%, vấn đề luật thừa cần phải xem lại Lấy ví dụ, có luật A → B luật (A,C) → B luật thừa Nhưng thực tế (A,C) → B phần lớn có độ tin cậy cao hơn, luật có độ tin cậy cao luật cần quan tâm tin tưởng Những luật mà vế trái nhiều items q, giống cơng việc điều tra mà có nhiều chứng tốt Chúng ta thực tìm luật theo bước, kitemsets xem luật ứng với mức này, thực mức cuối (itemsets có nhiều items nhất) Tại mức thay đổi giá trị minsup mincof để số luật kiểm tra Cùng với việc thay đổi hàm thành viên có luật phong phú hơn, cịn việc phân tích luật cơng việc người dùng Theo nguyên tắc từ itemset thường xuyên tìm nhiều luật Trong danh sách itemsets thường xun khơng có tượng trùng lặp, hình thức luật đưa không bị trùng lặp KẾT LUẬN Khai phá liệu mở hướng nghiên cứu công tác giáo dục đào tạo Trước báo cáo mang tính thống kê đơn thuần, chưa nói hết nhận định mang tính tiềm ẩn Những qui luật rút từ chương trình thực tế chưa thể khẳng định được, vấn đề mang tính nhạy cảm Tuy nhiên mở cho ta cách nhìn mới, phương pháp việc thống kê báo cáo, tư liệu quí để làm cho định mang tính đột phá sau Mặc dù phương pháp mẻ, kết luận rút từ luật kết hợp thực vấn đề đáng quan tâm vấn đề chất lượng học tập, đề thi, chấm thi, đạo đức học sinh Khái niệm mờ thật đưa lại nhiều điều thú vị Nó khơng phù hợp với thực tế, thực tế vấn đề đưa có tính chất mờ, mà cịn mang tính yển chuyển, linh hoạt từ dễ khám phá luật kết hợp, phân loại học sinh mang tính thuyết phục Từ luật kết hợp có có thêm phương pháp phân loại học sinh dựa luật Chẳng hạn có 82% học sinh thi mơn Sử học lực TB đậu tốt nghiệp THPT với độ tin cậy 91% ... hội thực tế cao việc đưa khái niệm tập mờ để đánh giá phân loại học sinh có tính thuyết phục Trong báo cáo này, tác giả muốn giới thiệu phương pháp khai phá luật kết hợp mờ sở liệu kết thi tốt... tính điểm số học sinh Cụ thể sau: Chúng ta phân điểm số học sinh vào tập mờ gọi tập (“YếU”), tập (“TRUNG BìNH”), tập 10 (“KHá”), với hàm thành viên thay đổi lúc chạy chương trình (trong giới hạn... khám phá luật kết hợp, phân loại học sinh mang tính thuyết phục Từ luật kết hợp có có thêm phương pháp phân loại học sinh dựa luật Chẳng hạn có 82% học sinh thi mơn Sử học lực TB đậu tốt nghiệp

Ngày đăng: 10/04/2015, 16:27

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan