Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 129 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
129
Dung lượng
2,54 MB
Nội dung
Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THANH LONG DATA MINING TRONG KĨ THUẬT ĐIỆN Chuyên ngành : Thiết bị mạng nhà máy điện LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2010 LỜI CẢM ƠN Tôi xin chân thành cảm ơn PHAN THỊ THANH BÌNH , người tận tình hướng dẫn tơi thực đề tài Cô truyền cảm hứng cho tiếp cận vấn đề lạ ân cần giúp đỡ tơi hồn thành luận văn Tơi xin bày tỏ lịng cảm ơn đến thầy cô trường Đại Học Bách Khoa, tận tình dạy dỗ truyền thụ kiến thức kinh nghiệm quý báu thời gian học trường Cuối công ơn to lớn gia đình dạy dỗ, ln động viên giúp đỡ suốt thời gian qua Cảm ơn bạn học khóa chia kinh nghiệm quý báu Trong trình làm luận văn, thân cố gắng giúp đỡ thầy cô bạn bè không tránh thiếu sót mong thầy thơng cảm dạy thêm Tp Hồ Chí Minh,Tháng 12/2010 Người thực NGUYỄN THANH LONG TÓM TẮT LUẬN VĂN Ngày nay, với phát triển công nghệ thông tin, liệu thu thập ngày phong phú đa dạng Việc lưu trữ, sử dụng khai phá lợi ích từ sở liệu vấn đề mang lại hiệu thiết thực phân tích kĩ thuật lợi cạnh tranh Luận văn “ Data Mining kĩ thuật điện ” đề cập đến vấn đề khai phá liệu: nén liệu gom nhóm liệu Nội dung luận văn gồm chương : Chương : Data Mining Chương giới thiệu tổng quan Data Mining, ứng dụng cụ thể : trình bày khái quát nén liệu gom nhóm liệu Chương : Kiểm định giả thiết phi tham số Trong chương 2, ta ứng dụng lý thuyết xác suất để chứng minh đối tượng tốn học khơng gian nhiều chiều khơng có phân bố chuẩn Chương : Ứng dụng Wavelet nén liệu • Giới thiệu thuật tốn Wavelet, đặc biệt DWT • Giải thuật nén liệu • Xây dựng chương trình nén đồ thị phụ tải với giao diện đồ họa GUI Chương : Gom nhóm liệu • Khái qt gom nhóm liệu • Giới thiệu mạng neuron SOM ứng dụng • Thuật tốn gom nhóm bước : SOM + Kmeans • Gom nhóm đồ thị phụ tải TPHCM 2005 Chương : Kết luận • Ưu khuyết điểm nén liệu Wavelet • Đánh giá khả gom nhóm giải thuật Luận văn thạc sĩ GV: PGS.TS Phan Thị Thanh Bình MỤC LỤC Chương 1: DATA MINING 1 1.1 Khai phá liệu: 1 1.1.1 Giới thiệu: 1 1.1.2 Định nghĩa: 2 1.2 Các bước khai phá liệu: 2 1.3 Tiền xử lí liệu: 5 1.3.1 Dữ liệu nhiễu: 5 1.3.2 Dữ liệu mâu thuẫn: 6 1.3.3 Tích hợp biến đổi liệu 6 1.3.4 Làm giảm liệu 6 1.4 Gom nhóm liệu: 7 1.5 Ứng dụng xu hướng khai phá liệu: 9 1.5.1 Khai phá liệu y sinh học phân tích DNA: 9 1.5.2 Khai phá liệu phân tích tài chính: 10 1.5.3 Khai phá liệu công nghiệp bán lẻ: 10 Chương : KIỂM ĐỊNH GIẢ THIẾT PHI THAM SỐ 11 2.1 Cơ sở xác suất : 11 2.1.1 Lý thuyết xác suất: 11 2.1.2 Giá trị trung bình , phương sai biến ngẫu nhiên thông dụng: 12 2.1.3 Phân bố chuẩn nhiều chiều vectơ ngẫu nhiên: 12 2.1.4 Tiêu chuẩn kiểm định Pearson: 13 2.2 Kiểm định phân bố chuẩn đồ thị phụ tải: 16 2.3 Giải thuật: 18 2.4 Kết chạy với đồ thị phụ tải TpHCM2005: 20 Chương 3: ỨNG DỤNG WAVELET NÉN DỮ LIỆU 22 3.1 Phép biến đổi wavelet: 22 3.1.1 Phép biến đổi wavelet liên tục (CWT) : 24 3.1.2 Phép biến đổi wavelet rời rạc (DWT) 30 3.1.3 Phân tích wavelet ngược ( IDWT ) : 33 3.1.4 Phép biến đổi Wavelet nhiều chiều: 34 3.2 Ứng dụng wavelet : 34 3.2.1 Giới thiệu: 34 3.2.2 Nén liệu : 34 3.3 Áp dụng nén đồ thị phụ tải: 35 3.3.1 Mục đích: 35 3.3.2 Phương pháp: 35 3.3.3 Mô tả giải thuật: 37 3.4 Kết chạy chương trình: 39 3.4.1 Giao diện chính: 39 3.4.2 Ví dụ: 40 3.4.3 Ảnh hưởng ngưỡng đặt sai số tỷ lệ nén: 46 Chương 4: GOM NHÓM DỮ LIỆU 50 4.1 Tổng quan: 50 4.1.1-Phân tích nhu cầu dùng điện 50 4.1.2-Định giá điện 51 HV: Nguyễn Thanh Long_09180066 Trang i Luận văn thạc sĩ GV: PGS.TS Phan Thị Thanh Bình 4.2 Phân tích gom nhóm: 54 4.3 Phân nhóm liệu dùng mạng neuron tự tổ chức (SOM) 56 4.3.1 Giới thiệu: 56 4.3.2 SOM phân tích gom nhóm 58 4.4 Cấu trúc mạng SOM 4.4.1 Khái quát: 59 4.4.2 Cấu trúc: 60 4.4.3 Các loại mạng SOM cải tiến khác 62 4.5 Giải thuật phân nhóm kết hợp SOM Kmeans: 64 4.5.1 Phân nhóm SOM 65 4.5.2 Kmeans phân nhóm mẫu SOM 69 4.6 Kết ứng dụng SOM phân nhóm đồ thị phụ tải: 72 4.6.1 Dữ liệu năm đơn vị có tên: 72 4.6.2 Dữ liệu năm tương đối (chia cho max năm ) 73 4.6.3 Dữ liệu năm tương đối (chia cho max ngày) 74 4.6.4 Dữ liệu ngày thường đơn vị có tên 75 4.6.5 Dữ liệu ngày nghỉ đơn vị có tên: 76 4.6.6 Dữ liệu ngày thường đơn vị tương đối 77 4.6.7 Dữ liệu ngày thường đơn vị tương đối 78 4.6.8 Dữ liệu ngày nghỉ đơn vị tương đối 79 4.6.9 Dữ liệu ngày nghỉ đơn vị tương đối 80 4.7 Đánh giá chất lượng gom nhóm 81 CHƯƠNG 5: KẾT LUẬN 82 5.1 Wavelet nén liệu 82 5.2 Phân nhóm SOM bước 82 HV: Nguyễn Thanh Long_09180066 Trang ii Luận văn thạc sĩ GV: PGS.TS Phan Thị Thanh Bình Chương 1: DATA MINING Chương trình bày khái quát khai phá liệu đề cập đến nội dung chủ yếu luận văn nén liệu phân tích gom nhóm 1.1 Khai phá liệu: 1.1.1 Giới thiệu: Chúng ta sống kỉ nguyên công nghệ thông tin Thông tin ngày trở thành phần quan trọng sống Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định đó.Cứ giây trơi qua sinh hàng trăm ngàn mẫu liệu.Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Thơng tin cần phải tổng kết tổng hợp lại để hỗ trợ cho việc định cách hiệu Vì thế, lượng liệu sẵn có nơi lưu trữ lớn nhu cầu cấp thiết biến đổi liệu thành thơng tin có ích Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) HV: Nguyễn Thanh Long_09180066 Trang Luận văn thạc sĩ GV: PGS.TS Phan Thị Thanh Bình Phương pháp khai phá liệu (Data Mining) sử dụng trình gọi phát tri thức ( Knowledge Discovery) để phát mảng kiến thức từ sở liệu lớn.Thuật ngữ khai phá liệu phát tri thức xuất lần vào cuối kỉ 18 sử dụng Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng 1.1.2 Định nghĩa: Khai phá liệu định nghĩa là: trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ CSDL, kho liệu… Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai, trình học tri thức từ liệu thu Hiện nay, thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL (knowlegde mining from databases), trích lọc liệu (knowlegde extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) 1.2 Các bước khai phá liệu: 1) Làm liệu (data cleaning): loại bỏ nhiễu liệu khơng thích hợp 2) Tích hợp liệu (data integration): tích hợp liệu từ nguồn khác như: CSDL, Kho liệu, file text 3) Chọn liệu (data selection): bước này, liệu liên quan trực tiếp đến nhiệm vụ thu thập từ nguồn liệu ban đầu HV: Nguyễn Thanh Long_09180066 Trang Luận văn thạc sĩ GV: PGS.TS Phan Thị Thanh Bình 4) Chuyển đổi liệu (data transformation): bước này, liệu chuyển đổi dạng phù hợp cho việc khai phá cách thực thao tác nhóm tập hợp 5) Khai phá liệu (data mining): giai đoạn thiết yếu, phương pháp thơng minh áp dụng để trích xuất mẫu liệu 6) Đánh giá mẫu (pattern evaluation): đánh giá hữu ích mẫu biểu diễn tri thức dựa vào số phép đo 7) Trình diễn liệu (knowlegde presentation): sử dụng kĩ thuật trình diễn trực quan hoá liệu để biểu diễn tri thức khai phá cho người sử dụng Theo cách nhìn khai phá liệu bước tồn q trình Tuy nhiên, cơng nghiệp, truyền thông hay nhiều nghiên cứu khác sở liệu khai phá liệu phổ biến phần khác trình khám phá kiến thức từ sở liệu Kiến trúc hệ thống khai phá liệu gồm khái niệm sau : ¾ Cơ sở liệu, kho chứa liệu hay nơi lưu chứa thông tin khác (Database, data warehouse, or other information repository) : Là chuỗi sở liệu, kho chứa liệu nơi lưu chứa thơng tin ¾ Phục vụ kho liệu (Database or data warehouse server) : Là phần có chức đáp ứng việc tìm kiếm liệu có liên quan, dựa yêu cầu khai phá liệu người sử dụng ¾ Nền tảng kiến thức (Knowlegde base): Đây phần kiến thức mà sử dụng để nghiên cứu định mức quan tâm (interestingness) mẫu kết quả, bao gồm bậc khái niệm để tổ chức thuộc tính hay giá trị thuộc tính thành mức trừu tượng khác đánh giá độ quan tâm mẫu dựa mức độ không mong muốn nó, ràng buộc độ quan tâm mức ngưỡng hay siêu liệu HV: Nguyễn Thanh Long_09180066 Trang Phụ lục 50 65 135 136 45 71 116 151 Columns 163 through 171 333 354 55 76 97 127 146 167 183 Columns 172 through 180 195 223 230 232 176 198 226 227 231 Columns 181 through 189 128 143 177 36 56 77 79 100 Columns 190 through 198 147 259 69 80 93 165 139 160 Columns 199 through 207 182 184 199 210 211 224 225 58 63 Columns 208 through 216 90 112 196 255 37 42 59 126 171 Columns 217 through 225 179 186 48 67 78 137 22 29 43 Columns 226 through 234 49 88 158 263 284 104 174 175 181 Columns 235 through 243 197 35 102 106 228 253 31 41 57 Columns 244 through 252 101 144 172 254 10 30 73 130 193 Columns 253 through 261 221 235 18 24 44 109 123 277 34 Columns 262 through 270 62 105 209 252 38 39 74 200 214 Columns 271 through 279 237 20 25 81 11 13 14 Columns 280 through 288 23 46 21 27 28 53 125 313 327 3-HỆ ĐƠN VỊ TƯƠNG ĐỐI TOÀN NĂM ( CHIA CHO MAX NGÀY ) Nhóm Columns through 14 22 23 25 249 13 236 222 187 Columns 10 through 18 248 173 180 194 208 40 82 257 299 Columns 19 through 27 313 362 278 355 61 95 103 145 229 Columns 28 through 36 131 138 241 246 250 12 19 47 Columns 37 through 45 68 89 94 110 111 117 124 264 271 Columns 46 through 54 285 292 306 320 327 341 26 54 152 Columns 55 through 63 159 166 201 348 215 242 243 244 245 Columns 64 through 66 247 334 335 21 Phụ lục Nhóm Columns through 33 75 96 188 258 10 38 90 34 Columns 10 through 18 104 105 139 197 203 204 205 160 181 Columns 19 through 27 183 202 174 175 195 206 209 210 216 Columns 28 through 36 59 126 144 207 354 37 161 172 255 Columns 37 through 45 153 182 189 190 127 132 232 62 146 Columns 46 through 54 167 217 223 230 50 52 74 93 147 Columns 55 through 63 332 357 364 91 143 171 177 179 186 Columns 64 through 72 39 58 92 106 142 231 35 98 102 Columns 73 through 81 279 288 349 363 55 76 97 265 356 Columns 82 through 90 36 56 79 121 287 31 42 280 Columns 91 through 99 122 228 307 321 359 365 63 107 252 Columns 100 through 108 253 272 293 358 83 118 251 286 17 Columns 109 through 117 32 60 67 73 100 108 135 137 361 Columns 118 through 126 57 101 141 170 70 129 133 214 Columns 127 through 135 162 178 185 191 192 220 227 29 30 Columns 136 through 144 130 221 65 80 259 266 281 290 Columns 145 through 153 41 69 77 149 275 276 353 128 169 Columns 154 through 162 219 254 140 148 163 176 184 196 198 Columns 163 through 171 199 200 211 212 224 225 226 109 119 Columns 172 through 180 136 151 157 165 256 48 289 310 311 Columns 181 through 189 66 262 267 283 294 297 309 360 51 Columns 190 through 198 64 260 261 164 218 233 237 238 20 Columns 199 through 207 49 263 331 333 72 84 87 274 Columns 208 through 216 22 Phụ lục 277 302 324 329 71 268 295 308 322 Columns 217 through 225 323 78 282 300 314 328 337 342 343 Columns 226 through 234 350 99 134 234 18 81 88 158 Columns 235 through 243 298 312 319 352 43 291 330 45 Columns 244 through 252 296 303 304 325 346 113 269 112 114 Columns 253 through 261 120 16 28 53 284 305 326 345 Columns 262 through 270 15 270 317 318 85 86 115 273 315 Columns 271 through 279 316 339 235 150 154 155 156 168 193 Columns 280 through 288 213 239 24 46 123 116 340 344 11 Columns 289 through 297 21 27 338 351 44 301 347 125 Columns 298 through 299 240 336 4-HỆ ĐƠN VỊ CÓ TÊN NGÀY THƯỜNG Nhóm Columns through 51 70 261 150 154 155 163 164 168 Columns 10 through 18 169 219 149 188 108 66 113 275 276 Columns 19 through 27 280 281 307 365 99 122 50 135 Columns 28 through 36 119 274 72 120 282 265 272 286 288 Columns 37 through 45 293 356 17 52 121 170 287 Columns 46 through 54 16 84 85 262 266 283 289 114 115 Columns 55 through 63 156 267 134 273 87 15 86 157 268 Columns 64 through 72 269 308 301 314 300 337 350 357 363 Columns 73 through 81 364 290 294 296 295 315 322 316 328 Columns 82 through 90 338 342 343 351 332 309 321 349 358 Columns 91 through 99 297 304 310 353 359 302 303 318 323 Columns 100 through 108 23 Phụ lục 324 360 317 325 329 330 331 339 344 Columns 109 through 111 345 346 352 Nhóm Columns through 111 239 240 241 248 202 204 205 251 Columns 10 through 18 34 62 105 203 206 209 174 181 175 Columns 19 through 27 210 211 224 238 38 237 252 35 104 Columns 28 through 36 197 184 199 225 146 167 195 223 21 Columns 37 through 45 27 28 125 20 30 31 57 101 106 Columns 46 through 54 253 254 255 182 196 127 139 160 183 Columns 55 through 63 198 232 13 44 10 41 58 112 Columns 64 through 72 37 59 90 226 227 55 76 97 230 Columns 73 through 81 258 14 22 23 24 43 48 49 Columns 82 through 90 42 63 78 128 177 231 132 176 189 Columns 91 through 99 190 212 217 29 73 171 36 56 80 Columns 100 through 108 91 92 142 140 148 153 161 162 178 Columns 109 through 117 185 191 192 233 100 126 143 147 Columns 118 through 126 213 77 93 69 64 83 98 107 260 Columns 127 through 135 279 118 133 218 220 234 79 141 259 Columns 136 through 141 45 65 71 129 136 5-HỆ ĐƠN VỊ CÓ TÊN NGÀY NGHỈ Nhóm Columns through 242 243 244 245 246 247 250 335 94 Columns 10 through 18 215 334 208 249 95 33 61 103 166 Columns 19 through 27 54 201 75 173 257 145 159 110 124 Columns 28 through 36 96 131 138 40 26 68 180 194 229 Columns 37 through 45 24 Phụ lục 82 278 285 117 216 187 222 236 Columns 46 through 51 355 152 19 47 264 292 Nhóm Columns through 207 362 12 271 306 32 60 74 256 Columns 10 through 18 336 299 89 348 39 200 214 53 313 Columns 19 through 27 320 341 102 172 228 235 11 18 81 Columns 28 through 36 25 46 327 130 144 193 67 88 123 Columns 37 through 45 158 116 179 186 221 109 277 284 354 Columns 46 through 54 361 137 165 263 151 270 291 333 Columns 55 through 62 298 312 305 311 319 326 340 347 6-HỆ ĐƠN VỊ TƯƠNG ĐỐI NGÀY THƯỜNG Nhóm Columns through 259 69 80 91 79 93 140 148 153 Columns 10 through 18 218 233 234 161 178 192 212 141 177 Columns 19 through 27 213 56 77 100 143 147 29 36 Columns 28 through 36 126 171 132 162 176 185 189 190 191 Columns 37 through 45 217 128 231 42 78 43 48 49 22 Columns 46 through 54 24 73 167 230 258 97 198 226 227 Columns 55 through 63 58 112 196 10 41 13 14 Columns 64 through 72 23 44 55 76 127 146 232 63 90 Columns 73 through 81 31 37 57 59 101 106 253 254 255 Columns 82 through 90 30 20 21 27 28 125 139 160 183 Columns 91 through 99 195 210 223 104 181 182 184 225 35 Columns 100 through 108 197 38 237 252 238 175 199 211 224 Columns 109 through 117 25 Phụ lục 174 209 34 62 105 202 203 204 205 Columns 118 through 124 206 251 111 239 240 241 248 Nhóm Columns through 10 325 329 330 331 339 344 345 346 352 302 Columns 11 through 20 317 318 324 338 351 297 303 304 310 316 Columns 21 through 30 295 296 315 300 301 314 323 328 343 360 Columns 31 through 40 322 353 294 309 332 15 86 269 268 308 Columns 41 through 50 337 342 350 359 321 349 358 290 357 364 Columns 51 through 60 87 115 157 293 363 134 262 287 72 266 Columns 61 through 70 267 282 283 289 16 85 156 273 265 272 Columns 71 through 80 286 288 356 365 99 114 275 84 119 Columns 81 through 90 274 122 307 120 150 154 155 164 169 64 Columns 91 through 100 113 276 52 66 136 17 50 108 Columns 101 through 110 121 135 170 83 98 107 118 142 220 279 Columns 111 through 120 280 51 65 70 71 92 260 261 281 Columns 121 through 128 45 129 133 163 168 219 149 188 7-HỆ ĐƠN VỊ TƯƠNG ĐỐI NGÀY THƯỜNG Nhóm Columns through 234 328 343 350 248 301 273 351 13 Columns 10 through 18 21 22 27 14 23 111 241 44 Columns 19 through 27 113 85 115 338 339 344 24 28 Columns 28 through 36 125 154 168 239 240 120 155 86 269 Columns 37 through 45 315 316 317 15 16 318 330 112 134 Columns 46 through 54 150 164 169 238 114 156 157 213 Columns 55 through 63 296 45 303 304 325 346 43 345 78 Columns 64 through 72 26 Phụ lục 268 282 300 64 99 219 237 41 274 Columns 73 through 81 71 72 295 308 322 323 302 324 329 Columns 82 through 90 51 260 314 337 261 275 283 294 309 Columns 91 through 99 360 66 297 20 49 84 87 310 331 Columns 100 through 108 352 70 259 262 276 281 65 69 80 Columns 109 through 117 266 267 290 48 289 77 136 353 Columns 118 through 124 31 57 170 29 30 119 Nhóm Columns through 286 293 307 342 272 321 358 365 35 Columns 10 through 18 63 76 97 107 252 265 288 356 253 Columns 19 through 27 359 83 118 251 254 101 141 149 73 Columns 28 through 36 100 108 198 199 211 212 218 225 233 Columns 37 through 45 140 148 163 176 184 196 226 128 129 Columns 46 through 54 133 178 56 17 121 135 287 Columns 55 through 63 185 217 224 191 227 182 190 192 220 Columns 64 through 72 42 177 36 50 79 143 147 171 62 Columns 73 through 81 127 146 167 223 230 232 132 162 92 Columns 82 through 90 106 122 142 231 280 37 255 52 59 Columns 91 through 99 93 126 332 357 364 175 195 209 210 Columns 100 through 108 160 183 98 153 58 91 279 349 363 Columns 109 through 117 38 174 197 202 203 204 205 206 104 Columns 118 through 126 105 139 161 181 189 34 55 10 90 Columns 127 through 128 188 258 27 Phụ lục 8-HỆ ĐƠN VỊ TƯƠNG ĐỐI NGÀY NGHỈ Nhóm Columns through 10 12 264 271 292 152 355 187 222 236 216 Columns 11 through 20 19 47 117 278 285 40 82 194 229 Columns 21 through 30 180 26 68 159 131 138 173 96 110 124 Columns 31 through 40 54 201 145 33 61 103 75 95 166 257 Columns 41 through 50 208 249 215 334 94 335 250 242 246 247 Columns 51 through 53 243 244 245 Nhóm Columns through 305 311 319 326 340 347 298 Columns 10 through 18 270 291 333 165 67 137 186 Columns 19 through 27 263 221 144 179 116 158 Columns 28 through 36 109 277 130 172 193 11 123 312 151 361 354 88 284 18 235 Columns 37 through 45 102 228 313 327 341 25 46 53 81 Columns 46 through 54 39 200 214 320 299 336 256 32 60 Columns 55 through 60 74 89 348 306 362 207 9-HỆ ĐƠN VỊ TƯƠNG ĐỐI NGÀY NGHỈ Nhóm Columns through 10 12 19 271 285 292 320 89 306 341 94 Columns 11 through 20 117 348 47 313 327 110 264 124 26 Columns 21 through 30 362 68 278 54 166 152 201 40 82 257 Columns 31 through 40 299 61 145 159 229 249 355 138 131 95 Columns 41 through 50 236 215 25 222 246 250 244 245 247 335 Columns 51 through 53 242 243 334 28 Phụ lục Nhóm Columns through 10 187 216 336 11 46 116 340 180 173 194 Columns 11 through 20 208 270 53 123 103 75 96 305 347 81 Columns 21 through 30 284 326 33 263 277 291 333 298 18 Columns 31 through 40 88 158 312 319 354 235 256 311 151 109 Columns 41 through 50 67 361 32 137 102 193 200 228 165 214 Columns 51 through 60 221 39 130 172 60 74 144 179 186 207 29 Phụ lục 3.2 Code chương trình: 3.2.1 SOM & Kmeans clc;clear; disp(' '); disp('Lua chon du lieu dau vao'); disp('1)He don vi co ten nam'); disp('2)He don vi tuong doi nam (chia cho max nam)'); disp('3)He don vi tuong doi nam (chia cho max ngay)'); disp('4)He don vi co ten thuong'); disp('5)He don vi co ten nghi'); disp('6)He don vi tuong doi thuong'); disp('7)He don vi tuong doi thuong'); disp('8)He don vi tuong doi nghi'); disp('9)He don vi tuong doi nghi'); number=input('Chon: '); switch number case load dulieuvao.mat; dulieuvao=dulieu; case load dulieudvtd.mat; dulieuvao=dulieudvtd1; case load dulieudvtd.mat; dulieuvao=dulieudvtd2; case load ngaythuong.mat dulieuvao=dulieu1; index=dulieu1index; case load ngaynghi.mat dulieuvao=dulieu2; index=dulieu2index; case load ngaythuongdvtd.mat load ngaythuong.mat dulieuvao=dulieudvtd1; index=dulieu1index; case load ngaythuongdvtd.mat load ngaythuong.mat dulieuvao=dulieudvtd2; index=dulieu1index; case load ngaynghidvtd.mat load ngaynghi.mat 30 Phụ lục dulieuvao=dulieudvtd1; index=dulieu2index; case load ngaynghidvtd.mat load ngaynghi.mat dulieuvao=dulieudvtd2; index=dulieu2index; end %%%%%%%%%%%%%%%%%%%%%%%%%% %Mang som [M,N]=size(dulieuvao); trimax=max(dulieuvao); trimin=min(dulieuvao); trimaxmin=[trimin;trimax]; trimaxmin=trimaxmin'; net = newsom(trimaxmin,[5 14]); net = train(net,dulieuvao'); prototype=net.iw{1,1}; [M1,N1]=size(net.iw{1,1}); for i=1:M for j=1:M1 corespond(j)= Euclide(dulieuvao(i,:),prototype(j,:)); end [c a]=min(corespond); vitri(i)=a; end %%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%% %Kmeans S=0; dulieu=prototype; for k=2:3 sonhom=k; [IDX,Cen] = kmeans(dulieu,sonhom); %Tinh Ri for i=1:sonhom for j=1:sonhom if i~=j Si=tinhSi(i,sonhom,IDX,Cen); Sj=tinhSi(j,sonhom,IDX,Cen); temp(j)=(Si+Sj)/Euclide(dulieu(i,:),dulieu(j,:)); end end 31 Phụ lục R(i)=max(temp); end DBindex(k)=sum(R)/sonhom; end DBindex(1)=[]; [c i]=min(DBindex); K_op=i+1; fprintf('So nhom toi uu la % d \n',K_op) [IDX,Cen] = kmeans(dulieu,K_op); cputime save kqCen_3.mat Cen a=1 b=0;kq_som=0;kqn=0;kq=0; for j=1:length(IDX) if IDX(j)==a b=b+1; kq_som(b)=j; end end b=0; for i=1:length(kq_som) for j=1:length(vitri) if kq_som(i)==vitri(j) b=b+1; kq(b)=j; end end end %for i=1:length(kqn) %kq(i)=index(kqn(i)); %end save kqn1_3.mat kq a=2 b=0;kq_som=0;kqn=0;kq=0; for j=1:length(IDX) if IDX(j)==a b=b+1; kq_som(b)=j; end end b=0; for i=1:length(kq_som) for j=1:length(vitri) if kq_som(i)==vitri(j) b=b+1; 32 Phụ lục kq(b)=j; end end end %for i=1:length(kqn) % kq(i)=index(kqn(i)); %end save kqn2_3.mat kq 3.2.2 Phân tích kết quả: %PHAN TICH KET QUA clc;clear; load dulieudvtd.mat; dulieu=dulieudvtd2; cen_mean=mean(dulieu); sizeDT=size(dulieu); %Phan tich Som load kqCen_3.mat; load kqn1_3.mat; kq1=kq; load kqn2_3.mat; kq2=kq; %Tinh tam c1s=length(kq1)/length(dulieu); c2s=length(kq2)/length(dulieu); if (c1s>=0.66) cen=Cen(1,:); elseif (c2s>=0.66) cen=Cen(2,:); else cen= (c1s*Cen(1,:))+(c2s*Cen(2,:)); end %Tinh lech soptu_mean=dolech(dulieu,cen_mean) soptu=dolech(dulieu,cen) %Ve thi xlabel('Gio'); ylabel('P'); title('HE DON VI TUONG DOI (MAX NGAY)') hold on grid on stairs(cen,'Linewidth',2,'color','r') stairs(cen_mean,'Linewidth',2,'color','y') for i=1:sizeDT(1) stairs(dulieu(i,:),'Linewidth',1,'color','b') end 33 Phụ lục stairs(cen,'Linewidth',2,'color','r') stairs(cen_mean,'Linewidth',2,'color','y') legend('Tam dai dien','Tam tb','Data ngay','Location','NorthEastOutside'); 3.3.3 Các hàm tính tốn: Hàm tính số vector khoảng ±10% function soptu=dolech(dulieu,cen) %Tinh so phan tu lech khoi cen_mean sizeDT=size(dulieu); soptu=0; for i=1:sizeDT(1) x=1; for j=1:sizeDT(2) if (dulieu(i,j)>=(1.1*cen(j)))|(dulieu(i,j)