Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
1,43 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM KHOA TIN - - TRẦN THỊ TÂN KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN KHÓA LUẬN TỐT NGHIỆP - 1- LỜI NÓI ĐẦU Hiện việc ứng dụng công nghệ thông tin vào hoạt động kinh tế xã hội tạo nên sở liệu khổng lồ Để khai thác thơng tin hữu ích từ nguồn liệu to lớn cách hiệu cần cơng cụ kỹ thuật thích hợp Các kỹ thuật truyền thống khai thác thơng tin hữu ích mà sở liệu mang lại, thường thơng tin kỹ thuật cũ không đưa thông tin trợ giúp hiệu cho q trình định Trong năm gần nhiều nhà khoa học đề xuất phương pháp, kỹ thuật nhằm phân tích hiệu sở liệu để tìm kiếm thơng tin tiềm ẩn, so với khối lượng liệu, quan trọng việc trợ giúp định Khám phá tri thức từ sở liệu chuỗi thời gian nghiên cứu, phát triển năm gần thu hút nhiều quan tâm nhà khoa học lẫn nhiều nhà quản lý.Khai phá liệu (Data Mining) xem giai đoạn trình khám phá tri thức, kỹ thuật khai phá giúp chuyển từ khối liệu to lớn thành thông tin tri thức hữu dụng cho ứng dụng rộng lớn bao gồm phân tích thị trường, quản lý thương mại, hỗ trợ định, khai phá liệu thu hút nhiều quan tâm to lớn lĩnh vực công nghê thông tin năm gần Khai phá liệu bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Khác với sở liệu tĩnh, sở liệu chuỗi thời gian chứa tập ghi mà số thuộc tính kiện chúng có liên quan đến nhãn thời gian Trong sở liệu chuỗi thời gian, độ lớn thời gian phần khơng thể tách rời cần tính đến q trình phân tích khai phá liệu Trong nghiên cứu khoa học kinh tế xã hội có nhu cầu ghi nhận kiện biến thiên đại lượng theo thời gian Các nghiên cứu khai phá - 2- sở liệu chuỗi thời gian có nhiều thành tựu hoạt động kinh tế xã hội, giáo dục Và cung cấp thông tin dự báo tương lai Trên sở tìm hiểu tổng quan sở liệu chuỗi thời gian Em mong qua khóa luận này, em tìm hiểu số phương pháp cho việc phân tích, khám phá tri thức từ sở liệu chuỗi thời gian để tạo điều kiện cho việc hệ thống hóa q trình tích lũy thông tin thống kê áp dụng vào việc dự báo hành vi cho đối tượng theo chuỗi thời gian - 3- LỜI CẢM ƠN Trải qua quãng đời sinh viên bốn năm mái trường Đại học Sư Phạm – Đại học Đà Nẵng, em quý thầy tận tình dìu dắt, dạy bảo.Lời trước tiên, em gửi tới tất thầy, cô giáo Khoa Tin hoc, trường Đại học Sư Phạm – Đại học Đà Nẵng lòng biết ơn sâu sắc thầy dành cho em suốt thời gian qua Và hết, em xin gửi lời cảm ơn chân thành tới thầy PGS.TSKH Trần Quốc Chiến, người trực tiếp hướng dẫn tận tình cho khóa luận em hoàn thành Em xin cảm ơn tới gia đình em, bạn bè em đặc biệt bạn lớp 08SPT, động viên giúp đỡ, góp ý để em hồn thành khóa luận thời gian quy định Mặc dù em làm việc nghiêm túc cố gắng để hồn thành khóa luận, khả thân hạn chế nên khơng tránh khỏi thiếu sót, kính mong cảm thơng đóng góp ý kiến q thầy bạn để khóa luận hồn chỉnh hơn! Đà Nẵng, tháng năm 2012 Sinh viên thực hiên Trần Thị Tân 08SPT - 4- NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… …………………………………………………………………… Đà Nẵng, ngày tháng năm 2012 giáo viên hướng dẫn PGS.TSKH Trần Quốc Chiến - 5- NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… ……………………………………………………………………… …………………………………………………………………… Đà Nẵng, ngày tháng năm 2012 giáo viên phản biện - 6- PHẦN MỞ ĐẦU Lý chọn đề tài: Nhiều năm qua phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội, giáo dục đồng nghĩa với lượng liệu người thu thập, tích luỹ lưu trữ ngày nhiều lên Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai thác liệu (KDD – Knowledge Discovery and Data Mining) Khai phá liệu khái niệm đời vào năm cuối thập kỹ 80 Khai phá liệu trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng sở liệu lớn Nó bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Năm 1989, Fayyad, Piatestsky-Shapiro Smyth dùng khái niệm Phát tri thức sở liệu, để toàn q trình phát tri thức có ích từ tập liệu lớn, khai phá liệu bước đặc biệt toàn trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mơ hình từ liệu Khác với sở liệu tĩnh, sở liệu chuỗi thời gian chứa tập ghi mà số thuộc tính kiện chúng có liên quan đến nhãn thời gian Trong sở liệu chuỗi thời gian, độ lớn thời gian phần tách rời cần tính đến q trình phân tích khai phá liệu Trong nghiên cứu khoa học kinh tế xã hội ln có nhu cầu ghi nhận kiện biến thiên đại lượng theo thời gian Các nghiên cứu khai phá sở liệu chuỗi thời gian có nhiều thành tựu hoạt động kinh tế xã hội, giáo dục Và cung cấp thông tin dự báo tương lai - 7- Với mong muốn, sở tìm hiểu tổng quan sở liệu chuỗi thời gian em tìm hiểu số phương pháp cho việc phân tích, khám phá tri thức từ sở liệu chuỗi thời gian để tạo điều kiện cho việc hệ thống hóa trình tích lũy thơng tin thống kê áp dụng vào việc dự báo hành vi cho đối tượng theo chuỗi thời gian Xuất phát từ lý trên, em chọn đề tài nghiên cứu:“Khai phá liệu chuỗi thời gian” Mục đích nghiên cứu: - Tìm hiểu phương pháp phân tích chuỗi theo thời gian dự báo - Tìm hiểu sở liệu chuỗi thời gian - Tìm hiểu kỹ thuật khám phá tri thức sở liệu chuỗi thời gian - Áp dụng vào toán cụ thể khám phá tri thức sở liệu điểm học sinh, sau thực dự báo kết học tập học sinh Đối tượng nghiên cứu: - Cơ sở liệu chuỗi thời gian - Việc khám phá tri thức sở liệu điểm học sinh đưa kết học tập học sinh thời gian Nhiệm vụ nghiên cứu: - Biết cách phân tích chuỗi theo thời gian cách dự báo - Tìm hiểu sở liệu theo thời gian - Các phương pháp khám phá tri thức, khai phá sở liệu chuỗi thời gian - Áp dụng vào toán cụ thể dự báo kết học tập học sinh thời gian sở liệu điểm học sinh Phương pháp nghiên cứu: - Nghiên cứu lý thuyết phân tích chuỗi theo thời gian cách dự báo - Nghiên cứu lý thuyết sở liệu chuỗi thời gian, cách khám phá tri thức sở liệu chuỗi thời gian - 8- - Áp dụng vào toán cụ thể dự báo kết học tập học sinh thời gian sở liệu điểm học sinh Bố cục luận văn: Ngoài phần mở đầu, kết luận, tài liệu tham khảo, luận văn gồm chương: Chương I: Tìm hiểu phân tích chuỗi theo thời gian dự báo (Time series Analysis and Forecoasting) Chương II: Cơ sở liệu chuỗi thời gian Chương III: Bài toán vận dụng ( Áp dụng vào toán cụ thể dự báo kết học tập học sinh thời gian sở liệu điểm học sinh.) - 9- PHẦN NỘI DUNG CHƯƠNG I: TÌM HIỂU VỀ PHÂN TÍCH CHUỖI TUẦN TỰ THEO THỜI GIAN VÀ DỰ BÁO ( Time series Analysis and Forecoasting) 1.1 CHUỖI TUẦN TỰ THEO THỜI GIAN ( Time series) 1.1.1 Định nghĩa - Chuỗi theo thời gian chuỗi giá trị đại lượng ghi nhận theo thời gian Các giá trị chuỗi theo thời gian đại lượng X kí hiệu Xi Trong X1 giá trị quan sát thời điểm đầu tiên, X2 giá trị quan sát thời điểm thứ Xn giá trị quan sát thời điểm n Ví dụ: Số lượng hàng bán 12 tháng công ty Điểm học sinh theo kỳ học năm học Các báo cáo tài mà ta thấy ngày báo chí, ti vi hay Internet số chứng khoán, tỷ giá tiền tệ, số tăng cường hay số tiêu dùng thể thực tế chuỗi thời gian 1.1.2 Các thành phần chuỗi theo thời gian Các nhà thống kê thường chia chuỗi theo thời gian làm thành phần: - Thành phần xu hướng dài hạn (long-term trend component) - Thành phần mùa vụ(Seasonal component) - Thành phần chu kỳ (Cyclical component) - Thành phần bất thường (irregular component) a Thành phần xu hướng dài hạn: Thành phần dùng để xu hướng tăng giảm đại lượng X khoảng thời gian dài Về mặt đồ thị thành phần diễn tả đường thẳng hay đường cong trơn (Smooth curve) - 10- Kết học sinh dãy số thực ghi nhận theo khoảng thời gian (ở thời điểm ghi nhận học kỳ ta xem thời gian học kỳ nhau) Như ta xem xét sở liệu điểm học sinh góc độ sở liệu chuỗi thời gian 3.3 GIẢI QUYẾT BÀI TOÁN: Bảng điểm học sinh lưu trữ sau: Bảng điểm lưu trữ thông tin 30 học sinh lớp 10A1,11A1 trường THPT Nguyễn Thị Minh Khai - Đức Thọ - Hà Tĩnh, khóa học 2007 - 2010 Mã ID lưu trữ thơng tin học sinh thay cho việc phải lưu trữ họ tên học sinh, năm có học kỳ nên điểm tổng kết lưu trữ học kỳ lưu trữ bảng sau : Mã ID KHI HKII HKIII HKIV A101 8,2 8,3 8,4 8,1 A102 8,5 8,7 8,9 8,6 A103 7,9 8,0 8,1 8.0 A104 8,5 8,7 8,8 8,8 A105 8,0 8,2 8,3 8,5 A106 6,5 6,8 7,0 6,6 A107 8,8 9,1 9,1 9,2 A108 8,0 8,2 8,2 8,2 A109 7,9 8,0 8,1 8,1 A110 8,0 8,1 8,2 8,1 A111 8,0 8,1 8,3 8,4 A112 8,3 8,6 8,7 8,9 A113 8,0 8,2 8,3 8,3 A114 8,3 8,5 8,6 8,9 A115 7,2 7,3 7,3 7,5 A116 8,1 8,1 8,5 8,6 A117 7,9 8,1 8,3 8,3 A118 6,5 6.9 7.0 7.0 A119 8,0 8.1 8.3 8.2 A120 8,2 8,3 8,5 8,6 - 48- A121 7,8 8,0 8,4 8,5 A122 8,3 8,3 8,7 8,7 A123 8,9 9,1 9,1 9,3 A124 8,0 8,1 8,4 8,4 A125 8,3 8,6 8,7 8,9 A126 8,0 8,2 8,3 8,3 A127 7,7 8,0 8.2 8,3 A128 8,2 8,2 8,6 8,7 A129 7,4 7,5 7,3 7,5 A130 7,5 7,9 7,9 8,0 Bài toán dự báo kết học tập học sinh tương lai sở liệu điểm học sinh nhìn quan điểm sở liệu chuỗi thời gian trình bày qua bước sau: Đầu vào bảng tổng kết học sinh theo kỳ học suốt học kỳ lớp 10 lớp 11 Kết học sinh chứa ghi xếp theo thứ tự thời gian, khoảng thời gian toán kỳ học Như từ sở liệu điểm tổng kết thông thường ta chuyển dạng sở liệu chuỗi thời gian Kết nhận điểm học sinh kỳ học trả lời cho câu hỏi:“Với kết kết đạt thời gian ?” Sử dụng phương pháp hồi quy theo thời gian để dự báo kết học sinh kỳ học Ở toán ta đặt thứ tự thời gian t cho tổng t= 0, t = (-3, -1, 1, 3), viết phương trình hồi quy cho đối tượng học sinh Vì chọn tổng t = nên ta tính theo cơng thức sau: a y y n b - 49- yt t Mã ID KHI A101 8,2 A102 8,5 A103 7,9 A104 8,5 A105 8,0 A106 6,5 A107 8,8 A108 8,0 HKII 8,3 8,7 8,0 8,7 8,2 6,8 9,1 8,2 HKIII 8,4 8,9 8,1 8,8 8,3 7,0 9,1 8,2 HKIV t 8,1 8,6 8,0 8,8 8,5 6,6 9,2 8,2 t2 Yt -3 -24,6 -1 -8,3 Phương trình hồi quy ^ Y 8,28 ^ Y =8,25-0,01t 8,26 1 8,4 24,3 8,22 -3 -25,5 8,6 -1 -8,7 ^ Y =8,675+0,025t 8,24 8,65 1 8,9 25,8 8,75 -3 -23,7 7,94 -1 -8,0 1 8,1 24,0 8,06 -3 -25,5 8,55 -1 -8,7 1 8,8 26,4 8,85 -3 -24 8,01 -1 -8,2 ^ Y =8+0,02t ^ Y =8,7+0,05t ^ Y =8,25+0,08t 8,7 7,98 8,02 8,65 8,75 8,17 1 8,3 25,5 8,49 -3 -19,5 6,525 -1 -6,8 1 7,0 19,8 6,675 -3 -26,4 8,87 -1 -9,1 ^ Y =6,6+0,025t ^ Y =9,05+0,06t 8,33 6,575 6,625 8,99 1 9,1 27,6 9,23 -3 -24 8,06 -1 -8,2 1 8,2 24,6 - 50- ^ Y =8,15+0,03t 9,11 8,12 8,18 8,24 A109 7,9 A110 8,0 A111 8,0 A112 8,3 A113 8,0 A114 8,3 A115 7,2 A116 8,1 A117 7,9 8,0 8,1 8,1 8,6 8,2 8,5 7,3 8,1 8,1 8,1 8,2 8,3 8,7 8,3 8,6 7,3 8,5 8,3 8,1 8,1 8,4 8,9 8,3 8,9 7,5 8,6 8,3 -3 -23,7 7,92 -1 -8,0 1 8,1 24,3 8,13 -3 -24 8,04 -1 -8,1 ^ Y =8,025+0,035t ^ Y =8,1+0,02t 7,99 8,06 8,08 1 8,2 24,3 8,16 -3 -24 7,99 -1 -8,1 ^ Y =8,2+0,07t 8,12 8,13 1 8,3 25,2 8,41 -3 -24,9 8,34 -1 -8,6 ^ Y =8,625+0,095t 8,27 8,53 1 8,7 26,7 8,91 -3 -24 8,05 -1 -8,2 ^ Y =8,2+0,05t 8,72 8,15 1 8,3 24,9 8,35 -3 -24,9 8,29 -1 -8,5 1 8,6 26,7 8,86 -3 -21,6 7,19 -1 -7,3 1 7,3 22,5 7,46 -3 -24,3 8,04 -1 -8,1 1 8,5 25,8 -3 -23,7 -1 - 51- -8,1 ^ Y =8,575+0,095t ^ Y =7,325+0,045t ^ Y =8,325+0,095t 8,25 8,48 8,67 7,28 7,37 8,23 8,42 8,61 ^ Y =8,15+0,07t 7,94 8,08 A118 6,5 A119 8,0 A120 8,2 A121 7,8 A122 8,3 A123 8,9 A124 8,0 A125 8,3 6.9 8.1 8,3 8,0 8,3 9,1 8,1 8,6 7.0 8.3 8,5 8,4 8,7 9,1 8,4 8,7 7.0 8.2 8,6 8,5 8,7 9,3 8,4 8,9 1 8,3 8,22 24,9 8,36 -3 -19,5 6,61 -1 -6,9 ^ Y =6,85+0,08t 6,77 1 7,0 21,0 7,09 -3 -24 8,03 -1 -8,1 ^ Y =8,15+0,04t 6,93 8,11 1 8,3 24,6 8,27 -3 -24,6 8,19 -1 -8,3 1 8,5 25,8 8,61 -3 -23,4 7,8 -1 -8,0 1 8,4 25,5 8,55 -3 -24,9 8,26 -1 -8,3 ^ Y =8,4+0,07t ^ Y =8,175+0,125t ^ Y =8,5+0,08t 8,19 8,33 8,47 8,05 8,3 8,42 1 8,7 26,1 8,74 -3 -26,7 8,92 -1 -9,1 ^ Y =9,1+0,06t 8,58 9,04 1 9,1 27,9 9,28 -3 -24 -1 -8,1 1 8,4 25,2 8,45 -3 -24,9 8,34 -1 -8,6 1 8,7 26,7 - 52- ^ Y =8,225+0,075t ^ Y =8,625+0,095t 9,16 8,15 8,3 8,53 8,72 8,91 A126 8,0 A127 7,7 A128 8,2 A129 7,4 A130 7,5 8,2 8,0 8,2 7,5 7,9 8,3 8.2 8,6 7,3 7,9 8,3 8,3 8,7 7,5 8,0 -3 -24 8,05 -1 -8,2 1 8,3 24,9 8,35 -3 -23,1 7,75 -1 -8,0 ^ Y =8,2+0,05t ^ Y =8,05+0,1t 8,15 8,25 7,95 1 8,2 24,9 8,35 -3 -24,6 8,14 -1 -8,2 ^ Y =8,425+0,095t 8,15 8,33 1 8,6 26,1 8,71 -3 -22,2 7,41 -1 -7,5 1 7,3 22,5 7,44 -3 -22,5 7,6 -1 -7,9 1 7,9 24 ^ Y =7,425+0,005t ^ Y =7,825+0,075t 8,52 7,42 7,43 7,75 7,9 8,05 Để dự báo kì học cịn lại giá trị t tương ứng t = t = 7, thay t vào phương trình xu ta tính kết dự báo điểm học kỳ V học kỳ VI Ở tầm xa dự báo L = số lượng mức độ n = - 53- Sau áp dụng cơng thức tính sai số dự báo ta có kết dự báo cho học sinh sau: Mã Sai số dự báo Kết dự ^ ID Y A101 Y =8,25 - 0,01t A102 Y =8,675+0,025t A103 Y =8+0,02t A104 Y =8,7+0,05t A105 Y =8,25+0,08t A106 Y =6,6+0,025t A107 Y =9,05+0,06t A108 Y =8,15+0,03t A109 Y =8,025+0,035t A110 Y =8,1+0,02t A111 Y =8,2+0,07t A112 Y =8,625+0,095t A113 Y =8,2+0,05t A114 Y =8,575+0,095t A115 Y =7,325+0,045t A116 Y =8,325+0,095t A117 Y =8,15+0,07t A118 Y =6,85+0,08t A119 Y =8,15+0,04t A120 Y =8,4+0,07t ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ (Sp) báo HKV HKVI HKV HKVI 0,244 0,297 8,2 8,18 0,3 0,365 8,8 8,85 0,121 0,148 8,1 8,14 0,111 0,135 8,95 9,05 0,049 0,0607 8,65 8,81 0,496 0,603 6,725 6,775 0,149 0,182 9,35 9,47 0,1217 0,1481 8,3 8,36 0,0612 0,0744 8,2 8,27 0,1217 0,1481 8,2 8,24 0,0499 0,0607 8,55 8,69 0,096 0,1177 9,1 9,29 0,111 0,135 8,45 8,55 0,093 0,113 9,05 9,24 0,093 0,113 7,55 7,64 0,183 0,223 8,8 8,99 0,1217 0,1481 8,5 8,64 0,229 0,2787 7,25 7,41 0,149 0,182 8,35 8,43 0,0499 0,0607 8,75 8,89 - 54- ^ A121 Y =8,175+0,125t A122 Y =8,5+0,08t A123 Y =9,1+0,06t A124 Y =8,225+0,075t A125 Y =8,625+0,095t A126 Y =8,2+0,05t A127 Y =8,05+0,1t A128 Y =8,425+0,095t A129 Y =7,425+0,005t A130 Y =7,825+0,075t ^ ^ ^ ^ ^ ^ ^ ^ ^ 0,1369 0,1665 8,8 9,05 0,1999 0,2433 8,9 9,06 0,099 0,1216 9,4 9,52 0,1369 0,1665 8,6 8,75 0,093 0,113 9,1 9,29 0,111 0,135 8,45 8,55 0,111 0,135 8,55 8,75 0,183 0,223 8,9 9,09 0,183 0,223 7,45 7,46 0,209 0,254 8,2 8,35 3.4 CÀI ĐẶT CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM 3.4.1 Giới thiệu ngôn ngữ cài đặt Trong ngôn ngữ mà em học tìm hiểu em thấy lập trình Matlab dễ sử dụng với giao diện trực quan, ngơn ngữ sáng khơng địi hỏi nhiều thủ tục Matlab mơi trường tính tốn lập trình cao cấp dạng thông dịch, thiết kế cơng ty MathWorks Matlab cho phép tính tốn với ma trận, đồ thị, biểu diễn thông tin thực thuật toán, tạo giao diện người dùng nhiều chương trình máy tính giao tiếp với chương trình ngôn ngữ khác cách dễ dàng Từ yêu cầu toán ứng dụng em ‘sử dụng mơ hình hồi quy theo thời gian để dự đốn kết học tập học sinh’, địi hỏi phải xử lý file số liệu điểm kỳ học trước đưa điểm dự đoán cho kỳ học biểu diễn đồ thị điểm học sinh để thấy rõ biến thiên Do em chọn lập trình MatLab để cài đặt cho tập vận dụng ‘sử dụng mơ hình hồi quy theo thời gian để dự đoán kết học tập học sinh’ - 55- 3.4.2 Tổ chức liệu chương trình cài đặt Tổ chức liệu Cơ sở liệu chương trình là: điểm học kỳ 30 học sinh lớp 10A1,11A1 trường trung học phổ thông Nguyễn Thị Minh Khai – Đức Thọ - Hà Tĩnh, khóa học 2007 – 2010 Cơ sở liệu toán lưu trữ dạng ma trận( m*n), m số lượng liệu (số lượng học sinh nhập), n số lượng học kỳ Cơ sở liệu lưu vào file có tên BD.m Chương trình cài đặt - Chương trình bao gồm: file chứa liệu đầu vào (BD.m), file xử lý thuật toán chứa nội dung cài đặt (PREMARK.m) file chạy chương trình (.exe) Sau chạy chương trinh kết in hình đồ họa - Cấu trúc file liệu đầu vào (BD.m) BD.m file chứa sở liệu toán ma trận (m*n), m số lượng học sinh nhập, n số lượng học kỳ có điểm nhập - Nội dung cài đặt chương trình file PREMARK.m - Output:chương trình chạy file.exe chứa điểm dự đoán, sai số đồ thị dự đoán điểm học sinh Giả sử dự đoán điểm học sinh thứ 10 sở liệu: NHAP SO THU TU HOC SINH 10 hk5 = 8.2000 hk6 = 8.2400 - 56- Sơ đồ đánh giá điểm dự đoán học kỳ 5, học kỳ học sinh thứ 10 3.4.3 Kết thử nghiệm Kết học tập thực tế 30 học sinh lớp 12A1, năm học 2009 - 2010 Mã ID KHV HKVI A101 8,2 8,2 A102 8,8 8,9 A103 8,0 8,2 A104 8,9 9,0 A105 8,6 8,8 A106 6,8 6,8 A107 9,2 9,5 A108 8,2 8,4 A109 8.2 8,2 A110 8,2 8,3 A111 8,5 8,7 - 57- A112 9,0 9,3 A113 8,5 8,5 A114 9,2 9,2 A115 7,5 7,5 A116 8,9 9,0 A117 8,5 8,7 A118 7,1 7,3 A119 8,4 8,4 A120 8,8 8,9 A121 8,8 9,0 A122 8,9 9,1 A123 9,5 9,6 A124 8,5 8,8 A125 9,0 9,3 A126 8,5 8,5 A127 8,4 8,8 A128 8,9 9,0 A129 7,4 7,5 A130 7,5 7,9 So sánh từ chương trình ‘sử dụng mơ hình dự đốn hồi quy theo thời gian để dự đoán kết học tập học sinh’ kết học tập thực tế 30 em học sinh lớp 12A1 năm học 2009 – 2010 em có nhận xét kết dự đốn tương đối xác 3.5 KẾT CHƯƠNG : Chương minh họa cách dự báo theo phương pháp hồi quy theo thời gian Đã dự báo kết học tập học sinh hai kỳ học học kỳ V học kỳ VI Tương ứng với kết dự báo em tính sai số dự báo cụ thể Từ ta thấy phương pháp dự báo hồi quy theo thời gian cho kết gần sát với thực tế phương pháp cổ điển dễ tính tốn nên dùng phổ biến - 58- PHẦN KẾT LUẬN Những kết đạt được: Tuy đề tài tương đối mới, tơi hồn thành số phần định: Tìm hiểu chuỗi theo thời gian Tìm hiểu sở liệu chuỗi thời gian kỹ thuật khám phá tri thức sở liệu chuỗi thời gian Thực dự báo kết học tập học sinh tương lai mơ hình hồi quy theo thời gian Những mặt hạn chế, tồn tại: Do thời gian có hạn nên khóa luận cịn nhiều thiếu sót: Chưa xây dựng chương trình hồn chỉnh để dự báo kết học tập học sinh kỹ thuật khám phá tri thức sở liệu chuỗi thời gian Chưa cài đặt chương trình số thuật toán gom cụm sở liệu chuỗi thời gian Hướng phát triển đề tài: Tìm hiểu thêm số kỹ thuật khám phá tri thức sở liệu chuỗi thời gian Có thể sử dụng mơ hình như: AR, MA, ARMA, ARIMA, BOX-RENKINS, khám phá luật kết hợp Cài đặt chương trình khám phá tri thức sở liệu điểm học sinh - 59- TÀI LIỆU THAM KHẢO [1] Dương Tuấn Anh , Tổng quan tìm kiếm tương tự liệu chuỗi thời gian, ĐHBK Thành phố Hồ Chí Minh [2] Nguyễn Dỗn Cường, Kỹ thuật khám phá tri thức từ sở liệu chuỗi thời gian áp dụng cho sở liệu thị trường chứng khốn [3] Nguyễn Hữu Đơng , Nghiên cứu ứng dụng phương pháp khám phá chuỗi biến cố sở liệu thời gian vào toán dự đoán kết học tập học sinh, ĐHKHTN-ĐHQG Thành phố Hồ Chí Minh [5] http://www.uit.edu.vn/forum/index.php?act=Attach&type=post [6] http://www.ctu.edu.vn/~dvxe/stat/stat_caohaothi/MS07-R10bV.pdf [7] Kelvin Kamwing Chu, Man Hon Wong (1999), “Fast time series searching with scaling and shifting”, PODS 1999 [8] Eamonn J.Keogh, Michael J.Pazzani (2000), “Scanling up dynamic time warping for dataminng application”, ACM, SIGKDD 2000 [9] Jessica Lin, Eamonn, Stefano Lonardi, Paranav Patel (2002), “Finding motifs in time series”, SIGKDD, July 2002 - 60- MỤC LỤC LỜI NÓI ĐẦU LỜI CẢM ƠN NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN PHẦN MỞ ĐẦU Lý chọn đề tài: Mục đích nghiên cứu: Đối tượng nghiên cứu: Nhiệm vụ nghiên cứu: Phương pháp nghiên cứu: Bố cục luận văn: PHẦN NỘI DUNG 10 CHƯƠNG I: TÌM HIỂU VỀ PHÂN TÍCH CHUỖI TUẦN TỰ 10 THEO THỜI GIAN VÀ DỰ BÁO 10 ( Time series Analysis and Forecoasting) 10 1.1 CHUỖI TUẦN TỰ THEO THỜI GIAN ( Time series) 10 1.1.1 Định nghĩa 10 1.1.2 Các thành phần chuỗi theo thời gian 10 1.1.3 Mơ hình hóa việc dự báo giá trị đại lượng X 12 1.1.4 Các phương pháp làm trơn: (Smoothing methods) 13 1.2 DỰ BÁO THEO CHUỖI THỜI GIAN 16 1.2.1 Khái niệm chung : 16 1.2.2 Phân loại dự báo 17 1.2.3 Các bước dự báo: Công tác dụ báo gồm bước: 18 1.2.4.Các phương pháp dự báo thông dụng: 19 1.3 KẾT CHƯƠNG: 24 - 61- CHƯƠNG II: TÌM HIỂU VỀ CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN 25 2.1 CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN 25 2.1.1 Giới thiệu: 25 2.1.2 Các khái niệm: 25 2.1.3 Xác định tương đồng chuỗi thời gian: 28 2.2 KỶ THUẬT KHÁM PHÁ TRI THỨC TRÊN CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN…………… 31 2.2.1 Phương pháp k-means : 36 2.2.2 Phương pháp Greedy : 43 2.3 KẾT CHƯƠNG : 44 CHƯƠNG II: BÀI TOÁN VẬN DỤNG 25 SỬ DỤNG MƠ HÌNH HỒI QUY THEO THỜI GIAN ĐỂ DỰ BÁO KẾT QUẢ HỌC TẬP CỦA HỌC SINH TRONG TƯƠNG LAI 45 3.1 Mơ hình hồi quy theo thời gian : 45 3.2 Nhìn nhận tốn: 47 3.3 Giải toán: 48 3.4 CÀI ĐẶT CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM 55 3.4.1 Giới thiệu ngôn ngữ cài đặt 55 3.4.2 Tổ chức liệu chương trình cài đặt 56 3.4.3 Kết thử nghiệm 57 3.5 KẾT CHƯƠNG : 58 PHẦN KẾT LUẬN 58 Những kết đạt được: 59 Những mặt hạn chế, tồn tại: 59 Hướng phát triển đề tài: 59 TÀI LIỆU THAM KHẢO 60 - 62- ... hiểu sở liệu theo thời gian - Các phương pháp khám phá tri thức, khai phá sở liệu chuỗi thời gian - Áp dụng vào toán cụ thể dự báo kết học tập học sinh thời gian sở liệu điểm học sinh Phương pháp... trình bày khái niệm chung chuỗi thời gian, sở liệu chuỗi thời gian kỹ thuật khám phá tri thức sở liệu chuỗi thời gian 2.1.2 Các khái niệm: Hiện nghiên cứu chuỗi theo thời gian (Time series) nhiều,... biến thực thứ tự theo thời gian Định nghĩa 2.2: Cơ sở liệu chuỗi thời gian tà tập hợp lớn chuỗi thời gian ghi (record) chuỗi thời gian: T = {Xi}, i = 1, , n Chuỗi thời gian biễu diễn đối tượng