Do đó nghiên cứu này sẽ vận dụng một giải thuật Leader Single-link đã áp dụng cho dữ liệu thông thường vào dữ liệu chuỗi thời gian, qua đó so sánh đánh giá độ hiệu quả của giải thuật nà
GIỚI THIỆU TỔNG QUAN ĐỀ TÀI
Xu hướng dữ liệu hiện tại
Ngày nay dữ liệu máy tính ngày càng phong phú, đa dạng, song song với đó là yêu cầu trích xuất thông tin từ nguồn dữ liệu này Dữ liệu phổ biến hiện nay là dữ liệu chuỗi thời gian (time series) thu thập bởi các cảm biến điện tử (sensor) nhƣ: dữ liệu dòng chảy của sông ngòi, hay thu thập bởi con người như dữ liệu về bệnh ung thƣ của bệnh viện qua các năm, chứng khoán, giá vàng… Dữ liệu chuỗi thời gian tồn tại trong nhiều lĩnh vực khác nhau nhƣ: kinh tế, tài chính, y học, môi trường…Dữ liệu chuỗi thời gian thu hút rất nhiều nhà nghiên cứu tham gia nghiên cứu để cải tiến các giải thuật nhằm tăng độ chính xác trong việc rút trích thông tin cũng nhƣ về thời gian xử lý khối dữ liệu khổng lồ này để hỗ trợ những quyết định trong kinh doanh, y tế, giáo dục
Giới thiệu vấn đề
Chuỗi thời gian là một tập hợp dữ liệu các trị số đo được dưới dạng chuỗi các số thực theo từng khoảng thời gian cách đều nhau Trong nghiên cứu dữ liệu chuỗi thời gian, người ta thường quan tâm đến một đoạn gồm nhiều giá trị được đo liên tục chứ không quan tâm đến giá trị tại từng thời điểm cụ thể Do đó, chuỗi thời gian có thể đƣợc xem là dữ liệu nhiều chiều, với mỗi chiều là một giá trị quan sát đƣợc tại một thời điểm cụ thể Số chiều có thể lên đến vài chục hoặc vài trăm tùy vào nguồn dữ liệu nhƣ giá trị chứng khoán, dữ liệu điện tim của bệnh nhân
Với nhiều nguồn dữ liệu lớn hiện nay, đặt ra thách thức lớn cho các nhà nghiên cứu trong việc trích xuất thông tin cho nguồn dữ liệu thô này, tùy vào từng lĩnh vực mà mục đích việc phân tích dữ liệu khác nhau: trong thống kê, kinh tế, tài chính, địa lý, khí tƣợng … dùng để dự báo; trong xử lý tính hiệu, kỹ thuật điều khiển và truyền thông dùng trong việc ƣớc lƣợng và phát hiện tín hiệu; trong khai phá dữ liệu, nhận dạng mẫu và học máy dùng cho phân loại (classifying), gom cụm (clustering), phát hiện bất thường cũng như dự báo Trong phạm vi đề tài này sẽ nghiên cứu vấn đề gom cụm dữ liệu chuỗi thời gian
GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN BẰNG PHƯƠNG PHÁP LEADER SINGLE-LINK
Gom cụm là quá trình gom nhóm dữ liệu/đối tƣợng vào các cụm, các đối tượng trong cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác
Han and Kamber [1] phân loại các phương pháp gom cụm dữ liệu được phát triển để xử lý các dữ liệu thông thường khác nhau thành năm loại chính:
- Phân hoạch (partitioning): các phân hoạch đƣợc tạo ra và đánh giá theo một tiêu chí nào đó
- Phân cấp (hierarchical): phân rã tập dữ liệu có thứ tự phân cấp theo một tiêu chí nào đó
- Dựa trên mật độ (density-based): dựa trên connectivity và density functions - Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure - Dựa trên mô hình (model-based): một mô hình giả thuyết đƣợc đƣa ra cho mỗi cụm; sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu nhất
Do dữ liệu chuỗi thời gian có đặc trưng riêng so với dữ liệu thông thường với ba đặc điểm chính: số chiều lớn, tính tương quan giữa các bộ dữ liệu rất cao và dữ liệu nhiễu rất lớn Do các đặc điểm riêng này làm cho nhiều giải thuật làm việc hữu hiệu trên dữ liệu thông thường đã không làm việc tốt trên dữ liệu chuỗi thời gian
Các nhà nghiên cứu cố gắng áp dụng lại các thuật toán gom cụm của dữ liệu thông thường cho phù hợp dữ liệu chuỗi thời gian, theo T W Liao gom cụm dữ liệu chuỗi thời gian có 3 hướng tiếp cận [1]:
- Raw-data-based: chuỗi thời gian có thể xử lý trực tiếp áp dụng các giải thuật gom cụm của dữ liệu thông thường, chủ yếu chỉnh sửa lại phần tính khoảng cách/độ tương tự của các bộ dữ liệu chuỗi thời gian
- Feature-based: chuyển dữ liệu chuỗi thời gian qua vector đặc trƣng có số chiều giảm sau đó áp dụng các giải gom cụm thông thường cho các vector đặc trưng trích xuất đƣợc
- Model-based: chuyển dữ liệu chuỗi thời gian qua các tham số mô hình, sau đó áp dụng các giải gom cụm thông thường cho các tham số mô hình này Đề tài này chủ yếu nghiên cứu dùng hai hướng tiếp cận raw-data-based với 2 hai loại gom cụm: phân hoạch (k-Means, Leader) và phân cấp (Single-link), Hình 1.1 thể hiện gom cụm dữ liệu
GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN BẰNG PHƯƠNG PHÁP LEADER SINGLE-LINK
1.3 Động cơ và giới hạn đề tài
Ngày nay dữ liệu chuỗi thời gian ngày càng phổ biến trong đời sống hàng ngày: chứng khoán, dữ liệu sức khỏe con người, thủy văn sông ngòi Nhưng các giải thuật áp dụng cho dữ liệu chuỗi thời gian còn thiếu hơn nhiều so với dữ liệu thông thường.
Do đó nghiên cứu này sẽ vận dụng một giải thuật Leader Single-link đã áp dụng cho dữ liệu thông thường vào dữ liệu chuỗi thời gian, qua đó so sánh đánh giá độ hiệu quả của giải thuật này với giải thuật khác đã thử nghiệm với dữ liệu chuỗi thời gian.
Qua quá trình nghiên cứu và thực nghiệm, luận văn đã cải tiến phương pháp giải thuật hiện tại cho phù hợp với dữ liệu chuỗi thời gian với kết quả tốt hơn.
Trong khuôn khổ đề tài này, luận văn tập trung nghiên cứu gom cụm dữ liệu chuỗi thời gian bằng giải thuật gom cụm Leader Single-link (l-SL) do B Kr Patra và cộng sự đƣa ra năm 2011 [2] Giải thuật này có ƣu điểm so với giải thuật phân cấp Single-link (SL) truyền thống: dùng cho dữ liệu lớn, duyệt qua dữ liệu một lần, nó kết hợp hai giải thuật: đầu tiên dùng giải thuật gom cụm Leader để tìm ra các leader của cụm, tiếp theo là dùng giải thuật phân cấp Single-link để phân hoạch tập leader này Giải thuật Leader Single-link đƣợc đề xuất là nhằm gom cụm dữ liệu thông thường Mục tiêu của đề tài này là nhằm áp dụng giải thuật Leader Single- link vào gom cụm dữ liệu chuỗi thời gian
Hình 1.1 Gom cụm dữ liệu
GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN BẰNG PHƯƠNG PHÁP LEADER SINGLE-LINK
Tiếp đến là nghiên cứu và hiện thực giải thuật gom cụm I-kMeans do E
Keogh và công sự đƣa ra [3] mục tiêu giải thuật là khắc phục nhƣợc điểm của giải thuật k-Means: tăng chất lƣợng gom cụm và giảm thời gian thực thi giải thuật, cho phép người dùng kết thúc quá trình bất kỳ mức nào họ muốn Từ hai giải thuật gom cụm này đưa ra so sánh và đánh giá kết quả gom cụm của hai phương pháp gom cụm dữ liệu chuỗi thời gian Đề xuất giải thuật cải tiến I-Leader Single-link
1.4 Tóm lược kết quả đạt được của luận văn
Xây dựng chương trình gom cụm dùng giải thuật Leader Single-link cho bài toán gom cụm dữ liệu chuỗi thời gian
Kết quả giải thuật cải tiến I-Leader Single-link có độ chính xác cao hơn hoặc tương đương nhưng có thời gian thực thi thấp hơn giải thuật Leader
Single-link, xác định đƣợc số leader tối ƣu cho giải thuật nhỏ hơn hoặc bằng (