Khái niệm Data mining là quá trình tự động tìm kiếm và trích xuất các mẫu thông tin có giá trị ẩn chứa từ tập tin dữ liệu lớn Data Set trong thực tế.. Quá trình khai phá dữ liệu Quá trìn
Trang 1MỤC LỤC
I. Tổng quan quá trình khai phá dữ liệu
1. Khái niệm
Data mining là quá trình tự động tìm kiếm và trích xuất các mẫu thông tin có giá trị ẩn chứa từ tập tin dữ liệu lớn (Data Set) trong thực tế
2. Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu được tiến hàng qua 6 giai đoạn: bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra
Trang 2Hình 1.1 Quá trình khai phá dữ liệu
Gom dữ liệu (Gathering): tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá
dữ liệu Đây là bước được khai phá trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web
Trích lọc dữ liệu (Selection): ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó
Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing and Preparation): giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẻ, logíc Vì vậy, dữ liệu thường chứa các giá trị
vô nghĩa và không có khả năng kết nối dữ liệu
Chuyển đổi dữ liệu (Transformation): tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó Dữ liệu đã được chuyển đổi phù hợp với mục đích khai phá
Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery): đây là bước mang tính tư duy trong khai phá dữ liệu Ở giai đoạn này nhiều thuật toán khác nhau đã
Trang 3được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự v.v
Đánh giá kết quả mẫu (Evaluation of Result): đây là giai đoạn cuối trong quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra
Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining
3. Nhiệm vụ của khai phá dữ liệu
Khai phá dữ liệu là chiết xuất ra các tri thức có lợi cho kinh doanh hay cho nghiên cứu khoa học Do đó, ta có thể xem mục đích của khai phá dữ liệu sẽ là mô tả các sự kiện
và dự đoán
4. Các phương pháp cho khai phá dữ liệu
4.1. Phân lớp và dự đoán
Phân lớp dữ liệu là tiến trình có 2 bước:
+ Huấn luyện: dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp ( có thuộc tính nhãn lớp) để tạo ra bộ phân lớp
+ Phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của phân lớp Nếu chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới
Chuẩn bị dữ liệu:
+ Làm sạch dữ liệu: nhiễu, thiếu giá trị
+ Phân tích liên quan (chọn đặc trưng): các thuộc tính không liên quan, các thuộc tính
dư thừa
+ Biến đổi dữ liệu
Các kỹ thuật phân lớp:
Trang 4+ Cây quyết định: Là cấu trúc cây sao cho.
• Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính
• Mỗi nhánh biểu diễn kết quả phép kiểm tra
• Các nút lá biểu diễn các lớp hay các phân bố lớp
• Nút cao nhất trong cây là nút gốc
+ Các phân lớp trong cây quyết định:
• Phân lớp Bayes: Cĩ thể dự báo các xác suất là thành viên của lớp, chẳng hạn xác suất mẫu cho trước thuộc về một lớp xác định
• Phân lớp Nạve Bayes: Cĩ thể so sánh đuợc về cơng năng với bộ phân lớp cây quyết định và mạng nơron Chúng giả định các thuộc tính là độc lập nhau (độc lập điều kiện lớp)
• Phân lớp NẠVE BAYESIAN
+ Các thuật tốn sinh luật trực tiếp (khơng tạo cây):
• Thuật tốn ILA
• Thuật tốn CBA
4.2. Phân cụm và phân đoạn
Xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp các dữ liệu bệnh nhân trong hồ sơ bệnh án Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Phân lớp và dự đốn cịn được gọi là học cĩ giám sát
4.3. Luật kết hợp
Là dạng luật biểu diễn tri thức ở dạng khá đơn giản Ví dụ: “80% mua bánh mì thì
cĩ 60% trong số đĩ mua sữa” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khốn, v.v
5. Các ứng dụng khai phá dữ liệu
Trang 5Khai phá dữ liệu tuy là một lĩnh vực mới nhưng đã thu hút được sự quan tâm của rất nhiều nhà nghiên cứu, nhờ có nhiều những ứng dụng trong thực tiễn, các ứng dụng điển hình như sau:
Phân tích dữ liệu và hỗ trợ ra quyết định (Analysis & decition support)
Điều trị trong y học (Medical): mối liên hệ giữa triệu chứng, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật)
Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web (Text mining & Web mining)
Tin sinh học (Bio-informatics): Tìm kiếm, đối sánh các hệ gen và thông tin di truyền, mối liên hệ giữa một số hệ gen và một số bệnh di truyền
Nhận dạng
Tài chính và thị trường chứng khoán (Finance & stock market): Phân tích tình hình tài chính và dự đoán giá cổ phiếu
Bảo hiểm (Insurance)
Giáo dục (Education)
II. Phân cụm dữ liệu và thuật toán K – Means
1. Tổng quan về phân cụm dữ liệu
1.1. Khái niệm phân cụm dữ liệu
Quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu thỏa mãn các đối tượng trong một cụm có tính chất “tương tự” nhau
1.2. Mục đích của phân cụm dữ liệu
Xác định được bản chất của việc nhóm các đối tượng trong 1 tập dữ liệu không có nhãn
Phân cụm không dựa trên 1 tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người dùng cung cấp trong từng trường hợp
1.3. Một số phương pháp phân cụm
Phân cụm phân hoạch Phân cụm phân cấp
Trang 6Phân cụm dựa trên mật độ Phân cụm dựa trên lưới Phân cụm dựa trên mô hình Phân cụm có ràng buộc
1.4. Một số thuật toán phân cụm
Thuật toán phân cụm K-Means Phân cụm phân cấp (Hierarchical Clustering) Phân cụm theo mật độ DBSCAN
Phân cụm mô hình EM
2. Thuật toán phân cụm K – Means
Khái quát về thuật toán
Thuật toán hoạt động trên 1 tập vectơ d chiều, tập dữ liệu X gồm N phần tử:
X = {xi | i = 1, 2,…N }
K-Mean lặp lại nhiều lần quá trình:
+ Gán dữ liệu
+ Cập nhật lại vị trí trọng tâm
Quá trình lặp dừng lại khi trọng tâm hội tụ và mỗi đối tượng là một bộ phận của 1 cụm
Hàm đo độ tương tự sử dụng khoảng cách Euclidean
2 1
i j
N
= ∈
−
∑ ∑
E =
trong đó cj là trọng tâm của cụm Cj
Hàm trên không âm, giảm khi có 1 sự thay đổi 1 trong 2 bước: gán dữ liệu và định lại vị trí tâm
Các bước chính của thuật toán
Trang 71 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm:
{ci} (i = 1÷K).
2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean):
S_i^((t)) = { x_j:||x_j-c_i^((t) ) || ≤||x_j-c_(i^*)^((t) ) || for alli^* = 1, …, k}
3 Nhóm các đối tượng vào nhóm gần nhất
4 Xác định lại tâm mới cho các nhóm
c_i^((t+1))=1/(|S_i^((t) ) |) ∑_(x_j∈S_i^((t)))▒x_j
6. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng
III. Giới thiệu phần mềm Weka
Trang 8Weka là một công cụ phần mềm viết bằng Java, phục vụ lĩnh vực học máy và khai thác dữ liệu
Các tính năng chính:
- Một tập các công cụ tiền xử lý dữ liệu, các giải thuật học máy, khai phá dữ liệu, và các phương pháp thí nghiệm đánh giá
- Giao diện đồ họa (gồm cả tính năng hiển thị hóa dữ liệu)
- Môi trường cho phép cho sánh các giải thuật học máy và khai phá dữ liệu
Simple CLI Giao diện đơn giản kiểu dòng lệnh (như MS – DOS)
Explorer Môi trường cho phép sử dụng tất cả các tính năng của weka để khám phá dữ liệu
Experimenter Môi trường cho phép tiến hành các thí nghiệm và thực hiện các kiểm tra thống kê giữa các mô hình học máy
KnowledgeFlow Môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế các bước của một thí nghiệm
IV. Gom cụm K – Means sử dụng giao diện Weka
Mô tả bài toán
Cả nước hầu hết các tỉnh/TP đều có diện tích sản xuất lúa nhất định Cùng với việc sản xuất thì năng suất lúa của mỗi địa phương đem lại sẽ khác nhau Nhằm mục đích đánh giá sự hiệu quả về sản lượng mà các địa phương sản xuất lúa mang để có cái nhìn và kế hoạch phát triển việc sản xuất ở mỗi địa phương
Trang 9Giải pháp gom cụm dữ liệu để giúp đánh giá về việc sản lượng lúa của các tỉnh/
TP Qua đó có cái nhìn tổng thể và đưa ra những định hướng để phát triển việc sản xuất cho các địa phương
Trang 10Bạn có thể chọn số lượng cluster và bất kỳ các thuộc tính khác cho mỗi một trong ba kích thước khác nhau có sẵn (trục x, trục y, và màu sắc) Kết hợp khác nhau của sự lựa chọn sẽ dẫn đến một hình ảnh các mối quan hệ khác nhau trong mỗi cụm Trong ví dụ ở trên tôi đã chọn trục x biểu diễn cluster, Trục y biểu diễn số trường hợp (gán bởi WEKA)
và cuối cùng chiều màu (color) biểu diễn thuộc tính “Production” Điều này sẽ dẫn đến một cái nhìn về trình độ sản xuất trong mỗi cụm Ví dụ bạn có thể thấy cụm 1 và 3 bị chi phối bởi trình độ sản xuất thấp cụm 0 và 2 bị tri phối bởi trình độ sản xuất cao
V. Kết luận
Qua đề tài này, nhóm nghiên cứu đã tìm hiểu và nắm được kiến thức về gom cụm
dữ liệu và thuật toán để gom cụm dữ liệu, cơ bản hiện thực việc gom cụm dữ liệu trên phần mềm Weka
Trang 11VI. Slide power point