Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp dữ liệu phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp các đối tượng, phân cụm dữ liệu.. Nghiên cứu
Giới thiệu
Mục tiêu nghiên cứu Bài nghiên cứu
Tiến hành phân tích các lý thuyết của khai phá dữ liệu nhằm tập trung làm rõ những vấn đề của bài nghiên cứu
Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp dữ liệu (phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp các đối tượng), phân cụm dữ liệu Nghiên cứu sẽ đưa các phương pháp phân lớp, phân cụm dữ liệu, và từ đó sẽ chọn ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu
Dựa trên mô hình đã được huấn luyện trong quá trình nghiên cứu, đưa ra được kết luận về ứng viên thuộc đảng nào trong hai đảng là đảng dân chủ và đảng cộng hòa của cuộc bầu cử
Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, sách báo có được, sau đó đọc và tổng hợp để rút ra, chắt lọc những nội dung cần thiết cho luận điểm của bài nghiên cứu
Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứng dụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình
Sử dụng các phương pháp thống kê, phân tích dữ liệu, ứng dụng mô hình hồi quy để dự báo với sự hỗ trợ của các chương trình Orange.
Cơ sở lý luận
Khai phá dữ liệu
1.1 Khai phá dữ liệu là gì?
“Khai phá dữ liệu (Data Mining) là khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu lớn nhằm xác định các mẫu thiết lập mối liên hệ , để giải quyết vấn đề nhờ phân tích dữ liệu
Các MCU khai phá dữ liệu giúp các doanh nghiệp có thể dự đoán được các xu hướng trongtương lai.
Quá trình khai phá dữ liệu là một quá trình tương đối phức tạp gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán Hơn thế nữa, Data Mining không chỉ giới hạn trong việc trích xuất dữ liệu mà được sử dụng nhằm làm sạch, chuyển đổi, tích hợp dữ liệu và phân tích mẫu.”
1.2 Các tính năng chính của khai phá dữ liệu
Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo
Một số tính năng chính của Data Mining:
1 Dự đoán các mẫu dựa trên xu hướng trong dữ liệu
2 Tính toán dự đoán kết quả
3 Tạo thông tin phản hồi để phân tích
4 Tập trung vào cơ sở dữ liệu lớn hơn
5 Phân cụm dữ liệu trực quan
1.3 Phương pháp khai phá dữ liệu
“Một số phương pháp khai phá dữ u ph liệ ổbiến như
Phân lớp (Classification): Phương pháp sử dụng để dự báo dữ liệu thông qua bộ dữ liệu huấn luyện, phân loại đối tượng Nhóm sẽ sử dụng phương pháp này trong bài để dự báo số liệu
Dự báo (Prediction): Phương pháp dùng để dự báo bộ dữ liệu dựa trên bộ dữ liệu có sẵn
Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để ánh xạ và khám phá dữ liệu
Phân cụm (Clustering): Phương pháp phân cụm giúp việc mô tả dữ liệu trở nên đơn giản hơn bằng các xác định tập hợp hữu hạn các cụm với nhau h Nhóm sẽ sử dụng phương pháp này trong bài để dự báo số liệu.”
1.4 Công cụ khai phá dữ liệu Orange
“Khai phá dữ liệu là những lĩnh vực khá khó để khám phá và nghiên cứu Do đó, nhiều phần mềm đã ra đời với mục tiêu giúp cho người dùng có thể dễ dàng nghiên cứu các bài toán trong những lĩnh vực khó nhằn này Một trong những phần mềm có thể kể đến là Orange
Phần mềm Orange biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tương tác dễ dàng
Các công cụ (widgets) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu, … Vì vậy, nhóm quyết định chọn phần mềm Orange để phục vụ cho bài nghiên cứu.”
Phân lớp dữ liệu
2.1 Khái niệm phân lớp dữ liệu
“Phân lớp dữ liệu chính là một trong những hướng nghiên cứu chính của khai phá dữ liệu Quá trình phân lớp dữ liệu là quá trình phân các đối tượng vào một hay nhiều lớp đã cho trước dựa vào một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó
Phân lớp và ự đoán là một trong hai dạng của phân tích dữ liệu để rút ra một d mô hình mô tả những lớp dữ liệu quan trọng hoặc dự đoán xu thế của dữ liệu trong tương lai
Quá trình phân lớp dữ liệu gồm 2 bước chính
Bước 1: Xây dựng mô hình phân lớp
Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý
Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật…
Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)
Bước 2.1: Đánh giá mô hình
Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình
Bước 2.2: Phân lớp dữ liệu mới
Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1
Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào lớp cho n trước Nếu: n = 2: Phân lớp nhị phân n > 2: Phân lớp đa lớp
Mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất: Phân lớp đơn nhãn Một đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp khác nhau: Phân lớp đa nhãn
Một số phương pháp phân lớp
2.2 Các phương pháp đánh giá mô hình phân lớp
Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC, AUC, Precision/Recall,F1-score
Ma trận nhầm lẫn (Confusion Matrix)
Ma trận nhầm lẫn là ma trận chỉ ra trong một lớp cụ thể, dự đoán có bao nhiêu điểm dữ liệu thực sự thuộc về nó và rơi vào lớp nào Phương pháp này là có kích thước k x k với k là số lượng lớp của dữ liệu Đây là một trong những kỹ thuật đo lường hiệu suất được sử dụng rộng rãi, đặc biệt là cho các mô hình phân loại
TP - True Positive : Dự đoán lớp tích cực là tích cực.
FP-False Positive - Type 1 Error : Dự đoán lớp phủ định là tích cực
FN - False Negative - Type 2 Error: Dự đoán lớp tích cực là tiêu cực
TN - True Negative : Dự đoán lớp phủ định là tiêu cực. Độ chính xác (Accuracy)
Accuracy có thể hiểu là là tỉ lệ giữa số mẫu dự đoán đúng với tổng số mẫu trong tập dữ liệu được tính ra mà không chỉ ra được chính xác mỗi loại được phân lớp như thế nào, phân loại đúng nhiều nhất thuộc về lớp nào và dữ liệu thường bị phân loại nhầm vào lớp khác đang nằm ở lớp nào Tuy nhiên, nó vẫn có thể giúp chúng ta ta đánh giá hiệu quả dự báo của mô hình trên một bộ dữ liệu Độ chính xác càng cao thì mô hình càng chuẩn xác
Precision (độ chính xác) cho biết tỉ lệ số điểm true positive (TP) trong số những điểm được phân loại là positive (TP + FP)
Recall (độ phủ) hay độ nhạy (sensitivity) hay TPR (True Positive Rate) là tỉ lệ giữa số điểm true positive (TP) và những điểm thực sự là positive (TP + FN) F1- score là giá trị trung bình điều hòa của hai độ đo Precision và Recall
F1 có giá trị gần với giá trị nhỏ hơn giữa 2 giá trị Precision và Recall và F1 càng lớn nếu cả 2 giá trị Precision và Recall đều lớn cho thấy độ tin cậy của mô hình cao hơn
ROC (Receiver Operating Characteristic) và AUC (Area Under the Curve)
ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau Một mô hình hiệu quả khi có ROC càng tiệm cận với điểm (0;1) hay có TPR cao và FPR thấp thì mô hình càng phù hợp.”
Phân cụm dữ liệu
“Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng Trong đó: các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau; các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau
Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu. Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được số nhóm (khác với bài toán phân lớp)
Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao: Độ tương đồng bên trong cụm cao; Độ tương tự giữa các cụm thấp (khác biệt cao) Các ứng dụng điển hình: Công cụ phân cụm dữ liệu độc lập; Là giai đoạn tiền xử lý cho các thuật toán khác
Loại Đặc điểm Các phương pháp điển hình
Phân cấp các đối tượng dựa trên một số tiêu chí
Xây dựng các phân hoạch khác nhau và đánh giá chúng Sau đó, tìm cách tối thiểu hóa tổng bình phương độ lỗi
Dựa trên các kết nối giữa các đối tượng hàm và mật độ
Dựa trên cấu trúc độ chi tiết nhiều cấp
Giả định mỗi cụm có một mô hình và tìm cách fit mô hình đó vào mỗi cụm
Thuật toán phân hoạch K means do MacQueen đề xuất trong lĩnh vực thống kê - năm 1967 Trong thuật toán K means clustering, chúng ta không biết nhã của từng điểm - dữ liệu Mục đích là làm thế nào để phân dữ liệu thành các cụm (cluster) khác nhau sao cho trong cùng một cụm thì dữ liệu có tính chất giống nhau
Thuật toán dựa trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm Nó đo khoảng cách tới giá trị trung bình của các dữ liệu trong cụm
Cụ thể về tư tưởng của thuật toán K means: Ta xem mỗi đối tượng trong tập dữ liệu là - một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)
B1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm
B2: Phân mỗi điểm vào cụm có trung tâm gần nó nhất Nếu các điểm ở từng cụm vừa được phân không thay đổi so với kết quả của lần phân chia trước đó thì dừng thuật toán
B3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất cả các điểm đã được gắn vào cụm đó sau khi phân chia ở bước 2 B4: Quay lại bước 2
Do K-means phân tích cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn
Nhược điểm của K means là chỉ áp dụng với dữ liệu có thuộc tính số và - khám phá ra các cụm có dạng hình cầu Do đó thuật toàn này không phù hợp với phân bố dữ liệu dạng không lồi Ngoài ra, nó còn rất nhạy cảm với nhiễu và phần tử ngoại lai trong dữ liệu và cần biết trước số lượng cụm k
Silhouette đo lường khoảng cách của một điểm dữ liệu trong cụm đến Centroid, điểm trung tâm của cụm, và khoảng cách của chính điểm đó đến điểm trung tâm của cụm gần nhất (hoặc đến các điểm trung tâm của các cụm còn lại, và chọn ra khoảng cách ngắn nhất) Đó là trường hợp đo lường cho K-means clustering
Silhouette là phương pháp tính toán kết hợp đánh giá cả Cohesion (qua ai) và Separation (bi) Nếu Silhouette tiến về -1, tức khoảng cách điểm i so với điểm trung tâm trong chính cụm nó được phân xa hơn so với điểm trung tâm của cụm còn lại, vậy khả năng điểm i lúc này bị phân sai cụm Các bạn có thể xét ngược lại
Do đó, bi a – icàng cao càng tốt, đạt max = bi khi a = 0 i
Nếu một cluster được đánh giá chất lượng, là các điểm trong cluster sẽ có Silhouette tiến về 1 và ngược lại
Nếu không phải K-means clustering thì: b ilà khoảng cách trung bình từ điểm i trong cluster A đến tất cả các điểm trong cluster B với cluster B là cluster láng giềng gần nhất ai là khoảng cách trung bình từ điểm i trong cluster A đến tất cả các điểm còn lại trong A
Ngoài ra, theo kinh nghiệm của các tác giả trong tài liệu “Data mining and Predictive analytics” của nhà xuất bản Wiley: Điểm trung bình Silhouette từ 0.5 trở lên, bằng chứng cho thấy có thể cluster này sát với thực tế Điểm trung bình Silhouette từ 0.25 đến 0.5, thì cần thêm kiến thức chuyên môn, kinh nghiệm để đánh giá thêm khả năng cluster có trong thực tế Điểm trung bình dưới 0.25, thì không nên tin tưởng cluster, và cần đi tìm nhiều bằng chứng khác.”
Tiến hành x ử lý dữ u 10 liệ 1 Xử lý, khái quát dữ liệu
Tư liệu tham khảo
[1] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010
[2] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar,
“Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009
[3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006
[4] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc,