1. Khai phá dữ liệu:
1.4. Các kỹ thuật khai phá dữ liệu
Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện 2 chức năng mô tả và dự đoán.
- Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc tính chung của dữ liệu trong Cơ sở dữ liệu hiện có. Một số kĩ thuật khai phá trong nhóm này là: phân cụm dữ liệu, tổng hợp, trực quan hóa, phân tích sự phát triển và độ lệch,…
- Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên cơ sở dữ liệu hiện thời. Một số kĩ thuật khai phá trong nhóm này là: phân lớp, hồi quy, cây quyết định, thống kê, mạng noron, luật kết hợp,…
32
H n 5. Cá lĩn vự ó li n qu n đến khai phá dữ liệu 1.4.1. Phân lớp dữ liệu
Phân lớp dữ liệu là một dạng của phân tích dữ liệu nhằm rút ra các mô hình mô tả các lớp dữ liệu có tính chất quan trọng. Những mô hình này được gọi là các bộ phân lớp (classifier) được dùng để dự đoán (một cách rời rạc, không có thứ tự) nhãn của các lớp dữ liệu. Nhiều phương pháp phân lớp được đề xuất bởi các nhà nghiên cứu trong lĩnh vực học máy, nhận diện mẫu và thống kê.
Ví dụ, ta có thể xây dựng mô hình để chia các khoản cho vay của ngân hàng thành hai loại là “an toàn” và “rủi ro”, hoặc phân loại dữ liệu y tế thành ba loại là phương pháp điều trị A, B hay C. Các loại này có thể được biểu diễn dưới dạng giá trị rời rạc và không có thứ tự. Ví dụ, ta có thể dùng các con số 1, 2, 3 để biểu diễn 3 loại phương pháp điều trị thay vì các chữ cái A, B, C.
Quá trình phân lớp dữ liệu gồm 2 bước:
33
phân tích/học từ tập dữ liệu huấn luyện. Trong bước này, một bộ phân lớp sẽ được xây dựng để mô tả một tập các lớp dữ liệu hoặc các mẫu dữ liệu xác định trước. Bộ phân lớp này được xây dựng bằng cách phân tích hoặc học từ một tập huấn luyện (training set) được tạo nên bởi các bộ dữ liệu trong Cơ sở dữ liệu cùng với các nhãn phân lớp của chúng. Các bộ dữ liệu tạo nên tập huấn luyện này sẽ được lấy mẫu một cách ngẫu nhiên từ Cơ sở dữ liệu trong quá trình phân tích.
Hình 6 - Bƣớc h c c a quá trình phân lớp dữ liệu
Do nhãn phân lớp đã được xác định trước nên bước này còn được gọi là quá trình học có giám sát, khác với phương pháp gom cụm là quá trình học không có giám sát mà trong đó các nhãn phân lớp của các bộ dữ liệu huấn luyện không được xác định
34
trước và số lượng các nhãn phân lớp cũng có thể không được biết trước.
Bước đầu tiên trong quá trình phân lớp này có thể xem là quá trình ánh xạ hoặc tạo quan hệ hàm số Y = f(X) mà qua đó có thể dự đoán được nhãn phân lớp Y tương ứng với một bộ dữ liệu X cho trước. Quá trình ánh xạ này được thể hiện dưới dạng các luật phân lớp, cây quyết định hoặc các công thức toán học.
Bước 2, là bước phân lớp: Trong bước này mô hình tạo ra ở bước đầu sẽ được sử dụng để phân lớp dữ liệu. Đầu tiên, độ chính xác của bộ phân lớp sẽ được đánh giá trước. Nếu chúng ta sử dụng chính tập huấn luyện để kiểm tra độ chính xác của bộ phân lớp thì sẽ gây ra hiện tượng quá khớp dữ liệu. Đây là hiện tượng bộ phân lớp có thể chứa một số đặc trưng riêng của tập huấn luyện, nếu lấy tập này để kiểm tra lại mô hình phân lớp thì độ chính xác sẽ rất cao nhưng đối với dữ liệu khác thì độ chính xác có thể lại giảm. Do đó, một tập kiểm tra được tạo thành từ các bộ dữ liệu kiểm tra và nhãn tương ứng sẽ được sử dụng trong trường hợp này. Tập kiểm tra này là độc lập đối với tập huấn luyện, nghĩa là nó không được sử dụng để tạo nên bộ phân lớp.
35
Hình 7 - Bƣớc phân lớp c a quá trình phân lớp dữ liệu
Độ chính xác của một bộ phân lớp là tỷ lệ phần trăm của các bộ dữ liệu kiểm tra được phân lớp một cách chính xác bởi bộ phân lớp. Nhãn tương ứng của mỗi bộ dữ liệu kiểm tra sẽ được so sánh với nhãn dự đoán của bộ phân lớp đối với bộ dữ liệu kiểm tra đó. Nếu độ chính xác của bộ phân lớp trên được coi là có thể chấp nhận được thì về sau nó sẽ được sử dụng để phân lớp dữ liệu đối với các bộ dữ liệu mà nhãn của bộ dữ liệu đó là chưa xác định.
1.4.2. Khai phá luật kết hợp (Association Rule Discovery)
Khai phá luật kết hợp là tìm ra các mối quan hệ, sự kết hợp hay mối tương quan giữa hai hay nhiều đối tượng trong khối lượng lớn dữ liệu. Đây là kĩ thuật rất quan trọng trong lĩnh vực khai phá dữ liệu.
Trong các giao dịch mua bán, người ta nhận thấy rằng chủng loại các mặt hàng là rất lớn. Tuy nhiên số lượng bản ghi giao dịch có chứa đồng thời một số mặt hàng xác
36
định chiếm một tỉ lệ đáng quan tâm. Chúng ta không biết người mua là ai nhưng chúng ta có thể đặt vấn đề là sự trùng lặp đó là ngẫu nhiên hay tuân theo một quy luật nào đó? Đây là ý tưởng cho sự ra đời của luật kết hợp.
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luận kết hợp tìm được.
Phương pháp khai phá luật kết hợp gồm hai bước:
- Bước 1: tìm tất cả các tập mục phổ biến. Một tập mục phổ biến được xác định thông qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.
- Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ và độ tin cậy cực tiểu.
1.4.3. Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng cùng một lớp là tương đồng. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi chúng ta phải gán nhãn các mẫu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân loại dữ liệu là học bằng ví dụ. Trong phương pháp này, chúng ta không xác định được hiệu quả của quá trình phân cụm. Vì vậy thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá về hiệu quả của các kết quả phân cụm. Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web… Ngoài phân cụm, dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác.
1.4.4. Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc.
37
tự) thì quá trình hồi quy xây dựng mô hình các hàm giá trị liên tục. Nghĩa là, hồi quy được sử dụng để dự đoán các giá trị dữ liệu dạng số học thay vì các nhãn lớp rời rạc. Phân tích hồi quy là một phương pháp luận thống kê mà hầu như thường được sử dụng để dự đoán số liệu. Hồi quy cũng bao gồm việc nhận diện các xu hướng trong phân bố dữ liệu sẵn có.
1.4.5. Giải thuật di truyền
Giải thuật di truyền được phát triển mô phỏng lại hệ thống tiến hóa trong tự nhiên, chính xác hơn đó là các giải thuật chỉ ra tập các cá thể được hình thành, được ước lượng và biến đổi như thế nào. Giải thuật cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau.
Giải thuật di truyền dựa trên ba cơ chế cơ bản: - Chọn lọc
- Tương giao chéo - Đột biến
Giải thuật di truyền được sử dụng rất hữu ích trong trường hợp tìm ra các giá trị tối ưu ngay cả trong trường hợp dữ liệu nguồn thông tin và dữ liệu ta có được là từ nhiều nguồn khác nhau.
Giải thuật di truyền cũng được áp dụng trong kinh doanh nhằm tìm ra lợi nhuận tối ưu bằng cách kết hợp các đặc tính của sản phẩm. Ngoài ra chúng còn được sử dụng thành công trong lập lịch và chuỗi thời gian. Giải thuật di truyền cũng có các hiệu ứng tốt có thể được dùng kết hợp với mạng nơ ron tại đầu ra của mạng này.
1.4.6. Mạn Nơ-ron
Đây là một trong những kĩ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người.
38
đoán với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra được các xu hướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được. Tuy nhiên phương pháp mạng nơ ron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm.
Cấu trúc mạng nơ ron cũng giống như bộ não con người, tức mạng nơ ron có khả năng học, ghi nhớ và tổng quát hóa. Những thành phần cơ bản của một mạng nơ ron gọi là tế bào thần kinh (nơ ron). Mạng nơ ron gồm năm thành phần: đầu vào (input), trọng số (weight), kết nối (adder), thành phần hoạt động (action) và đầu ra (output).
1.4.7. Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu với người sử dụng.
Cây quyết định bao gồm các nút và các nhánh. Mỗi nút thể hiện một thuộc tính, mỗi nhánh thể hiện các giá trị của thuộc tính. Với một dữ liệu vào, xét từng thuộc tính từ nút cha tới nút con, giá trị của thuộc tính nhánh nào thì rẽ xuống nhánh đó, cứ thế đi xuống tới nút lá để nhận được kết quả “yes” hoặc “no”.