8. CẤU TRÚC ĐỀ TÀỊ
1.4.4. Một số ứng dụng KPDL
Ở thập kỷ 1990, người ta coi KPDL là quá trình phân tích cơ sở dữ liệu nhằm phát hiện ra các thơng tin mới và giá trị, thường thể hiện dưới dạng các mối quan hệ chưa biết đến giữa các biến số. Những phát hiện này được sử dụng nhằm tăng thêm tính hiệu quả của doanh nghiệp trong khi phải cạnh tranh trên thương trường. Nhờ phân tích các dữ liệu liên quan đến khách hàng, doanh nghiệp cĩ khả năng dự báo trước một số hành vi ứng xử của khách hàng.
Những năm gần đây, người ta quan niệm KPDL (đơi khi cịn dùng thuật ngữ khám phá dữ liệu hay phát hiện tri thức) là một quá trình phân tích dữ liệu từ các viễn cảnh khác nhau và rút ra các thơng tin bổ ích – những thơng tin cĩ thể dùng để tăng lợi nhuận, cắt giảm chi phí, hoặc cả hai mục đích. Phần mềm KPDL là một cơng cụ phân tích dùng để phân tích dữ liệụ Nĩ cho phép người sử dụng phân tích dữ liệu theo nhiều gĩc nhìn khác nhau,
Phát hiện tri thức trong tập dữ liệu lớn
phân loại dữ liệu theo những quan điểm riêng biệt, và tổng kết các mối quan hệ đã được bĩc tách. Xét về khía cạnh kỹ thuật, KPDL là một quá trình tìm kiếm các mối tương quan giữa các mẫu ẩn chứa trong hàng chục trường dữ liệu của một cơ sở dữ liệu quan hệ cỡ lớn.
Hiện nay, kỹ thuật khai phá dữ liệu đang được áp dụng một cách rộng rãi trong các lĩnh vực kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thơng, internet… và những gì thu được thật đáng giá. Điều đĩ được minh chứng bằng thực tế: chẩn đốn bệnh trong y tế dựa trên kết quả xét nghiệm đã giúp cho bảo hiểm y tế phát hiện ra nhiều trường hợp xét nghiệm khơng hợp lí tiết kiệm được nhiều USD/năm; trong dịch vụ viễn thơng đã phát hiện ra những nhĩm người thường xuyên gọi cho nhau bằng mobile và thu lợi được hàng triệu USD; IBM Surf – Aid đã áp dụng khai phá dữ liệu vào phân tích các lần đăng nhập Web vào các trang cĩ liên quan đến thị trường để phát hiện sở thích khách hàng, từ đĩ đánh giá hiệu quả của việc tiếp thị qua Web và cải thiện hoạt động của các Website; Trang Web mua bán qua mạng Amazon cũng tăng doanh thu nhờ áp dụng Khai phá dữ liệu trong việc phân tích sở thích mua bán của khách hàng.
Kỹ thuật KĐ được ứng dụng nhiều lĩnh vực như: − Thương mại:
o Phân tích dữ liệu bán hàng và thị trường o Phân tích đầu tư
o Quyết định cho vay o Phát hiện gian lận,…. − Thơng tin sản xuất
Phát hiện tri thức trong tập dữ liệu lớn
o Điều khiển và lập kế hoạch o Hệ thống quản lý
o Phân tích kết quả thử nghiệm,… − Thơng tin khoa học
o Dự báo thời tiết
o CSDL sinh học: ngân hàng gen,… o Khoa học địa lý: dự báo động đất,…
1.4.5. Các kỹ thuật khai phá dữ liệu
Thường được chia làm hai nhĩm chính:
− Kỹ thuật khai phá dữ liệu mơ tả: Cĩ nhiệm vụ mơ tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện cĩ. Các kỹ thuật này gồm cĩ: phân cụm (clustering), tĩm tắt (summerization), trực quan hĩa (visualiztation), phân tích sự phát triển và độ lệch (evolution and deviation analyst), phân tích luật kết hợp (association rules)....
− Kỹ thuật khai phá dữ liệu dự đốn: cĩ nhiệm vụ đưa ra các dự đốn dựa vào các suy diễn trên dữ liệu hịên thờị Các kỹ thuật này gồm cĩ: phân lớp (classification), hồi quy (regression)...
Tuy nhiên, chỉ cĩ một số phương pháp thơng dụng nhất là: phân cụm dữ liệu, phân lớp dữ liệu, phương pháp hồi quy và khai phá luật kết hợp.
ạ Phân cụm dữ liệu:
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhĩm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng cịn các đối tượng thuộc các cụm khác
Phát hiện tri thức trong tập dữ liệu lớn
nhau sẽ khơng tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học khơng cĩ thầỵ Khơng giống như phân lớp dữ liệu, phân cụm dữ liệu khơng địi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, cĩ thể coi phân cụm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example). Trong phương pháp này bạn sẽ khơng thể biết kết quả các cụm thu được sẽ thế nào khi bắt đầu quá trình. Vì vậy, thơng thường cần cĩ một chuyên gia về lĩnh vực đĩ để đánh giá các cụm thu được. Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web.... Ngồi ra phân cụm dữ liệu cịn cĩ thể được sử dụng như một bước tiền xử lí cho các thụât tốn khai phá dữ liệu khác.
b. Phân lớp dữ liệu:
Mục tiêu của phương pháp phân lớp dữ liệu là dự đốn nhãn lớp cho các mẫu dữ liệụ Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mơ hình và sử dụng mơ hình để phân lớp dữ liệụ
− Bước 1: Một mơ hình sẽ được xây dựng dựa trên việc phân tích
các mẫu dữ liệu sẵn cĩ. Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính lớp. Các mẫu dữ liệu này cịn được gọi là tập dữ liệu huấn luyện (training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mơ hình. Vì vậy, phương pháp này cịn được gọi là học cĩ thầy (supervised learning) khác với phân cụm dữ liệu là học khơng cĩ thầy (unsupervised learning).
Phát hiện tri thức trong tập dữ liệu lớn
− Bước 2: Sử dụng mơ hình để phân lớp dữ liệụ Trước hết, chúng ta
phải tính độ chính xác của mơ hình. Nếu độ chính xác là chấp nhận được, mơ hình sẽ được sử dụng để dự đốn nhãn lớp cho các mẫu dữ liệu khác trong tương laị
Ví dụ về việc sử dụng phương pháp phân lớp trong khai phá dữ liệu là ứng dụng phân lớp các xu hướng trong thị trường tài chính và ứng dụng tự động xác định các đối tượng đáng quan tâm trong CSDL ảnh lớn.
c. Phương pháp hồi quy:
Khác với phân lớp dữ liệu ở chỗ: hồi quy dùng để dự đốn về các giá trị liên tục cịn phân lớp dữ liệu chỉ dùng để dự đốn về các giá trị rời rạc.
Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đốn cĩ giá trị thực. Cĩ rất nhiều ứng dụng khai phá dữ liệu với nhiệm vụ hồi quy – ví dụ như khả năng đánh giá tử vong của bệnh nhân khi biết các kết quả xét nghiệm, chẩn đốn, dự đốn nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáọ
d. Khai phá luật kết hợp:
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được. Chẳng hạn: phân tích CSDL bán hàng nhận được thơng tin về những khách hàng mua máy tính cĩ khuynh hướng mua phần mềm quản lí tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau:
“Máy tính => Phần mềm quản lí tài chính” (Độ hỗ trợ: 2%, độ tin cậy: 60%).
Phát hiện tri thức trong tập dữ liệu lớn
Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật. Chúng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Độ hỗ trợ 2% cĩ nghĩa là 2% của tất cả các tác vụ đang phân tích chỉ ra rằng máy tính và phần mềm quản lí tài chính là đã được mua cùng nhaụ Cịn độ tin cậy 60% cĩ nghĩa là: 60% các khách hàng mua máy tính cũng mua phần mềm. Khai phá luật kết hợp được thực hiện qua hai bước:
− Bước 1: Tìm tất cả các tập mục thường xuyên, một tập mục thường xuyên được xác định qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểụ
− Bước 2: Sinh ra các lụât kết hợp mạnh từ tập mục thường xuyên,
các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểụ
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như: marketing cĩ chủ đích, phân tích quyết định, quản lí kinh doanh, phân tích giá thị trường...
1.4.6. Kiến trúc của hệ thống khai phá dữ liệu
Như đã trình bày ở trên, khai phá dữ liệu là một giai đoạn trong quá trình phát hiện tri thức từ số lượng lớn dữ liệu lưu trữ trong các CSDL, kho dữ liệu hoặc các nơi lưu trữ khác. Bước này cĩ thể tương tác lẫn nhau giữa người sử dụng hoặc cơ sở tri thức, những mẫu đáng quan tâm đươc đưa cho người dùng hoặc lưu trữ như là tri thức mới trong cơ sở tri thức.
Giao diện người dùng
Đánh giá mẫu
Mơ tả khai phá dữ liệu
Phát hiện tri thức trong tập dữ liệu lớn
Kiến trúc của hệ thống khai phá dữ liệu (hình 1.2) cĩ các thành phần như sau:
− Cơ sở dữ liệu, kho dữ liệu: Đĩ là một hoặc tuyển tập các CSDL, kho dữ liệụ... Các kỹ thuật làm sạch dữ liệu, tích hợp, lọc dữ liệu cĩ thể thực hiện trên dữ liệụ
− CSDL hoặc kho dữ liệu phục vụ: Là kết quả lấy dữ liệu cĩ liên quan trên cơ sở yêu cầu khai phá dữ liệu của người dùng.
− Cơ sở tri thức: Đĩ là lĩnh vực tri thức được sử dụng để hướng dẫn việc tìm hoặc đánh giá các mẫu kết quả thu được.
Phát hiện tri thức trong tập dữ liệu lớn
− Mơ tả khai phá dữ liệu: Bao gồm tập các modul chức năng để thực hiện các nhiệm vụ mơ tả đặc điểm, kết hợp, phân lớp, phân cụm dữ liệụ..
− Đánh giá mẫu: Thành phần này sử dụng các độ đo và tương tác với modul khai phá dữ liệu để tập trung vào tìm các mẫu quan tâm.
− Giao diện người dùng: Đây là modul giữa người dùng và hệ thống khai phá dữ liệụ Cho phép người dùng tương tác với hệ thống trên cơ sở những truy vấn hay tác vụ, cung cấp những thơng tin cho việc tìm kiếm.
1.4.7. Quá trình khai phá dữ liệu
Các thuật tốn khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tệp dữ liệụ Với phương pháp máy học và thống kê trước đây, thường thì bước đầu tiên các thuật tốn nạp bộ tệp dữ liệu vào bộ nhớ. Khi chuyển sang các ứng dụng cơng nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mơ hình này khơng thể đáp ứng bởi vì khơng thể nạp hết dữ liệu vào bộ nhớ mà cịn khĩ cĩ thể chiết xuất dữ liệu ra những tệp đơn giản để phân tích.
Quá trình khai phá dữ liệu (hình 1.3) bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết. Tiếp đến là xác định dữ liệu liên quan dùng để xây dựng giải pháp. Bước tiếp theo là thu thập các dữ liệu liên quan và xử lí chúng thành dạng, sao cho thuật tốn khai phá dữ liệu cĩ thể hiểu được.
Phát hiện tri thức trong tập dữ liệu lớn
Hình 1.3. Quá trình khai phá dữ liệu
Sau đĩ chọn thuật tốn khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm được các mẫu cĩ ý nghĩa dưới dạng biểu diễn tương ứng (luật kết hợp, cây quyết định...)
Kết quả thu được mẫu phải cĩ đặc điểm mớị Độ mới cĩ thể được đối sánh tương ứng với độ thay đổi trong dữ liệu, hoặc bảng tri thức. Thường thì độ đo mới của mẫu được đánh giá bằng một hàm logic hoặc hàm độ đo mớị Ngồi ra mẫu cịn cĩ khả năng sử dụng tiềm ẩn.
Với thuật tốn và nhiệm vụ khai phá dữ liệu khác nhau thì dạng mẫu chiết xuất được cũng rất đa dạng.
Xác định nhiệm vụ Xác định dữ liệu liên quan Thu thập và tiền xử lý dữ liệu Thuật tốn khai phá dữ liệu Dữ liệu trực Mẫu
Phát hiện tri thức trong tập dữ liệu lớn
1.4.8. Những khĩ khăn trong khai phá dữ liệu
Việc nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu gặp nhiều khĩ khăn, nhưng khơng phải là khơng giải quyết đuợc mà chúng cần được tìm hiểu để cĩ thể phát triển tốt hơn. Những khĩ khăn phát sinh trong khai phá dữ liệu chính là dữ liệu trong thực tế thường động, khơng đầy đủ, lớn và bị nhiễụ Trong trường hợp khác, người ta khơng biết CSDL cĩ chứa thơng tin cần thiết cho việc khai thác hay khơng và làm thế nào để giải quyết sự dư thừa thơng tin khơng thích hợp nàỵ
- Dữ liệu lớn: Hiện nay các CSDL với hàng trăm trường và bảng, hàng triệu bản ghi với kích thước rất lớn, cĩ thể lên đến GB. Các phương pháp giải quyết hiện nay là đưa ra một ngưỡng cho CSDL, lấy mẫu, các phương pháp tính xấp xỉ, xử lí song song.
- Kích thước lớn: Khơng chỉ cĩ số lượng bản ghi mà số các trường trong CSDL cũng nhiềụ Vì vậy mà kích thước của bài tốn trở nên lớn làm tăng khơng gian tìm kiếm. Hơn nữa, nĩ cũng làm tăng khả năng một thuật tốn khai phá dữ liệu cĩ thể tìm thấy các mẫu giả. Biện pháp khắc phục là làm giảm kích thước tác động của bài tốn và sử dụng các tri thức biết trước để xác định các biến khơng phù hợp.
- Dữ liệu động: Đặc điểm cơ bản của hầu hết các CSDL là nội dung của chúng thay đổi liên tục. Chẳng hạn như các biến trong CSDL của ứng dụng đã cho chúng cĩ thể bị thay đổi, bị xĩa hoặc là tăng lên theo thời gian. Dữ liệu cĩ thể thay đổi theo thời gian và việc khai phá dữ liệu bị ảnh hưởng bởi thời điểm quan sát dữ liệu, do đĩ cĩ thể làm cho mẫu khai thác được trước đĩ mất giá trị. Vấn đề này
Phát hiện tri thức trong tập dữ liệu lớn
được giải quyết bằng giải pháp tăng trưởng để nâng cấp các mẫu và coi những thay đổi như là cơ hội để khai thác bằng cách sử dụng nĩ để tìm kiếm các mẫu bị thay đổị
- Các trường dữ liệu khơng phù hợp: Một đặc điểm quan trọng khác là tính khơng thích hợp của dữ liệu – nghĩa là mục dữ liệu trở thành khơng thích hợp với trọng tâm hiện tại của việc hiện tại của việc khai thác. Bên cạnh đĩ, tính ứng dụng của một thuộc tính đối với một tập con của CSDL cũng là một vấn đề đơi khi cũng liên quan đến độ phù hợp.
- Các giá trị bị thiếu: Sự cĩ mặt hay vắng mặt của giá trị các thuộc tính dữ liệu phù hợp cĩ thể ảnh hưởng đến việc khai phá dữ liệụ Trong hệ thống tương tác, sự thiếu vắng dữ liệu quan trọng cĩ thể dẫn tới yêu cầu cho giá trị của nĩ hoặc kiểm tra để xác định giá trị của nĩ. Hoặc cũng cĩ thể sự vắng mặt của dữ liệu được coi như một điều kiện, thuộc tính bị mất cĩ thể được xem như một giá trị trung gian và giá trị khơng biết.
- Các trường dữ liệu bị thiếu: Một quan sát khơng đầy đủ CSDL cĩ thể làm cho dữ liệu cĩ giá trị bị xem như cĩ lỗị Việc quan sát CSDL phải phát hiện được tồn bộ các thuộc tính cĩ thể dùng để thuật tốn khai phá dữ liệu cĩ thể áp dụng để giải quyết bài tốn. Giả sử ta cĩ các thuộc tính để phân biệt các tình huống đáng quan tâm. Nếu chúng khơng làm được điều đĩ thì cĩ nghĩa là đã cĩ lỗi trong dữ liệụ Đây cũng là vấn đề thường xảy ra trong CSDL kinh doanh. Các thuộc tính quan trọng cĩ thể sẽ bị thiếu dữ liệu khơng được chuẩn bị.
Phát hiện tri thức trong tập dữ liệu lớn
- Quá phù hợp: Khi một thuật tốn tìm kiếm tham số tốt nhất cho