TRI TUE NHAN TAO

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	34
Dung lượng	389,01 KB

Nội dung

Nó là sự kế thừa, kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ trước như học máy, nhận dạng, thống kê hồi quy, xếp loại, phân nhóm, các mô hình đồ thị, các mạng Bayes[r]

(1)TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA CÔNG NGHỆ THÔNG TIN - - Môn : Trí tuệ nhân tạo NIÊN KHOÁ : 2011 -2012 (2) MỤC LỤC - - Lời cảm ơn .2 Lý chọn đề tài .3 I Tổng quan phát tri thức và khai phá liệu Tổ chức và khai thác sở liệu truyền thông .4 Các bước phát triển việc tổ chức và khai thác CSDL .4 Khai thác liệu và quá trình phát tri thức II Khai phá liệu 11 Khai phá liệu gì 14 Nhiệm vụ chính khai phá liệu 14 Các phương pháp khai phá liệu 17 Lợi khai phá liệu so với các phương pháp .17 Lựa chọn phương pháp 29 Những thách thức ứng dụng và nghiên cứu kỹ thuật khai phá liệu 29 Hình ứng dụng khai phá liệu 32 (3) LỜI CẢM ƠN - Nhân loại sống năm đầu kỉ 21 với nguyên lí giáo dục tương lai: Học để làm, học để chung sống, học để làm người và học để tự khẳng định mình Chính vì thế, giáo dục nhà nước ta xem là quốc sách hàng đầu mà giáo viên là đội ngũ thực nhiệm vụ giáo dục đề Họ là kĩ sư tâm hồn, là người góp nhặt tinh hoa trời đất để gieo vào hệ trẻ mầm xanh tươi đẹp cho sống Công việc họ không giống người nông dân cày cấy để tạo lương mà sản phẩm lao động họ chính là nhân cách người Chủ Tịch Hồ Chí Minh đã nói: “ Non sông việt nam có trở nên vẻ vang hay không, dân tộc việt nam có thể sánh vai với cường quốc năm châu hay không, chính là nhờ công học tập các cháu” Như vậy, công tác giáo dục nói chung và giáo dục các hệ cao đẳng, đại học nói riêng đóng vai trò vô cùng quan trọng công xây dương đất nước Dưới hướng dẫn tận tình thầy Lữ Nhật Vinh, chúng em đã hoàn thành xong đề tài “ Phát tri thức và khai thác liệu” Trong quá trình làm đề tài không thể tránh thiếu xót vì chúng em mong thầy xem xét và góp ý Em xin chân thành cám ơn! (4) LÝ DO CHỌN ĐỀ TÀI  Sự phát triển công nghệ thông tin và việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu đã các quan thu thập và lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ các liệu này vì cho nó ẩn chứa giá trị định nào đó Tuy nhiên, theo thống kê thì có lượng nhỏ liệu này (khoảng từ 5% đến 10%) là luôn phân tích, số còn lại họ không biết phải làm gì có thể làm gì với chúng họ tiếp tục thu thập tốn kém với ý nghĩ lo sợ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên khối lượng liệu khổng lồ đã có Với lý vậy, các phương pháp quản trị và khai thác sở liệu truyền thống ngày càng không đáp ứng thực tế đã làm phát triển khuynh hướng kỹ thuật đó là Kỹ thuật phát tri thức và khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức và khai phá liệu đã và nghiên cứu, ứng dụng nhiều lĩnh vực khác các nước trên giới, Việt Nam kỹ thuật này tương đối còn mẻ nhiên nghiên cứu và dần đưa vào ứng dụng Trong bài viết này, tác giả trình bày cách tổng quan Kỹ thuật phát tri thức và khai phá liệu Trên sở đó đưa bài toán dự báo dân số giới và giải bài toán phương pháp hồi qui đơn nhằm cung cấp cho bạn đọc cách nhìn khái quát kỹ thuật này mối tương quan với phương pháp thống kê truyền thống Vì nhóm chúng em đã định chọn đề tài “Phát tri thức và khai phá liệu (KDD - Knowledge Discovery and Data Mining)” này! (5) TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU (KDD - Knowledge Discovery and Data Mining) TỔ CHỨC VÀ KHAI THÁC CƠ SỞ DỮ LIỆU TRUYỀN THỐNG Việc dùng các phương tiện tin học để tổ chức và khai thác các sở liệu đã phát triển từ năm 60 Từ đó nay, nhiều sở liệu đã tổ chức, phát triển và khai thác quy mô và khắp các lĩnh vực hoạt động người và xã hội Theo đánh giá cho thấy, lượng thông tin trên giới sau 20 tháng lại tăng gấp đôi Kích thước và số lượng sở liệu chí còn tăng nhanh Năm 1989, tổng số sở liệu trên giới vào khoảng triệu, hầu hết là các sở liệu cỡ nhỏ phát triển trên DBaseIII Với phát triển mạnh mẽ công nghệ điện tử tạo các nhớ có dung lượng lớn, xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hóa hoạt động kinh doanh mình Điều này đã tạo dòng liệu tăng lên không ngừng vì từ các giao dịch đơn giản gọi điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v… ghi vào máy tính Cho đến nay, số ày đã trở nên khổng lồ, bao gồm các sở liệu cực lớn cỡ gigabytes và chí terabytes lưu trữ các liệu kinh doanh, ví dụ liệu thông tin khách hàng, liệu lịch sử các giao dịch, liệu bán hàng, liệu các tài khoản, các khoản vay, sử dụng vốn, … Nhiều hệ quản trị sở liệu mạnh với các công cụ phong phú và thuận tiện đã giúp người khai thác có hiệu các nguồn tài nguyên liệu Mô hình sở liệu quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò quan trọng việc tổ chức và khai thác các sở liệu đó Cho đến nay, không tổ chức kinh tế nào là không sử dụng các hệ quản trị sở liệu và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các sở liệu phục vụ cho hoạt động tác nghiệp mình BƯỚC PHÁT TRIỂN MỚI CỦA VIỆC TỔ CHỨC VÀ KHAI THÁC CÁC CSDL Cùng với việc tăng không ngừng khối lượng liệu, các hệ thống thông tin chuyên môn hóa, phân chia theo các lĩnh vực ứng dụng sản xuất, tài chính, buôn bán thị trường v.v Như vậy, bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành công kinh doanh không còn là suất các hệ thống thông tin mà là tính linh hoạt và sẵn sàng đáp lại yêu cầu thực tế, CSDL cần đem lại “tri thức” là chính liệu đó Các định cần phải có càng nhanh càng tốt và phải chính xác dựa trên liệu sẵn có khối lượng liệu sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian định khả hiểu hết nội dung liệu Lúc này các mô hình CSDL truyền thống và ngôn ngữ SQL đã cho thấy không (6) có khả thực công việc này Để lấy thông tin có tính “tri thức” khối liệu khổng lồ này, người ta đã tìm kỹ thuật có khả hợp các liệu từ các hệ thống giao dịch khác nhau, chuyển đổi thành tập hợp các sở liệu ổn định, có chất lượng, sử dụng riêng cho vài mục đích nào đó Các kỹ thuật đó gọi chung là kỹ thuật tạo kho liệu (data warehousing) và môi trường các liệu có gọi là các kho liệu (data warehouse) Kho liệu là môi trường có cấu trúc các hệ thống thông tin, cung cấp cho người dùng các thông tin khó có thể truy nhập biểu diễn các CSDL tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc định mang tính lịch sử Theo W.H.Inmon, có thể định nghĩa kho liệu sau: “Một kho liệu là tập hợp liệu tích hợp hướng chủ đề có tính ổn định, thay đổi theo thời gian nhằm hỗ trợ cho việc định Nói cách khác, kho liệu bao gồm: • Một nhiều công cụ để chiết xuất liệu từ dạng cấu trúc liệu nào • Cơ sở liệu tích hợp hướng chủ đề ổn định tổng hợp từ các liệu cách lập bảng liệu liệu.” Một kho liệu có thể coi là hệ thống thông tin với thuộc tính sau: • Là sở liệu thiết kế có nhiệm vụ phân tích, sử dụng các liệu từ các ứng dụng khác Hỗ trợ cho số người dùng có liên quan với các thông tin liên quan • Là liệu đọc • Nội dung nó cập nhật thường xuyên theo cách thêm thông tin • Chứa các liệu lịch sử và để cung cấp các xu hướng thông tin • Chứa các bảng liệu có kích thước lớn • Một câu hỏi thường trả tập kết liên quan đến toàn bảng và các liên kết nhiều bảng Cấu trúc kho liệu xây dựng dựa trên hệ quản trị CSDL quan hệ, có chức giống kho lưu trữ thông tin trung tâm Trong đó, liệu tác nghiệp và phần xử lý tách riêng khỏi quá trình xử lý kho liệu Kho lưu trữ trung tâm bao quanh các thành phần thiết kế để làm cho kho liệu có thể hoạt động, quản lý và truy nhập từ người dùng đầu cuối cũn g từ các nguồn liệu (7) Như trên Hình 1.1 cho thấy, kho liệu bao gồm thành phần: • Dữ liệu nguồn (là các ứng dụng tác nghiệp các kho liệu tác nghiệp) và các công cụ chiết xuất, làm và chuyển đổi liệu • Kho liệu liệu (MetaData) • Các kỹ thuật xây kho • Kho liệu thông minh hay liệu theo chủ đề (Data marts): là nơi các liệu khoanh vùng theo chủ đề đến giới hạn nào đó và có thể thay đổi cho phù hợp với nhu cầu phận người dùng Với các kho liệu này, có thể xây dựng kho liệu theo cách tiếp cận giai đoạn kế tiếp, nghĩa là với tập hợp các kho liệu thông minh, ta tạo kho liệu; ngược lại, kho liệu có thể phân tích thành nhiều kho liệu thông minh • Các công cụ vấn đáp (query), báo cáo (reporting), phân tích trực tiếp (OLAP) và khai phá liệu (data mining) Đây chính là các cách khai thác kho liệu để đem lại “tri thức” là đem lại chính liệu thô Điểm mạnh và yếu các kỹ thuật này ta phân tích kỹ phần sau • Quản trị kho liệu • Hệ thống phân phối thông tin Nhưng có kho liệu thôi thì chưa đủ để có các tri thức Như đã đề cập trên, các kho liệu sử dụng theo ba cách chính: • Theo cách khai thác truyền thống, kho liệu sử dụng để khai thác các thông tin các công cụ vấn đáp và báo cáo Tuy nhiên, nhờ có việc chiết xuất, tổng hợp và chuyển đổi từ các liệu thô sang dạng các liệu chất lượng cao và có tính ổn định, kho liệu đã giúp cho việc nâng cao các kỹ thuật biểu diễn (8) thông tin truyền thống (hỏi đáp và báo cáo) Bằng cách tạo tầng ẩn CSDL và người dùng, các liệu đầu vào các kỹ thuật này đặt vào nguồn Việc hợp này loại bỏ nhiều lỗi sinh việc phải thu thập và biểu diễn thông tin từ nhiều nguồn khác giảm bớt chậm trễ phải lấy các liệu bị phân đoạn các sở liệu khác nhau, tránh cho người dùng khỏi câu lệnh SQL phức tạp Tuy nhiên, đây là cách khai thác với kỹ thuật cao để đưa các liệu tinh và chính xác chưa đưa liệu “tri thức” • Thứ hai là các kho liệu sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP) Trong ngôn ngữ vấn đáp chuẩn SQL và các công cụ làm báo cáo truyền thống có thể mô tả gì có CSDL thì phân tích trực tuyến có khả phân tích liệu, xác định xem giả thuyết đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khả đưa các giả thuyết Hơn nữa, kích thước quá lớn và tính chất phức tạp kho liệu làm cho nó khó có thể sử dụng cho mục đích đưa các giả thuyết từ các thông tin mà chương trình ứng dụng cung cấp (ví dụ khó có thể đưa giả thuyết giải thích hành vi nhóm khách hàng) Trước đây, kỹ thuật học máy thường sử dụng để tìm giả thuyết từ các thông tin liệu thu thập Tuy nhiên, thực nghiệm cho thấy chúng thể khả kém áp dụng với các tập liệu lớn kho liệu này Phương pháp thống kê đời đã lâu không có gì cải tiến để phù hợp với phát triển liệu Đây chính là lý khối lượng lớn liệu chưa khai thác và chí lưu trữ chủ yếu các kho liệu không trực tuyến (off-line) Điều này tạo nên lỗ hổng lớn việc hỗ trợ phân tích và tìm hiểu liệu, tạo khoảng cách việc tạo liệu và việc khai thác các liệu đó.Trong đó, càng ngày người ta càng nhận thấy rằng, phân tích thông minh thì liệu là nguồn tài nguyên quý giá cạnh tranh trên thương trường • Thứ ba: Giới tin học đã đáp ứng lại thách thức thực tiễn nghiên cứu khoa học cách đã đưa phương pháp trên kho liệu đáp ứng nhu cầu khoa học hoạt động thực tiễn Đó chính là công nghệ Khai phá liệu (data mining) KHAI PHÁ DỮ LIỆU VÀ QUÁ TRÌNH PHÁT HIỆN TRI THỨC Yếu tố thành công hoạt động kinh doanh ngày là việc biết sử dụng thông tin cách có hiệu Điều đó có nghĩa là từ các liệu sẵn có, phải tìm thông tin tiềm ẩn có giá trị mà trước đó chưa phát hiện, tìm xu hướng phát triển và yếu tố tác động lên chúng Thực công việc đó chính là thực quá trình phát tri thức sở liệu (Knowledge Discovery in Database – KDD) mà đó kỹ thuật cho phép ta lấy các tri thức chính là kỹ thuật khai phá liệu (data mining) (9) Như John Naisbett đã nói “Chúng ta chìm ngập liệu mà đói tri thức” Dữ liệu thường cho các giá trị mô tả các kiện, tượng cụ thể Còn tri thức (knowledge) là gì? Có thể có định nghĩa rõ ràng để phân biệt các khái niệm liệu, thông tin và tri thức hay không? Khó mà định nghĩa chính xác phân biệt chúng ngữ cảnh định là cần thiết và có thể làm Thông tin là khái niệm rộng, khó có thể đưa định nghĩa chính xác cho khái niệm này Cũng không thể định nghĩa cho khái niệm tri thức cho dù hạn chế phạm vi tri thức chiết xuất từ các CSDL Tuy nhiên, ta có thể hiểu tri thức là biểu thức ngôn ngữ nào đó diễn tả (hoặc nhiều) mối quan hệ các thuộc tính các liệu đó Các ngôn ngữ thường dùng để biểu diễn tri thức (trong việc phát tri thức từ các CSDL) là các khung (frames), các cây và đồ thị, các luật (rules), các công thức ngôn ngữ logic mệnh đề tân từ cấp một, các hệ thống phương trình, v.v…, ví dụ ta có các luật mô tả các thuộc tính liệu, các mẫu thường xuyên xảy ra, các nhóm đối tượng sở liệu, v.v… Hình 1.2 Quá trình phát tri thức Phát tri thức từ CSDL là quá trình có sử dụng nhiều phương pháp và công cụ tin học là quá trình mà đó người là trung tâm Do đó, nó không phải là hệ thống phân tích tự động mà là hệ thống bao gồm nhiều hoạt động tương tác thường xuyên người và CSDL, tất nhiên là với hỗ trợ các công cụ tin học Người sử dụng hệ thống đây phải là người có kiến thức lĩnh vực cần phát tri thức để có thể chọn đúng các tập liệu, các lớp mẫu phù hợp và đạt tiêu chuẩn quan tâm so với mục đích Tri thức mà ta nói đây là các tri thức rút từ các CSDL, thường để phục vụ cho việc giải loạt nhiệm vụ định lĩnh vực định Do đó, quá trình phát tri thức mang tính chất hướng nhiệm vụ, không phải là phát tri thức mà là phát tri thức nhằm giải tốt nhiệm vụ (10) đề Vì vậy, quá trình phát tri thức là quá trình hoạt động tương tác người (người sử dụng chuyên gia phân tích) với các công cụ tin học để thực các bước sau: • Tìm cách hiểu (bằng ngôn ngữ tin học) lĩnh vực ứng dụng và nhiệm vụ đặt ra, xác định các tri thức đã có và các mục tiêu người sử dụng • Tạo tập liệu đích cách chọn từ CSDL tập liệu với các giá trị biến và các mẫu quan tâm, trên đó ta thực quá trình phát tri thức • Làm và tiền xử lý liệu • Thu gọn và rút bớt số chiều liệu để tập trung vào thuộc tính chủ chốt việc phát tri thức • Chọn nhiệm vụ khai phá liệu dựa vào mục tiêu quá trình phát tri thức: xếp loại, phân nhóm hay hồi quy, v.v… • Chọn thuật toán khai phá liệu thích hợp và thực việc khai phá liệu để tìm các mẫu hình (pattern) có ý nghĩa dạng biểu diễn tương ứng (luật xếp loại, cây định, luật sản xuất, biểu thức hồi quy, …) • Đánh giá, giải thích, thử lại các mẫu hình đã khai phá, có thể lặp lại nhiều bước kể trên • Củng cố, tinh chế các tri thức đã phát Kết hợp các tri thức thành hệ thống Giải các xung đột tiềm tàng tri thức khai thác Sau đó, tri thức chuẩn bị sẵn sàng cho ứng dụng Lý luận và thực tiễn thực các quá trình phát tri thức mà ta xét đây là tiếp thu, sử dụng và phát triển nhiều thành tựu và công cụ các lĩnh vực đã phát triển trước đó như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v… Nhưng đặc điểm lý luận phát tri thức đây là phát tri thức trực tiếp từ liệu, đặc điểm đó mà nó có điểm mới, phân biệt với các ngành đã có từ trước Thí dụ với các hệ chuyên gia thì sở tri thức hình thành từ kinh nghiệm và kiến thức các chuyên gia là chủ yếu, với nhiều bài toán nhận dạng thì thường là tập các dạng mẫu cho trước, v.v…, còn lý thuyết phát tri thức thì các tri thức, các dạng mẫu, các giả thuyết phát từ việc khai phá các kho liệu Nếu phát tri thức là toàn quá trình chiết xuất tri thức từ các CSDL thì khai phá liệu là giai đoạn chủ yếu quá trình đó Như trên đã trình bày, quá trình phát tri thức, khâu khai phá liệu thực sau các khâu tinh lọc và tiền xử lý liệu, tức là việc khai phá để tìm các mẫu hình có ý nghĩa tiến hành trên tập liệu có hy vọng là thích hợp với nhiệm vụ khai phá đó không phải là khai phá hết liệu với thời gian đủ dài để lấy mẫu không thực có ích khái niệm thống kê trước đây Vì vậy, khai phá liệu thường bao gồm việc thử tìm mô hình phù hợp với tập liệu và tìm kiếm các mẫu từ tập liệu theo mô hình đó Thí dụ ta có mô hình là luật kết (11) hợp thì mẫu là các yếu tố tham gia cùng với các độ hỗ trợ (support) và độ tin cậy (confidence) các luật tương ứng Mặc dù các mẫu có thể trích lọc từ CSDL nào có các mẫu xem là đáng quan tâm xét theo phương diện nào đó coi là tri thức Các mẫu là đáng quan tâm chúng là mới, có lợi, đáng xem xét Một mẫu xem là phụ thuộc vào khung tham chiếu cho trước, có thể đó là phạm vi tri thức hệ thống là phạm vi tri thức người dùng Ví dụ việc khai phá liệu có thể tìm sau: Nếu Gây_tai_nạn thì Tuổi>16 Đối với hệ thống, tri thức này có thể trước chưa biết và có ích người sử dụng thử phân tích các ghi các yêu cầu bảo hiểm thì mẫu này lại không cần thiết và không đáng quan tâm vì không thể tri thức cần tìm Ví dụ này cho thấy khái niệm tính hữu dụng Tri thức là có ích nó có thể giúp đạt mục đích hệ thống hay người sử dụng Các mẫu hoàn toàn không liên quan đến mục đích ít sử dụng và không tạo thành tri thức tình đã cho Ví dụ mẫu mô tả mối quan hệ Gây_tai_nạn với tuổi lái xe tìm mục đích người sử dụng là phân tích các thông số bán hàng thì không có ích người sử dụng Tuy nhiên, độ hữu dụng và thì chưa đủ để đánh giá mẫu là tri thức cần tìm Hầu hết các sở liệu chứa nhiều các mẫu và có ích, nhiên mẫu có giá trị với mục tiêu đặt phải là mẫu không tầm thường Để các mẫu trở nên không tầm thường, hệ thống phải làm nhiều là mò mẫm thống kê vì kết việc tính toán trực tiếp qua công tác thống kê là đã có người dùng Một hệ thống tìm kiếm cần phải có khả định cần thực tính toán nào và kết là có đáng quan tâm để tạo nên tri thức ngữ cảnh hay không Ta có thể coi khai phá liệu giống quá trình phát các mẫu đáp ứng các yêu cầu trên, các tương quan có ý nghĩa, các xu hướng cách khai thác các khối liệu kho liệu, sử dụng các kỹ thuật và các khái niệm các lĩnh vực đã nghiên cứu từ trước như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, các mô hình đồ thị, các mạng Bayes, v.v… Khai phá liệu sử dụng để tạo giả thuyết Ví dụ để xác định các yếu tố rủi ro cho vay tín dụng, kỹ thuật khai phá liệu phải phát người có thu nhập thấp và nợ nhiều là người có mức rủi ro cao Ngoài kỹ thuật có thể phát quy luật mà nhà phân tích có thể chưa tìm ví dụ tỷ lệ thu nhập trên nợ và tuổi là các yếu tố xác định mức rủi ro Để làm điều này, khai phá liệu sử dụng các thông tin quá khứ để học Nó tìm kiếm các thông tin này các CSDL và sử dụng chúng để tìm các mẫu đáng quan tâm Nếu xét mặt ý tưởng và mục đích ứng dụng, khai phá liệu là nhu cầu tất yếu, nhạy cảm đáp lại mong mỏi giới kinh doanh thì mặt kỹ thuật, đó thực là khó khăn và là thách thức nhà khoa (12) học Khai phá liệu xây dựng dựa trên việc sử dụng các giải thuật mới, định hướng theo cầu kinh doanh để có thể giải tự động các bài toán kinh doanh các kỹ thuật dễ dùng và có thể hiểu Các kỹ thuật nghiên cứu và sử dụng bao gồm cây định (CART, CHAID, AID), mạng neuron, phương pháp láng giềng gần nhất, các luật suy diễn, v.v… Khai phá liệu không thuộc ngành công nghiệp nào Nó sử dụng các kỹ thuật thông minh để khai phá các tri thức tiềm ẩn liệu Có thể coi khai phá liệu ngày trạng thái giống việc quản trị liệu vào năm 60, mà các ứng dụng quản trị liệu không tuân theo nguyên tắc chung nào mô hình liệu quan hệ đời cùng với sức mạnh ngôn ngữ vấn đáp đã thúc đẩy việc phát triển các ứng dụng quản trị liệu lên nhanh chóng Tuy vậy, trên giới đã có nhiều ngành công nghiệp sử dụng kỹ thuật khai phá liệu để phục vụ cho hoạt động kinh doanh mình và đã bước đầu thành công ngành tài chính, y học, hóa học, bảo hiểm, sản xuất, giao thông, hàng không, v.v… Các kết đạt cho thấy mặc dù kỹ thuật khai phá liệu còn nhiều vấn đề cộm, với tri thức mà chuyên gia người chưa cung cấp thì khai phá liệu có tiềm to lớn việc tạo lợi nhuận đáng kể kinh tế II KHAI PHÁ DỮ LIỆU Hiện trên sách báo, các hội thảo, tiếp thị sản phẩm ứng dụng công nghệ thông tin, người ta nói nhiều khai phá liệu hay có người còn gọi là khai mỏ liệu (data mining) Và chắn chúng ta không là không lần nghe thấy từ này Vậy Khai phá liệu là gì? Và lại có nhiều người lại nói đến vấn đề này công nghiệp máy tính lẫn hoạt động kinh doanh đến vậy? KHAI PHÁ DỮ LIỆU LÀ GÌ? 1.1.Khái niệm Khai phá liệu là khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt các kỹ thuật nhằm phát các thông tin có giá trị tiềm ẩn các tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích các liệu và sử dụng các kỹ thuật để tìm các mẫu hình có tính chính quy (regularities) tập liệu Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát tri thức sở liệu (Kownledge Discovery in Database – KDD) để toàn quá trình phát các tri thức có ích từ các tập liệu lớn Trong đó, khai phá liệu là bước đặc biệt toàn quá trình, sử dụng các giải thuật đặc biệt để chiết xuất các mẫu (pattern) (hay các mô hình) từ liệu 1.2.Các bước quá trình khai phá liệu Các giải thuật khai phá liệu thường mô tả chương trình hoạt động trực tiếp trên tệp liệu Với các phương pháp học máy và thống kê trước đây, thường thì bước đầu tiên là các giải thuật nạp toàn tệp liệu vào (13) nhớ Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho liệu lớn, mô hình này không thể đáp ứng Không vì nó không thể nạp hết liệu vào nhớ mà còn vì khó có thể chiết xuất liệu các tệp đơn giản để phân tích Quá trình xử lý khai phá liệu bắt đầu cách xác định chính xác vấn đề cần giải Sau đó xác định các liệu liên quan dùng để xây dựng giải pháp Bước là thu thập các liệu có liên quan và xử lý chúng thành dạng cho giải thuật khai phá liệu có thể hiểu Về lý thuyết thì có vẻ đơn giản thực thì đây thực là quá trình khó khăn, gặp phải nhiều vướng mắc như: các liệu phải nhiều (nếu chiết xuất vào các tệp), quản lý tập các tệp liệu, phải lặp lặp lại nhiều lần toàn quá trình (nếu mô hình liệu thay đổi), v.v… Sẽ là quá cồng kềnh với giải thuật khai phá liệu nều phải truy nhập vào toàn nội dung CSDL và làm việc trên Vả lại, điều này không cần thiết Có nhiều giải thuật khai phá liệu thực dựa trên thống kê tóm tắt khá đơn giản CSDL, mà toàn thông tin CSDL là quá dư thừa mục đích việc khai phá liệu Bước là chọn thuật toán khai phá liệu thích hợp và thực việc khai phá liệu để tìm các mẫu (pattern) có ý nghĩa dạng biểu diễn tương ứng với các ý nghĩa đó (thường biểu diễn dạng các luật xếp loại, cây định, luật sản xuất, biểu thức hồi quy, …) Đặc điểm mẫu phải là (ít là hệ thống đó) Độ có thể đuợc đo tương ứng với độ thay đổi liệu (bằng cách so sánh các giá trị với các giá trị trước đó các giá trị mong muốn), tri thức (mối liên hệ phương pháp tìm và phương pháp cũ nào) Thường thì độ mẫu đánh giá hàm logic hàm đo độ mới, độ bất ngờ mẫu Ngoài ra, mẫu còn phải có khả sử dụng tiềm tàng Các mẫu này sau xử lý và diển giải phải dẫn đến hành động có ích nào đó đánh giá hàm lợi ích Ví dụ liệu các khoản vay, hàm lợi ích đánh giá khả tăng lợi nhuận từ các khoản vay Mẫu khai thác phải có giá trị các liệu với độ chính xác nào đó (14) Với các giải thuật và các nhiệm vụ khai phá liệu khác nhau, dạng các mẫu chiết xuất đa dạng Theo cách đơn giản nhất, phân tích cho kết chiết xuất là báo cáo số loại (có thể bao gồm các phép đo mang tính thống kê độ phù hợp mô hình, các liệu lạ, v.v…) Trong thực tế đầu phức tạp nhiều, mẫu chiết xuất có thể là mô tả xu hướng, có thể là dạng văn bản, đồ thị mô tả các mối quan hệ mô hình, có thể là hành động, ví dụ yêu cầu người dùng làm gì với gì khai thác liệu Một mẫu chiết xuất từ công cụ khai phá tri thức khác lại có thể là dự đoán xem số lượng bánh kẹo bán vào dịp Tết tăng lên bao nhiêu phần trăm, v.v… Hình 2.2 là ví dụ minh họa kết việc khai phá liệu khách hàng xin vay vốn, với lựa chọn t, mẫu chiết xuất là luật “Nếu thu nhập < t đồng thì khách hàng vay bị vỡ nợ” Dạng mẫu chiết xuất có thể phân loại kiểu mẫu liệu mà nó mô tả Các mẫu liên vùng (interfield pattern) liên quan đến các giá trị các trường cùng ghi (ví dụ: Nếu thủ tục=phẫu thuật thì ngày nằm viện>5) Các mẫu liên ghi liên quan đến các giá trị tổng hợp từ nhóm các ghi ví dụ bệnh nhân mắc bệnh đau dày khó ăn gấp hai lần người bình thường khác; xác định phần có ích ví dụ nhóm các công ty có lợi nhuận Việc khai thác các mẫu liên ghi là dạng tổng kết liệu Đối với liệu phụ thuộc thời gian, mối quan hệ liên ghi có thể xác định các xu hướng quan tâm (ví dụ sản lượng bán hàng tăng 20% so với năm ngoái) Ta có thể phân loại dạng mẫu chiết xuất theo khả mô tả chúng Ví dụ mẫu chiết xuất quá trình khai phá liệu theo số lượng liên quan đến các giá trị trường số sử dụng các công thức toán học Mẫu quá trình khai phá liệu theo chất lượng tìm mối quan hệ logic các trường Ta phân biệt hai dạng này vì các kỹ thuật khai phá khác thường sử dụng các trường hợp khác Ví dụ các mối quan hệ số lượng tuyến tính tìm thấy dễ dàng các phương pháp hồi quy tuyến tính khai phá theo định tính lại không thể dùng các phương pháp này Kỹ thuật khai phá liệu thực chất không có gì Nó là kế thừa, kết hợp và mở rộng các kỹ thuật đã nghiên cứu từ trước học máy, nhận dạng, thống kê (hồi quy, xếp loại, phân nhóm), các mô hình đồ thị, các mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, v.v… Tuy nhiên, với kết hợp tài tình khai phá liệu, kỹ thuật này có ưu hẳn các phương pháp trước đó, đem lại nhiều triển vọng việc ứng dụng phát triển nghiên cứu khoa học làm tăng mức lợi nhuận các hoạt động kinh doanh 1.3.Ví dụ minh họa (15) Để minh họa hoạt động mẫu chiết xuất quá trình khai phá liệu, chương này chúng ta dùng chủ yếu ví dụ đơn giản đã cho trên Hình 2.2 Hình 2.2 mô tả tập liệu hai chiều gồm có 23 điểm mẫu Mỗi điểm biểu thị cho khách hàng đã vay ngân hàng Trục hoành biểu thị cho thu nhập, trục tung biểu thị cho tổng dư nợ khách hàng Dữ liệu khách hàng chia thành hai lớp: dấu x biểu thị cho khách hàng bị vỡ nợ, dấu o biểu thị cho khách hàng có khả trả nợ Tập liệu này có thể chứa thông tin có ích các tổ chức tín dụng việc định có cho khách hàng vay không Ví dụ ta có mẫu “Nếu thu nhập < t đồng thì khách hàng vay bị vỡ nợ” mô tả trên Hình 2.2 NHIỆM VỤ CHÍNH CỦA KHAI PHÁ DỮ LIỆU Rõ ràng mục đích khai phá liệu là các tri thức chiết xuất sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích nghiên cứu khoa học Do đó, ta có thể coi mục đích chính khai thác liệu là mô tả (description) và dự đoán (prediction) Các mẫu mà khai phá liệu phát nhằm vào mục đích này Dự đoán liên quan đến việc sử dụng các biến các trường sở liệu để chiết xuất các mẫu là các dự đoán giá trị chưa biết giá trị tương lai các biến đáng quan tâm Mô tả tập trung vào việc tìm kiếm các mẫu mô tả liệu mà người có thể hiểu Để đạt hai mục đích này, nhiệm vụ chính khai phá liệu bao gồm sau: • Phân lớp (Classification): Phân lớp là việc học hàm ánh xạ (hay phân loại) mẫu liệu vào số các lớp đã xác định (Hand 1981; Weiss & Kulikowski 1991; McLachlan 1992) Ví dụ việc sử dụng phương pháp phân lớp khai phá liệu là ứng dụng phân lớp các xu hướng thị trường tài chính (Apte & Hong) và ứng dụng tự động xác định các đối tượng đáng quan tâm các sở liệu ảnh lớn (Fayyad, Djorgovski, & Weir) Hình 2.3 mô tả đầu nhiệm vụ khai phá liệu phân lớp tập liệu khách hàng đã nêu trên Đó là mẫu chia tập liệu khách hàng thành hai miền tuyến tính Mẫu này có thể cho phép tổ chức tín dụng định có cho các khách hàng vay hay không (16) • Hồi quy (Regression): Hồi quy là việc học hàm ánh xạ từ mẫu liệu thành biến dự đoán có giá trị thực Có nhiều ứng dụng khai phá liệu với nhiệm vụ hồi quy, ví dụ dự đoán số lượng biomass xuất rừng biết các phép đo vi sóng từ xa, đánh giá khả tử vong bệnh nhân biết các kết xét nghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ sản phẩm hàm tiêu quảng cáo, dự đoán theo thời gian với các biến đầu vào là các giá trị mẫu dự đoán quá khứ, v.v… Hình 2.4 mô tả mẫu kết dự đoán tổng dư nợ khách hàng với nhiệm vụ khai phá liệu là hồi quy Đường hồi quy tuyến tính cho thấy khách hàng có thu nhập càng cao thì tổng dư nợ càng lớn Mẫu kết này không phù hợp với quy luật và điều đó là dễ hiểu vì ta thấy đường hồi quy tuyến tính đây không vét cạn hết các trường hợp xảy mà mô tả mối liên hệ số ít khách hàng (17) • Phân nhóm (Clustering): Là việc mô tả chung để tìm các tập xác định các nhóm hay các loại để mô tả liệu (Titterington, Smith & Makov 1985; Jain & Dubes 1988) Các nhóm có thể tách riêng phân cấp gối lên Có nghĩa là liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm Các ứng dụng khai phá liệu có nhiệm vụ phân nhóm như: phát tập các khách hàng có phản ứng giống sở liệu tiếp thị, xác định các loại quang phổ từ các phương pháp đo tia hồng ngoại (Cheeseman & Stutz) Hình 2.5 mô tả các mẫu quá trình khai phá liệu với nhiệm vụ phân nhóm Ở đây, các mẫu là các nhóm khách hàng xếp thành ba nhóm gối lên Các điểm nằm hai nhóm chứng tỏ khách hàng có (18) thể thuộc hai loại trạng thái Chú ý với nhiệm vụ này, khách hàng không phân biệt cũ (không dùng các dấu x và o) mà phân biệt theo nhóm (thay dấu +) Liên quan chặt chẽ đến việc phân nhóm là nhiệm vụ đánh giá mật độ xác suất, bao gồm các kỹ thuật đánh giá liệu, hàm mật độ xác suất đa biến liên kết tất các biến/các trường sở liệu (Silverman 1986) • Tóm tắt (summarization): Liên quan đến các phướng pháp tìm kiếm mô tả tóm tắt cho tập liệu Ví dụ việc lập bảng các độ lệch chuẩn và trung bình cho tất các trường Các phương pháp phức tạp liên quan đến nguồn gốc các luật tóm tắt (Agrawal et al.), khai thác mối liên hệ hàm các biên (Zembowicz & Zytkow) Các kỹ thuật tóm tắt thường áp dụng cho các phân tích liệu tương tác có tính thăm dò và tạo báo cáo tự động • Mô hình hóa phụ thuộc (Dependency Modeling): Bao gồm việc tìm kiếm mô hình mô tả phụ thuộc đáng kể các biến Các mô hình phụ thuộc tồn hai mức: mức cấu trúc mô hình xác định (thường dạng đồ họa) các biến nào là phụ thuộc cục với nhau, mức định lượng mô hình xác định độ mạnh phụ thuộc theo thước đo nào đó Ví dụ các mạng phụ thuộc xác suất sử dụng độc lập có điều kiện để xác định khía cạnh có cấu trúc mô hình và các xác suất tương quan để xác định độ mạnh phụ thuộc (Heckerman; Glymour et al., 1987) Các mạng phụ thuộc xác suất ngày càng tìm thấy nhiều ứng dụng các lĩnh vực khác phát triển các hệ chuyên gia y tế áp dụng tính xác suất từ các sở liệu, thu thập thông tin, mô hình hóa gen di truyền người • Phát thay đổi và lạc hướng(Change and Deviation Detection)): Tập trung vào khai thác thay đổi đáng kể liệu từ các giá trị chuẩn đo trước đó (Berndt & Cliffort; Guyon et al.; Klosegen; Matheus et al.; Basseville & Nikiforov 1993) Vì các nhiệm vụ khác này yêu cầu số lượng và các dạng thông tin khác nên chúng thường ảnh hưởng đến việc thiết kế và chọn giải thuật khai phá liệu khác Ví dụ giải thuật tạo cây định tạo mô tả phân biệt các mẫu các lớp không có các tính chất và đặc điểm lớp CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU Quá trình khai phá liệu là quá trình phát mẫu, đó, giải thuật khai phá liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định các luật, cây phân lớp, hồi quy, phân nhóm, v.v… 3.1.Các thành phần giải thuật khai phá liệu Giải thuật khai phá liệu bao gồm thành phần chính sau: biểu diễn mô hình, đánh giá mô hình, tìm kiếm mô hình • Biểu diễn mô hình: Mô hình biểu diễn ngôn ngữ L để mô tả các mẫu có thể khai thác Nếu mô tả quá bị hạn chế thì không thể học (19) không thể có các mẫu tạo mô hình chính xác cho liệu Ví dụ mô tả cây định sử dụng phân chia các nút theo trường đơn, chia không gian đầu vào thành các mặt siêu phẳng song song với các trục thuộc tính Phương pháp cây định không thể khai thác từ liệu dạng công thức x=y dù cho tập học có to đến đâu Vì vậy, việc quan trọng là người phân tích liệu cần phải hiểu đầy đủ các giả thiết mô tả Một điều khá quan trọng là người thiết kế giải thuật cần phải diễn tả các giả thiết mô tả nào tạo giải thuật nào Khả mô tả mô hình càng lớn thì càng làm tăng mức độ nguy hiểm bị học quá và làm giảm khả dự đoán các liệu chưa biết Hơn nữa, việc tìm kiếm càng trở nên phức tạp và việc giải thích mô hình khó khăn Mô hình ban đầu xác định cách kết hợp biến đầu (phụ thuộc) với các biến độc lập mà biến đầu phụ thuộc vào Sau đó phải tìm tham số mà bài toán cần tập trung giải Việc tìm kiếm mô hình đưa mô hình phù hợp với các tham số xác định dựa trên liệu (trong số trường hợp, mô hình xây dựng độc lập với liệu số trường hợp khác thì mô hình và các tham số lại thay đổi để phù hợp với liệu) Trong số trường hợp, tập liệu chia thành tập liệu học và tập liệu thử Tập liệu học sử dụng để làm cho các tham số mô hình phù hợp với liệu Mô hình sau đó đánh giá cách đưa các liệu thử vào mô hình và thay đổi lại các tham số cho phù hợp cần Mô hình lựa chọn có thể là phương pháp thống kê SASS, v.v…, số giải thuật học máy (ví dụ suy diễn cây định và các kỹ thuật học có thầy khác), mạng neuron, suy diễn hướng tình (case-based reasoning), các kỹ thuật phân lớp • Đánh giá mô hình: Đánh giá xem mẫu có đáp ứng các tiêu chuẩn quá trình phát tri thức hay không Việc đánh giá độ chính xac dự đoán dựa trên đánh giá chéo (cross validation) Đánh giá chất lượng mô tả liên quan đến độ chính xác dự đoán, độ mới, khả sử dụng, khả hiểu mô hình Cả hai chuẩn thống kê và chuẩn logic có thể sử dụng để đánh giá mô hình Ví dụ luật xác suất lớn có thể dùng để lựa chọn các tham số cho mô hình cho xử lý phù hợp với tập liệu học Việc đánh giá mô hình thực qua kiểm tra liệu (trong số trường hợp kiểm tra với tất các liệu, số trường hợp khác kiểm tra với liệu thử) Ví dụ mạng neuron, việc đánh giá mô hình thực dựa trên việc kiểm tra liệu (bao gồm liệu học và liệu thử), nhiệm vụ dự đoán thì việc đánh giá mô hình ngoài kiểm tra liệu còn dựa trên độ chính xác dự đoán • Phương pháp tìm kiếm: phương pháp tìm kiếm bao gồm hai thành phần: tìm kiếm tham số và tìm kiếm mô hình Trong tìm kiếm tham số, giải thuật cần tìm kiếm các tham số để tối ưu hóa các tiêu chuẩn đánh giá mô hình với các liệu quan sát và với mô tả mô hình đã định Việc tìm kiếm không cần thiết số bài toán khá đơn giản: các đánh giá tham số tối ưu có thể đạt (20) các cách đơn giản Đối với các mô hình chung thì không có các cách này, đó giải thuật “tham lam” thường sử dụng lặp lặp lại Ví dụ phương pháp giảm gradient giải thuật lan truyền ngược (backpropagation) cho các mạng neuron Tìm kiếm mô hình xảy giống vòng lặp qua phương pháp tìm kiếm tham số: mô tả mô hình bị thay đổi tạo nên họ các mô hình Với mô tả mô hình, phương pháp tìm kiếm tham số áp dụng để đánh giá chất lượng mô hình Các phương pháp tìm kiếm mô hình thường sử dụng các kỹ thuật tìm kiếm heuristic vì kích thước không gian các mô hình có thể thường ngăn cản các tìm kiếm tổng thể, các giải pháp đơn giản (closed form) không dễ đạt 3.2.Một số phương pháp khai thác liệu phổ biến 3.2.1 Phương pháp quy nạp (induction) Một sở liệu là kho thông tin các thông tin quan trọng có thể suy diễn từ kho thông tin đó Có hai kỹ thuật chính để thực việc này là suy diễn và quy nạp • Phương pháp suy diễn: Nhằm rút thông tin là kết logic các thông tin sở liệu Ví dụ toán tử liên kết áp dụng cho bảng quan hệ, bảng đầu chứa thông tin các nhân viên và phòng ban, bảng thứ hai chứa các thông tin các phòng ban và các trưởng phòng Như suy mối quan hệ các nhân viên và các trưởng phòng Phương pháp suy diễn dựa trên các kiện chính xác để suy các tri thức từ các thông tin cũ Mẫu chiết xuất cách sử dụng phương pháp này thường là các luật suy diễn Với tập liệu khách hàng vay vốn trên, ta có mẫu chiết xuất với ngưỡng thu nhập t là luật sau: “Nếu thu nhập khách hàng lớn t đồng thì khách hàng có khả trả nợ” • Phương pháp quy nạp: phương pháp quy nạp suy các thông tin sinh từ sở liệu Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh tri thức không phải bắt đầu với các tri thức đã biết trước Các thông tin mà phương pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả các đối tượng sở liệu Phương pháp này liên quan đến việc tìm kiếm các mẫu CSDL Trong khai phá liệu, quy nạp sử dụng cây định và tạo luật 3.2.2 Cây định và luật • Cây định: Cây định là mô tả tri thức dạng đơn giản nhằm phân các đối tượng liệu thành số lớp định Các nút cây gán nhãn là tên các thuộc tính, các cạnh gán các giá trị có thể các thuộc tính, các lá mô tả các lớp khác Các đối tượng phân lớp theo các đường trên cây, qua các cạnh tương ứng với các giá trị thuộc tính đối tượng tới lá Hình 2.6 mô tả mẫu đầu có thể quá trình khai phá liệu dùng phương pháp cây định với tập liệu khách hàng xin vay vốn (21) • Tạo luật: Các luật tạo nhằm suy diễn số mẫu liệu có ý nghĩa mặt thống kê Các luật có dạng NẾU P THÌ Q, với P là mệnh đề đúng với phần CSDL, Q là mệnh đề dự đoán Ví dụ ta có mẫu phát phương pháp tạo luật: giá cân táo thấp 5000 đồng thì số lượng táo bán tăng 5% Những luật này sử dụng rộng rãi việc mô tả tri thức hệ chuyên gia Chúng có thuận lợi là dễ hiểu người sử dụng Cây định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suy diễn khá dễ hiểu người sử dụng Tuy nhiên, giới hạn nó là mô tả cây và luật có thể biểu diễn số dạng chức và vì giới hạn độ chính xác mô hình Mẫu ví dụ Hình 2.2 cho thấy ảnh hưởng ngưỡng áp dụng cho biến thu nhập tập liệu khách hàng vay vốn Rõ ràng việc sử dụng ngưỡng đơn giản đã hạn chế việc phân lớp với đường biên chính xác mà ta có thể nhìn thấy Nếu mở rộng không gian mô hình phép có nhiều mô tả (ví dụ các mặt siêu phẳng đa biến (multivariate hyperplane) các góc ngẫu nhiên) thì mô hình dự đoán Và tốt lại khó hiểu Cho đến nay, đã có nhiều giải thuật suy diễn sử dụng các luật và cây định áp dụng học máy và thống kê (Breiman et al 1984; Quinlan 1992) Đối với quy mô lớn, người ta dựa trên các phương pháp đánh giá mô hình theo xác suất với các mức độ mô hình phức tạp khác Các phương pháp tìm kiếm “tham lam”, liên quan đến việc tăng và rút gọn các luật và các cấu trúc cây, chủ yếu sử dụng để khai thác không gian siêu mũ (super-exponential space) các mô hình Cây và luật chủ yếu sử dụng cho việc mô hình hóa dự đoán, phân lớp (Apte & Hong; Fayyad, Djorgovski, & Wei) và hồi quy Chúng có thể áp dụng cho việc tóm tắt và mô hình hóa các mô tả (Agrawal et al.) 3.2.3 Phát các luật kết hợp (22) Phương pháp này nhằm phát các luật kết hợp các thành phần liệu sở liệu Mẫu đầu giải thuật khai phá liệu là tập luật kết hợp tìm Ta có thể lấy ví dụ đơn giản luật kết hợp sau: kết hợp hai thành phần A và B có nghĩa là xuất A ghi kéo theo xuất B cùng ghi đó: A ⇒ B Cho lược đồ R={A1, …, Ap} các thuộc tính với miền giá trị {0,1}, và quan hệ r trên R Một luật kết hợp trên r mô tả dạng X⇒B với X⊆R và B∈R\X Về mặt trực giác, ta có thể phát biểu ý nghĩa luật sau: ghi bảng r có giá trị thuộc tính thuộc X thì giá trị thuộc tính B là cùng ghi đó Ví dụ ta có tập sở liệu các mặt hàng bán siêu thị, các dòng tương ứng với các ngày bán hàng, các cột tương ứng với các mặt hàng thì giá trị ô (20/10, bánh mì) xác định bánh mì đã bán ngày hôm đó kéo theo xuất giá trị ô (20/10, bơ) Cho W ⊆R, đặt s(W,r) là tần số xuất W r tính tỷ lệ các hàng r có giá trị cột thuộc W Tần số xuất luật X⇒B r định nghĩa là s(X∪{B}, r) còn gọi là độ hỗ trợ luật, độ tin cậy luật là s(X∪{B}, r)/s(X, r) Ở đây X có thể gồm nhiều thuộc tính, B là giá trị không cố định Nhờ mà không xảy việc tạo các luật không mong muốn trước quá trình tìm kiếm bắt đầu Điều đó cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ số lượng các thuộc tính đầu vào Do cần phải chú ý thiết kế liệu cho việc tìm kiếm các luật kết hợp Nhiệm vụ việc phát các luật kết hợp là phải tìm tất các luật X⇒B cho tần số luật không nhỏ ngưỡng σ cho trước và độ tin cậy luật không nhỏ ngưỡng θ cho trước Từ sở liệu ta có thể tìm hàng nghìn và chí hàng trăm nghìn các luật kết hợp Ta gọi tập X⊆R là thường xuyên r thỏa mãn điều kiện s(X, r)≥σ Nếu biết tất các tập thường xuyên r thì việc tìm kiếm các luật dễ dàng Vì vậy, giải thuật tìm kiếm các luật kết hợp trước tiên tìm tất các tập thường xuyên này, sau đó tạo dựng dần các luật kết hợp cách ghép dần các tập thuộc tính dựa trên mức độ thường xuyên Các luật kết hợp có thể là cách hình thức hóa đơn giản Chúng thích hợp cho việc tạo các kết có liệu dạng nhị phân Giới hạn phương pháp này là chỗ các quan hệ cần phải thưa theo nghĩa không có tập thường xuyên nào chứa nhiều 15 thuộc tính Giải thuật tìm kiếm các luật kết hợp tạo số luật ít phải với số các tập thường xuyên và tập thường xuyên có kích thước K thì phải có ít là 2K tập thường xuyên Thông tin các tập thường xuyên sử dụng để ước lượng độ tin cậy các tập luật kết hợp 3.2.4 Các phương pháp phân lớp và hồi quy phi tuyến Các phương pháp này bao gồm họ các kỹ thuật dự đoán để làm cho các kết hợp tuyến tính và phi tuyến các hàm (hàm sigmoid, hàm spline (hàm (23) mành), hàm đa thức) phù hợp với các kết hợp các giá trị biến vào Các phương pháp thuộc loại này mạng neuron truyền thẳng, phương pháp mành thích nghi, v.v… (Friedman 1989, Cheng & Titterington 1994, Elder & Pregibon) Mẫu minh họa trên Hình 2.7 mô tả dạng đường biên phi tuyến mà mạng neuron tìm từ tập liệu khách hàng vay Xét mặt đánh giá mô hình, mặc dù mạng neuron với kích thước tương đối lúc nào có thể mô hàm nào gần đúng với độ chính xác mong muốn nào đó Nhưng để tìm mạng có kích thước tối ưu cho tập liệu xác định lại là việc khá công phu và không có thể biết có tìm kích thước đó hay không Các phương pháp sai số bình phương chuẩn (standard squared error) và các hàm entropy (cross entropy loss function) sử dụng để học có thể xem các hàm khả logarit (log-likelihood functions) phân lớp và hồi quy (Geman, Bienentstock & Doursat 1992; Ripley 1994) Lan truyền ngược sai số là phương pháp tìm kiếm tham số thực việc giảm gradient không gian tham số (ở đây là các trọng số) để tìm giá trị cực đại cục hàm xác suất các giá trị khởi tạo ngẫu nhiên Các phương pháp hồi quy phi tuyến mặc dù có khả diễn tả lại khó diễn giải thành các luật Ví dụ đường biên phân lớp mô tả Hình 2.6 chính xác đường biên đơn giản dựa trên ngưỡng mẫu trên Hình 2.2 đường biên dựa trên ngưỡng lại có thuận lợi là mô hình có thể dễ dàng diễn giải thành luật đơn giản với độ chính xác nào đó: “nếu thu nhập khách hàng lớn t đồng thì có thể cho vay” 3.2.5 Phân nhóm và phân đoạn (clustering and segmentation) Kỹ thuật phân nhóm và phân đoạn là kỹ thuật phân chia liệu cho phần nhóm giống theo tiêu chuẩn nào đó Mối quan hệ thành viên các nhóm có thể dựa trên mức độ giống các thành viên và từ đó xây dựng nên các luật ràng buộc các thành viên nhóm Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính các thành phần là hàm các tham số các thành phần Phương pháp này gọi là phương pháp phân hoạch tối ưu (optimal partitioning) Một ví dụ phương pháp phân nhóm theo độ giống là sở liệu khách hàng, ứng dụng phương pháp tối ưu ví dụ phân nhóm khách hàng theo số các tham số và các nhóm thuế tối ưu có thiết lập biểu thuế bảo hiểm (24) Mẫu đầu quá trình khai phá liệu sử dụng kỹ thuật này là các tập mẫu chứa các liệu có chung tính chất nào đó phân tách từ sở liệu Khi các mẫu thiết lập, chúng có thể sử dụng để tái tạo các tập liệu dạng dễ hiểu hơn, đồng thời cung cấp các nhóm liệu cho các hoạt động công việc phân tích Đối với sở liệu lớn, việc lấy các nhóm này là quan trọng 3.2.6 Các phương pháp dựa trên mẫu Sử dụng các mẫu mô tả từ sở liệu để tạo nên mô hình dự đoán các mẫu cách rút thuộc tính tương tự các mẫu đã biết mô hình Các kỹ thuật bao gồm phân lớp theo láng giềng gần nhất, các giải thuật hồi quy (Dasarathy 1991) và các hệ thống suy diễn dựa trên tình (case-based reasoning) (Kolodner 1993) Hình 2.8 minh họa mẫu đầu quá trình khai phá liệu sử dụng kỹ thuật phân lớp theo láng giềng gần tập liệu khách hàng vay vốn Bất kỳ điểm liệu nào nằm gần điểm liệu tập học xếp chung vào lớp với điểm liệu mẫu đã học đó (25) Khuyết điểm các kỹ thuật này là cần phải xác định khoảng cách, độ đo giống các mẫu Mô hình thường đánh giá phương pháp đánh giá chéo trên các lỗi dự đoán (Weiss & Kulikowski, 1991) “Tham số” mô hình đánh giá có thể bao gồm số láng giềng dùng để dự đoán và số đo khoảng cách Giống phương pháp hồi quy phi tuyến, các phương pháp này khá mạnh việc đánh giá xấp xỉ các thuộc tính, lại khó hiểu vì mô hình không định dạng rõ ràng mà tiềm ẩn liệu 3.2.7 Mô hình phụ thuộc dựa trên đồ Các mô hình đồ thị xác định phụ thuộc xác xuất các kiện thong qua các liên hệ trực các cung đồ thị (Pearl 1988; Whittaker, 1990) Ở dạng đơn giản nhất, mô hình này xác định biến nào phụ thuộc trực tiếp vào Những mô hình này chủ yếu sử dụng với các biến có giá trị rời rạc phân loại Tuy nhiên mở rộng cho số trường hợp đặc biệt mật độ Gaussian cho các biến giá trị thực Trong trí tuệ nhân khuôn khổ các hệ chuyên gia Cấu trúc mô hình và các tham số (xác suất có điều kiện gắn với các đường nối đồ thị) suy từ các chuyên gia Ngày nay, các phương pháp này đã phát triển, cấu trúc và các tham số mô hình đồ thị có thể học trực tiếp từ sở liệu (Buntine; Heckerman) Tiêu chuẩn đánh giá mô hình chủ yếu là dạng Bayesian Việc đánh giá tham số là kết hợp các đánh giá dạng đóng (closed form estimate) và các phương pháp lặp phụ thuộc vào việc biến quan sát trực tiếp hay dạng ẩn Việc tìm kiếm mô hình dựa trên các phương pháp leo đồi trên nhiều cấu trúc đồ thị Các tri thức trước đó, ví dụ việc xếp phần các biến dựa trên mối quan hệ nhân quả, có thể có ích (26) việc làm giảm không gian tìm kiếm mô hình Mặc dù phương pháp này giai đoạn đầu việc nghiên cứu nó đã cho thấy nhiều hứa hẹn vì dạng đồ thị dễ hiểu và biểu đạt nhiều ý nghĩa người 3.2.8 Mô hình học quan hệ Trong mẫu chiết xuất các luật suy diễn và các cây định gắn chặt với các mệnh đề logic (propositional logic) thì mô hình học quan hệ (còn gọi là lập trình logic quy nạp – inductive logic programming) sử dụng ngôn ngữ mẫu theo thứ tự logic trước (first-order logic) linh hoạt Mô hình này có thể dễ dàng tìm công thức X=Y Cho đến nay, hầu hết các nghiên cứu các phương pháp đánh giá mô hình này theo logic tự nhiên 3.2.9 Khai phá liệu dạng văn (Text Mining) Kỹ thuật này ứng dụng loạt các c cụ khai phá liệu phù hợp với việc tìm kiếm, phân tích và phân lớp các liệu văn không định dạng Các lĩnh vực ứng dụng nghiên cứu thị trường, thu thập tình báo, v.v… Khai phá liệu dạng văn đã sử dụng để phân tích câu trả lời cho các câu hỏi mở khảo sát thị trường, tìm kiếm các tài liệu phức tạp 3.2.10 Mạng neuron Mạng neuron là tiếp cận tính toán liên quan đến việc phát triển các cấu trúc toán học với khả học Các phương pháp là kết việc nghiên cứu mô hình học hệ thống thần kinh người Mạng neuron có thể đưa ý nghĩa từ các liệu phức tạp không chính xác và có thể sử dụng để chiết xuất các mẫu và phát các xu hướng quá phức tạp mà người các kỹ thuật máy tính khác không thể phát Khi đề cập đến khai thác liệu, người ta thường đề cập nhiều đến mạng neuron Tuy mạng neuron có số hạn chế việc áp dụng và triển khai nó có ưu điểm đáng kể Một số ưu điểm phải kể đến mạng neuron là khả tạo các mô hình dự đoán có độ chính xác cao, có thể áp dụng cho nhiều loại bài toán khác nhau, đáp ứng nhiệm vụ đặt khai phá liệu phân lớp, phân nhóm, mô hình hóa, dự báo các kiện phụ thuộc vào thời gian, v.v… đầu quá trình học các phương pháp khác Tuy nhiên, để có thể sử dụng mạng neuron ừng để tránh bị “học quá”? Ngoà ền xử lý liệu trước đưa vào mạ ron để mạng có thể hiểu (ví dụ việc chuẩn hóa liệu, đưa tất tiêu chuẩn dự đoán dạng số) a hệ thống thần kinh người Mạng neuron có thể đưa ý nghĩa từ các liệu phức tạp không chính xác và có thể sử dụng để chiết xuất các mẫu và phát các xu hướng quá phức tạp mà người các kỹ thuật máy tính khác không thể phát Khi đề cập đến khai thác liệu, người ta thường đề cập nhiều đến mạng neuron Tuy mạng neuron có mộ (27) hưng nó có ưu điểm đáng kể Một số ưu điểm phải kể đến mạng neuron là khả tạo các mô hình dự đoán có độ chính xác cao, có thể áp dụng cho nhiều loại bài toán khác nhau, đáp ứng nhiệm vụ đặt khai phá liệu phân lớp, phân nhóm, mô hình hóa, dự báo các kiện phụ thuộc vào thời gian, v.v… Mạng neuron đóng gói với thông tin trợ giúp các chuyên gia đáng tin cậy và các chuyên gia đảm bảo các mô hình này làm việc tốt Sau học, mạng có thể coi là chuyên gia lĩnh vực thông tin mà nó vừa học 3.2.11 Giải thuật di truyền Giải thuật di truyền, nói theo nghĩa rộng là mô lại hệ thống tiến hóa tự nhiên, chính xác đó là giải thuật tập các cá thể hình thành, ước lượng và biến đổi nào Ví dụ xác định xem làm nào để lựa chọn các cá thể tạo giống và lựa chọn các cá thể nào bị loại bỏ Giải thuật mô lại yếu tố gen nhiễm sắc thể sinh học trên máy tính để có thể giải nhiều bài toán thực tế khác Giải thuật di truyền là giải thuật tối ưu hóa Nó sử dụng rộng rãi việc tối ưu hóa các kỹ thuật khai phá liệu đó có kỹ thuật mạng neuron Sự liên hệ nó với các giải thuật khai khá liệu Ví dụ kỹ thuật cây định, tạo luật Như đã đề cập phần trước, các luật mô hình hóa liệu chứa các tham số xác định các giải thuật phát tri thức Giai đoạn tối ưu hóa là cần thiết để xác định xem các giá trị tham số nào tạo các luật tốt Và vì mà giải thuật di truyền đã sử dụng các công cụ khai phá liệu Kỹ thuật này tìm hiểu sâu chương sau Như vậy, nhìn vào các phương pháp giới thiệu trên, chúng ta thấy có nhiều các phương pháp khai phá liệu Mỗi phương pháp có đặc điểm riêng phù hợp với lớp các bài toán dự đoán theo thời gian, trước người ta thường đặt nhiệm vụ cho việc khai phá các mẫu dạng này là hồi quy dự đoán các mô hình hồi quy tự động dựa trên thống kê, v.v… Mới đây, các mô hình khác các hàm phi tuyến, phương pháp dựa trên mẫu, mạng neuron đã áp dụng để giải bài toán này Như vậy, nặc dù nhìn bề ngoài ta thấy có nhiều phương pháp và ứng dụng khai phá liệu không có gì lạ nhận thấy chúng có mộ số thành (28) phần chung Hiểu quá trình khai phá liệu và suy diễn mô hình dựa trên thành phần này là ta đã thực nhiệm vụ khai phá liệu LỢi THẾ CỦA KHAI PHÁ DỮ LIỆU SO VỚI CÁC PHƯƠNG PHÁP CƠ BẢN Như đã phân tích trên, ta thấy khai phá liệu không có gì mà hoàn toàn dựa trên các phương pháp đã biết Vậy khai phá liệu có gì khác so với các phương pháp đó? Và khai phá liệu lại có ưu hẳn chúng? Các phân tích sau đây giải đáp các câu hỏi này 4.1.Học máy (Machine Learning) Mặc dù người ta đã cố gắng cải tiến các phương pháp học máy để có thể phù hợp với mục đích khai phá liệu khác biệt cách thiết kế, các đặc điểm sở liệu đã làm cho phương pháp học trở nên không phù hợp với mục đích này, mặc dù nay, phần lớn các phương pháp khai phá liệu đựa trên tảng sở phương pháp học máy Những phân tích sau đây cho thấy điều đó Trong quản trị sở liệu, sở liệu là tập hợp tích hợp cách logic liệu lưu hay nhiều tệp và tổ chức để lưu trữ có hiệu quả, sửa đổi và lấy thông tin liên quan dễ dàng Ví dụ sở liệu quan hệ, liệu tổ chức thành các tệp các bảng có các ghi có độ dài cố định Mỗi ghi là danh sách có thứ tự các giá trị, giá trị đặt vào trường Thông tin tên trường và giá trị trường đặt tệp riêng gọi là thư viện liệu (data dictionary) Một hệ thống quản trị sở liệu quản lý các thủ tục (procedures) để lấy, lưu trữ, và xử lý liệu các sở liệu đó Trong học máy, thuật ngữ sở liệu chủ yếu đề cập đến tập các mẫu (instance hay example) lưu tệp Các mẫu thường là các vector đặc điểm có độ dài cố định Thông tin các tên đặc điểm, dãy giá trị chúng đôi lưu lại từ điển liệu Một giải thuật học còn sử dụng tập liệu và các thông tin kèm theo tập liệu đó làm đầu vào và đầu biểu thị kết việc học (ví dụ khái niệm) Với so sánh sở liệu thông thường và CSDL học máy trên, có thể thấy là học máy có khả áp dụng cho sở liệu, vì không phải học trên tập các mẫu mà học trên các tệp các ghi sở liệu Tuy nhiên, phát tri thức sở liệu làm tăng thêm các vấn đề vốn đã là điển hình học máy và đã quá khả học máy Trong thực tế, sở liệu thường động, không đầy đủ, bị nhiễu, và lớn nhiều so với các tập liệu học máy điển hình Các yếu tố này làm cho hầu hết các giải thuật học máy trở nên không hiệu hầu hết các trường hợp Vì khai (29) phá liệu, cần tập trung nhiều công sức vào việc vượt qua khó khăn, phức tạp này CSDL 4.2.Phương pháp hệ chuyên gia Các hệ chuyên gia cố gắng nắm bắt các tri thức thích hợp với bài toán nào đó Các kỹ thuật thu thập giúp cho việpháp đó là cách suy diễn các luật từ các ví dụ và giải pháp với bài toán chuyên gia đưa Phương pháp này khác với khai phá liệu chỗ các ví dụ chuyên gia thường mức chất lượng cao nhiều so với các liệu sở liệu, và chúng thường bao các trường hợp quan trọng Hơn nữa, các chuyên gia xác nhận tính giá trị và hữu dụng các mẫu phát Cũng với các công cụ quản trị sở liệu, các phương pháp này đòi hỏi có tham gia người việc phát tri thức 4.3.Phát kiến khoa học Khai phá liệu khác với phát triển khoa học chỗ khai phá sở liệu ít có chủ tâm và có điều khiển Các liệu khoa học có từ thực nghiệm nhằm loại bỏ tác động số tham số để nhấn mạnh độ biến thiên hay số tham số đích Tuy nhiên, các sở liệu thương mại điển hình lại ghi số lượng thừa thông tin các dự án họ để đạt số mục đích mặt tổ chức Độ dư thừa này (hay có thể gọi là lẫn lộn – confusion) có thể nhìn thấy và có thể ẩn chứa các mối quan hệ liệu Hơn nữa, các nhà khoa học có thể tạo lại các thí nghiệm và có thể tìm các thiết kế ban đầu không thích hợp Trong đó, các nhà quản lý sở liệu không thể xa xỉ thiết kế lại các trường liệu và thu thập lại liệu 4.4.Phương pháp thống kê Một câu hỏi hiển nhiên là khai phá liệu khác gì so với phương pháp thống kê Từ nhiều năm nay, người đạt mục đích mình Mặc dù các phương pháp thống kê cung cấp tảng lý thuyết vững cho các bài toàn phân tích liệu có tiếp cận thống kê túy thôi chưa đủ Thứ nhất, các phương pháp thống kê chuẩ nhiều các sở liệu Thứ hai, thống kê hoàn toàn theo liệu (data driven), nó không sử dụng tri thức sẵn có lĩnh vực Thứ ba, các kết phân tích thống kê có thể nhiều và khó có thể làm rõ Cuối cùng, các phương pháp thống kê cần có hướng dẫn người dùng để xác định phân tích liệu nào và đâu Sự khác khai phá liệu và thống kê là chỗ khai phá liệu là phương tiện dùng người sử dụng đầu cuối không phải là các nhà thống kê Khai phá liệu tự động quá trình thống kê cách có hiệu quả, vì làm nhẹ bớt công việc người dùng đầu cuối, tạo công cụ dễ sử dụng Như vậy, nhờ có khai phá liệu, việc dự đoán và kiểm tra vất vả (30) trước đây có thể đưa lên máy tính, tính, dự đoán và kiểm tra cách tự động 5.LỰA CHỌN PHƯƠNG PHÁP Các giải thuật khai phá liệu tự động giai đoạn phát triển ban đầu Người ta chưa đưa mpháp nào và trường hợp thì có hiệu Hầu hết các kỹ thuật khai phá liệu lĩnh vực kinh doanh Hơn lại có nhiều kỹ thuật, kỹ thuật sử dụng cho nhiều bài toán khác Vì vậy, sau câu hỏi “khai phá liệu là gì?” là câu hỏi “ thì dung kĩ thuật nào Câu trả lời tất nhiên là không đơn giản Mỗi phương pháp có điểm mạnh và yếu nó, hầu hết các điểm yếu có thể khắc phục Vậy thì phải làm nào để áp dụng kỹ thuật cách thật đơn giản, dễ sử dụng để không cảm thấy phức tạp vốn có kỹ thuật đó Để so sánh các kỹ thuật cần phải có tập lớn các quy tắc và các phương pháp thực nghiệm tốt Thường thì quy tắc này không sử dụng đánh giá các kỹ thuật Vi mà yêu cầu cải thiện độ chính xác không phải lúc nào thực Nhiều công ty đã đưa sản phẩm sử dụng kết hợp nhiều kỹ thuật khai phá liệu khác với hy vọng nhiều kỹ thuật tốt Nhưng thực tế cho thấy nhiều kỹ thuật thêm nhiều rắc rối và khó khăn cho việc so sánh các phương pháp và các sản phẩm này Theo nhiều đánh giá cho thấy, đã hiểu các kỹ thuật và nghiên cứu tính giống chúng, người ta thấy nhiều kỹ thuật lúc đầu thì có vẻ khác thực chất hiểu các kỹ thuật này thì thấy chúng hoàn toàn giống Tuy nhiên, đánh giá này để tham khảo vì nay, khai phá liệu còn là kỹ thuật chứa nhiều tiềm mà người ta chưa khai thác hết NHỮNG THÁCH THỨC TRONG ỨNG DỤNG VÀ NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU Ở đây, ta đưa số khó khăn việc nghiên cứu và ứng dụng kỹ thuật khai phá liệu Tuy nhiên, không có nghĩa là việc giải là hoàn toàn bế tắc mà muốn nêu lên để khai phá liệu không phải đơn giản, mà phải xem xét tìm cách giải vấn đề này Ta có thể liệt kê số khó khăn sau: 6.1.Các vấn đề sở liệu Đầu vào chủ yếu hệ thống khai thác tri thức là các liệu thô sở phát sinh khai phá liệu chính là từ đây Do các liệu thực tế thường động, không đầy đủ, lớn và bị nhiễu Trong trường hợp khác, người ta không biết sở liệu có chứa các thông tin cần thiết cho việc khai thác hay không và làm nào để giải với dư thừa thông tin không thích hợp này • Dữ liệu lớn: Cho đến nay, các sở liệu với hàng trăm trường và bảng, hàng triệu ghi và với kích thước đến gigabytes đã là chuyện bình thường Hiện (31) đã bắt đầu xuất các sở liệu có kích thước tới terabytes Các phương pháp giải là đưa ngưỡng cho sở liệu, lấu mẫu, các phương pháp xấp xỉ, xử lý song song (Agrawal et al, Holsheimer et al) • Kích thước lớn: không có số lượng ghi lớn mà số các trường sở liệu nhiều Vì mà kích thước bài toán trở nên lớn Một tập liệu có kích thước lớn sinh vấn đề làm tăng không gian tìm kiếm mô hình suy diễn Hơn nữa, nó làm tăng khả giải thuật khai phá liệu có thể tìm thấy các mẫu giả Biện pháp khắc phục là làm giảm kích thước tác động bài toán và sử dụng các tri thức biết trước để xác định các biến không phù hợp • Dữ liệu động: Đặc điểm hầu hết các sở liệu là nội dung chúng thay đổi liên tục Dữ liệu có thể thay đổi theo thời gian và việc khai phá liệu bị ảnh hưởng thời điểm quan sát liệu Ví dụ sở liệu tình trạng bệnh nhân, số giá trị liệu là số, số khác lại thay đổi liên tục theo thời gian (ví dụ cân nặng và chiều cao), số khác lại thay đổi tùy thuộc vào tình và có giá trị quan sát là đủ (ví dụ nhịp đập mạch) Vậy thay đổi liệu nhanh chóng có thể làm cho các mẫu khai thác trước đó giá trị Hơn nữa, các biến sở liệu ứng dụng đã cho có thể bị thay đổi, bị xóa là tăng lên theo thời gian Vấn đề này giải các giải pháp tăng trưởng để nâng cấp các mẫu và coi thay đổi là hội để khai thác cách sử dụng nó để tìm kiếm các mẫu bị thay đổi • Các trường không phù hợp: Một đặc điểm quan trọng khác là tính không thích hợp liệu, nghĩa là mục liệu trở thành không thích hợp với trọng tâm việc khai thác Một khía cạnh khác đôi liên quan đến độ phù hợp là tính ứng dụng thuộc tính tập sở liệu Ví dụ trường số tài khoản Nostro không áp dụng cho các tác nhân • Các giá trị bị thiếu: Sự có mặt hay vắng mặt giá trị các thuộc tính liệu phù hợp có thể ảnh hưởng đến việc khai phá liệu Trong hệ thống tương tác, thiếu vắng liệu quan trọng có thể dẫn đến việc yêu cầu cho giá trị nó kiểm tra để xác định giá trị nó Hoặc có thể vắng mặt liệu coi điều kiện, thuộc tính bị có thể coi giá trị trung gian và là giá trị không biết • Các trường bị thiếu: Một quan sát không đầy đủ sở liệu có thể làm cho các liệu có giá trị bị xem có lỗi Việc quan sát sở liệu phải phát toàn các thuộc tính có thể dùng để giải thuật khai phá liệu có thể áp dụng nhằm giải bài toán Giả sử ta có các thuộc tính để phân biệt các tình đáng quan tâm Nếu chúng không làm điều đó thì có nghĩa là đã có lỗi liệu Đối với hệ thống học để chuẩn đoán bệnh sốt rét từ sở liệu bệnh nhân thì trường hợp các ghi bệnh nhân có triệu chứng giống lại có các chẩn đoán khác là liệu đã bị lỗi Đây là vấn (32) đề thường xảy sở liệu kinh doanh Các thuộc tính quan trọng có thể bị thiếu liệu không chuẩn bị cho việc khai phá liệu Độ nhiễu và không chắn: Đối với các thuộc tính đã thích hợp, độ nghiêm trọng lỗi phụ thuộc vào kiểu liệu các giá trị cho phép Các giá trị các giá trị cho phép Các giá trị các thuộc tính khác có thể là các số thực, số nguyên, chuỗi và có thể thuộc vào tập các giá trị định danh Các giá trị định danh này có thể xếp theo thứ tự phần đầy đủ, chí có thể có cấu trúc ngữ nghĩa Một yếu tố khác độ không chắn chính là tính kế thừa độ chính xác mà liệu cần có, nói cách khác là độ nhiễu liệu Dựa trên việc tính toán trên các phép đo và phân tích có ưu tiên, mô hình thống kê mô tả tính ngẫu nhiên tạo và sử dụng để định nghĩa độ mong muốn và độ dung sai liệu Thường thì các mô hình thống kê áp dụng theo cách đặc biệt để xác định cách chủ quan các thuộc tính để đạt các thống kê và đánh giá khả chấp nhận các (hay tổ hợp các) giá trị thuộc tính Đặc biệt là với liệu kiểu số, đúng đắn liệu có thể là yếu tố việc khai phá Ví dụ việc đo nhiệt độ thể, ta thường cho phép chênh lệch 0.1 độ Nhưng việc phân tích theo xu hướng nhạy cảm nhiệt độ thể lại yêu cầu độ chính xác cao Để hệ thống khai thác có thể liên hệ đến xu hướng này để chuẩn đoán thì lại cần có độ nhiễu liệu đầu vào Mối quan hệ phức tạp các trường: các thuộc tính các giá trị có cấu trúc phân cấp, các mối quan hệ các thuộc tính và các phương tiện phức tạp để diễn tả tri thức nội dung sở liệu yêu cầu các giải thuật phải có khả sử dụng cách hiệu các thông tin này Ban đầu, kỹ thuật khai phá liệu phát triển cho các ghi có giá trị thuộc tính đơn giản Tuy nhiên, ngày người ta tìm cách phát triển các kỹ thuật nhằm rút mối quan hệ các biến này 6.2 Một số vấn đề khác “Quá phù hợp”: Khi giải thuật tìm kiếm các tham số tốt cho đó sử dụng tập liệu hữu hạn, nó có thể bị tình trạng “quá độ” liệu (nghĩa là tìm kiếm quá mức cần thiết gây tượng phù hợp với các liệu đó mà không có khả đáp ứng cho các liệu lạ), làm cho mô hình hoạt động kém các liệu thử Các giải pháp khắc phục bao gồm đánh giá chéo (cross-validation), thực theo nguyên tắc nào đó sử dụng các biện pháp thống kê khác Đánh giá tầm quan trọng thống kê: Vấn đề (liên quan đến overfitting) xảy hệ thống tìm kiếm qua nhiều mô hình Ví dụ hệ thống kiểm tra N mô hình mức độ quan trọng 0,001 thì với liệu ngẫu nhiên trung bình có N/1000 mô hình chấp nhận là quan trọng Để xử lý vấn đề này, ta có thể sử dụng phương pháp điều chỉnh thống kê kiểm tra hàm tìm kiếm, ví dụ điều chỉnh Bonferroni các kiểm tra độc lập (33) • Khả biểu đạt mẫu: Trong nhiều ứng dụng, điều quan trọng là điều khai thác phải cáng dễ hiểu với người càng tốt Vì vậy, các giải pháp thường bao gồm việc diễn tả dạng đồ họa, xây dựng cấu trúc luật với các đồ thị có hướng (Gaines), biểu diễn ngôn ngữ tự nhiên (Matheus et al.) và các kỹ thuật khác nhằm biểu diễn tri thức và liệu Sự tương tác với người sử dụng và các tri thức sẵn có: nhiều công cụ và phương pháp khai phá liệu không thực tương tác với người dùng và không dễ dàng kết hợp cùng với các tri thức đã biết trước đó Việc sử dụng tri thức miền là quan trọng khai phá liệu Đã có nhiều biện pháp nhằm khắc phục vấn đề này sử dụng sở liệu suy diễn để phát tri thức, tri thức này sau đó sử dụng để hướng dẫn cho việc tìm kiếm khai phá liệu sử dụng phân bố và xác suất liệu trước đó dạng mã hóa tri thức có sẵn HÌNH ỨNG DỤNG KHAI PHÁ DỮ LIỆU Mặc dù còn nhiều vấn đề mà khai phá liệuquyết tiềm nó đã khẳng định đời nhiều ứng dụng Khai phá liệu ứng dụng thành công “cơ sở liệu thị trường” (database marketing), đây là phương pháp phân tích sở liệu khách hàng, tìm kiếm các mẫu số các khách hàng và sử dụng các mẫu này để lựa chọn các khách hàng tương lai Tạp chí Business Week Mỹ đã đánh giá 50% các nhà bán lẻ và có ý định sử dụng “cơ sở liệu thị trường” cho hoạt động kinh doanh họ (Berry 1994) Kết ứng dụng cho thấy số lượng thẻ tín dụng American Express bán đã tăng 15% - 20% (Berry 1994) Các ứng dụng khác khai phá liệu kinh doanh phân tích chứng khoán và các văn kiện tài chính; phân tích và báo cáo thay đổi liệu, bao gồm Coverstory IRI (Schmitz, Armstrong, & Little 1990), Spotlight A.C Nielsen (nand & Kahn 1992) các liệu bán hàng siêu thị, KEFIR GTE cho sở liệu y tế (Matheus, Piatetsky-Shapiro, & McNeil); phát và phòng chống gian lận thường là bài toán khai phá liệu và phát tri thức Ví dụ hệ thống phát gian lận dịch vụ y tế đã Major và Riedinger phát triển Travelers insurance năm 1992 Internal Revenue Service đã phát triển hệ thống chọn thuế thu để kiểm toán Nestor FDS (Blanchard 1994) phát triển dựa trên mạng neuron để phát gian lận thẻ tín dụng Các ứng dụng khai phá liệu khoa học phát triển Ta có thể đưa • Thiên văn học: Hệ thống SKICAT JPL/Caltech phát triển sử dụng cho các nhà thiên văn để tự động xác định các vì và các dải thiên hà khảo sát lớn để có thể phân tích và phân loại (Fayyad, Djorgovski, & Weir) Phân tử sinh học: Hệ thống tìm kiếm các mẫu cấu trúc phân tử (Conklin, Fortier, và Glasgow 1993) và các liệu gen (Holder, Cook, và Djoko 1994) (34) • Mô hình hóa thay đổi thời tiết: các mẫu không thời gian lốc, gió xoáy tự động tìm thấy các tập lớn liệu mô và quan sát (Stolorz et al 1994). Phôt HẢO HẢO ĐỐI DIỆN TRƯỜNG ĐH THỦ DẦU MỘT CHỈNH SỮA VĂN BẢN, IN MÀU (35)

Ngày đăng: 10/06/2021, 12:31