Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
82,73 KB
Nội dung
Trường Đại Học Kinh Tế Quốc Dân Khoa Công Nghệ Thơng Tin BÀI TẬP LỚN MƠN : TRÍ TUỆ NHÂN TẠO Đề tài : Khai phá liệu (datamining) Giáo viên hướng dẫn : Th.S Lưu Minh Tuấn Sinh viên thực : Kiều Hải Yến Lớp : CNTT48A Khoa :CNTT Hà Nội 4-12-2009 GIỚI THIỆU Trong thời đại ngày nay, với phát triển vượt bật cơng nghệ thơng tin, hệ thống thơng tin lưu trữ khối lượng lớn liệu hoạt động hàng ngày chúng Từ khối liệu này, kỹ thuật Khai Phá Dữ Liệu (KPDL) Máy Học (MH) dùng để trích xuất thơng tin hữu ích mà chưa biết Các tri thức vừa học vận dụng để cải thiện hiệu hoạt động hệ thống thông tin ban đầu Giáo sư Tom Mitchell [15] đưa định nghĩa KPDL sau: “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [5] phát biểu: “KPDL, thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin lẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu.” Nói tóm lại, KPDL trình học tri thức từ liệu thu thập Nội dung tìm hiểu tổ chức sau Phần trình bày q trình KPDL Các tốn thơng dụng KPDL trình bày phần Các môi trường KPDL giới thiệu phần Phần bàn khác biệt tương đồng KPDL MH Các ứng dụng KPDL nói phần Phần nêu kết luận hướng nghiên cứu quan tâm khoa 2.Phát tri thức khai phá liệu gì? Nếu cho điện tử sóng điện tử chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo lường thơng tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thơng tin tích hợp , bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Cịn khai thác liệu bước qui trình phát tri thức gồm có thuật tốn khai thác liệu chun dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu bị che khuất hàng núi liệu Cịn nhà thống kê xem Khai phá liệu qui trình phân tích thiết kế để thăm dò lượng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm đưọc cách áp dụng mẫu phát cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dị, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng QUÁ TRÌNH KPDL Một q trình KPDL bao gồm năm giai đoạn sau [3]: (1) Tìm hiểu nghiệp vụ liệu (2) Chuẩn bị liệu (3) Mơ hình hóa liệu (4) Hậu xử lý đánh giá mơ hình (5) Triển khai tri thức Q trình lặp lại nhiều lần hay nhiều giai đoạn dựa phản hồi từ kết giai đoạn sau Tham gia q trình KPDL nhà tư vấn (NTV) phát triển chuyên nghiệp lĩnh vực KPDL Trong giai đoạn đầu tiên, Tìm hiểu nghiệp vụ liệu, NTV nghiên cứu kiến thức lĩnh vực áp dụng, bao gồm tri thức cấu trúc hệ thống tri thức, nguồn liệu hữu, ý nghĩa, vai trò tầm quan trọng thực thể liệu Việc nghiên cứu thực qua việc tiếp xúc NTV người dùng Khác với phương pháp giải vấn đề truyền thống toán xác định xác bước đầu tiên, NTV tìm hiểu yêu cầu sơ khởi người dùng đề nghị tốn tiềm giải với nguồn liệu hữu Tập toán tiềm tinh chỉnh làm hẹp lại giai đoạn sau Các nguồn đặc tả liệu có liên quan đến tập toán tiềm xác định Giai đoạn Chuẩn bị liệu sử dụng kỹ thuật tiền xử lý để biến đổi cải thiện chất lượng liệu để thích hợp với yêu cầu giải thuật học Phần lớn giải thuật KPDL làm việc tập liệu đơn phẳng, liệu phải trích xuất biến đối từ dạng sơ liệu phân bố, quan hệ hay hướng đối tượng sang dạng sở liệu quan hệ đơn giản với bảng liệu Các giải thuật tiền xử lý tiêu biểu bao gồm: (a) Xử lý liệu bị thiếu/mất: liệu bị thiếu thay giá trị thích hợp (b) Khử trùng lắp: đối tượng liệu trùng lắp bị loại bỏ Kỹ thuật không sử dụng cho tác vụ có quan tâm đến phân bố liệu (c) Giảm nhiễu: nhiễu đối tượng tách rời (outlier) khỏi phân bố chung bị loại khỏi liệu (d) Chuẩn hóa: miền giá trị liệu chuẩn hóa (e) Rời rạc hóa: liệu số biến đổi giá trị rời rạc (f) Rút trích xây dựng đặc trưng từ thuộc tính có (g) Giảm chiều: thuộc tính chứa thơng tin loại bỏ bớt Các toán giải giai đoạn Mơ hình hóa liệu Các giải thuật học sử dụng liệu tiền xử lý giai đoạn hai để tìm kiếm qui tắc ẩn chưa biết Công việc quan trọng giai đoạn lựa chọn kỹ thuật phù hợp để giải vấn đề đặt Các toán phân loại vào nhóm tốn KPDL dựa đặc tả chúng Các tốn KPDL trình bày chi tiết phần tìm hiểu Các mơ hình kết giai đoạn ba hậu xử lý đánh giá giai đoạn Dựa đánh giá người dùng sau kiểm tra tập thử, mơ hình tinh chỉnh kết hợp lại cần Chỉ mơ hình đạt mức yêu cầu người dùng đưa triển khai thực tế Trong giai đoạn này, kết biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ dễ hiểu cho người dùng Trong giai đoạn cuối, Triển khai tri thức, mơ hình đưa vào hệ thống thông tin thực tế dạng môđun hỗ trợ việc đưa định Mối quan hệ chặt chẽ giai đoạn trình KPDL quan trọng cho việc nghiên cứu KPDL Một giải thuật KPDL phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường xây dựng để giải mục tiêu cụ thể Do đó, hiểu biết bối cảnh vận dụng cần thiết Thêm vào đó, kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn 4.Các phương pháp khai phá liệu Với hai đích khai phá liệu Dự đốn (Prediction) Mơ tả (Description), người ta thường sử dụng phương pháp sau cho khai phá liệu: - Phân loại (Classification) - Hồi qui (Regression) - Phân nhóm (Clustering) - Tổng hợp (Summarization) - Mơ hình ràng buộc (Dependency modeling) - Dị tìm biến đổi độ lệch (Change and Deviation Dectection) - Biểu diễn mơ hình (Model Representation) - Kiểm định mơ hình (Model Evaluation) - Phương pháp tìm kiếm (Search Method) 5Các thách thức với Phát tri thức khai phá liệu - Các sở liệu lớn - Số chiều lớn - Thay đổi liệu tri thức làm cho mẫu phát khơng cịn phù hợp - Dữ liệu bị thiếu nhiễu - Quan hệ trường phức tạp - Giao tiếp với người sử dụng kết hợp với tri thức có - Tích hợp với hệ thống khác CÁC BÀI TỐN THƠNG DỤNG TRONG KPDL Trong KPDL, tốn phân thành bốn loại [18] Bài tốn thông dụng KPDL Phân lớp (Classification) Với tập liệu huấn luyện cho trước huấn luyện người, giải thuật phân loại học phân loại (classifier) dùng để phân liệu vào lớp (còn gọi loại) xác định trước Nhận dạng toán thuộc kiểu Phân loại Với mơ hình học tương tự tốn Phân loại, lớp toán Dự đoán (Prediction) học dự đốn Khi có liệu đến, dự đốn dựa thơng tin có để đưa giá trị số học cho hàm cần dự đốn Bài tốn tiêu biểu nhóm dự đoán giá sản phẩm để lập kế hoạch kinh doanh Các giải thuật Tìm luật liên kết (Association Rule) tìm kiếm mối liên kết phần tử liệu, ví dụ nhóm hàng thường mua kèm với siêu thị Các kỹ thuật Phân cụm (Clustering) nhóm đối tượng liệu có tính chất giống vào nhóm Có nhiều cách tiếp cận với mục tiêu khác phân loại Trong môi trường này, q trình KPDL mơ tả dòng tác vụ nối tiếp, bắt đầu việc lấy liệu thực từ nguồn liệu lịch sử, thao tác biến đổi liệu sang dạng thích hợp, học sinh mơ hình Mơ hình sau thử nghiệm liệu thực để đưa đánh giá Nếu mơ hình đánh giá chưa thỏa mãn yêu cầu đề ra, tác vụ trình tinh chỉnh thực lại Qui trình lặp lại mơ hình sinh đánh giá có hiệu tốt Mơ hình sinh cuối triển khai sử dụng thực tế Các mơi trường phù hợp cho q trình KPDL tính chất thử nghiệm cần thay đổi nhiều Việc sử dụng mơi trường thử nghiệm thúc đẩy nhanh việc áp dụng KPDL Thay phải bỏ nhiều cơng sức thời gian vào việc xây đầy đủ chi tiết cách tiếp cận Phân cụm Các kỹ thuật toán thường vận dụng vấn đề phân hoạch liệu tiếp thị hay khảo sát sơ liệu CÁC MÔI TRƯỜNG KPDL Do đặc tính nêu phần 2, cơng cụ KPDL thường xây dựng theo dạng môi phát triển, dễ thử nghiệm thay đổi tác vụ KPDL Hình giới thiệu giao diện trực quan q trình KPDL mơi trường Clementine dựng chương trình hồn chỉnh thực giải thuật, liệu sẵn sàng cho việc sử dụng, người vận dụng KPDL cần phải tìm hiểu kiến thức cần thiết, khảo sát tính chất liệu, vận dụng kỹ thuật thực sẵn liệu, đánh giá kết tạm thời vận dụng kết cuối Với phương thức đại vậy, việc áp dụng KPDL trở nên dễ dàng tiện lợi Weka [18] môi trường thử nghiệm KPDL nhà khoa học thuộc trường Đại học Waitako, NZ, khởi xướng đóng góp nhiều nhà nghiên cứu giới Weka phần mềm mã nguồn mở, cung cấp công cụ trực quan sinh động cho sinh viên người ngồi ngành CNTT tìm hiểu KPDL Weka cho phép giải thuật học phát triển tích hợp vào mơi trường SỰ TƯƠNG ĐỒNG VÀ KHÁC BIỆT GIỮA KPDL VÀ MH Với mục đích “học tập từ liệu”, giải thuật MH đóng vai trị nịng cốt KPDL Tuy nhiên, giải thuật cần phát triển để thích hợp với yêu cầu thách thức KPDL Thách thức mức độ nhiễu cao liệu KPDL Tiêu chuẩn mạnh mẽ giải thuật nhiễu trở nên quan trọng tiêu chuẩn khác phần giảm bớt Thách thức thứ hai kích thước lớn tập liệu cần xử lý Các tập liệu KPDL thường có kích thước lớn Khi so sánh tập liệu chuẩn kho liệu KPDL [9] MH [2], tập liệu KPDL thường có số đặc tính lớn 10 lần số đối tượng lớn 100 lần Trong thực tế, kích thước tập liệu KPDL thường mức terabyte (hàng ngàn giga-byte) Với kích thước thế, thời gian xử lý thường dài Thêm vào đó, giải thuật học truyền thống thường yêu cầu tập liệu tải toàn lên nhớ để xử lý Mặc dù kích thước nhớ máy tính gia tăng đáng kể thời gian gần đây, việc gia tăng khơng thể đáp ứng kịp với việc tăng kích thước liệu Vì vậy, việc vận dụng kỹ thuật xác suất, lấy mẫu, đệm, song song tăng dần vào giải thuật để tạo phiên phù hợp với yêu cầu KPDL trở nên ngày quan trọng Các kỹ thuật KPDL hướng tác vụ hướng liệu Thay tập trung vào xử lý tri thức dạng kí hiệu khái niệm MH, phát triển KPDL kết chặt vào ứng dụng thực tế đặc tính liệu cụ thể ứng dụng Ví dụ, Luật kết hợp (Association Rules) kỹ thuật KPDL nhằm tìm kiếm mối liên kết hàng hóa đơn siêu thị Giải thuật học kỹ thuật phát triển dựa đặc tính liệu đặc thù dạng nhị phân thưa CÁC ỨNG DỤNG CỦA KPDL KPDL vận dụng nhiều lĩnh vực khác nhằm khai thác nguồn liệu phong phú lưu trữ hệ thống thông tin Tùy theo chất lĩnh vực, việc vận dụng KPDL có cách tiếp cận khác KPDL vận dụng hiệu để giải tốn phức tạp ngành địi hỏi kỹ thuật cao [18], tìm kiếm mỏ dầu từ ảnh viễn thám, xác định vùng gãy ảnh địa chất để dự đoán thiên tai, cảnh báo hỏng hóc hệ thống sản xuất,… Các toán giải từ lâu kỹ thuật nhận dạng hay xác suất giải với yêu cầu cao kỹ thuật KPDL Phân nhóm dự đốn công cụ cần thiết cho việc qui hoạch phát triển hệ thống quản lý sản xuất thực tế [13, 16, 17] Các kỹ thuật KPDL áp dụng thành cơng việc dự đốn tải sử dụng điện cho công ty cung cấp điện, lưu lượng viễn thông cho công ty điện thoại, mức độ tiêu thụ sản phẩm cho nhà sản xuất, giá trị sản phẩm thị trường cho cơng ty tài hay phân nhóm khách hàng tiềm năng,… Ngồi ra, KPDL cịn áp dụng cho vấn đề xã hội phát tội phạm hay tăng cường an ninh xã hội [14] Việc vận dụng thành công mang lại hiệu thiết thực cho hoạt động diễn hàng ngày đời sống 10 KẾT LUẬN KPDL vận dụng học thuật vào vấn đề thiết thực Để giải thành cơng tốn KPDL, cần có phối hợp nỗ lực vượt bậc chuyên gia KPDL người sử dụng Nhà chuyên gia cần nắm vững kỹ thuật, thấu hiểu yêu cầu thực tế, vận dụng kỹ thuật để giải tốn giải thích kết ngôn ngữ thực tế cho người sử dụng Người sử dụng cần nhận toán thiết thực, nắm bắt kết đạt vận dụng chúng cách hiệu thực tế Việc nghiên cứu áp dụng KPDL Khoa CNTT bước việc xây dựng đội ngũ trang bị kiến thức kỹ thuật cần thiết, sẵn sàng đón nhận vận dụng KPDL vào toán thực tế nguồn liệu trở nên hữu Trong giai đoạn này, nhóm vận dụng KPDL vào toán tiêu chuẩn công bố Internet, liệu kết học tập sinh viên Đại học Bách Khoa nhằm nâng cao hiệu giảng dạy học tập, bước đầu có kết đáng khích lệ Nghiên cứu nhằm xây dựng cải thiện kỹ thuật KPDL lĩnh vực hứa hẹn phù hợp với điều kiện nghiên cứu Việt nam KPDL ngành non trẻ, kỹ thuật ngành cịn chưa có khả giải với hiệu tốt toán thực tế Việc nghiên cứu cải thiện giải thuật nhằm đưa kỹ thuật ngang tầm với khoa học giới khả thực mơi trường làm việc cịn thiếu thốn Việt nam Một số hướng nghiên cứu lý thuyết KPDL nghiên cứu Khoa CNTTĐHBK TPHCM: • Áp dụng chiến lược tăng dần để cải thiện hiệu giải thuật • Phát triển phiên cácgiải thuật có khả giải tập liệu lớn kỹ thuật sử dụng đệm • Song song phân bố giải thuật KPDL để tận dụng khả tính tốn mạnh tính tốn lưới MỤC LỤC GIỚI THIỆU 2.PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU LÀ GÌ? .1 QUÁ TRÌNH KPDL 4.CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 5CÁC THÁCH THỨC VỚI PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU CÁC BÀI TỐN THƠNG DỤNG TRONG KPDL .5 CÁC MÔI TRƯỜNG KPDL SỰ TƯƠNG ĐỒNG VÀ KHÁC BIỆT GIỮA KPDL VÀ MH CÁC ỨNG DỤNG CỦA KPDL .7 10 KẾT LUẬN .8