Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,08 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU & KHO DỮ LIỆU ĐỀ TÀI: TÌM HIỂU VỀ CÁC PHƯƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU VÀ KHẢ NĂNG PHÂN LỚP CỦA PHẦN MỀM SQL SERVER Giảng viên phụ trách : PGS-TS. Đỗ Phúc Học viên thực hiện: Trịnh Ngọc Thư Mã số: CH1102017 Lớp: Cao học khóa 6 HÀ NỘI – 2012 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu MỤC LỤC Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3 1.1. Khái niệm 3 1.2. Kiến trúc của một hệ thống khai phá dữ liệu 3 1.3. Các giai đoạn của quá trình khai phá dữ liệu 4 1.4. Một số kỹ thuật khai phá dữ liệu 7 1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu 10 1.6. Các phương pháp chính trong khai phá dữ liệu 12 1.7. Các ứng dụng của khai phá d ữ liệu 13 1.8. Khai phá dữ liệu và các lĩnh vực liên quan 13 1.9. Các thách thức trong phát hiện tri thức và khai phá dữ liệu 14 1.10. Kết luận chương 1 16 Chương 2: PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG TRONG MICROSOFT SQL SERVER 17 2.1. Giới thiệu về phân lớp : 17 2.2. Các phương pháp phân lớp 17 2.4.Tạo cây quyết định trong Microsoft SQL Server 40 KẾT LUẬN 56 Phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ liệu. Công nghệ này đã, đang và sẽ có nhiều ứng dụng trong các lĩnh vực thương mại, ngân hàng, y tế, giáo dục… 56 Do thời gian tìm hiểu có hạn bài thu hoạch của em chắc chắn còn nhiều sai thiếu, kính mong thầy thông cảm và tha thứ và có những nhận xét giúp để em hiểu hơn về vấn đề đã trình bày 56 TÀI LIỆU THAM KHẢO 57 HVTH: Trịnh Ngọc Thư – CH1102017 Page 1 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu LỜI MỞ ĐẦU Kĩ thuật phân lớp dữ liệu trong Khai Phá Dữ Liệu là một trong những vấn đề nghiên cứu mở rộng hiện nay; tập trung chủ yếu vào thống kê, máy học và mạng nơron . Kĩ thuật phân lớp được đánh giá là một kĩ thuật khai phá dữ liệu được sử dụng rộng rãi nhất với nhiều mở rộng . Sự kết hợp của kỹ thuật phân lớp và cơ sở dữ liệu là một lĩnh vực hứa hẹn bởi vì đáp ứng được một vấn đề hết sức quan trọng của ứng dụng cơ sở dữ liệu đó là tính uyển chuyển cao . Với những ý nghĩa và vai trò hết sức quan trọng của kĩ thuật phân lớp đã nêu ở trên, em đã làm bài thu hoạch về: “Tìm hiểu về các phương pháp phân lớp trong Khai phá dữ liệu và khả năng phân lớp của phần mềm Microsoft SQL Server ” . Bài thu hoạch này tập trung nghiên cứu sâu những kĩ thuật phân lớp, những cách tiếp cận khác nhau đối với kỹ thuật phân lớp cùng với những tìm hiểu và đánh giá những cải tiến của kĩ thuật phân lớp cũng như việc tìm hiểu và sử dụng kĩ thuật phân lớp trong Microsoft SQL Server. HVTH: Trịnh Ngọc Thư – CH1102017 Page 2 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Khái niệm Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80, nó là quá trình tìm kiếm, khám phá dưới nhiều góc độ khác nhau nhằm phát hiện các mối liên hệ, quan hệ giữa các dữ liệu, đối tượng bên trong CSDL, kết quả của việc khai phá là xác định các mẫu hay các mô hình tồn tại bên trong nhưng chúng nằm ẩn ở các CSDL. Về bản chất nó là giai đoạn duy nhất rút trích và tìm ra được các mẫu, các mô hình h ay thông tin mới, tri thức tiềm ẩn có trong CSDL chủ yếu phục vụ cho mô tả và dự đoán. Đây là giai đoạn quan trọng nhất trong quá trình phát hiện tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra quyết định, điều hành trong khoa học và kinh doanh. Khai phá dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong các CSDL, cụ thể hơn, đó là tiến trình lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết những thông tin hữu ích từ các CSDL lớn. 1.2. Kiến trúc của một hệ thống khai phá dữ liệu Khai phá dữ liệu là quá trình rút trích thông tin bổ ích từ những kho d ữ liệu lớn. Khai phá dữ liệu là quá trình chính trong khai phá tri thức từ cơ sở dữ liệu. Kiến trúc của một hệ thống khai phá dữ liệu có các thành phần như sau: Hình 1.1. Khám phá tri thức trong cơ sở dữ liệu điển hình HVTH: Trịnh Ngọc Thư – CH1102017 Page 3 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu CSDL, kho dữ liệu hoặc lưu trữ thông tin khác: Đây là một hay các tập CSDL, các kho d ữ liệu, các trang tính hay các dạng khác của thông tin được lưu trữ. Các k ỹ thuật làm sách dữ liệu và tích hợp dữ liệu có thể được thực hiện. Máy chủ CSDL (Database or Warehouse Server): Máy chủ có trách nhiệm lấy những dữ liệu thích hợp dựa trên những yêu cầu khám phá của người dùng. Cơ sở tri thức (Knowledge-base): Đây là miền tri thức dùng để tìm kiếm hay đánh giá độ quan trọng của các mẫu kết quả thu được. Tri thức này có thể bao gồm một sự phân cấp khái niệm dùng để tổ chức các thuộc tính hay các giá trị thuộc tính ở các mức trừu tượng khác nhau. Máy khai phá dữ liệu (Data mining engine): là một hệ thống khai phá dữ liệu cần phải có một tập các Modul chức năng để thực hiện công việc, chẳng hạn như kết hợp, phân lớp, phân cụm. Modul đánh giá mẫu (Pattern evaluation): Bộ phận tương tác với các Modul khai phá dữ liệu để tập trung vào việc duyệt tìm các mẫu đáng đ ược quan tâm. Nó có thể dùng các ngưỡng về độ quan tâm để lọc mẫu đã khám phá được. Cũng có thể Modul đánh giá mẫu được tích hợp vào Modul khai phá dữ liệu, tùy theo cách cài đặt của phương pháp khai phá dữ liệu được dùng. Giao diệ n đồ họa cho người dùng ( Graphical user interface): Bộ phận này cho phép người dùng giao tiếp với hệ thống khai phá dữ liệu. Thông qua giao diện này người dùng tương tác với hệ thống bằng cách đặc tả một yêu cầu khai phá hay một nhiệm vụ, cung cấp thông tin trợ giúp cho việc tìm kiếm và thực hiện khai phá thăm dò trên các kết quả khai phá trung gian. Ngoài ra bộ phận này còn cho phép người dùng xem các lược đồ CSDL, lược đồ kho dữ liệu, các đánh giá mẫu và hiển thị các mẫu trong các khuôn dạng khác nhau. 1.3. Các giai đo ạn của quá trình khai phá dữ liệu Các thuật toán khai phá dữ liệu thường được mô tả như những chương trình h oạ t động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thống kê trước đây, bước đầu tiên là thuật toán thường nạp toàn bộ tệp (file) dữ liệu vào HVTH: Trịnh Ngọc Thư – CH1102017 Page 4 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu trong bộ nhớ. Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được. Không HVTH: Trịnh Ngọc Thư – CH1102017 Page 5 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu chỉ bởi nó không thể nạp hết dữ liệu vào trong bộ nhớ mà còn khó có thể chiết xuất dữ liệu ra các tệp đơn giản để phân tích. Quá trình xử lý khai phá dữ liệu bắt đầu bằng việc xác định chính xác vấn đề cần giải quyết. Sau đó sẽ xác định dữ liệu liên quan dùng để xây dựng giải pháp. Tiếp theo là thu thập dữ liệu có liên quan và xử lý chúng thành dạng sao cho thuật toán khai phá dữ liệu có thể hiểu được. Quá trình khai phá dữ liệu trải qua ba bước: Bước một: Lọc dữ liệu được thực hiện trong quá trình tiền xử lý. Công việc đầu tiên là tích hợp và chỉnh sửa dữ liệu. Khi dữ liệu được thu thập từ nhiều nguồn khác nhau nên có thể có những sự sai sót, dư thừa và trùng lặp. Lọc dữ liệu là cắt bỏ những dư thừa để dữ liệu được định dạng thống nhất. Dữ liệu sau khi lọc và chỉnh sửa sẽ nhỏ hơn, xử lý nhanh chóng hơn. Ví dụ , trong bài toán tìm quy luật mua hàng của khách hàng trong một siêu thị , ta tìm xem khách hàng thường cùng mua những mặt hàng nào để sắp xếp những món hàng đó gần nhau. Từ dữ liệu nguồn do siêu thị cung cấp, có thể có nhiều thuộc tính không cần thiết cho khai phá dữ liệu như: Mã khách hàng, nhà HVTH: Trịnh Ngọc Thư – CH1102017 Page 6 Xác định nhiệm vụ Xác định dữ liệu liên quan Thu thập và tiền xử lý dữ liệu Giải thuật khai phá dữ liệu Thống kê tóm tắt Hình 1.2. Các bước của quy trình khai phá dữ liệu DL trực tiếp Mẫu Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu cung cấp, đơn giá hàng, người bán hàng… Các dữ liệu này cần cho quản lý bán hàng nhưng không c ần cho khai phá dữ liệu, ta loại bỏ các thuộc tính này khỏi dữ liệu trước khi khai phá dữ liệu. Bước hai: Khai phá dữ liệu là công việc chính, sử dụng các thuật toán khác nhau để khai phá các kiến thức tiềm ẩn trong dữ liệu. Bước ba: Sau xử lý, là quá trình ước lượng kết quả khai phá theo yêu cầu của người dùng. Nhiều kỹ thuật khai phá dữ liệu được ứng dụng cho một nguồn dữ liệu, các kỹ thuật cho các kết quả có thể khác nhau. Các kết quả được ước lượng bởi những quy tắc nào đó, nếu cuối cùng kết quả không thỏa mãn yêu cầu, chúng ta phải làm lại với kỹ thuật khác cho đến khi có k ết quả mong muốn. 1.4. Một số kỹ thuật khai phá dữ liệu Mục đích của khai phá dữ liệu là chiết xuất ra các tri thức có lợi cho kinh doanh hay cho nghiên cứu khoa học… Do đó, ta có thể xem mục đích của khai phá dữ liệu sẽ là mô tả các sự kiện và dự đoán. Các mẫu khai phá dữ liệu phát hiện được nhằm vào mục đích này. Dự đoán liên quan đến việc sử dụng các biến hoặc các đối tượng (bản ghi) trong CSDL để chiết xuất ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà con người có thể hiểu được. Để đạt được những mục đích này, nhiệm vụ chính của khai phá dữ liệu bao gồm như sau: Phân lớp dữ liệu Khái niệm phân lớp dữ liệu được Han và Kamber đưa ra năm 2000. Phân lớp dữ liệu là xây dựng một mô hình mà có thể phân các đối tượng thành những lớp để dự đoán giá trị bị mất tại một số thuộc tính của dữ liệu hay tiên đoán giá trị của dữ liệu sẽ xuất hiện trong tương lai. Quá trình phân lớp dữ liệu được thực hiện qua hai bước. Bước thứ nhất: HVTH: Trịnh Ngọc Thư – CH1102017 Page 7 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu Dựa vào tập hợp dữ liệu huấn luyện, xây dựng một mô hình mô tả những đặc trưng của những lớp dữ liệu hoặc những khái niệm, đây là quá trình học có giám sát, học theo mẫu được cung cấp trước. Bước thứ hai: Từ những lớp dữ liệu hoặc những khái niệm đã được xác định trước, dự đoán giá trị của những đối tượng quan tâm. Một kỹ thuật phân lớp dữ liệu được Han và Kamber đưa ra là cây quyết định. Mỗi nút của cây đại diện một quyết định dựa vào giá trị thuộc tính tương ứng. Kỹ thuật này đã được nhiều tác giả nghiên cứu và đưa ra nhiều thuật toán. Một ví dụ tiêu biểu về cây quyết định: Trong hình 1.3 là một cây quyết định cho lớp mua laptop, chỉ ra một khách hàng sẽ mua hay không m ua một laptop. Mỗi nút lá đại diện một lớp mà đánh giá mua laptop là Yes hay No. Sau khi mô hình này được xây dựng, chúng ta có thể dự đoán việc có thể mua một laptop hay không dựa vào những thuộc tính khách hàng m ới là tuổi và nghề nghiệp. Cây quyết định có thể ứng dụng rộng rãi trong nhiều hoạt động của đời sống thực. Phân nhóm dữ liệu Phân nhóm là kỹ thuật khai phá dữ liệu tương tự như phân lớp dữ liệu. Tuy nhiên, sự phân nhóm dữ liệu là quá trình học không được giám sát, là quá trình nhóm nhữn g đối tượng vào trong những lớp tương đương, đ ến những đối HVTH: Trịnh Ngọc Thư – CH1102017 Page 8 Tuổi Giáo sư Yes Yes No Yes No Sinh viên 30-35 >35TID Hình 1.3: Cây quyết định Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu tượng trong một nhóm là tương đương nhau, chúng phải khác với những đối tượng trong những nhóm khác. Trong phân lớp dữ liệu, một bản ghi thuộc về lớp nào là phải xác định trước, trong khi phân nhóm không xác định trước. Trong phân nhóm, những đối tượng được nhóm lại cùng nhau dựa vào sự giống nhau của chúng. Sự giống nhau giữa những đối tượng được xác định bởi những chức năng giống nhau. Thông thường những sự giống nhau về định lượng như khoảng cách hoặc độ đo khác được xác định bởi những chuyên gia trong lĩnh vực của mình. Hồi qui (Regression): Là việc học một hàm ánh xạ từ một tập dữ liệu thành một biến dự đoán có giá trị thực. Nhiệm vụ hồi qui tương tự như phân lớp, điểm khác nhau chính là ở chỗ thuộc t ính để dự báo là liên tục chứ không rời rạc. Việc dự báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển chẳng hạn như hồi qui tuyến tính. Tuy nhiên, phương pháp mô hình hóa cũng được sử dụng . Ứng dụng của hồi quy là rất nhiều, ví dụ: dự đoán số lượng sinh vật phát quang hiện thời trong khi rừng bằng cách dò tìm vi sóng bằng thiết bị cảm biến từ xa; dự đoán khả năng tử vong của bệnh nhân khi biết các kết quả xét nghiệm chuẩn đoán; dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo… Tổng hợp (summarization): Là công việc liên quan đến các phương pháp tìm kiếm một mô tả cô đọng cho tập con dữ liệu. Các kỹ thuật tổng hợp thường được áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động. Mô hình hóa phụ thuộc (dependency modeling): Là việc tìm kiếm mô hình mô tả các phụ thuộc quan trọng giữa các biến. Mô hình phụ thuộc tồn tại ở hai mức: Mức cấu trúc của mô hình (thường dưới dạng đồ thị) xác định các biến phụ thuộc cục bộ vào các biến khác; Mức định lượng của mô hình xác định mức độ phụ thuộc của các biến. Những phụ thuộc này thường được biểu thị dưới dạng luật. Quan hệ phụ thuộc cũng có thể biểu diễn dưới dạng mạng tin cậy. Đó là HVTH: Trịnh Ngọc Thư – CH1102017 Page 9 [...]... thuật toán của hệ thống trích ra các mẫu và mô hình dữ liệu Khai phá dữ liệu tập trung vào việc mở rộng các lý thuyết và thuật toán cho các vấn đề về tìm ra các mẫu đặc biệt, đây được coi là những mẫu hữu ích hoặc tri thức quan trọng tập dữ liệu lớn Đặc biệt, phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,... biến, các thành phần chủ yếu của một giải thuật khai phá dữ liệu và những thành tựu cũng như những thách thức trong khai phá dữ liệu Trong các phương pháp khai phá dữ liệu, phân lớ p dữ liệ u là một trong những lĩnh vực đang được quan tâm và nghiên cứu mạnh mẽ HVTH: Trịnh Ngọc Thư – CH1102017 Page 16 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu Chương 2: PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG TRONG. .. phá cách dùng web (web usage mining), khai phá cấu trúc web (web structure mining) và khai phá nội dung web (web content mining) Khai phá cách dùng web tập trung vào việc khai phá thông tin của người truy nhập web Với những thông tin này người khai phá dữ liệu có thể cung cấp những thông tin hữu ích cho người dùng và các nhà kinh doanh 1.6 Các phương pháp chính trong khai phá dữ liệu Phân lớp và dự... tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Khai phá chuỗi theo thời gian (Sequential temporal patterns) Cũng tương tự như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính HVTH: Trịnh Ngọc Thư – CH1102017 Page 12 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu. .. TRONG MICROSOFT SQL SERVER 2.1 Giới thiệu về phân lớp : Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luyện và những giá trị hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới Phân lớp cũng là tiên đoán loại lớp của nhãn Bên cạnh kĩ thuật phân lớp có một hình thức tương tự là kĩ thuật tiên đoán, kĩ thuật tiên đoán khác với phân lớp ở chỗ phân lớp chỉ liên... kho dữ liệu và các công cụ xử lý trực tuyến (OLAP – online analytical processing) tập trung vào phân tích dữ liệu đa chiều, tốt hơn SQL trong tính toán và phân tích thống kê đa chiều cũng liên quan chặt chẽ đến khai phá dữ liệu Đặc trưng của hệ thống khai phá dữ liệu là nhờ vào các phương pháp thuật toán và kỹ thuật từ những lĩnh vực khác nhau, nhằm mục đích cuối cùng là trích ra tri thức từ dữ liệu trong. .. tượng 1.5 Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ liệu thành các loại khác nhau Cơ sở dữ liệu quan hệ Đến nay, hầu hết dữ liệu được lưu giữ dưới dạng cơ sở dữ liệu quan hệ Cơ sở dữ liệu quan hệ là một nguồn tài nguyên lớn nhất chứa những đối tượng mà chúng ta cần khai phá Cơ sở dữ liệu quan hệ có cấu trúc cao, dữ liệu được... nay có rất nhiều cơ s ở dữ liệu giao tác Khai phá dữ liệu trên cơ sở dữ liệu giao tác tập trung vào khai phá l u ậ t kết hợp, tìm mối tương quan giữa những mục dữ liệu của bản ghi giao dịch Nghiên cứu sâu về cơ sở dữ liệu giao tác được mô tả chi tiết ở phần sau Cơ sở dữ liệu không gian Cơ sở dữ liệu không gian bao gồm hai phần: Phần thứ nhất là dữ liệu quan hệ hay giao tác, phần thứ hai là thông tin... 1.9 Các thách thức trong phát hiện tri thức và khai phá dữ liệu Khai phá dữ liệu ngày càng đóng một vai trò quan trọng trong việc tìm ra HVTH: Trịnh Ngọc Thư – CH1102017 Page 14 Bài thu hoạch môn Khai phá dữ liệu & Kho dữ liệu các tri thức thực sự có ích, hiệu quả tiềm ẩn trong các khối dữ liệu thông tin khổng lồ vẫn hàng ngày đang được thu thập, lưu trữ để giúp các cá nhân và tổ chức đưa ra được các. .. những phương pháp phân loại khác Có thể hoán chuyển được thành những luật phân lớp đơn giản và dễ hiểu Có thể sử dụng truy vấn SQL để truy xuất cơ sở dữ liệu Sự chính xác phân lớp có thể so sánh được với những phương pháp khác Những phương pháp qui nạp cây quyết định trong nghiên cứu về Khai phá trên tập dữ liệu lớn : 2.2.3.1 SLIQ : A Fast Scalable Classifier for Data Mining : Những giải thuật phân . TIN BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU & KHO DỮ LIỆU ĐỀ TÀI: TÌM HIỂU VỀ CÁC PHƯƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU VÀ KHẢ NĂNG PHÂN LỚP CỦA PHẦN MỀM SQL SERVER Giảng viên phụ trách. khai phá dữ liệu 3 1.3. Các giai đoạn của quá trình khai phá dữ liệu 4 1.4. Một số kỹ thuật khai phá dữ liệu 7 1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu 10 1.6. Các phương pháp chính trong. chính trong khai phá dữ liệu 12 1.7. Các ứng dụng của khai phá d ữ liệu 13 1.8. Khai phá dữ liệu và các lĩnh vực liên quan 13 1.9. Các thách thức trong phát hiện tri thức và khai phá dữ liệu 14 1.10.