1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân lớp dữ liệu theo hướng tiếp cận tập thô

31 211 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 2,65 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  ĐỀ TÀI MÔN HỌC KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU Tên đề tài: Giảng viên hướng dẫn : PGS.TS. Đỗ Phúc Sinh viên thực hiện : Nguyễn Hữu Thành (CH1101136) : Trần Thị Kiều Diễm (CH1101074) Lớp : CH-CNTT K6 TP. HCM, Tháng 11-2012 LỜI NÓI ĐẦU Ngày nay với sự bùng nổ của ngành công nghệ thông tin, chúng ta đang đứng trước một thực trạng là thừa dữ liệu nhưng thiếu thông tin, do đó vấn đề đặt ra là làm thế nào để chọn lọc hay hệ thống lại những thông tin hữu ích từ nguồn thông tin khổng lồ đó. Quá trình chọn lọc ra dữ liệu hữu ích này người ta gọi đó là quá trình khái thác dữ liệu – Data Mining, đây là một quá trình khám phá tri thức tiềm ẩn trong các Cơ sở dữ liệu, là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ cho các tiến trình ra quyết định. Hiện các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và phần mềm hỗ trợ tiến trình khai thác dữ liệu, một trong những kỹ thuật đó là phân lớp dữ liệu để tìm ra những đặc trưng của tập dữ liệu đã được xếp lớp. Trong phạm vi của bài thu hoạch này chúng em xin trình bày kỹ thuật phân lớp dữ liệu theo hướng tiếp cận tập thô, nội dung trình bày cụ thể các khái niệm và thuật toán liên quan và minh họa với bài toán tìm hàm phân biệt từ hệ thông tin thô ban đầu. Để hoàn thành bài thu hoạch em xin gửi lời cảm ơn đến thầy Đỗ Phúc đã nhiệt tình giảng dạy giúp em có được kiến thức nền tảng về Data Mining, với vốn kiến thức còn hạn hẹp nên nội dung trình bày chắc chắn cần được bổ sung, góp ý, chúng em mong nhận được nhận xét từ Thầy để chúng em có thêm những kiến thức hữu ích hơn. MỤC LỤC Phụ luc A. Một số bảng dữ liệu trong bài thu hoạch Bảng 1.2a Trang 7 Bảng 1.2b Trang 8 Bảng 1.2c Trang 9 Bảng 1.2d Trang 9 Bảng 1.3 Trang 10 Bảng 2.2a Trang 13 Bảng 2.2b Trang 13 Bảng 2.3 Trang 14 Bảng 2.4 Trang 21 Phụ luc B. Một số giao diện trong chương trình Giao diện Nhập dữ liệu: dùng dữ liệu mẫu có sẵn hoặc nhập trực tiếp các thuộc tính Giao diện nhập thông tin cho các thuộc tính Tiếp tục nhập các giá trị cho thuộc tính điều kiện và thuộc tính quyết định Kiểm tra lại giá trị Input Tiếp tục nhập bảng quyết định Xuất ma trận phân biệt và hàm phân biệt Khai phá dữ liệu và kho dữ liệu GVHD: PGS.TS Đỗ Phúc PHẦN 1. KHAI THÁC DỮ LIỆU 1.1. Định nghĩa khai thác dữ liệu - Khai thác dữ liệu (hay data mining) là tiến trình khám phá tri thức tiềm ẩn trong các cơ sở dữ liệu, cụ thể hơn đó là tiến trình trích lọc, sản sinh những tri thức bị che giấu trong một khối dữ liệu khổng lồ. - Khai thác dữ liệu là tiến trình khái quát các sự kiện rời rạc trong kho dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định. - Mục đích của việc khai phá dữ liệu không phải phát hiện mọi tri thức mà là phát hiện những tri thức cần thiết phục vụ cho một nhiệm vụ đã đề ra. Ví dụ từ cơ sở dữ liệu về các bệnh nhân bị tiểu đường người ta tìm được những đặc điểm mà có thể kết luận bệnh nhân đó có bị tiểu đường hay không. 1.2. Các công đoạn khám phá tri thức từ cơ sở dữ liệu 1.2.1. Chuẩn bị dữ liệu - Xác định các cơ sỡ dữ liệu đã có sẵn phục vụ cho quá trình khai phá tri thức. 1.2.2. Chọn lọc dữ liệu - Không phải tất cả các dữ liệu đã có đều quan trọng nên chúng ta phải chọn ra những dữ liệu thật cần thiết cho quá trình khai phá dữ liệu. - Ví dụ: Cho cơ sở dữ liệu học sinh ban đầu như sau: Bảng 1.2a HỌCSINH DIEM HOCPHAN MONHOC MaHS HoTen DiaChi SDT MaHS MaHP MaMH Diem MaHP MaMH TenHP MaMH TenMH Ta tiến hành chọn ra những dữ liệu cần thiết cho tiến trình khai phá dữ liệu, kết quả ta được bảng dữ liệu sau: ===============================Trang7/31============================== Khai phá dữ liệu và kho dữ liệu GVHD: PGS.TS Đỗ Phúc Bảng 1.2b HOCSINH MaHS MaHP MaMH Diem HoTen DiaChi 1.2.3. Giai đoạn làm sạch dữ liệu - Hầu hết các cơ sở dữ liệu đều ít nhiều không có tính nhất quán về dữ liệu chẳng hạn như cùng một đối tượng A nhưng có hai số nhà khác nhau. - Làm sạch dữ liệu là quá trình loại bỏ những dữ liệu trùng lắp và những dữ liệu sai. - Quá trình này trên thực tế có thể được thực hiện nhiều lần vì trong quá trình khám phá tri thức mới thấy được sự bất hợp lí trong dữ liệu, có thể quá trình này xảy ra trong giai đoạn mã hóa hay giai đoạn tìm kiếm. a) Chống trùng lặp: thao tác này diễn ra khi có thông tin bị trùng do sai sót trong quá trình nhập liệu hay quá trình cập nhật không kịp thời, chúng ta phải xóa bỏ những dữ liệu bị trùng lắp đó. b) Giới hạn vùng giá trị: đối với những giá trị không nằm trong vùng giá trị đã được định nghĩa thì ta phải dùng giá trị NULL để thay thế, chẳng hạn giới tính được quy ước thuộc vùng giá trị {Nam, Nữ} nhưng trong CSDL có đối tượng lưu giá trị 0 thì giá trị này không hợp lí, khi xủ lí dữ liệu này ta phải lưu là Null. c) Giai đoạn làm giàu dữ liệu: là quá trình thêm những thông tin cần thiết từ cơ sở dữ liệu liên quan đến cơ sở dữ liệu gốc ban đầu nhằm làm tăng khả năng khám phá ===============================Trang8/31============================== Khai phá dữ liệu và kho dữ liệu GVHD: PGS.TS Đỗ Phúc tri thức từ cơ sở dữ liệu. Tuy nhiên vấn đề đặt ra là làm thế nào để kết hợp thông tin và khả năng khôi phục dữ liệu gốc sau khi đã làm giàu thông tin. d) Ví dụ đối với cơ sở dữ liệu học sinh ở trên (bảng 2) ta có thể thêm thông tin là hạnh kiểm học sinh, khả năng vượt khó, đây cũng là những yếu tố ảnh hưởng tới kết quả học tập của học sinh. 1.2.4. Giai đoạn mã hóa dữ liệu - Mã hóa dữ liệu là quá trình chuyển đổi kiểu dữ liệu về những dạng thích hợp cho việc tiến hành các thuật toán khám phá dữ liệu. Có nhiều cách mã hóa dữ liệu khác nhau theo từng loại dữ liệu: o Phân vùng: với dữ liệu là các chuỗi, nằm trong tập các chuỗi cố định. o Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với số năm hiện hành o Chia giá trị số theo một hệ số để được tập giá trị nhỏ hơn o Chuyển đổi Yes/No thành 0/1 Ví dụ cơ sở dữ liệu ban đầu như sau: Bảng 1.2c MaNV HoTen GioiTinh NgaySinh Luong 001 002 003 004 005 Nguyễn Thị An Trần Thanh Bình Nguyễn Ngọc Như Trần Thung Mai Thành Sơn Nữ Nam Nữ Nam Nam 12/8/1985 4/6/1981 4/7/1975 6/9/1984 12/11/1968 3500000 3900000 4200000 3500000 5100000 Ta mã hóa thành bảng dữ liệu mới: Bảng 1.2d MaNV HoTen GioiTinh NgaySinh Luong 001 002 003 004 Nguyễn Thị An Trần Thanh Bình Nguyễn Ngọc Như Trần Thung 1 0 1 0 27 31 37 28 3.5 3.9 4.2 3.5 ===============================Trang9/31============================== Khai phá dữ liệu và kho dữ liệu GVHD: PGS.TS Đỗ Phúc 005 Mai Thành Sơn 0 44 5.1 1.2.5. Khai thác dữ liệu -Khai thác dữ liệu là để rút ra các mẫu, các mô hình dữ liệu bằng các phương pháp đã được lựa chọn. 1.2.6. Trình diễn dữ liệu -Là quá trình giải thích và hiển thị kết quả của quá trình khai thác dữ liệu để hỗ trợ cho việc định giá chất lượng dữ liệu, đánh giá mô hình dữ liệu được lựa chọn có phù hợp không đồng thời thể hiện mô hình. 1.3. Các kỹ thuật khai thác dữ liệu 1.3.1. Khai thác tập phổ biến và luật kết hợp -Là tìm ra những mối quan hệ giữa các thuộc tính hoàn toàn độc lập với nhau trong cơ sở dữ liệu. Một luật kết hợp X -> Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồng thời tập Y, chẳng hạn từ tập cơ sở dữ liệu ban đầu như sau Bảng 1.3 Các trường hợp Mặt biển dao động Nhiều bọt biển nổi lên Nước rút Kết quả 1 Trung bình Có Rất nhanh Có sóng lớn 2 Nhiều Không Rất nhanh Không có sóng lớn 3 Nhiều Có Nhanh Có sóng lớn 4 Trung bình Có Trung bình Không có sóng lớn 5 Nhiều Có Trung bình Có sóng lớn 6 Nhiều Có Rất nhanh Có sóng lớn 7 Nhiều Không Trung bình Không có sóng lớn 8 Trung bình Không Rất nhanh Không có sóng lớn 9 Trung bình Không Trung bình Không có sóng lớn Ta tìm được các luật: 1) (Không có nhiều bọt biển nổi lên)  Không có sóng lớn ===============================Trang10/31============================== [...]... gội cho em bé, mua sữa tắm thì sau đó sẽ mua bột dinh dưỡng cho em bé 1.3.3 Phân lớp dữ liệu -Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp, luật phân lớp sẽ được sử dụng để xây dựng các bộ phân lớp dữ liệu nhờ đó có thể dự báo các khuynh hướng, quy luật phát triển, ví dụ luật phân lớp như sau: nếu khách hàng ở khu vực 1 và có doanh số năm trước > 200 triệu... {x∈U:[x]B∩X≠ ∅} o Tập BNB(X) = - BX được gọi là vùng B-biên của tập X chứa các đối tượng mà ta không thể phân lớp chắc chắn vào X theo B o Tập U - được gọi là vùng B-ngoài của X và chứa các đối tượng phân lớp chắc chắn là không thuộc về tập X o Nếu tập BNB(X) ≠ ∅ thì tập hợp đó được gọi là tập thô ngược lại gọi là tập rõ Ví dụ theo bảng dữ liệu (bảng 2.3) giả sử X={u| E(u)=1}={u1,u2,u7} B ={a,b,c,d} Lớp tương... toán rút gọn các reduct − Hướng phát triển: tiếp tục nghiên cứu và cài đặt thuật toán rút gọn các reduct để giảm thiểu số lượng thuộc tính tham gia vào quá trình phân lớp dữ liệu từ tập thô TÀI LIỆU THAM KHẢO o Giáo trình Khai thác dữ liệu – PGS.TS.Đỗ Phúc o Chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu – TS Đỗ Phúc o Bài báo: Một thuật toán tìm tập rút gọn sử dụng ma trận phân biệt được (An Algorithm... dương của phép phân hoạch U theo tập thuộc tính D Với C là tập mọi thành phần của U có thể được phân lớp theo phép phân hoạch U/D Hiển nhiên: ===============================Trang24/31============================== Khai phá dữ liệu và kho dữ liệu GVHD: PGS.TS Đỗ Phúc Nếu k = 1 ta nói rằng D phụ thuộc hoàn toàn vào C và nếu k . bé. 1.3.3. Phân lớp dữ liệu -Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp, luật phân lớp sẽ được sử dụng để xây dựng các bộ phân lớp dữ liệu nhờ đó có. thác dữ liệu, một trong những kỹ thuật đó là phân lớp dữ liệu để tìm ra những đặc trưng của tập dữ liệu đã được xếp lớp. Trong phạm vi của bài thu hoạch này chúng em xin trình bày kỹ thuật phân lớp. Input Tiếp tục nhập bảng quyết định Xuất ma trận phân biệt và hàm phân biệt Khai phá dữ liệu và kho dữ liệu GVHD: PGS.TS Đỗ Phúc PHẦN 1. KHAI THÁC DỮ LIỆU 1.1. Định nghĩa khai thác dữ liệu -

Ngày đăng: 09/04/2015, 22:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w