1. Trang chủ
  2. » Tất cả

250344

79 668 5
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ LY SA MỘT SỐ KỸ THUẬT ĐÁNH GIÁ LUẬT DỰA TRÊN LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2010 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ LY SA MỘT SỐ KỸ THUẬT ĐÁNH GIÁ LUẬT DỰA TRÊN LÝ THUYẾT TẬP THÔ Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ HƯỚNG DẪN KHOA HỌC TS. VŨ THANH NGUYÊN Thành phố Hồ Chí Minh - 2010 i NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN . . . . . . . . . . . . . . . . . TP Hồ Chí Minh, ngày …….tháng …… năm 2010 Cán bộ hướng dẫn TS. Vũ Thanh Nguyên ii NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN . . . . . . . . . . . . . . . . . TP Hồ Chí Minh, ngày …….tháng …… năm 2010 Cán bộ phản biện iii MỤC LỤC Trang NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN I NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN II MỤC LỤC .III DANH MỤC CÁC BẢNG . VI DANH MỤC CÁC HÌNH VII DANH MỤC CÁC TỪ VIẾT TẮT VIII CHƯƠNG 1. GIỚI THIỆU .1 1.1. KHAI PHÁ DỮ LIỆU .1 1.2. LUẬT KẾT HỢP .2 1.3. LÝ THUYẾT TẬP THÔ .2 1.4. ĐÁNH GIÁ LUẬT 3 1.5. TÓM LẠI 4 CHƯƠNG 2. KIẾN THỨC CƠ BẢN .5 2.1. LÝ THUYẾT TẬP THÔ .5 2.1.1. Các khái niệm 5 2.1.2. Thuật toán tìm các rút gọn .12 2.1.3. Thuật toán tìm rút gọn tối ưu .16 2.1.4. Tập thô và rời rạc hóa dữ liệu 17 2.2. PHÁT SINH LUẬT KẾT HỢP .23 2.2.1. Giới thiệu .23 2.2.2. Khai thác tập phổ biến .23 2.2.3. Khai thác luật kết hợp từ tập phổ biến .28 2.2.4. Sử dụng luật kết hợp vào việc phân lớp .30 CHƯƠNG 3. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ LUẬT DỰA TRÊN LÝ THUYẾT TẬP THÔ 32 3.1. ĐỘ ĐO SỰ HỮU ÍCH CỦA LUẬT 32 3.1.1. Độ hỗ trợ .33 3.1.2. Độ tin cậy 33 3.1.3. Độ đo Lift .34 iv 3.1.4. Độ đo Laplace 34 3.1.5. Độ chắc chắn .35 3.1.6. Độ đo Leverage 35 3.1.7. Độ đo Correlation 35 3.1.8. Độ đo Jaccard .36 3.1.9. Độ đo Cosine 36 3.1.10. Độ đo Odds Ratio .36 3.1.11. Rule Template 36 3.2. ĐỘ ĐO TẦM QUAN TRỌNG CỦA LUẬT .38 3.2.1. Các định nghĩa .38 3.2.2. Một ví dụ về độ đo RIM 39 3.2.3. Nhận xét về độ đo RIM 40 3.3. ĐỘ ĐO XEM LUẬT NHƯ THUỘC TÍNH .41 3.3.1. Xây dựng bảng quyết định mới 41 3.3.2. Các định nghĩa .43 3.3.3. Một ví dụ về độ đo RAM .43 3.3.4. Nhận xét giữa hai độ đo RIM và độ đo RAM 44 3.4. ĐỘ ĐO TẦM QUAN TRỌNG CẢI TIẾN 45 3.4.1. Định nghĩa 45 3.4.2. Quá trình thực hiện 45 3.4.3. Một ví dụ về độ đo ERIM 46 3.4.4. Nhận xét về độ đo ERIM .47 3.5. ĐỘ ĐO WAERIM .47 3.5.1. Định nghĩa 48 3.5.2. Quá trình thực hiện 48 3.6. ĐỘ ĐO AIERIM .49 3.6.1. Định nghĩa 49 3.6.2. Một ví dụ về độ đo AIERIM 50 CHƯƠNG 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO .51 4.1. GIỚI THIỆU .51 4.1.1. Nguồn dữ liệu “Nursery” .51 4.1.2. Nguồn dữ liệu “BankLoan” .52 v 4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG .54 4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO .55 4.3.1. Sử dụng nguồn “Nursery” 55 4.3.2. Sử dụng nguồn “BankLoan” 56 4.3.3. Kết luận 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65 TÀI LIỆU THAM KHẢO .67 vi DANH MỤC CÁC BẢNG Bảng 2.1. Một ví dụ về Hệ thông tin . 5 Bảng 2.2. Một ví dụ về Bảng quyết định . 6 Bảng 2.3. Ma trận khả phân xây dựng từ Bảng 2.2 11 Bảng 2.4. Một ví dụ về Bảng quyết định . 11 Bảng 2.5. Ma trận khả phân xây dựng từ Bảng 2.4 12 Bảng 2.6. Quá trình rời rạc hoá . 18 Bảng 2.7. Bảng quyết định mới ∗ T . 21 Bảng 2.8. Kết quả rời rạc hóa dữ liệu 23 Bảng 2.9. Ví dụ về cơ sở dữ liệu dạng giao dịch 24 Bảng 2.10. Một ví dụ về tập phổ biến . 24 Bảng 2.11. Luật kết hợp thỏa minSupp=50%, minConf=80% . 29 Bảng 3.1. Ví dụ cho mẫu luật 37 Bảng 3.2. Một số rút gọn từ nguồn Zoo 39 Bảng 3.3. Tập luật quan trọng theo độ đo RIM từ nguồn Zoo 40 Bảng 3.4. Bảng quyết định ví dụ cho độ đo RAM . 42 Bảng 3.5. Xây dựng bảng quyết định mới . 43 Bảng 3.6. Các luật kết hợp từ nguồn Lenses với minSupp=3% và minConf=70% 44 Bảng 3.7. Tập luật quan trọng theo độ đo RAM từ nguồn Lenses 44 Bảng 3.8. Trọng số cho từng thuộc tính điều kiện của nguồn Car . 46 Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car 46 Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car . 50 Bảng 3.11. Tập luật với độ đo AIERIM từ nguồn Car 50 Bảng 4.1. Các thuộc tính của nguồn Nursery . 51 Bảng 4.2. Các thuộc tính của dữ liệu BankLoan 52 Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan 53 Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery . 60 Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) . 62 Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 2) . 64 vii DANH MỤC CÁC HÌNH Hình 1.1. Quá trình phát hiện tri thức 1 Hình 2.1. Tập các điểm cắt trên thuộc tính a 19 Hình 2.2. Tập các điểm cắt cực tiểu . 22 Hình 2.3. Cây tìm kiếm IT-tree . 26 Hình 2.4. Cây tìm kiếm tập phổ biến với minSupp=50% . 27 Hình 4.1. Mô hình xây dựng ứng dụng . 54 Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery . 55 Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1) . 56 Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) . 57 viii DANH MỤC CÁC TỪ VIẾT TẮT AIERIM Attributes Importance Degree Based Enhanced Rule Importance Measure CBA Classification Based on Associations CSDL Cơ Sở Dữ Liệu ERIM Enhanced Rule Importance Measure IT-pair Itemset-Tidset pair IT-tree Itemset-Tidset tree KDD Knowledge Discovery in Database RIM Rule Importance Measure RAM Rule-as-Attribute Measure WAERIM Weight Average Based Enhanced Rule Importance Measure

Ngày đăng: 05/04/2013, 13:59

Xem thêm

HÌNH ẢNH LIÊN QUAN

Quá trình phát hiện tri thức có thể được biểu diễn bằng Hình 1.1: - 250344
u á trình phát hiện tri thức có thể được biểu diễn bằng Hình 1.1: (Trang 11)
Hình 1.1. Quá trình phát hiện tri thức - 250344
Hình 1.1. Quá trình phát hiện tri thức (Trang 11)
Bảng 2.1. Một ví dụ về Hệ thông tin - 250344
Bảng 2.1. Một ví dụ về Hệ thông tin (Trang 15)
Xem ví dụ đơn giản về hệ thông tin trong Bảng 2.1, ta có tập vũ trụ } - 250344
em ví dụ đơn giản về hệ thông tin trong Bảng 2.1, ta có tập vũ trụ } (Trang 16)
2.1.1.2. Bảng quyết định - 250344
2.1.1.2. Bảng quyết định (Trang 16)
Bảng 2.5. Matr ận khả phân xây dựng từ Bảng 2.4 - 250344
Bảng 2.5. Matr ận khả phân xây dựng từ Bảng 2.4 (Trang 22)
Input: Bảng quyết định nhất quán T= (C , D) - 250344
nput Bảng quyết định nhất quán T= (C , D) (Trang 26)
Xét bảng quyết định T= (U, C∪ D ), với mỗi thuộc tính a∈ C có miền trị Va - 250344
t bảng quyết định T= (U, C∪ D ), với mỗi thuộc tính a∈ C có miền trị Va (Trang 28)
Hình 2.1. Tập các điểm cắt trên thuộc tín ha - 250344
Hình 2.1. Tập các điểm cắt trên thuộc tín ha (Trang 29)
Hình 2.1. T ậ p các  đ i ể m c ắ t trên thu ộ c tính a - 250344
Hình 2.1. T ậ p các đ i ể m c ắ t trên thu ộ c tính a (Trang 29)
T được xây dựng trong Bảng2.7 - 250344
c xây dựng trong Bảng2.7 (Trang 31)
Hình 2.2. Tập các điểm cắt cực tiểu - 250344
Hình 2.2. Tập các điểm cắt cực tiểu (Trang 32)
Kết quả rời rạc hóa tập dữ liệu mẫu với tập các điểm cắt cực tiểu (Bảng 2.8 ):  - 250344
t quả rời rạc hóa tập dữ liệu mẫu với tập các điểm cắt cực tiểu (Bảng 2.8 ): (Trang 32)
Hình 2.2. T ậ p các  đ i ể m c ắ t c ự c ti ể u - 250344
Hình 2.2. T ậ p các đ i ể m c ắ t c ự c ti ể u (Trang 32)
Bảng 2.9. Ví dụ về cơ sở dữ liệu dạng giao dịch - 250344
Bảng 2.9. Ví dụ về cơ sở dữ liệu dạng giao dịch (Trang 34)
Hình 2.3. Cây tìm kiếm IT-tree - 250344
Hình 2.3. Cây tìm kiếm IT-tree (Trang 36)
Hình 2.4. Cây tìm kiếm tập phổ biến với minSupp=50% - 250344
Hình 2.4. Cây tìm kiếm tập phổ biến với minSupp=50% (Trang 37)
Ví dụ: Với cơ sở dữ liệu trong Bảng 2.9, cây tìm kiếm minh họa cho quá trình tìm tập phổ biến với ngưỡng minSupp=50% (xem Hình 2.4):  - 250344
d ụ: Với cơ sở dữ liệu trong Bảng 2.9, cây tìm kiếm minh họa cho quá trình tìm tập phổ biến với ngưỡng minSupp=50% (xem Hình 2.4): (Trang 37)
Hình 2.4. Cây tìm ki ế m t ậ p ph ổ  bi ế n v ớ i minSupp=50% - 250344
Hình 2.4. Cây tìm ki ế m t ậ p ph ổ bi ế n v ớ i minSupp=50% (Trang 37)
Bảng 2.11. Luật kết hợp thỏa minSupp=50%, minConf=80% - 250344
Bảng 2.11. Luật kết hợp thỏa minSupp=50%, minConf=80% (Trang 38)
hình thành một phân lớp (Classifier) chính xác từ cơ sở dữ liệu dùng cho mục - 250344
hình th ành một phân lớp (Classifier) chính xác từ cơ sở dữ liệu dùng cho mục (Trang 40)
Bảng 3.2. Một số rút gọn từ nguồn Zoo - 250344
Bảng 3.2. Một số rút gọn từ nguồn Zoo (Trang 49)
Bảng 3.3. Tập luật quan trọng theo độ đo RIM từ nguồn Zoo - 250344
Bảng 3.3. Tập luật quan trọng theo độ đo RIM từ nguồn Zoo (Trang 50)
Bảng  quyết  định  mới  này  được  sử  dụng  để  phát  hiện  những  luật  kết  hợp  quan trọng bằng cách tìm rút gọn của nó - 250344
ng quyết định mới này được sử dụng để phát hiện những luật kết hợp quan trọng bằng cách tìm rút gọn của nó (Trang 53)
luật từ bảng quyết định với minSupp=3% và minConf=70%, kết quả gồm 8 luật trong Bảng 3.6 - 250344
lu ật từ bảng quyết định với minSupp=3% và minConf=70%, kết quả gồm 8 luật trong Bảng 3.6 (Trang 54)
Bảng quyết định mới được xây dựng bằng cách xem 8 luật vừa tìm được là  8  thuộc  tính  điều  kiện  và  thuộc  tính  quyết  định  là  thuộc  tính  quyết  định  của  bảng quyết định gốc, với mỗi luật ta kiểm tra nó có áp dụng được cho các đối  tượng trong  - 250344
Bảng quy ết định mới được xây dựng bằng cách xem 8 luật vừa tìm được là 8 thuộc tính điều kiện và thuộc tính quyết định là thuộc tính quyết định của bảng quyết định gốc, với mỗi luật ta kiểm tra nó có áp dụng được cho các đối tượng trong (Trang 54)
Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car - 250344
Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car (Trang 56)
Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car - 250344
Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car (Trang 60)
Bảng 3.11. - 250344
Bảng 3.11. (Trang 60)
4.1.2. Nguồn dữ liệu “BankLoan” Lo ại  - 250344
4.1.2. Nguồn dữ liệu “BankLoan” Lo ại (Trang 62)
được trình bày trong Bảng 5.1. - 250344
c trình bày trong Bảng 5.1 (Trang 63)
4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG - 250344
4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG (Trang 64)
Hình 4.1. Mô hình xây d ự ng  ứ ng d ụ ng - 250344
Hình 4.1. Mô hình xây d ự ng ứ ng d ụ ng (Trang 64)
Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm - 250344
Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm (Trang 65)
Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm - 250344
Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm (Trang 65)
Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình 4.3  biểu diễn bằng hình vẽđộ chính xác trung bình trong 10 lần test theo t ừ ng  - 250344
Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình 4.3 biểu diễn bằng hình vẽđộ chính xác trung bình trong 10 lần test theo t ừ ng (Trang 66)
Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình  4.3 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng - 250344
Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình 4.3 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng (Trang 66)
Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) - 250344
Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) (Trang 67)
Hình 4.4. Bi ể u  đồ  so sánh gi ữ a các  độ đ o t ừ  ngu ồ n BankLoan (tr ườ ng h ợ p 2) - 250344
Hình 4.4. Bi ể u đồ so sánh gi ữ a các độ đ o t ừ ngu ồ n BankLoan (tr ườ ng h ợ p 2) (Trang 67)
Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery - 250344
Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery (Trang 70)
Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) - 250344
Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) (Trang 72)
Bảng 4.6. Kết quả 10 lần thử nghiệm với BankLoan (trường hợp 2) - 250344
Bảng 4.6. Kết quả 10 lần thử nghiệm với BankLoan (trường hợp 2) (Trang 74)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w