10 9 2015 bài giảng khai phá dữ liệu

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	40
Dung lượng	502,6 KB

Nội dung

Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Lý thuyết/Thảo luận/Tự nghiên cứu: 20/25/45 TÀI LIỆU THAM KHẢO [1] Jiawei Han and Micheline Kamber (2006) Data Mining, Concept and Techniques Second Edition Jim Grey, MS Research, Morgan Kaufmann Publisher [2] Rajendra Arvind Akerkar and Priti Srinivas Sajja (2010) Knowledge-Based Systems Jones and Bartlett Publisher [3] Hà Quang Thụy (2011.) Giáo trình Khai Phá Dữ liệu Web Nhà Xuất Giáo dục Việt Nam [4] Đỗ Thanh Nghị (2011) Khai mỏ liệu Nhà xuất Đại học Cần Thơ [5] Nguyễn Quang Hoan (2007) Trí tuệ nhân tạo: hệ học, mạng nơ ron nhân tạo Học viện Công nghệ Bưu Viễn thơng [6] Hồng Kiếm (2007) Các hệ sở tri thức Nhà xuất Đại học Quốc gia Tp Hồ Chí Minh 1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Tại lại cần khai phá liệu Khoảng thập kỷ trở lại đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ v.v…) không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Theo đánh giá IBM, phương pháp khai thác thông tin truyền thống thu khoảng 80% thông tin từ CSDL, phần lại bao gồm thơng tin mang tính khái qt, thơng tin có quy luật tiềm ẩn bên liệu Lượng thông tin nhỏ thông tin cốt lõi cần thiết cho tiến trình định Theo J Han [1] “Ngập tràn thông tin mà thiếu tri thức” Người ta ước đốn lượng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lượng kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Câu hỏi đặt liệu khai thác từ “núi” liệu tưởng chừng “bỏ đi” không? “Necessity is the mother of invention” - Data Mining đời hướng giải hữu hiệu cho câu hỏi vừa đặt 1.1.2 Dữ liệu, Thông tin, Tri thức, Uyên thâm Dữ liệu, thơng tin, tri thức gì? mối quan hệ chúng? a) Dữ liệu (NHÓM BIÊN SOẠN ĐIỀN BÀI GIẢNG VÀO CHO ĐỦ) +Khái niệm liệu1: hằng+biến Khái niệm liệu2: nguyên liệu thô Khái niệm liệu 3: + Độ đo liệu? Byte +Mô tả b) Thông tin +Khái niệm +Độ đo c) Tri thức: Sự kiện (dữ liệu)+Mối qua hệ + Mô tả - Logic, Logic mệnh đề Vị từ - Luật: Rule - Mạng ngữ nghĩa - Khác d) Uyên thâm (Wisdom) Tri thức thơng tin tích hợp, quan hệ kiện, thông tin thu qua trình nhận thức, phát học tập Thông tin liệu với ý nghĩa (data equiped with meaning), thu xử lý liệu để lọc bỏ phần dư thừa, tìm phần cốt lõi đặc trưng cho liệu Dữ liệu tín hiệu (signals) Dữ liệu mức độ trừu tượng thấp cụ thể nhất, thông tin mức liệu tri thức mức cao thu quan sát, đo đạc, thu thập từ đối tượng Cụ thể, liệu giá trị (values) thuộc tính (features) đối tượng, biểu diễn dãy bits, số hay ký hiệu… 1.1.3 Khai phá liệu gì? Các khái niệm Khá nhiều định nghĩa Data Mining đề cập phần sau, nhiên tạm hiểu Data Mining công nghệ tri thức giúp khai thác thơng tin hữu ích từ kho liệu tích trữ suốt q trình hoạt động cơng ty, tổ chức Khái niệm: Khai phá liệu (Datamining) trình chắt lọc hay khai phá tri thức từ lượng lớn liệu Thuật ngữ Datamining ám việc tìm kiếm tập hợp nhỏ có giá trị từ số lượng lớn liệu thơ Một ví dụ hay sử dụng là việc khai thác vàng từ đá cát, Dataming ví cơng việc "Đãi cát tìm vàng" tập hợp lớn liệu cho trước Có nhiều thuật ngữ dùng có nghĩa tương tự với từ Datamining Knowledge Discovery in Database: KDD Knowledge Mining (khai phá tri thức), knowledge Extraction (chắt lọc tri thức), Data/Patern Analysis (phân tích liệu/mẫu), Data Archaeoloogy (khảo cổ liệu), Datadredging (nạo vét liệu) Khái niệm KDD([3] trang:11-13): Phát tri thức CSDL:KDD q trình khơng tầm thường mẫu có giá trị, mới, hữu ích tiềm năng, hiểu liệu - Dữ liệu (Data): E tập ghi (ví dụ 23 khách hàng, trường: SỐ NỢ, THU NHẬP, TÌNH TRẠNG VAY NỢ) - Mẫu: (Pattern): Người ta sử dụng ngôn ngữ (Langguage: L) để biểu diễn tập liệu (sự kiện) FE Ví dụ F, ngơn ngữ L có biểu thức “THU NHẬP i Định nghĩa 3: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu 1.2 CÁC QUÁ TRÌNH KHÁM PHÁ TRI THỨC Khai phá tri thức sở liệu (Knowleadge Discovery in Database: KDD) bao trùm khai phá liệu Khai phá liệu xử lý liệu, nhận biết mẫu xu hướng thơng tin để định đánh giá Những nhu cầu hướng kinh doanh thay đổi cách lấy thống kê liệu đơn giản sang việc khai phá liệu phức tạp Vấn đề kinh doanh hướng tới việc xem xét liệu để giúp xây dựng mô hình mơ tả dẫn đến việc tạo báo cáo kết Hình phác thảo trình Hình Phác thảo q trình Q trình phân tích liệu, khám phá liệu xây dựng mô hình liệu thường lặp lại bạn tập trung vào nhận thông tin khác để bạn trích Bạn phải hiểu cách thiết lập quan hệ, ánh xạ, kết hợp phân cụm thơng tin với liệu khác để tạo kết Quá trình nhận liệu nguồn định dạng nguồn, ánh xạ thông tin tới kết cho chúng tơi thay đổi sau bạn phát yếu tố khía cạnh khác liệu Khai phá tri thức xem trình khác nhau, khai phá liệu bước bảy bước trình KDD ([1] trang 6,7) Làm liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu liệu không cần thiết Tích hợp liệu: (data integration): q trình hợp liệu thành kho liệu (data warehouses & data marts) sau làm tiền xử lý (data cleaning & preprocessing) Trích chọn liệu (data selection): trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho q trình khai thác tri thức Q trình bao gồm việc xử lý với liệu nhiễu (noisy data), liệu không đầy đủ (incomplete data) v.v… Chuyển đổi liệu: Các liệu chuyển đổi sang dạng phù hợp cho trình xử lý Khai phá liệu (data mining): Là bước quan trọng nhất, sử dụng phương pháp thông minh để chắt lọc mẫu liệu Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá kết tìm thơng qua độ đo Biểu diễn tri thức (knowledge presentation): Quá trình sử dụng kỹ thuật để biểu diễn thể trực quan cho người dùng Hình ? - Các bước Data Mining & KDD Các nguyên tắc khai phá liệu dùng nhiều năm, với đời Big Data (dữ liệu lớn) làm phổ biến Big data gây bùng nổ sử dụng nhiều kỹ thuật khai phá liệu hơn, phần kích thước thơng tin lớn nhiều thơng tin có xu hướng đa dạng mở rộng chất nội dung Với tập hợp liệu lớn, để nhận số liệu thống kê tương đối đơn giản dễ dàng hệ thống chưa đủ Với 30 40 triệu ghi thông tin khách hàng chi tiết, việc biết triệu khách hàng số sống địa điểm chưa đủ Bạn muốn biết liệu triệu khách hàng có thuộc nhóm tuổi cụ thể khơng bạn muốn biết thu nhập trung bình họ để bạn tập trung vào nhu cầu khách hàng tốt 1.3 CÁC CHỨC NĂNG VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU Khai phá liệu tất công cụ hay phần mềm sở liệu mà bạn sử dụng Bạn thực khai phá liệu hệ thống sở liệu bình thường cơng cụ đơn giản, bao gồm việc tạo viết phần mềm riêng bạn sử dụng gói phần mềm bán ngồi cửa hàng Khai phá liệu phức tạp hưởng lợi từ kinh nghiệm khứ thuật toán định nghĩa với phần mềm gói phần mềm có, với cơng cụ định để thu mối quan hệ uy tín lớn kỹ thuật khác Ví dụ, IBM SPSS®, có nguồn gốc từ việc phân tích thống kê khảo sát, xây dựng mơ hình dự báo hiệu cách xem xét xu hướng khứ xây dựng dự báo xác IBM InfoSphere® Warehouse cung cấp thơng tin tìm nguồn cấp liệu, thông tin xử lý trước, thông tin khai phá thơng tin phân tích gói nhất, phép bạn lấy thông tin thẳng từ sở liệu nguồn đến đầu báo cáo cuối Gần tập hợp liệu lớn việc xử lý liệu theo cụm quy mơ lớn cho phép khai phá liệu để xếp lập báo cáo nhóm mối tương quan liệu phức tạp Bây có sẵn nhiều cơng cụ hệ thống hồn tồn mới, gồm hệ thống lưu trữ xử lý liệu kết hợp Bạn khai phá liệu với nhiều tập hợp liệu khác nhau, gồm sở liệu SQL truyền thống, liệu văn thơ, kho khóa/giá trị sở liệu tài liệu Các sở liệu có phân cụm, Hadoop, Cassandra, CouchDB Couchbase Server, lưu trữ cung cấp quyền truy cập vào liệu theo cách không phù hợp với cấu trúc bảng truyền thống Đặc biệt, định dạng lưu trữ sở liệu tài liệu linh hoạt lại gây trọng tâm phức tạp khác xử lý thông tin Các sở liệu SQL áp đặt cấu trúc chặt chẽ cứng nhắc vào lược đồ, làm cho việc truy vấn chúng phân tích liệu trở nên đơn giản theo quan điểm hiểu rõ định dạng cấu trúc thông tin Các sở liệu tài liệu, có tiêu chuẩn chẳng hạn cấu trúc thực thi JSON tệp có cấu trúc đọc máy tính đó, dễ xử lý hơn, chúng làm tăng thêm phức tạp cấu trúc khác hay thay đổi Ví dụ, với việc xử lý liệu hồn tồn thơ Hadoop, phức tạp để nhận biết trích nội dung trước bạn bắt đầu xử lý tương quan với Data Mining chia nhỏ thành số hướng sau: Hiện có nhiều kỹ thuật khai phá liệu, mơ hình truy vấn, mơ hình xử lý thu thập liệu khác Bạn sử dụng kỹ thuật để khai phá liệu kỹ thuật để kết hợp với phần mềm sở hạ tầng có mình? Hãy xem xét kỹ thuật giải pháp khai phá liệu; phân tích khác tìm hiểu cách xây dựng chúng nhờ sử dụng phần mềm có Hãy khám phá cơng cụ khai phá liệu khác nhau, hiểu cách xác định xem kích thước độ phức tạp thơng tin bạn dẫn đến rắc rối xử lý lưu trữ không cần phải làm Một số kỹ thuật cốt lõi, sử dụng khai phá liệu, mô tả kiểu hoạt động khai phá hoạt động phục hồi liệu Thật không may công ty giải pháp khác lúc dùng chung thuật ngữ Chính thuật ngữ làm tăng thêm mơ hồ phức tạp Hãy xem xét số kỹ thuật ví dụ cách sử dụng cơng cụ khác để dựng lên việc khai phá liệu 1.3.1 Mô tả khái niệm Mô tả khái niệm (Concept Description): thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn Mơ tả theo phương pháp mô tả tri thức: mô tả logic hình thức; mạng ngữ nghĩa chuyê sang dạng ma trận; mô tả luật; mô tả mạng Bayes… 1.3.2 Sự kết hợp Luật kết hợp (Association Rules): dạng luật biểu diễn tri thứ dạng đơn giản Ví dụ: “60 % nam giới vào siêu thị mua bia có tới 80% số họ mua thêm thịt bò khơ” Luật kết hợp ứng dụng nhiều lĩnh vực kính doanh, y học, tin-sinh, tài & thị trường chứng khốn v.v… Sự kết hợp (hay mối quan hệ) kỹ thuật khai phá liệu biết đến nhiều hơn, quen thuộc đơn giản Ở đây, bạn thực tương quan đơn giản hai nhiều mục, thường kiểu để nhận biết mẫu Ví dụ, theo dõi thói quen mua hàng người dân, bạn nhận biết khách hàng ln mua kem họ mua dâu tây, nên bạn đề xuất lần tới họ mua dâu tây, họ muốn mua kem Việc xây dựng công cụ khai phá liệu dựa kết hợp hay mối quan hệ thực đơn giản cơng cụ khác Ví dụ, InfoSphere Warehouse trình hướng dẫn đưa cấu hình luồng thơng tin sử dụng kết hợp cách xem xét thông tin nguồn đầu vào sở liệu, thông tin sở định thông tin đầu bạn Hình cho thấy ví dụ sở liệu ví dụ mẫu Hình Luồng thông tin sử dụng theo cách kết hợp 1.3.3 Sự phân loại, phân lớp lại có tốn học liệu lặp lại thủ tục với liệu bớt thuộc tính sử dụng gốc Quá trình xây dựng định lặp đệ quy xẩy tình sau: - Sau phân chia nút, tập liệu chứa mẫu có nhãn phân loại (chẳng hạn dương âm) Trong trường hợp ta dừng trình phân chia đây, tạo nút gán cho nút nhãn phân loại trùng với nhãn ví dụ nút Trong ví dụ hình 4.1., nhánh nút gốc bao gồm mẫu có nhãn “có” tạo thành nút - ất thuộc tính sử dụng phía trên, tập liệu chứa nhãn dương nhãn âm Đây trường hợp ví dụ có giá trị thuộc tính lại khác nhãn phân loại xẩy liệu huấn luyện có chứa nhiễu thuộc tính có khơng cung cấp đủ thơng tin để xác định nhãn phân loại Trong trường hợp này, thuật toán chọn nhãn chiếm đa số tập để gán cho nút Thuật toán học định cho hình 5.3 - Khởi đầu: nút thời nút gốc chứa toàn tập liệu huấn luyện - Tại nút thời n, lựa chọn thuộc tính: • Chưa sử dụng nút tổ tiên (tức nút nằm đường từ gốc tới nút thời) • Cho phép phân chia tập liệu thời thành tập cách tốt • Với giá trị thuộc tính chọn thêm nút bên • Chia ví dụ nút hiên thời nút theo giá trị thuộc tính chọn - Lặp (đệ quy) khi: • • Tất thuộc tính sử dụng nút phía trên, • Nhãn nút lấy theo đa số nhãn ví dụ nút thời Tất ví dụ nút thời có nhãn phân loại Hình 5.3 Thuật tốn xây dựng định từ liệu huấn luyện Lựa chọn thuộc tính tốt Một điểm quan trọng thuật toán xây dựng định lựa chọn thuộc tính tốt nút Trong trường hợp lý tưởng, thuộc tính lựa chọn thuộc tính cho phép chia tập liệu thành tập có nhãn, cần phép kiểm tra thuộc tính phân loại Trong trường hợp nói chung, thuộc tính lựa chọn cần cho phép tạo ta tập có độ đồng cao Yêu cầu đặt cần có cách đo độ đồng tập liệu mức tăng độ đồng sử dụng thuộc tính Thuật tốn xây dựng ID3 sử dụng entropy làm mức đo độ đồng tập liệu Trên sở entropy, thuật tốn tính độ tăng thơng tin mức tăng độ đồng nhất, từ xác định thuộc tính tốt nút Trong trường hợp có hai nhãn phân loại, ký hiệu + -, entropy H(S) tập liệu S tính sau: H (S) = -p+log2p+ - p-log2p- p+ p- xác suất quan sát thấy nhãn phân loại + -, tính tần suất quan sát thấy + – tập liệu Trong tập liệu bảng 4.1, với nhãn dương nhãn âm, ký hiệu [9+, 5-], ta có: H ([9+,5-]) = -(9/14)log2 (9/14) – (5/14)log2 (5/14) = 0.94 Có thể nhận thấy, trường hợp nhãn nhị phân, entropy đạt giá trị tối đa xác suất hai nhãn 0.5, entropy đạt giá trị nhỏ xác suất nhãn nhãn lại Như vậy, entropy nhỏ tập đối tượng đồng Trong trường hợp tổng quát với C nhãn phân loại có xác suất p1, p2, …,pC entropy tính sau: H (S) = −∑C pi log2 pi i=1 Giá trị cực đại entropy log2C nhãn có xác suất giá trị nhỏ entropy tất đối tượng có chung nhãn Sử dụng entropy độ đo mức đồng tập mẫu, ta đánh giá độ tốt thuộc tính cách so sánh entropy trước sau tập mẫu phân chia thành tập theo giá trị thuộc tính Độ tăng thơng tin (Information Gain), ký hiệu IG, số đánh giá độ tốt thuộc tính việc phân chia tập liệu thành tập đồng IG tính dựa entropy theo công thức sau: | SV | H(Sv ) IG(S, A) = H(S) − ∑ v∈values(A) đó: |S| S tập liệu nút A thuộc tính values(A) tập giá trị thuộc tính A Sv tập mẫu có giá trị thuộc tính A v |S| |Sv| lực lượng tập hợp tương ứng Về chất, IG độ chênh lệch entropy tập S tổng entropy tập Sv tạo phân chia S cách sử dụng thuộc tính A Do tập có kích thước khơng nên entropy tập nhân với trọng số |Sv| / |S|, tức tập có kích thước lớn đóng góp nhiều vào tổng entropy Giá trị IG sử dụng để lựa chọn thuộc tính tốt nút Thuộc tính lựa chọn thuộc tính có giá trị IG lớn Ví dụ minh họa c)Lời giải Xác định thuộc tính tốt nút gốc cho liệu bảng 4.1 cách tính IG cho thuộc tính Với thuộc tính Gió: values(Gió) = {yếu, mạnh} S = [9+, 5-], H (S) = 0.94 Syếu = [6+, 2-] , H (Syếu) = 0.811 Smạnh = [3+, 3-], H (Smạnh) = IG (S, Gió) = H (S) – (8/14) H(Syếu) – (6/14) H(Smạnh) = 0.94 –(8/14) * 0.811 – (6/14) * = 0.048 Tính tương tự với ba thuộc tính lại, ta được: IG (S, Trời) = 0.246 IG (S, Độ ẩm) = 0.151 IG (S, Gió) = 0.048 IG (S, Nhiệt độ) = 0.029 Như vậy, thuộc tính tốt Trời sử dụng cho nút gốc Sau chọn nút gốc Trời, ta liệu ba nhánh tương ứng ba giá trị Trời hình 5.4 Để cho tiện số thứ tự ví dụ cho nút {D1, D2, …, D14} [9+, 5-] Trời nắng {D1, D2, D8, D9, D11} [2+, 3-] có ? u ám mưa {D3, D7, D12, D13} {D4, D5, D6, D10, D14} [4+, 0-] [3+, 2-] ? Hình 5.4 Xây dựng định Đối với nhánh giữa, toàn mẫu có nhãn dương, q trình học cho nhánh dừng lại, thuật toán tạo nút với nhãn “có” Đối với nhánh bên trái bên phải, trình học tiếp tục với tập liệu nhánh Dưới minh họa việc tính IG chọn thuộc tính cho nút bên trái IG (Snắng, Độ ẩm) = 0.97 –(3/5)*0 – (2/5)*0 = 0.97 IG (Snắng, Nhiệt độ) = 0.97 – (2/5)*0 –(2/5)*1 – (1/5)*0 = 0.57 IG (Snắng, Gió) = 0.97 – (2/5)*1 – (3/5)*0.918 = 0.019 Thuộc tính Độ ẩm có IG lớn chọn cho nút Kết học đầy đủ thể hình 5.2 e) Kết luận Học định phương pháp học máy tiêu biểu có nhiều ứng dụng phân loại dự đốn Mặc dù độ xác phương pháp khơng thật cao so với phương pháp nghiên cứu gần đây, học định có nhiều ưu điểm đơn giản, dễ lập trình, cho phép biểu diễn hàm phân loại dạng dễ hiểu, dễ giải thích cho người Phương pháp thường dùng phương pháp mở đầu để minh họa cho kỹ thuật học phân loại từ liệu Phương pháp học định sử dụng cho việc học hàm phân loại từ liệu huấn luyện, định sử dụng làm biểu diễn xấp xỉ hàm phân loại, tức hàm có đầu giá trị rời rạc Như nói trên, phương pháp học thuộc loại học có giám sát Phần giúp người đọc làm quen với khái niệm định, đồng thời giới thiệu số thuật toán học định bao gồm ID3 C4.5 5.2.3 Các đặc điểm thuật toán học định Thuật toán học định ID3 có số đặc điểm sau: - ID3 thuật tốn tìm kiếm định phù hợp với liệu huấn luyện - Đây phương pháp tìm kiếm theo kiểu tham lam, từ xuống, rỗng Hàm đánh giá độ tăng thơng tin Tính chất tham lam thuật tốn thể chỗ nút, thuộc tính chọn thuộc tính có hàm mục tiêu lớn nhất, thuật tốn khơng nhìn xa h ơn nút định chọn thuộc tính Khơng gian tìm kiếm đầy đủ, nghĩa theo cách xây dựng vậy, thuật tốn di chuyển tới hợp lệ - ID3 có khuynh hướng lựa chọn định đơn giản tức có nút, nút tương ứng với thuộc tính có độ tăng thơng tin lớn xếp gần gốc Lưu ý: Ở vừa nhắc tới “khuynh hướng” (bias) thuật toán Trong học máy, từ khuynh hướng dùng để tính chất thuật tốn ưu tiên phương án phương án khác hai phương án thỏa mãn yêu cầu đặt Trong trường hợp định, hai phù hợp với liệu thuật tốn có khuynh hướng lựa chọn nút Việc lựa chọn định đơn giản phù hợp với nguyên tắc triết học gọi Occam’s razor (Occam tên nhà triết học) theo có nhiều giả thiết cho phép giải thích số quan sát ưu tiên chọn giả thiết đơn giản 5.2.4 Vấn đề vừa liệu Quá vừa liệu (data overfitting hay đơn giản overfitting) vấn đề thường gặp học máy có ảnh hưởng nhiều tới độ xác kỹ thuật học máy Trong xây dựng định (hay phân loại nói chung), thuật toán học máy thường cố gắng để phù hợp với liệu, tức phân loại mẫu huấn luyện, mức tối đa Tuy nhiên, mục đích học định khơng phải để phân loại liệu mẫu, mà để phân loại liệu nói chung, tức liệu mà thuật toán chưa biết thời gian học Có thể xẩy tình định có độ xác tốt liệu huấn luyện lại cho độ xác khơng tốt liệu nói chung Khi ta nói định vừa với liệu huấn luyện Ta nói định t vừa liệu huấn luyện tồn định t’ cho t xác t’ liệu huấn luyện xác t’ liệu nói chung Lý phân loại làm việc tốt liệu huấn luyện không tốt liệu nói chung mẫu huấn luyện thường khơng đủ khơng mang tính đại diện cho phân bố liệu nói chung Chẳng hạn, số lượng mẫu nút ít, việc xuất tương quan giá trị thuộc tính nhãn phân loại xẩy trùng hợp ngẫu nhiên dẫn tới số thuộc tính phân chia mẫu tốt thực tế thuộc tính khơng có quan hệ với nhãn phân loại Một lý khác dẫn tới vừa liệu liệu huấn luyện có nhiễu thuật tốn cố gắng xây dựng để phân loại ví dụ nhiễu Đối với định, thuật toán ID3 mô tả phát triển nhánh sâu phân loại toàn mẫu, hết thuộc tính Nghiên cứu cho thấy, việc phát triển phức tạp với nhiều nút nguyên nhân dẫn tới vừa liệu Từ đây, có hai nhóm giải pháp để hạn chế q vừa liệu cho thuật toán học định: - Giải pháp dừng việc dựng định sớm, trước đủ phức tạp để phân loại mẫu huấn luyện - Giải pháp xây dựng đầy đủ, sau thực “tỉa” để có đơn giản Trong hai nhóm trên, nhóm giải pháp thứ hai sử dụng thành công thực tế trình bày Chống vừa liệu cách tỉa Trước tiên, để thực tỉa cây, cần có cách xác định độ xác phân loại Do mục đích phân loại mẫu chưa biết q trình huấn luyện nên cách tính độ xác thông dụng sử dụng tập huấn luyện tập kiểm tra riêng sau: - Toàn mẫu chia thành hai tập: tập thứ gọi tập huấn luyện, tập thứ hai gọi tập kiểm tra, thường với tỷ lệ 2:1 - Sử dụng tập huấn luyện để xây dựng cây, sử dụng tập kiểm tra để tính độ xác cây, tức xác định xem kết phân loại phù hợp đến mức với mẫu tập kiểm tra Trong trường hợp liệu, phương pháp hay sử dụng kiểm tra chéo Dữ liệu chia ngẫu nhiên thành n phần Thuật toán sử dụng n-1 phần làm tập huấn luyện phần lại làm tập kiểm tra Độ xác tính độ xác trung bình cho n lần Thủ tục tỉa thực sau Trước tiên sử dụng tập huấn luyện để xây dựng đầy đủ Sau xem xét để tỉa dần nút Khi tỉa nút, toàn nhánh bên nút bị bỏ, nút trở thành nút với nhãn phân loại lấy theo đa số nhãn ví dụ nút Nút tỉa độ xác sau tỉa khơng giảm so với trước tỉa Lưu ý độ xác tính tập kiểm tra Q trình tỉa lặp lại, bước chọn nút để tỉa nút cho phép tăng độ xác phân loại nhiều Thủ tục tỉa nút dừng lại việc bỏ bất nút c cứũng làm giảm độ xác 5.2.5 Sử dụng thuộc tính có giá trị liên tục Thuật tốn trình bày u cầu thuộc tính nhận giá trị rời rạc tập hữu hạn Trong nhiều trường hợp, thuộc tính nhận giá trị liên tục dạng số thực Chẳng hạn, nhiệt độ cho dạng số đo thực ví dụ sau (ở nhiệt độ tính độ F): Nhiệt độ 45 56 60 74 80 90 Chơi tennis khơng khơng có có có khơng Để sử dụng thuộc tính cần tạo thuộc tính rời rạc cho phép phân chia thuộc tính rời rạc thành khoảng giá trị Với thuộc tính liên tục A, cách thường sử dụng tạo thuộc tính rời rạc Ac cho Ac = true A > c Ac = false A ≤ c, c giá trị ngưỡng Vấn đề đặt xác định ngưỡng c Trước hết, c cần chọn cho Ac đem lại độ tăng thông tin lớn Để tìm c vậy, ta xếp ví dụ theo thứ tự tăng dần thuộc tính A, sau xác định trường hợp hai ví dụ nằm cạnh có nhãn khác Giá trị trung bình thuộc tính A hai thuộc tính sử dụng làm giá trị dự kiến c, ví dụ (56+60)/2 = 58 (80+90)/2 = 85 Sau tính độ tăng thông tin cho giá trị dự kiến chọn c đem lại độ thăng thông tin lớn nhất, ví dụ độ thăng thơng tin Nhiệt_độ58 Nhiệt_độ85 Phương pháp mở rộng cách cha giá trị thuộc tính thành nhiều khoảng với nhiều ngưỡng, thay sử dụng ngường ta vừa thấy 5.2.6 Sử dụng cách đánh giá thuộc tính khác Cách đánh giá thuộc tính độ tăng thông tin IG cho kết khơng tốt số trường hợp Cụ thể, việc đánh giá dựa entropy túy dẫn tới việc ưu tiên thuộc tính có nhiều giá trị tạo nhiều tập Trong ví dụ bảng 4.1, sử dụng Ngày thuộc tính, thuộc tính có tới 14 giá trị khác nhau, chia tập huấn luyện thành 14 tập với entropy = có Ngày có IG cao Việc chọn ngày dẫn tới định khơng có khả phân loại ngày Như vậy, thuộc tính Ngày có IG tốt cần tránh ví có nhiều giá trị Để giải vấn đề này, ta thêm thành phần vào cơng thức tính IG để phạt thuộc tính nhiều giá trị Thành phần gọi thông tin chia (Split Informatio – SI) tính sau: SI( , ) =−∑C | Si |log2 | Si | |S| |S| Tiêu chuẩn đánh giá thuộc tính (ký hiệu GR – Gain Ratio) tạo thành cách chia IG cho SI: GR = IG (S, A) / SI (S, A) Một vấn đề cần quan tâm sử dụng GR giá trị SI khơng |Si| = | S| Để xử lý trường hợp cần có quy tắc riêng, chẳng hạn tính GR IG lớn tới mức Bên cạnh GR có nhiều độ đo khác nghiên cứu đề xuất sử dụng xây dựng định 5.3 PHÂN LOẠI BAYES ĐƠN GIẢN Phần đề cập tới phân loại Bayes đơn giản (Naïve Bayes), phương pháp phân loại đơn giản có nhiều ứng dụng thực tế phân loại văn bản, lọc thư rác Phân loại Bayes đơn giản trường hợp riêng kỹ thuật học máy Bayes, giả thiết độc lập xác suất sử dụng để đơn giản hóa việc tính xác suất d) Phương pháp phân loại Bayes đơn giản Tương tự học định trên, phân loại Bayes đơn giản sử dụng trường hợp ví dụ cho tập thuộc tính cần xác định nhãn phân loại y, y nhận giá trị từ tập nhãn hữu hạn C Trong giai đoạn huấn luyện, liệu huấn luyện cung cấp dạng mẫu Sau huấn luyện xong, phân loại cần dự đoán nhãn cho mẫu x Theo lý thuyết học Bayes, nhãn phân loại xác định cách tính xác suất điều kiện nhãn quan sát thấy tổ hợp giá trị thuộc tính Thuộc tính chọn, ký hiệu cMAP thuộc tính có xác suất điều kiện cao (MAP viết tắt maximum a posterior), tức là: y = cMAP = argmax P(c j | x1,x2, ,xn ) cj∈C Sử dụng quy tắc Bayes, biểu thức viết lại sau P( cMAP = cj∈C P(x1, x2, ,xn ) = argmax P(x1,x2, ,xn | c j )P(c j ) cj∈C Hai thành phần biểu thức tính từ liệu huấn luyện Giá trị P(cj) tính tần suất quan sát thấy nhãn cj tập huấn luyện, tức số mẫu có nhãn cj chia cho tổng số mẫu Việc tính P(x1, x2 , ,xn | c j ) khó khăn nhiều Vấn đề số tổ hợp giá trị n thuộc tính với nhãn phân loại lớn n lớn Để tính xác suất xác, tổ hợp giá trị thuộc tính phải xuất nhãn phân loại đủ nhiều, số mẫu huấn luyện thường không đủ lớn Để giải vấn đề trên, ta giả sử thuộc tính độc lập xác suất với biết nhãn phân loại cj Trên thực tế, thuộc tính thường khơng độc lập với vậy, chẳng hạn ví dụ chơi tennis, trời nắng xác suất nhiệt độ cao lớn Chính dựa giả thiết độc lập xác suất đơn giản nên phương pháp có tên gọi “Bayes đơn giản” Tuy nhiên, ta thấy sau đây, giả thiết cho phép tính xác suất điều kiện đơn giản nhiều thực tế phân loại Bayes có độ xác tốt nhiều ứng dụng Với giả thiết tính độc lập xác suất có điều kiện, viết: P(x1, x2 , ,xn | c j ) =P(x1 | c j )P(x2 | c j ) P(xn | c j ) tức xác suất đồng thời quan sát thấy thuộc tính tích xác suất điều kiện tứng thuộc tính riêng lẻ Thay vào biểu thức trên, ta phân loại Bayes đơn giản (có đầu ký hiệu cNB) sau cNB = argmax P(c j )∏ P(xi | c j ) c j∈C i đó, P(xi | c j ) tính từ liệu huấn luyện số lần xi xuất với cj chia cho số lần cj xuất Việc tính xác suất đòi hỏi liệu nhiều so với tính P(x1, x2, ,xn | c j ) Q trình học Bayes đơn giản q trình tính xác suất P(cj) xác suất điều kiện P(xi | c j ) cách đếm tập liệu Học Bayes đơn giản khơng đòi hỏi tìm kiếm không gian phân loại trường hợp học định Ví dụ Để minh họa cho kỹ thuật học Bayes đơn giản, ta sử dụng lại toán phân chia ngày thành phù hợp hay không phù hợp cho việc chơi tennis theo điều kiện thời tiết sử dụng phần học định với liệu huấn luyện cho bảng 4.1 Giả sử phải xác định nhãn phân loại cho ví dụ sau: < Trời = nắng, Nhiệt độ = cao, Gió = mạnh > Thay số thức Bayes đơn giản, ta có: ẩm = Độ trung bình, liệu tốn vào cơng cNB = argmax P(c j )∏ P(xi | c j ) c C i = argmax P (Trời=nắng| cj)P (Nh độ=t bình| cj)P (Độ ẩm=cao| cj)P (Gió=mạnh |cj) c j∈{co,khong} P (cj) Do cj nhận hai giá trị, ta cần tính 10 xác suất Các xác suất P(có) P(khơng) tính tất suất “có” “khơng” liệu huấn luyện P(có) = 9/14 = 0,64 P(khơng) = 5/14 = 0,36 Các xác suất điều kiện tính từ liệu huấn luyện, ví dụ ta có: P (Độ ẩm = cao | có) = 3/9 = 0,33 P (Độ ẩm = cao | không) = 4/5 = 0,8 Thay xác suất thành phần vào công thức Bayes đơn giản, ta được: P(có)P(nắng| có)P(trung bình| có)P(cao| có)P(mạnh| có) = 0.0053 P(khơng)P(nắng| khơng)P(trung bình| khơng)P(cao| khơng)P(mạnh| khơng) = 0.0206 Như vậy, theo phân loại Bayes đơn giản, ví dụ xét phân loại “không” Cần ý rằng, 0.0053 0.0206 xác suất thực nhãn “có” “khơng” Để tính xác suất, ta cần chuẩn hóa để tổng hai xác suất 1, chẳng hạn xác suất có chơi 0.0053/(0.0053+0.0206) = 0.205 Vấn đề tính xác suất thực tế Phân loại Bayes đơn giản đòi hỏi tính xác suất điều kiện thành phần P(xi | c j ) Xác suất tính nc / n, nc số lần xi cj xuất đồng thời tập huấn luyện n số lần cj xuất Trong nhiều trường hợp, giá trị nc nhỏ, chí khơng, ảnh hưởng tới độ xác tính xác suất điều kiện Nếu nc = 0, xác suất điều kiện cuối không, xác suất thành phần khác có giá trị Để khắc phục vấn đề này, kỹ thuật gọi làm trơn thường sử dụng Trong trường hợp đơn giản nhất, ta tính P(xi | c j ) = (nc + 1) /( n + 1) Trong trường hợp chung, sử dụng cơng thức làm trơn sau: nc +mp P(xi | c j ) = n+m p xác suất tiền nghiệm xi m tham số cho phép xác định ảnh hưởng p tới công thức Nếu thêm thơng tin khác xác suất tiền nghiệm thường tính p = / k, k số thuộc tính thuộc tính Xi Ví dụ, khơng có thêm thơng tin thêm xác suất quan sát thấy Gió = mạnh 1/2 thuộc tính Gió có hai giá trị Nếu m = 0, ta công thức không làm trơn ban đầu Ngược lại, m→ ∞, xác suất hậu nghiệm p, nc Trong trường hợp lại, nc / n p đóng góp vào cơng thức e) Ứng dụng phân loại văn tự động Phân loại văn tự động tốn có nhiều ứng dụng thực tế Trước tiên, cho tập huấn luyện bao gồm văn Mỗi văn thuộc vào C loại khác (ở ta khơng xét trường hợp văn thuộc vào nhiều loại khác nhau) Sau huấn luyện xong, thuật toán phân loại nhận văn cần xác định phân loại cho văn Ví dụ, với văn nội dung thư điện tử, thuật tốn phân loại thư thành “thư rác” “thư bình thường” Khi huấn luyện, thuật toán học cung cấp tập thư rác tập thư thường Sau đó, dựa nội dung thư nhận, phân loại tự xác định có phải thư rác khơng Một ứng dụng khác tự động phân chia tin thành thể loại khác nhau, ví dụ “chính trị”, “xã hội”, “thể thao”.v.v báo điện tử Phân loại văn tự động dạng ứng dụng phân loại Bayes đơn giản phương pháp xác suất khác sử dụng thành cơng Chương trình lọc thư rác mã nguồn mở SpamAssassin (http:// spamassassin.apache.org) chương trình lọc thư rác sử dụng rộng rãi với nhiều chế lọc khác nhau, lọc Bayes đơn giản chế lọc gán trọng số cao Sau ta xem xét cách sử dụng phân loại Bayes đơn giản cho toán phân loại văn Để đơn giản, ta xét trường hợp văn nhận hai nhãn: “rác” “không” Để sử dụng phân loại Bayes đơn giản, cần giải hai vấn đề chủ yếu: thứ nhất, biểu diễn văn cho phù hợp; thứ hai: lựa chọn công thức cụ thể cho phân loại Bayes Cách thông dụng đơn giản để biểu diễn văn cách biểu diễn “túi từ” (bag-of-word) Theo cách này, văn biểu diễn tập hợp, phần tử tập hợp tương ứng với từ khác văn Để đơn giản, ta coi từ đơn vị ngôn ngữ ngăn với dấu cách Lưu ý cách đơn giản nhất, ta thêm số lần xuất thực tế từ văn Cách biểu diễn không quan tâm tới vị trí xuất từ văn quan hệ với từ xung quanh, có tên gọi túi từ Ví dụ, văn có nội dung “Chia thư thành thư rác thư thường” biểu diễn tập từ {“chia”, “thư”, “thành”, “rác”, “và”, “thường”} với sáu phần tử Giả thiết từ biểu diễn cho thư xuất độc lập với biết nhãn phân loại, công thức Bayes đơn giản cho phép ta viết: cNB = argmax P(c j )∏ P(xi | c j ) c j∈{rac,khong} = argmax P (cj) P(P(“thư ”| cj) i P(“thành”| cj) c j∈{rac,khong} “chia”| P(“rác”| cj) “và”| cj) P(“thường ”| cj) cj) P( Các xác suất P(“rác”| cj) tính từ tập huấn luyện mô tả Những từ chưa xuất tập huấn luyện bị bỏ qua, không tham gia vào công thức Cần lưu ý cách biểu diễn áp dụng phân loại Bayes đơn giản cho phân loại văn vừa trình bày phương án đơn giản Trên thực tế có nhiều biến thể khác việc chọn từ, biểu diễn văn từ, cơng thức tính xác suất điều kiện văn Mặc dù đơn giản, nhiều thử nghiệm cho thấy, phân loại văn tự động Bayes đơn giản có độ xác cao Trên nhiều tập liệu thư điện tử, tỷ lệ phân loại xác thư rác đạt 98% Kết cho thấy, giả thiết từ độc lập với khơng thực tế, độ xác phân loại Bayes đơn giản không bị ảnh hưởng đáng kể f) Tài nguyên Học tập  PMML (Predictive Model Markup Language) gì? (Alex Guazzelli, developerWorks, 09.2010): Đọc tiêu chuẩn PMML công ty phân tích sử dụng để biểu diễn di chuyển giải pháp dự báo hệ thống  Phân tích dự báo: Đọc trang Wikipedia phân tích dự báo để biết tổng quan ứng dụng kỹ thuật phổ biến sử dụng để đưa dự báo tương lai  PMML hành động: Giải phóng sức mạnh tiêu chuẩn mở để Khai phá liệu Phân tích dự báo (05.2010): Hiểu PMML từ góc nhìn thực tế Tìm đoạn mã khác cho khái niệm thực rõ ràng cách sử dụng ví dụ  Tập đồn khai phá liệu (DMG) liên minh độc lập nhà cung cấp lãnh đạo để phát triển tiêu chuẩn khai phá liệu, chẳng hạn PMML – Ngơn ngữ đánh dấu mơ hình dự báo  Trang Tài nguyên PMML Zementis: Khám phá ví dụ PMML hồn chỉnh  Phân tích nghiệp vụ developerWorks: Tìm thấy tài ngun kỹ thuật phân tích dùng cho nhà phát triển  Nguồn mở DeveloperWorks: Tìm thấy nhiều thơng tin hướng dẫn, công cụ cập nhật dự án để giúp bạn phát triển công nghệ nguồn mở sử dụng chúng với sản phẩm IBM  Các kiện kỹ thuật Webcasts DeveloperWorks: Theo sát với kiện kỹ thuật webcast developerWorks  Podcasts DeveloperWorks : Nghe vấn thảo luận thú vị dành cho nhà phát triển phần mềm  Các kiện kỹ thuật Webcasts DeveloperWorks: Theo sát với kiện kỹ thuật webcast developerWorks Lấy sản phẩm công nghệ Hadoop hỗ trợ số cấu trúc NoSQL, chẳng hạn định dạng không lược đồ khả sử dụng MapReduce để xử lý liệu lưu  Kho liệu InfoSphere cung cấp công cụ đầy đủ để xây dựng phân tích liệu để hỗ trợ nhiều kỹ thuật khai phá liệu  WEKA cơng cụ dựa Java™ hỗ trợ nhiều thuật tốn khai phá liệu thống kê khác (xem thêm slide WEKA)  SPSS gói phần mềm thống kê xã hội Mỹ bao gồm khả phân tích dự báo mạnh  Couchbase Server sở liệu tài liệu NoSQL với MapReduce dựa việc truy vấn lập mục  Phần mềm đánh giá: Tải khám phá dùng thử trực tuyến Sandbox SOA IBM dùng thử công cụ phát triển ứng dụng sản phẩm phần mềm trung gian từ DB2®, Lotus®, Rational®, Tivoli® WebSphere® Thảo luận Nhóm thảo luận PMML: Hãy tham gia nhóm LinkedIn Cộng đồng DeveloperWorks: Kết nối với người sử dụng DeveloperWorks khác bạn khám phá blog, diễn đàn, nhóm wiki theo hướng nhà phát triển    Please check the errata of the textbook draft before you try to identify potential errors in the textbook Thanks for your careful reading  Luận văn : Khai phá liệu thương mại điện tử- xây dựng hệ thống khuyến cáo sản phẩm pot tailieuhay_3489  KHAI PHÁ DỮ LIỆU THƯ VIỆN HỖ TRỢ VIỆC RA QUYẾT ĐỊNH Lưu Thị Quỳnh  LUẬN VĂN NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS & SMARTPHONES)  Tài liệu luận văn: NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM ppt  Tài liệu Luận văn:Nghiên cứu ứng dụng khai phá liệu phân tích số liệu dân cư potx  Luận văn: Tổng quan khai phá liệu ứng dụng ppt  Luận văn tốt nghiệp: Khai phá liệu Web máy tìm kiếm ppt  LUẬN VĂN: Khai phá liệu từ website việc làm doc  Luận văn : Khai phá liệu thương mại điện tử- xây dựng hệ thống khuyến cáo sản phẩm pot  TÓM TẮT LUẬN VĂN THẠC SỸ KỸ THUẬT TIẾP CẬN KHAI PHÁ DỮ LIỆU VĂN BẢN THỬ NGHIỆM ỨNG DỤNG PHƯƠNG PHÁP Naive Bayse TRONG BÓC LỘT THƯ GIÁC TỰ ĐỘNG potx  Luận văn: Khai phá liệu văn tiếng Việt với đồ tự tổ chức ppt  Luận văn :Tìm hiểu tốn khai phá liệu văn doc  luận văn: LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU docx  Luận văn: Luật kết hợp theo tiếp cận lý thuyết tập thô khai phá liệu song song docx  LUẬN VĂN: Tìm hiểu Clementine, áp dụng vào khai phá liệu thống kê dân số ppt ... 1.1.2 Dữ liệu, Thông tin, Tri thức, Uyên thâm Dữ liệu, thông tin, tri thức gì? mối quan hệ chúng? a) Dữ liệu (NHÓM BIÊN SOẠN ĐIỀN BÀI GIẢNG VÀO CHO ĐỦ) +Khái niệm liệu1 : hằng+biến Khái niệm liệu2 :... 3: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu 1.2 CÁC Q TRÌNH KHÁM PHÁ TRI THỨC Khai. .. liệu 1.2 CÁC Q TRÌNH KHÁM PHÁ TRI THỨC Khai phá tri thức sở liệu (Knowleadge Discovery in Database: KDD) bao trùm khai phá liệu Khai phá liệu xử lý liệu, nhận biết mẫu xu hướng thông tin để định

Ngày đăng: 20/06/2018, 09:30