1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tài liệu Lịch sử khai phá dữ liệu ppt

13 579 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 97,5 KB

Nội dung

MỤC LỤC MỤC LỤC .1 Chương 1: Nền tảng ứng dụng khai phá liệu I Mở đầu .2 II Lịch sử ngành khoa học thống kê khai phá liệu .3 III Khoa học thống kê đại IV Hai quan điểm thực tế .7 V Sự xuất phân tích thống kê đại: Thế hệ thứ hai VI Dữ liệu, liệu nơi 10 VII Phương pháp học máy: Thế hệ thứ ba 11 VIII Học thuyết thống kê: Tổng quan thứ 12 PHỤ CHÚ 13 Chương 1: Nền tảng ứng dụng khai phá liệu I Mở đầu Bạn đọc người thích thú với lĩnh vực ứng dụng khai phá liệu vào thực tiễn Nếu khơng bạn chẳng đọc sách Chúng ta biết có nhiều sách viết trình khai phá liệu Hầu hết tài liệu tập trung trình bày đặc điểm, chức công cụ giải thuật khai phá liệu khác Một số tài liệu khác lại tập trung vào việc đề cập đến thách thức mà gặp phải trình khai phá liệu Cuốn sách trình bày với mục đích hồn toàn khác, nhằm cung cấp cho bạn một nhìn tổng quan ứng dụng khai phá liệu thực tiễn Điều mà phải xem xét tới muốn thực trình khai phá liệu tác nghiệp doanh nghiệp lựa chọn cơng cụ khai phá liệu Thật khó để nhìn thực đằng sau lời quảng cáo thổi phồng công ty phần mềm công cụ khai phá liệu mà họ phát triển Thực tế cho thấy cơng cụ khai phá liệu "xồng xĩnh" có khả tạo mơ hình đạt chất lượng tốt, thua chút (khoảng 10% chất lượng) so với mơ hình tạo công cụ khai phá xem tốt Một giải pháp khai phá liệu đạt chất lượng tốt thực với cơng cụ chi phí thấp cho hiệu kinh tế cao nhiều so với việc sử dụng công cụ đắt tiền mà hiệu cao khoảng 10% Vậy bạn lựa chọn công cụ khai phá liệu cho nào? Một vài tổng kết đưa Danh sách công cụ tốt phổ biến cập nhật năm trang KDNuggets.com Một số tổng kết có tài liệu khơng chỉ đơn thảo luận đặc điểm chức công cụ Việc so sánh công cụ khai phá liệu cách chi tiết xác thú vị "Những tài liệu download nhiều tài liệu liên quan đến lĩnh vực khai phá liệu" - điều thật dễ hiểu lại công cụ đời cách chục năm tổng kết Elder Abbott vào năm 1998 Những cân nhắc khác cần phải tính tới muốn xây dựng ứng dụng khai phá liệu tác nghiệp doanh nghiệp thành lập nhóm phát triển, thiết lập tảng, tổ chức việc ứng dụng khai phá liệu cho hiệu Cuốn sách không thảo luận chủ đề xây dựng tảng cho khai phá liệu Chủ đề đề cập nhiều sách Một sách tốt, cung cấp nhìn tổng quan việc xây dựng tảng cho khai phá liệu cuốn: "Khai phá liệu: khái niệm phương pháp" biên soạn Han Kamber, phát hành năm 2006 Trọng tâm sách trình bày cách tiếp cận theo hướng thực hành để xây dựng mơ hình khai phá liệu hiệu quả, tốn kém, hướng tới việc góp phần tăng lợi nhuận cho doanh nghiệp, sử dụng học phiên demo công cụ khai phá liệu thường dùng Chúng ta không cho tảng sở khai phá liệu khơng quan trọng Nó thực quan trọng cho dù có nhận từ đầu hay khơng Lý phương pháp luận khoa học thống kê khai phá liệu tự nhiên mà có Phương pháp phân tích liệu phát triển dựa kết hợp lý thuyết phân tích thống kê tốn Yếu tố thúc đẩy phát triển yêu cầu cấp bách cần phải có phương pháp phân tích đơn giản, có tính lặp phục vụ cho y học Bắt đầu từ đây, phương pháp luận phân tích số liệu thống kê đại khai phá liệu phát triển Để hiểu sức mạnh giới hạn phương pháp sử dụng chúng cách hiệu quả, phải hiểu sức mạnh giới hạn lý thuyết thống kê toán sử dụng làm tảng cho phương pháp Lý thuyết thống kê toán phát triển cách định hướng nhà toán học xuất cách nhìn khác cách thức giải tốn phân tích số liệu Để hiểu cách tiếp cận giải toán, phải hiểu đường khác mà người hướng tới Sự phát triển lĩnh vực toán học thống kê tảng sở cho kỹ thuật thống kê khác Chúng thúc đẩy nhu cầu tác vụ khai phá liệu phức tạp II Lịch sử ngành khoa học thống kê khai phá liệu Nhu cầu phân tích mẫu liệu khơng phải mẻ Những khái niệm thống kê toán giá trị trung bình hay phân nhóm biết đến từ thời cổ đại Trung Quốc sau người ta phát minh bàn tính Ở Trung Quốc Hy Lạp cổ đại, phát triển khoa học thống kê giúp cho giai cấp thống trị quản lý cách hiệu vấn đề ngân khố quân Trong kỷ 16 17, trò chơi may rủi phổ biến giới thượng lưu Những câu hỏi xác suất thường đặt cho nhà toán học Điều thúc đẩy nghiên cứu xác suất thống kê giai đoạn sau III Khoa học thống kê đại Hai nhánh khoa học phân tích thống kê phát triển vào kỷ thứ 18: Thống kê Bayes thống kê phân lớp Chúng ta xem giai đoạn phát triển ngành khoa học thống kê Theo quan niệm lý thuyết thống kê Bayes xác suất xảy kiện tính xác suất xảy kiện khứ nhân với khả xảy kiện tương lai Q trình phân tích dựa khái niệm xác suất có điều kiện: xác suất kiện xảy xác định thông qua kiện khác xảy đến Phân tích Bayes khởi đầu việc đánh giá trạng thái liên quan đến hiểu biết, niềm tin giả định quan sát viên Những yếu tố chủ quan kết hợp với liệu xác định cách gần xác suất thông qua hàm mục tiêu Phương pháp thống kê phân lớp quan tâm đến xác suất phận xác suất có điều kiện, thực tảng phù hợp cho việc phân tích Hàm xác suất phận mô tả xuất mà X nhận giá trị cụ thể x Y nhận giá trị y lúc hàm biến x, y Sự quan tâm nghiên cứu lý thuyết xác suất lôi nhiều nhà khoa học lĩnh vực sinh học sau Mendel nửa sau kỷ XIX Francis Galton, người sáng lập trường nghiên cứu Di truyền học Anh người kế nhiệm ông Karl Pearson phát triển khái niệm toán học hồi quy tương quan để phân tích liệu liên quan đến q trình tiến hóa sinh vật Sau Pearson đồng mở rộng phạm vi nghiên cứu ứng dụng họ vào lĩnh vực khoa học xã hội Tiếp sau Pearson, R.A.Fisher phát triển hệ thống kiểm tra kết luận sử dụng nghiên cứu y học dựa khái niệm ông đưa độ lệch chuẩn Sự phát triển lý thuyết xác suất vượt phát kiến Galton Pearson, phương pháp dự đoán sớm đời sau lý thuyết Bayes Những phương pháp cận Bayes việc kiểm tra kết luận thí nghiệm y học dẫn tới kết luận khác đưa y bác sĩ làm nhiệm vụ theo dõi nghiên cứu họ chịu tác động yếu tố mang tính chủ quan khác Mục tiêu Fisher việc phát triển hệ thống phân tích thống kê ông nhằm cung cấp cho chuyên gia y học theo dõi thí nghiệm tập cơng cụ nhằm so sánh kết nghiên cứu hiệu phương pháp điều trị khác nhau, thực chuyên gia y tế khác Tuy nhiên hệ thống làm việc với mẫu lớn, Fisher phải đưa số giả định để định nghĩa "Mơ hình tham chiếu" Các giả định mơ hình tham chiếu: Dữ liệu tương thích với phân bố biết Những nghiên cứu Fisher dựa tính tốn tham số độ lệch chuẩn với giả định liệu phân bố theo phân bố chuẩn Phân bố chuẩn phân bố hình "chng" với giá trị trung bình nằm "đỉnh chuông" "đuôi" kết thúc bên Độ lệch chuẩn dây đơn giản giá trị trung bình trị tuyệt đối độ lệch giá trị khác giá trị trung bình Trong tính tốn này, khái niệm trung bình xác định cách chia tổng giá trị tuyệt đối độ lệnh chuẩn cho số lượng độ lệch chuẩn - Phép trừ cho thấy tính khơng chắn kết tăng lên việc phân nhóm Những cải tiến sau sử dụng tham số bổ trợ dựa phân bố logistic phân bổ Poisson Giả định phân bố biết cần thiết để khắc họa đặc điểm hàm phân bố nhằm đưa kết luận Tất phương pháp sử dụng tham chiếu ẩn chứa rủi ro ép liệu thu nhận từ giới thực phải thỏa mãn mơ hình tốn học mà chất không phù hợp Tính độc lập nhân tố Trong hệ thống dự đoán, biến dự đoán (Y) xem hàm biến quan trắc (X), biến giả thiết tác động cách độc lập lên Y Điều có nghĩa tác động lên Y biến X không phụ thuộc vào tác động biến X khác Những tình tạo phịng thí nghiệm cách cho phép nhân tố thay đổi nhân tố khác giữ cố định Tuy nhiên giới thực, điều Như kết tất yếu, vài nhân tố (có khả tác động đến nhân tố khác) tham gia vào trình tác động lên Y Hiện tượng gọi collinearity Khi tượng xảy số lượng nhiều hai nhân tố gọi multicollinearity Do tác động lẫn nhân tố đầu vào nên nhà thống kê học phải sử dụng khái niệm liên quan đến tương tác mối quan hệ nhân tố (được biểu diễn kết hợp tác động) Tích lũy tuyến tính Khơng u cầu biến X độc lập mà tác động chúng lên Y phải mang tính tích lũy tuyến tính Có nghĩa tác động nhân tố cộng thêm hay trừ kết hợp tác động từ tập biến X lên Y Nhưng điều xảy trường hợp quan hệ Y biến quan trắc X thông qua phép cộng mà phép nhân hay phép chia Những trường hợp mơ tả thơng qua phép toán lũy thừa thường dùng phổ biến muốn biểu diễn mối quan hệ không tuyến tính Giả thiết tính tích lũy tuyến tính cho mối quan hệ gây lỗi lớn kết dự đoán Điều thường xảy trường hợp chúng sử dụng để xử lý liệu kinh doanh doanh nghiệp Tính biến đổi Sự thay đổi giá trị miền xác định biến giả thiết số Điều có nghĩa ta chia miền xác định biến thành vùng thay đổi giá trị vùng giống tất vùng lại Các biến phải mang giá trị số liên tục Giả thiết biến phải mang giá trị số liên tục có nghĩa liệu mà xem xét phải liệu kiểu số (hoặc chúng phải số hóa trước tiến hành phân tích) số xem phần cấu thành phân bố liên tục Các giá trị nguyên coi liên tục, chúng giá trị rời rạc Những phương pháp thống kê phân lớp chuẩn hóa khơng cịn sử dụng với liệu rời rạc phân bố xác suất áp dụng cho liệu rời rạc liên tục khác Tuy nhiên nhà khoa học hay chuyên gia phân tích kinh tế sử dụng chúng tùy đièu kiện Trong viết mình, Fisher (1921) bắt đầu việc định nghĩa rộng xác suất xác suất nội để kiện xảy chia cho xác suất để tất kiện khác xảy đồng thời Kết thúc viết Fisher cải biên định nghĩa xác suất để áp dụng cho việc phân tích kết nghiên cứu y học xác suất nội q trình xảy kiện Ơng đặt tên cho đại lượng "khả xảy kiện" (likelihood) Những nhà nghiên cứu sau xem hai định nghĩa "khả xảy ra" hay "xác suất" IV Hai quan điểm thực tế Bất xem xét giải vấn đề trả lời câu hỏi, bắt đầu khái niệm Điều có nghĩa làm hai điều: (1) cố gắng làm giảm để yếu tố (2) cố gắng để phân tích điều kiện chung Việc kêu gọi người có cách tiếp cận cụ thể "và" người dân tranh lớn, "tương ứng Những chúng tơi khơng coi phân biệt có nguồn gốc sâu xa triết học Hy Lạp cơng trình Aristotle Plato Aristotle : tin vật nhận thức thực tế mắt nhìn thấy, tay liên lạc, vv Ông tin mức độ cao hoạt động trí tuệ nghiên cứu chi tiết giới hữu hình xung quanh Chỉ cách hiểu thực tế Dựa cách tiếp cận để hiểu giới, Aristotle dẫn dắt để tin phá vỡ hệ thống phức tạp thành miếng, mô tả mảnh cụ thể, đặt mảnh với hiểu toàn Đối với Aristotle, "toàn bộ" tổng phận Điều chất toàn xem Aristotle theo phương cách giống máy Khoa học đến với Aristotle sớm Bản chất giới xung quanh nghiên cứu cách nhìn kỹ yếu tố vật lý đơn vị sinh học (lồi) mà bao gồm Theo hiểu biết giới tự nhiên trưởng thành vào khái niệm hệ sinh thái, phát nhiều đặc tính hệ sinh thái khơng thể giải thích truyền thống (Aristotle) phương pháp tiếp cận Ví dụ, khoa học lâm nghiệp, chúng tơi phát khu rừng nhiệt đới bị cắt xuống phạm vi nó, thời gian dài để tái sinh Chúng học lý cho việc khu vực căng thẳng tương đối (ví dụ, khu vực ngoại vi), đặc điểm cần thiết cho sống phát triển nhiệt đới trì rừng tự! Lượng mưa cao làm tan chất dinh dưỡng xuống vượt tầm với gốc cây, gần tất chất dinh dưỡng cho tăng trưởng phải từ gần giảm Khi bạn đốn hạ chúng xuống, bạn loại bỏ nguồn gốc chất dinh dưỡng Tán rừng trì điều kiện thuận lợi ánh sáng, độ ẩm, nhiệt độ yêu cầu Loại bỏ tán rừng loại bỏ yếu tố cần thiết cho để tồn Các yếu tố xuất hệ thống toàn hoạt động Nhiều hệ thống phức tạp thế, chí hệ thống kinh doanh Trong thực tế, tài sản lên trình điều khiển hệ thống ổn định tính dự đốn trước Để hiểu thất bại triết học Aristotle cho hoàn toàn xác định giới, phải trở Hy Lạp cổ đại, xem xét đối thủ Aristotle, Plato:Plato Aristotle đồng ý vào chất người Trong Aristotle tập trung vào miêu tả thứ hữu hình giới nghiên cứu chi tiết, Plato tập trung vào giới ý tưởng mà nằm đằng sau xúc Đối với Plato, điều mà kéo dài ý tưởng Ông tin điều quan trọng tồn người vượt mà mắt nhìn thấy bàn tay nhận biết Plato tin ảnh hưởng ý tưởng vượt lên giới vật hữu hình mà định hướng nhiều quan tâm Aristotle Đối với Plato, "toàn bộ" thực tế lớn tổng phần hữu hình Khái niệm chất bị phát triển ban đầu tư phương Tây tảng Platon Platonism làm chủ nhận thức triết học 2.000 năm, thay đổi Sau đó, sóng tư phương Tây chuyển hướng Aristotle Sự phân chia tư tưởng vào chất thực tế phản ánh nhiều nỗ lực để xác định chất thực tế giới, vô thức Chúng tơi nói khác biệt "người dân tranh lớn" người cụ thể "", tương phản "từ xuống" so với phương pháp tiếp cận để tổ chức "từ lên" phương pháp tiếp cận, so sánh "trái óc" người có "quyền-nao" người dân Những dichotomies nhận thức rehash tranh luận cổ đại Plato Aristotle V Sự xuất phân tích thống kê đại: Thế hệ thứ hai Trong năm 80 kỷ XX, nhà toán học thống kê biết rõ cách tiếp cận Aristotle khứ hạn chế cho việc phân tích mối quan hệ phi tuyến liệu lớn hệ thống phức tạp giới thực Nghiên cứu toán học tiếp tục theo đường thống kê Fisherian việc phát triển phiên phi tuyến phương pháp tham số Đa đường cong hồi quy phương pháp tiếp cận cho kế toán cho phi tuyến liệu phân tán liên tục Tuy nhiên, nhiều vấn đề phi tuyến liên quan đến rời rạc phân tán liên tục Những phương pháp gồm có: - Mơ hình Logit (bao gồm hồi quy logistic): Dữ liệu giả định theo phân tán logistic biến phụ thuộc khơng có điều kiện Trong phương pháp biến phụ thuộc (Y) định nghĩa hàm lũy thừa biến dự đoán (X) Như mối quan hệ thống kê phi tuyến từ vai trò biến - X tới biến Y tương tác biến X Mô hình Probit (bao gồm hồi quy Poisson): Giống mơ hình Logit ngoại trừ - việc giả định liệu theo phân tán Poisson Mơ hình tuyến tính suy rộng (GLM): Mơ hình GLM mở rộng phương trình dự đoán sử dụng việc dự đoán Y = f {X}, f hàm X veto biến dự đốn Vế trái phương trình gọi thành phần xác định, phải gọi thành phần ngẫu nhiên dấu nhiều hàm liên kết Phương pháp thống kê nhận thành phần xác định biểu diễn hàm số mũ (giống hàm logistic), thành phần ngẫu nhiên tích lũy tác động biến X tuyến tính Hàm liên kế tốn tử logic (bằng, lớn hơn, nhỏ hơn) Dấu gọi liên kết đồng Hiện nhà toán học có sở để định nghĩa hàm phù hợp tập liệu phi tuyến Nhưng để lại cho phát triển mạng nơron để diễn tả hàm độ phi tuyến Trong phát triển xảy giới Fisher, nhóm kiên định Bayes tiếp tục đưa phương pháp tiếp cận họ Theo họ ý nghĩa thực hành (liên quan tới xảy khứ) quan trọng ý nghĩa thống kê tính tốn từ hàm xác xuất Ví dụ, nhu cầu thực hành để chuẩn đoán khối u ung thư cách xác (đúng – tích cực) quan trọng lỗi việc chuẩn đoán sai khối u ung thư sai (tiêu cực) Trong lĩnh vực ý thuộc Plato, liên quan đến chuẩn đốn xác với mơi trường liệu từ mẫu riêng biệt lấy khơng phải dự đốn số mẫu Đề phục vụ nhu cầu thực hành họ bỏ qua thực tế bạn xem xác suất kiện xảy môi trường liệu khứ, xác xuất kiện xảy xảy khơng xảy Trong thống kê Fisher quan sát lỗi alpha tương ứng xác định khác với mong đợi Lỗi alpha xác suất để bạn sai bạn nghĩ bạn Trong lỗi beta xác suất bạn bạn nghĩ bạn sai Những người Fisherian đặt lỗi alpha đầu phân tích tham chiếu tới sai khác có ý nghĩa mật độ liệu khái niệm lỗi alpha xác định Những người Fisherian thêm hậu tố vào dự đốn “ mức độ tin tưởng 95%” Mức độ tin tưởng (95% trường hợp này) phần bù lỗi alpha (0.05%) Nó có nghĩa nhà điều tra hài lòng 5% sai số thời gian Những người Fisherian sử dụng lỗi beta để tính tốn khả hay bùng nổ thử nghiệm phân tích Những người Bayesian cảm thấy tự xoay vòng lỗi alpha beta, họ cho bạn khơng thể đạt tới độ xác mà khơng giả định số lựa chọn thay cách cẩn thận Họ xác nhận mức xác suất tính mức 0.23 kiện cho trước liệu mẫu khơng có ý xác suất tất kiện giới 0.23 Phương pháp tiếp cận đúng, Fisherian hay Bayesian Câu trả lời phụ thuộc vào chất nghiên cứu, khả việc giả định, chi phí liên quan lỗi saitiêu cực lỗi đúng-tích cực Trước lựa chọn điều phải nhớ tất thử nghiệm thống kê có ưu điểm nhược điểm Chúng ta phải hiểu rõ điểm mạnh điểm yếu phương pháp hiểu rõ ý nghĩa kết mà phương pháp tạo Mặc dù có tồn phép thống kê Fisher Bayes tìm vai trị to lớn lĩnh vực phát triển khai phá liệu kinh doanh Mạng tin cậy Bayes Phân loại Bayes đơn giản Trong kinh doanh, thành công ứng dụng thực tế phụ thuộc vào độ hồn hảo phân tích tất thay biến Các thay không khả thi giá trị giả định Một hướng dẫn đính kèm đĩa DVD sử dụng thuật tốn phân loại Bayes đơn giản VI Dữ liệu, liệu nơi Xem xét kỹ nhu cầu thực hành việc kinh doanh để rút tri thức từ liệu làm địn bẩy để tăng doanh thu yêu cầu kỹ thuật phân tích cho phép phân tích sâu sắc mối quan hệ phi tuyến tập liệu lớn với phân tán không xác định Sự phát triển kỹ thuật theo đường tốt 10 theo đường truyền thống Đường thứ (học máy) xem đường cong Aristote Plato tới thực Bayes VII Phương pháp học máy: Thế hệ thứ ba Dòng suy nghĩ biết cách học máy bắt đầu trao đổi trí thơng minh nhân tạo q trình cho máy thơng minh Bắt đầu, vài cách theo cách phát triển song song: mạng lưới neuron nhân tạo định - Mạng lưới neuron nhân tạo Con đường tìm kiếm để nhấn mạnh chức biến thiên trực tiếp ( gọi tắt nguyên nhân) cách phân định quan trọng tới việc nhập biến thiên, tăng ảnh hưởng nó, tác động tới sản xuất giá trị bên ( gọi tắt kết quả) theo vài chức định Hệ thống (mạng lưới neuron nhân tạo) trình bày đơn giản theo cách mà não người hoạt động qua xung lực neuron từ kết nối neuron toi neuron Sự “ chống đối” trình xung lực neuron não người nhiều Mối quan hệ phức tạp neuron huấn luyện học cách đối phó nhanh yêu cầu từ não Các nhà khoa học máy tính bắt đầu phát biểu cách tổng quát nhóm hệ thống phần hệ thống neuron nhân tạo mà học để nhận thức việc phức tạp việc nhập nhiều việc liệu - Các định : Con đường thứ phát triển quan tâm với việc biểu lộ hiệu trực tiếp cách phát triển tới tìm kiếm quy luật mà đáng giá cho việc phân việc nhập giá trị vào vơ số “bins” mà khơng có biểu lộ trực tiếp chức mối quan hệ Tất cách tập trung diễn đạt rõ ràng quy luật ( phương pháp quy nạp) hay biểu lộ mối quan hệ quy luật ( định) mà kết trọng Tất phương pháp tránh phê bình học thuyết Kim Tự Tháp thích hợp phân tích vơ tuyến ( viết tắt NLEs), kết hợp ảnh hưởng X-biến thiên với Y-biến thiên tác động qua lại biến thiên độc lập Khi định hệ thống neuron biểu lộ NLEs phức tạp phương pháp thống kê Kim Tự Tháp, tất thuộc chất tuyến kết hợp chức 11 VIII Học thuyết thống kê: Tổng quan thứ Các kỹ thuật hồi quy logistic tính tốn cho kết hợp tác động qua lại yếu tố dự báo hiệu chức vô tuyến mà xác định biến thiên độc lập (Y) Tuy nhiên, nhiều hạn chế đáng kể cho máy tuyến tính ( xem Minsky Papert, 1969) Ngay hệ thống neuron định gặp vấn đề cách để thể hạn chế nhìn chúng theo “ giả thuyết khơng gian” Giả thuyết khơng gian xây dựng vịng giải pháp tìm thấy Tuy nhiên giải pháp ràng buộc cao chức tuyến tính học thuyết thống kê cổ điển kỹ thuật học máy Sự phức tạp vấn đề giới thật yêu cầu nhiều học thuyến khơng gian mà cung cấp chức tuyến tính để diễn đạt rõ ( Cristianini Shawe-Taylor, 2000) Mạng lưới đa lớp neuron chiếm nhiều hiệu ứng vơ tuyến hiệu nhà kỹ thuật mạng kỹ nghệ giảm thiểu lỗi, ví dụ lan truyền trở lại Một cách giải khác xếp điểm liệu vào vectors ( hàng mục lưu trữ khách hàng) Rất nhiều vectors tạo từ nhiều yếu tố ( cho thuộc tính lưu trữ khách hàng) Vector không gian hàng liệu khách hàng database đặc điểm hóa , thuộc nhận thức toán học không gian với N-thứ nguyên, mà N số thuộc tính khách hàng( biến dự đóan trước) Khi bạn xem liệu lưu trữ khách hàng vector, bạn tận dung khái niệm đại số tuyến tính, cách bạn biểu diễn khác thuộc tính lưu trữ khách hàng cách tính dấu chấm sản phẩm ( sản phẩm bên trong) Chúng ta biểu diễn liệu dạng chuỗi tích vơ hướng không gian N chiều Ngay thuật tốn thống kê cổ điển biểu diễn tương tự Trong Lý thuyết Học qua thống kê (Statistical Learning Theory), người ta dùng nhiều hàm phức khác gọi “hàm nhân” thay cho tích vơ hướng Khi bạn ánh xạ liệu vào không gian nhân phức này, khơng gian giải pháp cho toán bạn tăng đáng kể Dữ liệu không gian gọi “đặc điểm” thuộc tính đặc trưng cho liệu gốc Nhiều kỹ thuật học tận dụng đặc tính máy học qua hàm nhân Kỹ thuật áp dụng phổ biến Máy Vector hỗ trợ (Support Vector 12 Machine) Khi mạng neuron “đào tạo,” hàng liệu khách hàng đưa vào mạng này, ta tính sai số giá trị đoán trước giá trị quan sát Hàm tiếp thu máy hàm giảm thiểu sai số lồng ghép chặt chẽ với mạng lưới neuron Điều không xảy trường hợp sử dụng máy Vector hỗ trợ Bởi trình tiếp thu máy trình ước tính hai q trình tách biệt nên bạn thí nghiệm cách sử dụng nhiều hàm nhân khác với nhiều thuyết máy học khác Do đó, thay chọn nhiều cấu trúc khác cho ứng dụng mạng neuron, bạn thử nhiều hàm nhân khác máy vector hỗ trợ Nhiều gói phần mềm thương mại kèm theo thuật toán dựa tên Thuyết Học qua Thống Kê, đáng kể STATISTICA Data Miner KXEN (Knowledge Extraction Engine) Trong tương lai, ta thấy nhiều thuật toán mạnh mẽ tronrg gói phần mềm thương mại Cuối cùng, cách thức khai thác liệu tập trung quanh bước cho phép thuật toán làm việc hiệu Khi ta tích luỹ ngày nhiều liệu, ta ngày khám giá cách thức thông minh để giả lập giống hoạt động máy học phức tạp giới — não người PHỤ CHÚ Hiện người ta khai thác nhiều phương thức để phân bổ cơng việc tính tốn nhiều máy tính nối với nhiều tế bào thần kinh não: • Điện tốn lưới: Tận dụng nhóm máy tính có kết nối với để “chia trị” tốn • Điện tốn mây: Dùng Internet để phân bố liệu tác vụ tính tốn tới nhiều máy tính nơi giới, không cần kết cấu phần cứng tập trung điện toán lưới 13 ... có tài liệu không chỉ đơn thảo luận đặc điểm chức công cụ Việc so sánh công cụ khai phá liệu cách chi tiết xác thú vị "Những tài liệu download nhiều tài liệu liên quan đến lĩnh vực khai phá liệu" ... cho khai phá liệu cuốn: "Khai phá liệu: khái niệm phương pháp" biên soạn Han Kamber, phát hành năm 2006 Trọng tâm sách trình bày cách tiếp cận theo hướng thực hành để xây dựng mơ hình khai phá liệu. .. dụng khai phá liệu tác nghiệp doanh nghiệp thành lập nhóm phát triển, thiết lập tảng, tổ chức việc ứng dụng khai phá liệu cho hiệu Cuốn sách không thảo luận chủ đề xây dựng tảng cho khai phá liệu

Ngày đăng: 24/12/2013, 17:15

TỪ KHÓA LIÊN QUAN

w