1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính

138 33 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Giảng Học Máy
Tác giả PGS.TS. Nguyễn Quang Hoan
Trường học Trường Đại Học Hạ Long
Chuyên ngành Khoa Học Máy Tính
Thể loại bài giảng
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 138
Dung lượng 2,76 MB

Nội dung

Học máy [Type here] TRƯỜNG ĐẠI HỌC HẠ LONG KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG HỌC MÁY Ngành: Khoa học Máy tính Biên soạn: PGS.TS Nguyễn Quang Hoan Hà Nội 2.2022 [Type here] [Type here] [Type here] Học máy [Type here] GIỚI THIỆU HỌC PHẦN Hiệu chỉnh vài điểm cho phù hợp với CNTT.Hạ Long sau: Cắt chương Mạng Perceptron Lý do: CNTT Hạ Long có mơn mạng nơ ron chứa Mạng Percptron Chương trình ”Học Máy” Hồng Xn Huấn hay phù hợp với ĐH Cơng nghệ, có tính ”tốn học”, tính ”tổng hợp”, chưa hợp với CNTT Đại học Hạ Long mang tính ứng dụng, tính ”Kỹ nghệ: Engineering” Nên thay nói nhiều cơng thức, mơ hình tốn ta thay thuật tốn, cách giải Đổi thành phần (hầu hết chương đó) sau - Giới thiệu học phần PHẦN I GIỚI THIỆU Chương 1: Giới thiệu 1.1 Khái niệm định nghĩa học máy 1.2 Các toán học 1.3 Phân loại học máy PHẦN II HỌC GIÁM SÁT VÀ ỨNG DỤNG Chương 2: Học lười hay học dựa ví dụ: Thuật tốn K-NN 2.1 Phân lớp K-láng giềng gần 2 Chọn đặc trưng 2.3 Đánh giá phân lớp Chương 3: Cây định 3.1 Các thuật toán học định 3.2 Học thống kê định-Thuật toán Quin Lan 3.3 Học dựa Entroppy-Thuật toán độ lộn xộn 3.4 Thuật toán ID3 3.5 Thuật toán C4.5, C5.0 3.6 Phần mềm WEKA, Các tiêu đánh giá kết phân lớp 3.7 Thuật toán học định quy nạp-ILA Chương 4: Học thống kê Bayes 4.1 Tóm tắt Lý thuyết xác suát, Lý thuyết định Bayes 4.2 Phân lớp Bayes 4.3 Thuật toán Bayes ứng dụng cho dự báo 4.4 Đánh giá phân lớp [Type here] [Type here] [Type here] Học máy [Type here] 4.5 Mạng Bayes Chương 5: Hồi quy 5.1 Khái niệm Hồi quy 5.2 Hồi quy tuyến tính 5.3 Hồi quy Logicstic 5.4 Hồi quy phi tuyến Chương Máy học véc tơ hỗ trợ 6.1 Khái niệm 6.2 Máy véc tơ hỗ trợ PHẦN III HỌC KHÔNG GIÁM SÁT VÀ ỨNG DỤNG Chương 7: Học không giám sát 7.1 Ước lượng hàm mật độ 7.2 Các thuật toán phân cụm 7.3 Thuật tốn phân cụm K-Mean Ơn tập kiểm tra định kỳ PHẦN IV HỌC TĂNG CƯỜNG VÀ ỨNG DỤNG Chương 8: Học tăng cường 8.1 Tác tử toán học 8.2 Học Q (Q-learning) 8.3 Các giải thuật tiến hóa Chương 9: Kết hợp học hướng phát triển 9.1 Học tập thể 9.2 Phương pháp bỏ phiếu 9.3 Kỹ thuật tạo kết hợp nhận dạng sở Ôn tập kiểm tra [Type here] [Type here] [Type here] Học máy [Type here] PHẦN I GIỚI THIỆU HỆ HỌC HAY HỌC MÁY CHƯƠNG 1: GIỚI THIỆU HỌC MÁY 1.1 1.1.1 Khái niệm định nghĩa học máy Khái niệm học máy  Học (Learning) theo nghĩa thông thường: tiếp thu (thu nhận) kiến thức, hiểu biết: tìm điều chưa biết Học máy tương tự: Máy tính tiếp thu kiến thức, tri thức  Khái niệm học có nghĩa rộng giống thông minh (Intelligence) Học máy lĩnh vực AI Theo nghĩa tự điển, học trình thu nhận kiến thức, Tri thức (Knowledge), kỹ người khác truyền lại tự học cách đọc đi, đọc lại, nghiền ngẫm ghi nhớ (học thuộc lịng) Rộng hơn, học bao gồm q trình đúc rút tri thức từ quan sát, trải nghiệm thực tiễn (Experience)  Tri thức (nhắc lại từ TTNT) Trước tiên tìm hiểu thơng tin, tri thức, liệu thơng qua hình 1.1 sau: Thể tri thức để đưa vào máy tính: a)Tri thức: Có thể định nghĩa đơn giản sau: Knowledge=Sự kiện (Events or fact)+quy luật (Rules) Sự kiện: ví dụ kiện 1: ”Trời mưa”=A (A ký hiệu biến, gọi biến ngơn ngữ) ví dụ kiện 2: ”Đất ướt”=B (B ký hiệu biến khác, biến ngôn ngữ) Như kiện, coi tri thức đơn gian nhất, liệu, data Quy luật (luật), quy tắc, hay mối quan hệ giũa kiện: Từ kiện A dẫn đến kết B hay: A->B tương đương: IF A, THEN B: gọi luật “ (nguyên) Nhân, (dẫn tới kết ) Quả Luật cịn có tên khác: Luật sinh sản, luật sinh, luật sản xuất (Production Rule)    Tri thức khác liệu (Data) Định nghĩa Data thuộc tính Dữ liệu gì? Có nhiều định nghĩa khác DATA=THƠNG TIN? Ta làm rõ hoạt động: Trong lập trình: Data=biến (Variables)+Hằng (Constant) Ví dụ Assembly Ví dụ: giải phương trình bậc 2: biến: x1, x2 Hằng có : a, b, c Trong CNPM: liệu nguyên liệu thô đưa vào sản xuất Ví dụ điểm SV lớp ta ngun luyện thơ Chế biến: điểm trung bình lớp, … Đặc tính liệu có độ đo: Byte: đơn vị nhớ liệu Ví dụ TRANG: Bytes Mỗi byte thể ký tự VD1: Hồng=Hoongf: ký tự= bytes Một byte: H=Mã gồm bits, vi dụ mã ASCII: 1001 1100 (9 C): 1byte 0 1 0 Ví dụ: Ngày quốc khánh Việt Nam: 2.9.1945: liệu biết Ngày sinh Quang 26.2.2001 : liệu chưa biết [Type here] [Type here] [Type here] Học máy [Type here] b) Định nghĩa THƠNG TIN (INFORMATION) Thơng tin: - Ngày sinh Đỗ Thùy Trang: 28.3.2001: liệu: chưa biết: THÔNG TIN - Ngày 2.9.1945: Ngày Quốc Khánh: Khai sinh nước: người đề biết: KHÔNG PHẢI THÔNG TIN Dữ liệu chưa có thơng tin, thể thơng báo chưa biết Vậy thông tin: Độ không xác định, chưa biết (đột ngột) liệu Độ đo thông tin: có: gì? Entropy: Ký hiệu: E=-p*log2p=p*log2 (1) p p: (Probability: xác suất); p=2/6 (gieo xúc xắc)=m/n (giá trị m=2 xuất hiện/tổng giá tri n=6) Trong ví dụ ngày, có ngày chưa biết tổng số ngày xác suất để co thơng tin: p=1/2 Thay vào cơng thức Entropy: E=-1/2*log21/2= -1/2*log22-1=1/2*log22=1/2*1=1/2=50% Hình 1.1 Biểu diễn liệu, thông tin, tri thức[2] c) Knowledge (tri thức): khác thông tin Từ định nghĩa: Tri thức= Sự kiện (Events) + Luật (quy luật: Rule) Tri thức= Sự kiện (Events:DATA) + Luật (quy luật: Rule: INFERENCE) Ví dụ: Có liệu đo tam giác vng: cạnh góc vng b=4; c=3 (sự kiện) Quy luật: a= từ quy luật (Rule) toán học định lý (định lý Pitago): a2=b2+c2 quy luật (Rule) vật lý: định luật: F=mv2 quy luật (Rule) hóa học: Quy tắc: “Muốn tác dụng với axit tạo thành muối axit quy luật (Rule) trí trí tuệ nhân tạo: quy luật tư ví dụ luật bắc cầu, Luật modus Ponenns Quy luật khác: (chu vi)=2*PI*R ->PI=(chu vi)/2R=3.141592653789 Độ đo tri thức: IQ Một vấn đề học máy rút quy luật (bằng cách suy diễn) [Type here] [Type here] [Type here] Học máy [Type here]  Học máy (Machine Learning) mang hai nghĩa thông dụng: 1) sử dụng máy tính để khám phá tri thức (Knowledge Discovery) từ liệu, 2) học máy (tác tử: agent)  Về phương diện cơng nghệ, nghiên cứu kỹ thuật xây dựng phát triển chương trình máy tính thích nghi "học" từ liệu mẫu kinh nghiệm (experiment: E) Định nghĩa Đến nay, có nhiều định nghĩa cho khái niệm học máy, nhiên khó có định nghĩa thỏa đáng người thừa nhận Ví dụ: tranh vẽ cổ thụ 30 năm tuổi Hỏi tuổi: 30 tuổi Định nghĩa 30 tuổi? khó Định nghĩa sau phát biểu từ định nghĩa Tom Mitchell cho ta cách nhìn tốn học chương trình học nghiên cứu, thiết kế Nguyên tiếng Anh: Definition: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E Định nghĩa 1.1 Một chương trình máy tính gọi học từ kinh nghiệm (thể liệu) E lớp nhiệm vụ T (Task) thực phép đo (Performance Measure) P, việc thực nhiệm vụ nhiệm vụ T (của chương trình máy tính) đánh giá phép đo P cải thiện với kinh nghiệm E Theo định nghĩa này, người ta cần tối ưu hóa độ đo thực P (đo độ xác nhiệm vụ T: cụ thể nhiệm vụ dự báo phân lớp) dựa phân tích kinh nghiệm từ E để tìm cách thực nhiệm vụ T tốt  Cần có kinh nghiệm E (Experience): liệu: liệu dùng để học, gọi liệu học (Learning Data hay liệu huấn luyện: Training Data)  Lớp nhiệm vụ (some class of Tasks T): hai nhiệm vụ bản, nhiệm vụ là: - Phân lớp/nhận dạng (Classification/Pattern Recognition (Indentification) Ví dụ lớp ta phân thành lớp người: Nam, nữ (với đặc tính, đặc trưng riêng) Nếu chia nhỏ thành người, người nhóm riêng, trở nên nhận dạng người (nhận dạng đối tượng, người có đặc tính riêng) - Dự đốn (Prediction): Ví dụ dự đốn thời tiết Dự đốn bạn A Học sinh giỏi (nhờ đặc trưng điểm mơn học: “có điểm cao” giá trị ngơn ngữ mang tính chất định tính; thể số điểm 9, 10 giá trị số: liệu thuộc loại định lượng - P (Performance Measure P): đánh giá: Ví dụ nhiệm vụ T (dự báo bạn A sinh viên Giỏi) đạt độ xác 95% (95% thực phép đo để đánh giá) Hoặc sử dụng tiêu chí (đánh giá) khác Mỗi thuật tốn học máy có phép đo (đánh giá riêng) Từ tốm lược định nghĩa công thức sau: HỌC MÁY (MACHINE LEARNING)= LEARNING PROGRAM= {E, T, P} Ghi chú: theo truyền thống CNTT: Program=Algorithms+ Theo học máy: LEARNING PROGRAM= [Algorithm(for T) +Algorithm(for P)]+ Data(E) [Type here] [Type here] [Type here] Học máy [Type here] Sơ ta biết học máy để làm gi? 1.1.2 Tại cần nghiên cứu học máy? Sự thâm nhập mạnh mẽ công nghệ thông tin, kinh tế, xã hội, công nghệ tri thức phát triển tạo nên nhu cầu ứng dụng rộng rãi Sau số phạm vi nghiên cứu, ứng dụng điển hình: Xây dựng hệ nhận dạng mẫu dùng cho thiết bị nghe nhìn cho robot lĩnh vực tự động hóa, nhận dạng chữ viết tay, chuyển đổi nói thành văn bản, phân tích ảnh tự động Tạo chương trình máy tính hoạt động thích nghi với mơi trường thay đổi hay thực nhiệm vụ mà ban đầu chưa xác định rõ, chẳng hạn, hệ lái tự động (máy bay, ơtơ, tày thủy), trị chơi hay điều khiển robôt đa Khám pha tri thức (Knowledge Discovery), khai phá liệu (Data Mining) từ liệu, đặc biệt sở liệu lớn (Big Data), để trợ giúp định (Support Decision) Chẳng hạn, phân tích thị trường, chẩn đốn (dự báo) bệnh bệnh nhân xác định phương án điều trị nhờ phân tích bệnh án lưu trữ 1.1.3 Một số lĩnh vực liên quan Trong chục năm qua, nghiên cứu khoa học ứng dụng học máy phát triển nhanh, kết hợp tiến nhiều lĩnh vực khác Sau lĩnh vực góp phần quan trọng cho nghiên cứu học máy: Lý thuyết xác suất thống kê: Là tiền thân lĩnh vực học máy, đó, cho phép suy luận (reasoning), suy diễn (inference) từ quan sát cụ thể để có kết luận khái quát nhờ thành tựu giải tích ngẫu nhiên Mơ hình nơ ron sinh học (học học phần mạng nơ ron) Việc nghiên cứu chế hoạt động, xử lý phi tuyến cấu tạo hệ thần kinh sinh học nói chung cho phép tạo nên mơ hình thuật tốn sinh học, đặc biệt mạng nơron Lý thuyết độ phức tạp tính tốn (học Tốn rời rạc) Cho phép ước lượng độ phức tạp nhiệm vụ học đo qua ví dụ đào tạo, số lỗi thủ tục tính tốn Lý thuyết điều khiển thích nghi Các thủ tục học để điều khiển trình nhằm tối ưu hố mục đích định trước hay học cách đốn trạng thái q trình điều khiển Tâm lý học: Cho phép mô đáp ứng thực tế người, xây dựng mơ hình xử lý hiệu quả, chẳng hạn, học tăng cường Các mơ hình tiến hóa (chương 8) Việc nghiên cứu mơ hình tiến hóa cho phép đưa thuật tốn học mơ tự nhiên như: thuật toán di truyền CNTT (GA: Genetic Algorithm), tối ưu đàn kiến (ACO: Ant Colony Optimization), tối ưu bầy đàn (PSO: Particle Swam Optimization), hệ miễn dịch nhân tạo (AIS Artificial Immune System), thuật toán luyện thép (SA: Steel Annealing) 1.2 Các tốn học máy Có nhiều toán chi tiết cụ thể nêu sau Ở đây, hệ học giải hai lớp nhiệm vụ T chính; - Nhiệm vụ phân lớp (Classification)/nhận dạng mẫu (Pattern Recognition) Nhiệm vụ dự báo (Predication) [Type here] [Type here] [Type here] Học máy [Type here] Các toán học thiết lập đắn Bài toán học T cho thiết lập thực cải tiến độ đo P qua kinh nghiệm E Thông thường mơ hình tốn học để xây dựng thuật tốn cho tốn học địi hỏi phải đắn theo Hadamard Trong toán thực tế, Hadamard cho mơ hình tốn học ứng dụng xem thiết lập đắn (well-posed problem) có tính chất: 1- Ln tồn lời giải 2- Chỉ có lời giải 3- Khi điều kiện ban đầu thay đổi lời giải thay đổi Tuy nhiên, nhiều tốn, điều kiện lời giải nhiều khó đáp ứng Trong trường hợp người ta hay dùng phương pháp quy hóa (hiệu chỉnh hàm mục tiêu) để toán trở nên thiết lập đắn Bài tốn học phải xác đính đắn dựa việc xác định rõ nhiệm vụ cụ thể, độ đo việc thực nguồn liệu/kinh nghiệm Phương pháp thơng dụng để đưa thuật tốn cho tốn học xây dựng mơ hình tốn học phụ thuộc tham số dùng liệu kinh nghiệm có để xác định giá trị thích hợp cho tham số 1.3 Phân loại học máy Các ứng dụng học máy đa dạng, sau đây, điểm qua số lớp toán ứng dụng thường gặp chia làm ba loại 1.3.1 Học có giám sát (Surpervised Learning) gồm tốn Học kết hợp hay học Bayes, hay học thống kê xác suất Trong nghiên cứu thị trường, người ta thường quan tâm tới kiện X Y xảy ước lượng xác suất có điều kiện P(Y/X) để Y xảy với điều kiện X xảy Công việc gọi học kết hợp Chẳng hạn, ví dụ mục trước, nhà cung cấp cần phân tích giỏ hàng khách hàng qua hóa đơn để tìm xác suất P(Y/X) để khách mua sản phẩm X mua sản phẩm Y, nhờ người ta dự đốn khả khách hàng mua sản phẩm X mua sản phẩm Y Phân loại/nhận dạng mẫu Các đối tượng thuộc tập X phân thành k lớp dựa tập D biết nhãn Chẳng hạn, chữ số viết tay có 10 lớp, cịn tốn đối sánh vân tay thuộc loại hai lớp: trùng với ảnh lưu trữ hay không Bài tốn phân loại thuộc học có giám sát toán thường gặp ứng dụng Nhiều khi, người ta dùng từ phân lớp (Classification) để thay cho phân loại (categorize), thuật ngữ phân lớp có nghĩa rộng hơn, bao gồm phân cụm (Cluster) Về sau, không gây nên nhầm lẫn, hai từ dùng thay cho Một ứng dụng quan trọng tốn phân tích hồ sơ người vay để đánh giá rủi ro hoạt động tín dụng (cho vay lấy lãi), dựa yếu tố đặc trưng khả tài người vay, ngân hàng cần đốn nhận xem khách hàng có khả trả nợ hạn khơng vay Hồi quy hàm số (dự báo định lượng) [Type here] [Type here] [Type here] Học máy [Type here] Hồi quy (Regession) theo Tom Mitchell [13] (Chương 8, mục 8.2.3), Hồi quy có nghĩa tính tốn xấp xỉ (tính gần đúng) hàm đích với giá trị thực (“Regression means approximating a real-valued target function”) Trong thực tiễn, ta thường phải xác định giá trị hàm số điểm chưa biết dựa giá trị hàm biết số điểm Bài toán phát biểu sau Có hàm chưa biết gồm N đối tượng quan sát được: , biết tập y= (1.1) vọng khơng) , nhiễu trắng (các biến ngẫu nhiên độc lập, phân bố có kỳ Ta cần tìm hàm gần cho đối tượng khác X Hàm g gọi hàm hồi quy f Nếu khơng quan tâm tới phân bố nhiễu ta gọi toán xấp xỉ hàm Khi phân bố rộng tập X đòi hỏi: g( ) = (1.2) tốn xấp xỉ gọi toán nội suy hàm g gọi hàm nội suy hàm f Ví dụ: Bàn luận toán rám nắng Luật 1 : If ‘A1’ (=) « Bạc » Then ‘kết quả’ « Bị Rám » Luật 3 : If (‘A1’ ‘đen’) ʌ (A4 ‘không’) Then ‘kết quả’ ‘Bị Rám’ Nhận xét Có thể kết hợp luật thành hai luật:   If (A1 “Bạc”)∨¿ (A1 ‘đen’) ʌ (A4 ‘không’)) Then “kết quả” “Bị rám”; Tương tự luật luật If (A1 “Râm”)∨¿ ( (A1 ‘đen’) ʌ (A4 ‘có’)) Then “kết quả” “không” (A1 “Bạc”)∨¿ (A1 ‘đen’) ʌ (A4 ‘không’)) (A1 “Râm”)∨¿ ( (A1 ‘đen’) ʌ (A4 ‘có’)) từ Logic mệnh đề dạng chuẩn tắc tuyển Thay luật hàm Nếu ký hiệu giá trị “Rám”=1; “Không Rám”=0 hàm đích (Target Function) hay hàm đích (Goal Function: g(x)) hàm bước nhảy đơn vị: y=g ( x )=¿ Chú ý hàm g(x) hàm xấp xỉ (gần đúng), hay có số tài liệu cịn gọi hàm h(x): (Hypothesics: giả thuyết), có tài liệu khác ký hiệu hàm c(x) (Conclusion: kết quả, kết luận) tùy theo ngữ cảnh, toán Điều tương đương với hàm tương tác đầu học mạng nơ ron nhân tao Bài tập; Làm lại thuật tốn, 1.3.2 Học khơng giám sát (Unsurpervised Learning) [Type here] [Type here] [Type here] Học máy [Type here] Các tốn thuộc loại học có giám sát, ta biết nhãn tập liệu quan sát Trong học không giám sát, ta đơn phân tích đặc điểm tập liệu đế có thơng tin Ba tốn học khơng có giám sát thường gặp là: ước lượng hàm mật độ, phân cụm liệu dóng hàng (align) dựa cấu trúc Trong toán ước lượng hàm mật độ, có tập mẫu liệu lấy ngẫu nhiên phân bố, ta cần dựa để ước lượng hàm mật độ phân bố Trong toán phân cụm liệu, người ta chia tập liệu thành tập (cụm) cho phần từ cụm giống phần tử khác cụm Đặc tính giống thường xác định khoảng cách, đối tượng A giống đối tượng B đối tượng C khoảng cách từ A đến B nhỏ khoảng cách từ A đến C Khi tập liệu cần xử lý lớn việc phân cụm cho phép ta giảm thời gian chạy ứng dụng Tuy nhiên toán tốn thiết lập khơng đắn (ill-posed) thường khơng nghiệm Phân tích liệu có cấu trúc xâu/ trình tự (string/sequence) mạng dẫn đến tốn dóng hàng xử lý ngơn ngữ tự nhiên tin sinh học Việc dóng hàng trình tự DNA, RNA, Protein mạng tương tác protein cho phép hiểu tính tương đồng khác biệt nhiều đặc điểm sinh học cá thể sinh vật lồi Ví dụ điển hình học khơng giám sat thuật tốn K-Mean (K-Trung bình), khơng có nhãn (đầu ra) 1.3.3 Học tăng cường (Increment Learning) Loại học gần lai (Surpervised Learning+ UnSurpervised Learning) Trong nhiều trường hợp, đầu hệ thống chuỗi tác động Khi tác động riêng lẻ khơng quan trọng mà điều quan trọng chuỗi tác động cần đạt mục đích định trước Chẳng hạn, trị chơi, nước khơng thực quan trọng mà quan trọng chuỗi nước đưa đến kết thắng Ví dụ nêu trường hợp riêng loại Tương tự phương thức học nhờ trải nghiệm sống, người ta tạo ngẫu nhiên nhiều lời giải chấp nhận sau lần lặp điều chỉnh trọng số định hướng lựa chọn tác động để sau chuỗi tác động có trọng số cao giúp ta đạt mục đích cần có Bài tốn học tăng cường khó với toán quan sát phần cần hợp tác nhiều tác tử (agent) để đạt đích Ba phần trình bày theo phân loại 1.4 Các công cụ phần mềm dùng cho Học máy     MS-Excel Phần mềm WEKA, Ngôn ngữ R, Python Matlab Các phần mềm mã nguồn mở Thư viện Cloud Computing (sẽ nói rõ chương có liên quan) 1.5 Tóm tắt, Tổng kết chương  [Type here] Bài toán (Tasks: T): - Classification/Pattern Recognition (phân lớp) - Prediction (dự báo) [Type here] [Type here] Học máy [Type here]  Decision Trees  Support Vector Machines  Neural Networks - Lựa chọn tùy chọn phân lớp - Lựa chọn tùy chọn cho việc kiểm tra (Test Options)  Use Training Set: phân loại học đánh giá tập học  Supplied Test Set: sử dụng tập liệu khác (với tập học) để đánh giá  Cross-Validation: tập liệu chia thành k tập (k-folds) có kích thước xấp xỉ nhau, phân loại học đánh giá phương pháp xác nhận chéo (CrossValidation) Cross-Validation kỹ thuật chủ yếu sử dụng xây dựng mơ hình dự đốn (Predictive Model), đó, liệu gốc chia thành n phần (n-fold), q trình huấn luyện/thử mơ hình (Train/Test Model) thực lặp lại n lần Tại lần Train/Test Model, phần liệu dùng để thử (Test) (n-1) phần lại dùng để huấn luyện (Train), kết lây trung bình cộng sau n lần Người ta chứng minh 10-fold Cross – Validation tối ưu  Percentage Split Chỉ định tỷ lệ phân chia liệu việc đánh giá ▪ Classifier Output hiển thị thông tin quan trọng: ▪  Run information Các tùy chọn mơ hình học, tên tập liệu, số lượng ví dụ, thuộc tính, thí nghiệm ▪ Classifier model (full training set) Biểu diễn (dạng text) phân lớp học ▪  Predictions on test data Thông tin chi tiết dự đoán phân lớp tập kiểm tra ▪  Summary Các thống kê mức độ xác phân lớp, thí nghiệm chọn ▪ Detailed Accuracy by Class Thông tin chi tiết mức độ xác phân lớp lớp ▪ Confusion Matrix Các thành phần ma trận thể số lượng ví dụ kiểm tra (Test Instances) phân lớp phân lớp sai b Phân cụm (Clustering) - Các phân cụm (Cluster Builders) WEKA tương ứng với mô hình tìm nhóm ví dụ tương tự tập liệu - Các kĩ thuật phân cum hỗ trợ Weka: o Expectation Maximization (EM) o K-Means Các phân cụm hiển thị kết so sánh với cụm (lớp ) thực tế Lựa chọn phân cụm (Cluster Builder) Lựa chọn chế độ phân cụm (Cluster Mode) a Use Training Set Các cụm học kiểm tra tập học b Supplied Test Set Sử dụng tập liệu khác để kiểm tra cụm học c  Percentage Split Chỉ định tỷ lệ phân chia tập liệu ban đầu cho việc xây dựng tập kiểm tra d  Classes to Clusters Evaluation So sánh độ xác cụm học lớp định Store Clusters for Visualization: Lưu phân lớp nhớ, để hiển thị sau Ignore attributes: Chọn thuộc tính khơng tham gia q trình học cụm [Type here] [Type here] [Type here] Học máy [Type here] c Associate Rules (Luật kếp hợp) Lựa chọn mô hình (giải thuật) phát luật kết hợp Associator output hiển thị thông tin quan trọng a Run Information Các tùy chọn mơ hình phát luật kết hợp, tên tập liệu, số lượng ví dụ, thuộc tính b Associator Model (Full Training Set) Biểu diễn (dạng text) tập luật kết hợp phát i Độ hỗ trợ tối thiểu (Minimum Support) ii Độ tin cậy tối thiểu (Minimum Confidence) iii Kích thước tập mục thường xuyên (large/frequent itemsets) iv Liệt kê luật kết hợp tìm 2.4 Giới thiệu liệu bank.arff Iris.arff sử dụng Weka Bộ liệu sử dụng để phân cụm liệu Bank.arff Iris.arff phần mềm Weka Bảng 2.1 Số thuộc tính đối tượng liệu Bộ liệu B bank.arff Iris.arff Số thuộc tính 11 Số đối tượng 600 150 Dữ liệu khách ngân hàng (bank.arff) gồm 11 thuộc tính 600 khách hàng (samples, instances, patterns) Cấu trúc file bank.arff bảng 2.2 Bảng 2.2 Mô tả thuộc tính cho liệu khách hàng ngân hàng STT 10 11 Attribute age sex region income married children car save_act current_act mortgage pep Date Type Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Explanation Tuổi khách hàng Giới tính Khu vực cư trú Thu nhập Tình trạng gia đình Số Có xe hơi? Có tài khoản tiết kiệm khơng? Hiện có tài khoản khơng? Có chấp khơng? Khách hàng có kế hoạch trả nợ khơng? Dữ liệu (iris.arff) gồm thuộc tính 150 Samples Cấu trúc file bảng 2.3 như: Bảng 2.3 Mơ tả thuộc tính cho liệu hoa Iris STT Attribute Data Type Explanation Sepallength Numeric Độ dài đài hoa Petallength Numeric Độ dài cánh hoa Sepalwidth Numeric Độ rộng đài hoa [Type here] [Type here] [Type here] Học máy [Type here] Petalwidth Class Numeric Nominal Độ rộng cánh hoa Thuộc tính phân loại hoa (Setosa,Vesicolor Virginica) Trong chương trình chạy giải thuật chương thực rời rạc hóa liệu Iris.arff theo trường hợp: bins=5 bins=10 2.4.1 GIỚI THIỆU VỀ HOA IRIS VÀ BỘ DỮ LIỆU IRIS Iris tên tiếng Việt hoa Diên Vĩ Tiếng Hy Lạp, "Iris" Cầu Vồng Trong thần thoại Hy Lạp, Iris tên nữ thần Hy Lạp, tín sứ thần Zeus Nàng thường xuất hình cầu vồng Nàng người đưa tin đỉnh Olympus, mang thông điệp vị thần linh từ "con mắt Thiên Đường" xuống cho nhân loại trái đất qua vòng cung cầu vồng rực rỡ Từ Iris cịn có nghĩa "con mắt Thiên Đường" (Theeye of Heaven) Iris có nghĩa khác tròng đen mắt Điều ngụ ý rằng, mang mảnh Thiên Đường Những người đàn ông Hy Lạp thường trồng hoa Diên Vĩ tím mộ người phụ nữ mà họ u thương để tỏ lịng tơn kính nữ thần Iris, người có sứ mệnh dẫn dắt linh hồn phụ nữ đến chốn Thiên Đàng (the Elysian Fields) Diên Vĩ lồi lưu niên có thân vươn cao, hình lưỡi kiếm đóa hoa to nhiều màu sắc với ba cánh ba đài hoa rũ xuống Có 300 lồi hoa Diên Vĩ khác với màu xanh da trời nhạt, tím, vàng, trắng, hồng, cam, nâu, đỏ đa dạng sắc cầu vồng Hoa Diên Vĩ xem sứ giả mang đến điềm lành niềm hy vọng Ba cánh hoa Diên Vĩ đại diện cho lòng Trung Thành, Khơn Ngoan lịng Dũng Cảm Hoa Diên Vĩ vàng biểu tượng lửa niềm đam mê Hoa Diên Vĩ thấy sa mạc, đầm lầy hay miền Bắc cực Siberia lạnh giá; nhiều vùng khí hậu ôn hòa Hoa Diên Vĩ biểu tượng hoàng gia che chở thần thánh suốt hàng kỷ khắp giới Loài hoa đầy sức thu hút nhiều người ngưỡng mộ Các vị vua chúa nước Pháp dùng làm biểu tượng hồng gia, gọi Fleur-de-lis "Fleur-de-lis" có nguồn gốc từ tên "Fleur-de-Louis", sau thời vua Louis VII, năm1147 Theo thời gian, tên chuyển thành "Fleur-de-Luce", có nghĩa hoa ánh sáng (Flower of Light); đến nay, gọi "Fleur-de-Lys", hay “Flower of the Lily” (Lily : Hoa Huệ Tây, Loa Kèn, Bách Hợp) Fleur-de-Lis biểu tượng nước Pháp từ kỷ 13 Hồng gia Pháp trang trí hoa Diên Vĩ áo choàng, đồ vật cung điện tường biểu toàn bích, ánh sáng sống Có nhiều truyền thuyết khác giải thích hoa Diên Vĩ chế độ quân chủ Pháp chọn làm biểu tượng Tương truyền rằng, Clovis, vua nước Pháp triều đại Mêrôvê đối mặt với đội quân thiện chiến Alamanni (Đức) đến xâm chiếm vương quốc mình, ơng nói với hồng hậu Clotida ơng theo đạo chịu rửa tội Chúa phù hộ ông đánh thắng trận (trước hồng hậu nhiều lần khun chồng vào đạo ơng khơng nghe) Cuối cùng, ông thắng thật nhận Fleur-de-Lis làm biểu tượng Tiếp đó, vào kỷ 12, vua Louis trở thành hoàng đế nước Pháp khắc họa hoa Diên Vĩ khiên Nữ anh hùng nước Pháp, Joan of Arc (Jeanne dArc) mang theo cờ trắng có biểu tượng Chúa hộ mệnh hồng gia (hoa Diên Vĩ) bà đánh bại quân Anh Orléans (1429) Ở Nhật, hoa Diên Vĩ tượng trưng cho chí khí anh hùng dịng dõi q phái Hoa Diên Vĩ phần quan trọng lễ hội mùa xuân dành cho bé trai [Type here] [Type here] [Type here] Học máy [Type here] 2.4.2 Tập liệu thời tiết T T 10 11 12 13 14 [Type here] Outlook Play Sunny Sunny Overcast Rainy Rainy Rainy Overcast Sunny Sunny Rainy Sunny Overcast Overcast Rainy Temp Hot Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild High High High High Normal Normal Normal High Normal Normal Normal High Normal High [Type here] Humidity Windy False True False False False True True False False False True True False True No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No [Type here] Học máy [Type here] Dữ liệu chơi golf dạng số (Numeric) Các biến độc lập Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Nắng 85 85 khơng khơng Nắng 80 90 có khơng Âm u 83 78 khơng có Mưa 70 96 khơng có Mưa 68 80 khơng có Mưa 65 70 có khơng Âm u 64 65 có có Nắng 72 95 khơng khơng Nắng 69 70 khơng có Mưa 75 80 khơng có Nắng 75 70 có có Âm u 72 90 có có Âm u 81 75 khơng có mưa 71 80 có khơng Bảng 2.4 – Bảng sở liệu thời tiết (tiếng Việt) toán dạng định danh Ngày D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 [Type here] Trời Nắng Nắng U ám Mưa Mưa Mưa U ám Nắng Nắng Mưa Nắng U ám Nhiệt độ Cao Cao Cao Trung bình Thấp Thấp Thấp Trung bình Thấp Trung bình Trung bình Trung bình Độ ẩm Cao Cao Cao Cao Bình thường Bình thường Bình thường Cao Bình thường Bình thường Bình thường Cao [Type here] Gió Yếu Mạnh Yếu Yếu Yếu Mạnh Mạnh Yếu Yếu Yếu Mạnh Mạnh Chơi tennis Khơng Khơng Có Có Có Khơng Có Khơng Có Có Có Có [Type here] Học máy [Type here] D13 D14 U ám Mưa Cao Trung bình Bình thường Cao Yếu Mạnh Có Khơng Gió Mạnh Chơi tennis ? Giả sử ta xác định nhãn phân loại (Prediction) cho ví dụ sau Ngày D1 Trời Mưa Nhiệt độ Trung bình Độ ẩm Bình thường APPENDIX III (PHỤ LỤC III) MỘT SỐ BÀI TẬP MẪU THUẬT TOÁN QUYN LAN Bước 1: Chia phân hoạch theo đặc trưng đầu vào Ai = A2: Temp A1: Outlook Sunny Overcast Rainy 11 12 13 10 14 A1: Humidity A1: Windy Hot Mild Cool High Normal True False 13 10 11 12 14 11 12 14 10 11 13 11 12 14 10 13 Bước 2: Tiêu chí gốc theo Quyn Lan Ai j j=1 (Sunny) A1 j=2 (Overcast) j=3 (Rainy) A2 [Type here] j=1 Vectơ VAi (j) VAi (j) = VAi (1) = {Tr1(1); Tr2(1)} = { ; } 5 #1 VAi (2) = {Tr1(2); Tr2(2)} = { ; } 4 =1 VAi (3) = {Tr1(3); Tr2(3)} = { ; } 5 #1 Tỷ lệ = 0/3 2 VAi (1) = {Tr1(1); Tr2(1)} = { ; } 4 [Type here] 1/3 [Type here] Học máy [Type here] (Hot) j=2 VAi (2) = {Tr1(2); Tr2(2)} = { ; } 6 #1 ; } 4 #1 (Mild) j=3 VAi (3) = {Tr1(3); Tr2(3)} = { (Cool) j=1 (High) A3 j=2 (Normal) j=1 (True) A4 j=2 (False) #1 VAi (1) = {Tr1(1); Tr2(1)} = { ; } 7 VAi (2) = {Tr1(2); Tr2(2)} = { ; } 7 VAi (1) = {Tr1(1); Tr2(1)} = { 3 ; } 6 #1 VAi (2) = {Tr1(2); Tr2(2)} = { ; } 8 #1 #1 0/2 #1 0/2 Bước 3: Dựa vào bảng ta thấy A1 có tỷ lệ đồng cao Bước 4: Vậy dựa vào tiêu chí A1 ta có luật sau: Luật 1: IF “Outlook” “Overcast” THEN “Play” “Yes” Bước 5: Tổ hợp chập hai thuộc tính Ai j j=1 (Hot) Vectơ VAi (j) VAi (1) = {Tr1(1); Tr2(1)} = { ; } 2 =1 VAi (2) = {Tr1(2); Tr2(2)} = { 1 ; } 2 #1 VAi (3) = {Tr1(3); Tr2(3)} = { ; } 1 =1 VAi (1) = {Tr1(1); Tr2(1)} = { ; } 3 j=2 A1là Sunny ^ A2 (Mild) j=3 (Cool) A1là Sunny ^ A3 j=1 (High) [Type here] VAi (j) = [Type here] Tỷ lệ = =1 [Type here] 2/3 2/2 Học máy [Type here] j=2 (Normal j=1 (True) A1là Sunny ^ A4 VAi (2) = {Tr1(2); Tr2(2)} = { ; } 2 VAi (1) = {Tr1(1); Tr2(1)} = { 1 ; } 2 #1 0/2 j=2 (False) =1 VAi (2) = {Tr1(2); Tr2(2)} = { ; } 3 #1 Dựa vào bảng ta thấy A1 Snuny ^ A3 có tỷ lệ đồng cao Vậy dựa vào tiêu chí A1 Snuny ^ A3 ta có luật sau: Luật 2: IF “Outlook” “Sunny” and “Humidity” “High” THEN “Play” “No” Luật 3: IF “Outlook” “Sunny” and “Humidity” “Normal” THEN “Play” “Yes” Ai j j=1 (Hot) Vectơ VAi (j) VAi (1) = {Tr1(1); Tr2(1)} = { 0 ; } 0 =1 VAi (2) = {Tr1(2); Tr2(2)} = { ; } 3 #1 VAi (3) = {Tr1(3); Tr2(3)} = { 1 ; } 2 #1 VAi (1) = {Tr1(1); Tr2(1)} = { 1 ; } 2 j=2 A1là Rainy ^ A2 (Mild) j=3 (Cool) j=1 (High) VAi (j) = Tỷ lệ = #1 A1là Rainy ^ A3 0/2 j=2 (Normal) A1là Rainy ^ A4 j=1 (True) [Type here] 1/3 VAi (2) = {Tr1(2); Tr2(2)} = { ; } 3 VAi (1) = {Tr1(1); Tr2(1)} = { ; } 2 [Type here] #1 2/2 =1 [Type here] Học máy [Type here] j=2 (False) VAi (2) = {Tr1(2); Tr2(2)} = { ; } 3 =1 Dựa vào bảng ta thấy A1 Rainy ^ A4 có tỷ lệ đồng cao Vậy dựa vào tiêu chí A1 Rainy ^ A4 ta có luật sau: Luật 4: IF “Outlook” “Rainy” and “Windy” “True” THEN “Play” “No” Luật 5: IF “Outlook” “Rainy” and “Windy” “False” THEN “Play” “Yes” THUẬT TOÁN ĐỘ LỘN XỘN Bước 1: Chia phân hoạch theo đặc trưng đầu vào Ai = A2: Temp A1: Outlook A1: Humidity A1: Windy Sunny Overcast Rainy Hot Mild Cool High Normal True False 11 12 13 10 14 13 10 11 12 14 11 12 14 10 11 13 11 12 14 10 13 Bước 2: Tính độ lộn xộn E A1 (j) = = 0,69 E A2 (j) = = 0,91 2 3 4 0 3 2 [- log - log ] + [- log - log ] + [- log - log ] 14 5 5 14 4 4 14 5 5 2 2 4 2 3 1 [- log - log ] + [- log - log ] + [- log - log ] 14 4 4 14 6 6 14 4 4 2 5 6 1 [- log - log ] + [- log - log ] = 0,73 14 7 7 14 7 7 3 3 6 2 E A4 (j) = [- log - log ] + [- log - log ] = 0,89 14 6 6 14 8 8 E A3 (j) = Bước 3: Chọn tiêu chí gốc có Entropy Bước 4: Dựa vào số hạng Entropy tiêu chí A1 ta có luật sau: Luật 1: IF “Outlook” “Overcast” THEN “Play” “Yes” Bước 5: Tổ hợp chập thuộc tính [Type here] [Type here] [Type here] Học máy [Type here] E ( A1 Sunny) ^ A2 = log ] 0 2 1 1 1 [- log - log ] + [- log - log ] + [- log 2 2 2 2 1 = 0,4 0 3 [- log - log ] + [5 3 3 1 1 E ( A1 Sunny) ^ A4 = [- log - log ] + [5 2 2 E ( A1 Sunny) ^ A3 = 2 0 log - log ] = 2 2 1 2 log - log ] = 0,95 3 3 Chọn tiêu chí gốc có Entropy Dựa vào số hạng Entropy tiêu chí A1 ta có luật sau: Luật 2: IF “Outlook” “Sunny” and “Humidity” “High” THEN “Play” “No” Luật 3: IF “Outlook” “Sunny” and “Humidity” “Normal” THEN “Play” “Yes” E ( A1 Rainy) ^ A2 = log ] 0 0 2 1 1 [- log - log ] + [- log - log ] + [- log 0 0 3 3 2 = 0,95 1 1 2 1 [- log - log ] + [- log - log ] = 0,95 2 2 3 3 0 2 3 0 E ( A1 Rainy) ^ A4 = [- log - log ] + [- log - log ] = 2 2 3 3 E ( A1 Rainy) ^ A3 = Chọn tiêu chí gốc có Entropy Dựa vào số hạng Entropy tiêu chí A1 ta có luật sau: Luật 4: IF “Outlook” “Rainy” and “Windy” “True” THEN “Play” “No” Luật 5: IF “Outlook” “Rainy” and “Windy” “False” THEN “Play” “Yes” THUẬT TOÁN ID3 Bước 1: Chia phân hoạch theo đặc trưng đầu vào Ai = A2: Temp A1: Outlook Sunny Overcast Rainy 11 12 13 10 14 [Type here] A1: Humidity A1: Windy Hot Mild Cool High Normal True False 13 10 11 12 14 11 12 14 10 11 13 11 12 14 10 13 [Type here] [Type here] Học máy [Type here] Bước 2: Tính E(A) = E(Y,N) = E(9,5) = - P+ log P+¿ ¿ - P- log PE(A) = E(Y,N) = E(9,5) = Mặt khác ta có: 9 5 log log = 0,94 14 14 14 14 E(A1) = 0,69  = 0,25 E(A2) = 0,91 = 0,03 E(A3) = 0,73 = 0,21 E(A4) = 0,89 = 0,05 Bước 3: E(A1 Sunny) = E(Y,N) = E(2,3) = - P+ log P+¿ ¿ - P- log P- E(A1 Sunny) = E(Y,N) = E(2,3) = - 2 3 log log = 0,97 5 5 Mặt khác ta có: E(A1 Sunny) ^ A2 = 0,4  = 0,57 E(A1 Sunny) ^ A3 = = 0,97 E(A1 Sunny) ^ A4 = 0,95 = 0,02 E(A1 Rainy) = E(Y,N) = E(3,2) = - P+ log P+¿ ¿ - P- log P- E(A1 Rainy) = E(Y,N) = E(3,2) = - 3 2 log log = 0,97 5 5 Mặt khác ta có: E(A1 Rainy) ^ A2 = 0,95  = 0,02 E(A1 Rainy) ^ A3 = 0,95 = 0,02 E(A1 Rainy) ^ A4 = = 0,97 [Type here] [Type here] [Type here] Học máy [Type here] THUẬT TOÁN TLA Bước 1: Chia phân hoạch theo đặc trưng đầu Đổi số Outlook Temp Humidity Windy Play Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Overcast Cool Normal True Yes Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Sunny Hot High False No Sunny Hot High True No Rainy Cool Normal True No Sunny Mild High False No Rainy Mild High True No [Type here] [Type here] [Type here] Học máy [Type here] Bước 2: Ai A1 A2 A3 A4 j j = (Overcast) j = (Rainy) j = (Sunny) j = (Hot) j = (Mild) j = (Cool) j = (High) j = (Normal) j = (False) j = (True) Điểm 0 0 0 0 Dựa vào bảng ta chọn Outlook – Overcast viết luật: Luật 1: IF “Outlook” “Overcast” THEN “Play” “Yes” Bước 3: Tổ hợp chấp tiêu chuẩn Ai A1là Sunny ^ A2 A1là Sunny ^ A3 A1là Sunny ^ A4 J j = (Hot) j = (Mild) j = (Cool) j = (High) j = (Normal) j = (False) j = (True) Điểm 1 1 Dựa vào bảng ta chọn Outlook – Sunny ^ A3 viết luật: Luật 2: IF “Outlook” “Sunny” and “Humidity” “High” THEN “Play” “No” Luật 3: IF “Outlook” “Sunny” and “Humidity” “Normal” THEN “Play” “Yes” Ai A1là Rainy ^ A2 A1là Rainy ^ A3 [Type here] J j = (Hot) j = (Mild) j = (Cool) j = (High) j = (Normal) [Type here] Điểm 1 [Type here] Học máy [Type here] A1là Rainy ^ A4 j = (False) j = (True) Dựa vào bảng ta chọn Outlook – Sunny ^ A3 viết luật: Luật 4: IF “Outlook” “Rainy” and “Windy” “True” THEN “Play” “No” Luật 5: IF “Outlook” “Rainy” and “Windy” “False” THEN “Play” “Yes” THUẬT TOÁN BAYES Để minh họa thuật giải Bayes, sử dụng bảng: Tập hợp liệu học dự báo thời tiết Ngày D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 Trời Nắng Nắng Nhiều mây Mưa Mưa Mưa Nhiều mây Nắng Nắng Mưa Nắng Nhiều mây Nhiều mây Mưa Trời Nắng Nhiệt độ Nóng Nóng Nóng Trung bình Ấm áp Lạnh Lạnh Ấm áp Lạnh Ấm áp Ấm áp Ấm áp Nóng Ấm áp Độ ẩm Cao Cao Cao Cao Bình thường Bình thường Bình thường Cao Bình thường Bình thường Bình thường Cao Bình thường Cao Dữ liệu mẫu tin cần dự báo Nhiệt độ Lạnh Độ ẩm Cao Gió Yếu Mạnh Yếu Yếu Yếu Mạnh Mạnh Yếu Yếu Yếu Mạnh Mạnh Yếu Mạnh Gió Mạnh Chơi Tennis Khơng Khơng Có Có Có Khơng Có Khơng Có Có Có Có Có Khơng Chơi Tennis ? Dữ liệu mẫu tin cần dự báo Trời Nắng Nhiệt độ Nóng Độ ẩm Cao Gió Yếu Chơi Tennis ? Bước 1: Phân hoạch theo đặc trưng đầu vào Trời Có Nhiệt độ Khơng [Type here] Có Khơng Độ ẩm Có [Type here] Gió Khơng Có Chơi Tennis Khơng Có [Type here] Khơng Học máy [Type here] Nắng Nóng 2 Cao Yếu Nhiều mây Ấm áp Bình thường Mạnh 3 Mưa Lạnh Bước 1: Chia phân hoạch theo đặc trưng đầu vào Outlook Temp Yes No Humidity Yes No Windy Yes No Play Yes No Sunny Hot 2 High False Overcast Wild Normal True 3 Rainy Cool Yes No Bước 2: P(Outlook = Sunny/Yes) P(Temp = Hot/Yes) P(Humidity = High/Yes) P(Windy = False/Yes) P(Yes) P(X) = (2/ 2/9 3/ / 9) /14 P( X ) P(Outlook = Sunny/No) P(Temp = Hot/No) P(Humidity = High/No) P(Windy = False/No) P(No) P(X) = [Type here] (3 /5 2/5 /5 2/ 5) 5/14 P( X ) [Type here] [Type here]

Ngày đăng: 29/09/2022, 10:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hoàng Kiếm (2005), Giáo trình trí tuệ nhân tạo, NXB ĐHQG TP Hồ Chí Minh Sách, tạp chí
Tiêu đề: Giáo trình trí tuệ nhân tạo
Tác giả: Hoàng Kiếm
Nhà XB: NXB ĐHQG TP Hồ Chí Minh
Năm: 2005
[2] Hoàng Kiếm, Đỗ Phúc, Đỗ Văn Nhơn (2007), Giáo trình các hệ cơ sở tri thức, NXB ĐHQG TP Hồ Chí Minh Sách, tạp chí
Tiêu đề: Giáo trình các hệ cơ sở tri thức
Tác giả: Hoàng Kiếm, Đỗ Phúc, Đỗ Văn Nhơn
Nhà XB: NXB ĐHQG TPHồ Chí Minh
Năm: 2007
[3] Hoàng Xuân Huấn (2015), Giáo trình học máy, NXB ĐHQG Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình học máy
Tác giả: Hoàng Xuân Huấn
Nhà XB: NXB ĐHQG Hà Nội
Năm: 2015
[4] Đỗ Thanh Nghị (2012), Nguyên lý học máy, NXB ĐH Cần Thơ Sách, tạp chí
Tiêu đề: Nguyên lý học máy
Tác giả: Đỗ Thanh Nghị
Nhà XB: NXB ĐH Cần Thơ
Năm: 2012
[5] Đỗ Thanh Nghị (2012), Khai mỏ dữ liệu, NXB ĐH Cần Thơ Sách, tạp chí
Tiêu đề: Khai mỏ dữ liệu
Tác giả: Đỗ Thanh Nghị
Nhà XB: NXB ĐH Cần Thơ
Năm: 2012

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Biểu diễn dữ liệu, thông tin, tri thức[2]. - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
Hình 1.1 Biểu diễn dữ liệu, thông tin, tri thức[2] (Trang 5)
2.4. Cài đặt với ngơn ngữ R cho ví dụ minh họa trong bảng 2.1 - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
2.4. Cài đặt với ngơn ngữ R cho ví dụ minh họa trong bảng 2.1 (Trang 15)
Input: Để dễ so sánh, ta sử dụng cơ sở dữ liệu «RÁM NẮNG» như bảng 2.1: - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
nput Để dễ so sánh, ta sử dụng cơ sở dữ liệu «RÁM NẮNG» như bảng 2.1: (Trang 22)
Bảng 2.1. Bảng dữ liệu thử nghiệ mE «Rám Nắng» cị lại sau vòng 1 - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
Bảng 2.1. Bảng dữ liệu thử nghiệ mE «Rám Nắng» cị lại sau vòng 1 (Trang 24)
Từ bảng trên, thuộc tính Outlook có GainRatio= 0,16 là lớn nhất nên nó được dùng làmnút gốc để chia (phân hoạch) cây tiếp theo - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
b ảng trên, thuộc tính Outlook có GainRatio= 0,16 là lớn nhất nên nó được dùng làmnút gốc để chia (phân hoạch) cây tiếp theo (Trang 37)
Ta thấy từ bướ c2 đến bước 5, tổng hợp lại ta có bảng sau về tỷ suất độ lợi (và 3 phương pháp) TTThuộc tính ĐLXộn-Entropy ID3-(Information Gain)C 4.5−GainRatio - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
a thấy từ bướ c2 đến bước 5, tổng hợp lại ta có bảng sau về tỷ suất độ lợi (và 3 phương pháp) TTThuộc tính ĐLXộn-Entropy ID3-(Information Gain)C 4.5−GainRatio (Trang 37)
Hình 3. 5: Cây quyết định cho tập dữ liệu học chơi Tennis - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
Hình 3. 5: Cây quyết định cho tập dữ liệu học chơi Tennis (Trang 40)
Bước 1: Chia (phân hoạch) theo đặc trưng đầu ra thành hai bảng như dưới đây - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
c 1: Chia (phân hoạch) theo đặc trưng đầu ra thành hai bảng như dưới đây (Trang 42)
Bước 2: Chọn bảng 1. Đếm số đối tượng và cho điểm. Điểm số lớn nhất sẽ được chọn. - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
c 2: Chọn bảng 1. Đếm số đối tượng và cho điểm. Điểm số lớn nhất sẽ được chọn (Trang 43)
Input: cho bảng dữ liệu học chơi Tennis - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
nput cho bảng dữ liệu học chơi Tennis (Trang 53)
4.3.2. Thuật toán Bayes - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
4.3.2. Thuật toán Bayes (Trang 54)
(bảngtrên n=10)về mặt tốn học, ta tính - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
bảng tr ên n=10)về mặt tốn học, ta tính (Trang 59)
Bảng 5.1. Bảng dữ liệu về BỆNH NHÂN Hình 1. Quan hệ TUỔI và BỆNH - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
Bảng 5.1. Bảng dữ liệu về BỆNH NHÂN Hình 1. Quan hệ TUỔI và BỆNH (Trang 63)
5.6. Các mơ hình hồi quy khác - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
5.6. Các mơ hình hồi quy khác (Trang 65)
siêu phẳng (w, b) để phân chia dữ liệu theo cách sau đây (Hình 6.2): - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
si êu phẳng (w, b) để phân chia dữ liệu theo cách sau đây (Hình 6.2): (Trang 67)
 Quy hoạch tuyến tính (Linear Programming), được giải bằng phương pháp đơn hình, trong đó hàm mục tiêu là tích vơ hướng <c, x> được xác định bởi: - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
uy hoạch tuyến tính (Linear Programming), được giải bằng phương pháp đơn hình, trong đó hàm mục tiêu là tích vơ hướng <c, x> được xác định bởi: (Trang 70)
Cơ chế hoạt động của máy học SVM có thể mơ tả bằng thuật tốn như hình 6.8. - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
ch ế hoạt động của máy học SVM có thể mơ tả bằng thuật tốn như hình 6.8 (Trang 75)
Thay C=1 vào đoạn mã ban đầu, ta có đồ thị như hình dưới. Đường phần chi a2 lớp dữ liệu có vẻ là hợp lý nhất trong các trường hợp thử nghiệm. - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
hay C=1 vào đoạn mã ban đầu, ta có đồ thị như hình dưới. Đường phần chi a2 lớp dữ liệu có vẻ là hợp lý nhất trong các trường hợp thử nghiệm (Trang 81)
quả ta có cột 2 Bảng 8.2. - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
qu ả ta có cột 2 Bảng 8.2 (Trang 102)
Hình 9.4. Kiến trúc của hệ học theo phương pháp Bagging - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
Hình 9.4. Kiến trúc của hệ học theo phương pháp Bagging (Trang 112)
Hình 2.2 Biểu diễn số lượng người dùng các phần mềm trong DM[8] - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
Hình 2.2 Biểu diễn số lượng người dùng các phần mềm trong DM[8] (Trang 120)
2.3 Explorer. Giao diện chính Explorer như hình 2.3 - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
2.3 Explorer. Giao diện chính Explorer như hình 2.3 (Trang 122)
6. Lựa chọn một mơ hình (giải thuật) phát hiện luật kết hợp. 7.Associator output hiển thị các thông tin quan trọng. - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
6. Lựa chọn một mơ hình (giải thuật) phát hiện luật kết hợp. 7.Associator output hiển thị các thông tin quan trọng (Trang 125)
Bảng 2.4 – Bảng cơ sở dữ liệu thời tiết (tiếng Việt) và bài toán dạng định danh - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
Bảng 2.4 – Bảng cơ sở dữ liệu thời tiết (tiếng Việt) và bài toán dạng định danh (Trang 128)
THUẬT TOÁN ĐỘ LỘN XỘN - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
THUẬT TOÁN ĐỘ LỘN XỘN (Trang 132)
Dựa vào bảng ta thấy A1là Rainy ^A4 có tỷ lệ đồng nhất cao nhất Vậy dựa vào tiêu chí A1 là Rainy ^ A4  ta có luật sau: - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
a vào bảng ta thấy A1là Rainy ^A4 có tỷ lệ đồng nhất cao nhất Vậy dựa vào tiêu chí A1 là Rainy ^ A4 ta có luật sau: (Trang 132)
Dựa vào bảng ta chọn được Outlook – Sunny ^A3 viết luật: - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
a vào bảng ta chọn được Outlook – Sunny ^A3 viết luật: (Trang 136)
Dựa vào bảng ta chọn được Outlook – Sunny ^A3 viết luật: - BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính
a vào bảng ta chọn được Outlook – Sunny ^A3 viết luật: (Trang 137)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN