6.Bai Giang.pdf

THÔNG TIN TÀI LIỆU

BÀI 6 MỘT SỐ HỆ THỐNG VÀ CÔNG NGHỆ TRÍ TUỆ NHÂN TẠO 1 Một số hệ thống trí tuệ nhân tạo 1 1 Thị giác máy tính Thị giác máy tính là một lĩnh vực trong Artificial Intelligence Trí tuệ nhân tạo) và Comput[.]

BÀI MỘT SỐ HỆ THỐNG VÀ CƠNG NGHỆ TRÍ TUỆ NHÂN TẠO Một số hệ thống trí tuệ nhân tạo 1.1 Thị giác máy tính Thị giác máy tính lĩnh vực Artificial Intelligence Trí tuệ nhân tạo) Computer Science (Khoa học máy tính) nhằm giúp máy tính có khả nhìn hiểu giống người Thị giác máy tính (computer vision) định nghĩa lĩnh vực bao gồm phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích nhận dạng hình ảnh và, nói chung liệu đa chiều từ giới thực thông tin số biểu tượng Thị giác máy tính mơ tả tổng thể dải rộng trình tự động tích hợp thể cho nhận thức thị giác Q trình mơ thị giác người chia thành giai đoạn nối tiếp (tương tự cách người nhìn): mơ mắt (thu nhận - khó), mơ vỏ não thị giác (xử lý khó) mơ phần cịn lại não (phân tích - khó nhất) Thu nhận Mơ mắt lĩnh vực đạt nhiều thành công Chúng ta tạo cảm biến, vi xử lý hình ảnh giống khả nhìn mắt người chí cịn tốt Camera chụp hàng ngàn ảnh giây nhận diện từ xa với độ xác cao Tuy nhiên cảm biến camera tốt nhận diện bóng đừng nói bắt chúng Nói cách khác, phần cứng bị giới hạn khơng có phần mềm - đến khó khăn lớn Tuy vậy, camera ngày linh hoạt làm tảng tốt để nghiên cứu Mô tả Bộ não xây dựng từ số với hình ảnh lấp đầy tâm trí, làm nhiệm vụ liên quan tới thị giác nhiều cơng việc khác việc xuống tới cấp độ tế bào Hàng tỉ tế bào phối hợp để lấy hình mẫu, bắt tín hiệu Một nhóm nơ-ron báo cho nhóm khác có khác biệt dọc theo đường thẳng (theo góc đó, chuyển động nhanh hay theo hướng khác) Nghiên cứu thị giác máy tính cho mạng lưới nơ-ron phức tạp tới nỗi hiểu tiếp cận theo hướng lý giải từ xuống Với số đối tượng cách hiệu mơ tả đối tượng, từ nhiều góc nhìn, nhiều biến thể màu sắc, chuyển động nhiều thứ khác hình dung khó Ngay mức nhận thức em bé cần lượng liệu lớn vô Cách tiếp cận từ lên bắt chước cách não hoạt động hứa hẹn Những năm qua chứng kiến bùng nổ nghiên cứu sử dụng hệ thống việc bắt chước não người Quá trình nhận diện hình mẫu tăng tốc liên tục đạt tiến Thấu hiểu Ta xây dựng hệ thống nhận diện táo, từ góc nào, tình nào, dù đứng im hay chuyển động chúng nhận diện cam, khơng thể nói cho ta táo gì, có ăn khơng, lớn nhỏ hay dùng để làm Như phần cứng phần mềm tốt khơng làm khơng có hệ điều hành Đó phần cịn lại não: nhớ ngắn/dài hạn, liệu từ giác quan, ý, nhận thức, học tương tác với giới… viết lên mạng lưới nơ-ron kết nối phức tạp thứ thấy, theo cách mà khơng thể hiểu Đó nơi mà khoa học máy tính trí tuệ nhân tạo gặp mặt Dù thời kì sơ khai, thị giác máy tính vơ hữu ích Nó có mặt camera nhận diện khn mặt (Face ID) nụ cười Nó giúp xe tự lái nhận diện biển báo, người đường Nó nằm robot nhà máy, nhận diện sản phẩm, truyền cho người 1.2 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên nhánh Trí tuệ nhân tạo, tập trung vào việc nghiên cứu tương tác máy tính ngôn ngữ tự nhiên người, dạng tiếng nói (speech) văn (text) Mục tiêu lĩnh vực giúp máy tính hiểu thực hiệu nhiệm vụ liên quan đến ngôn ngữ người như: tương tác người máy, cải thiện hiệu giao tiếp người với người, đơn giản nâng cao hiệu xử lý văn lời nói Xử lý ngơn ngữ tự nhiên đời từ năm 40 kỷ 20, trải qua giai đoạn phát triển với nhiều phương pháp mơ hình xử lý khác Có thể kể tới phương pháp sử dụng ô-tô-mát mô hình xác suất (những năm 50), phương pháp dựa ký hiệu, phương pháp ngẫu nhiên (những năm 70), phương pháp sử dụng học máy truyền thống (những năm đầu kỷ 21), đặc biệt bùng nổ học sâu thập kỷ vừa qua Xử lý ngôn ngữ tự nhiên chia thành hai nhánh lớn, khơng hồn tồn độc lập, bao gồm xử lý tiếng nói (speech processing) xử lý văn (text processing) Xử lý tiếng nói tập trung nghiên cứu, phát triển thuật tốn, chương trình máy tính xử lý ngơn ngữ người dạng tiếng nói (dữ liệu âm thanh) Các ứng dụng quan trọng xử lý tiếng nói bao gồm nhận dạng tiếng nói tổng hợp tiếng nói Nếu nhận dạng tiếng nói chuyển ngơn ngữ từ dạng tiếng nói sang dạng văn ngược lại, tổng hợp tiếng nói chuyển ngơn ngữ từ dạng văn thành tiếng nói Xử lý văn tập trung vào phân tích liệu văn Các ứng dụng quan trọng xử lý văn bao gồm tìm kiếm truy xuất thơng tin, dịch máy, tóm tắt văn tự động, hay kiểm lỗi tả tự động Xử lý văn đơi chia tiếp thành hai nhánh nhỏ bao gồm hiểu văn sinh văn Nếu hiểu liên quan tới tốn phân tích văn sinh liên quan tới nhiệm vụ tạo văn ứng dụng dịch máy tóm tắt văn tự động Xử lý văn bao gồm bước sau: Phân tích hình vị: nhận biết, phân tích, miêu tả cấu trúc hình vị ngơn ngữ cho trước đơn vị ngôn ngữ khác, từ gốc, biên từ, phụ tố, từ loại, v.v Trong xử lý tiếng Việt, hai tốn điển hình phần tách từ (word segmentation) gán nhãn từ loại (part-of-speech tagging) Phân tích cú pháp: quy trình phân tích chuỗi biểu tượng, dạng ngơn ngữ tự nhiên ngơn ngữ máy tính, tuân theo văn phạm hình thức Văn phạm hình thức thường dùng phân tích cú pháp ngơn ngữ tự nhiên bao gồm Văn phạm phi ngữ cảnh (Context-free grammar – CFG), Văn phạm danh mục kết nối (Combinatory categorial grammar – CCG), Văn phạm phụ thuộc (Dependency grammar – DG) Đầu vào q trình phân tích câu gồm chuỗi từ nhãn từ loại chúng, đầu phân tích thể cấu trúc cú pháp câu Phân tích ngữ nghĩa: q trình liên hệ cấu trúc ngữ nghĩa, từ cấp độ cụm từ, mệnh đề, câu đoạn đến cấp độ toàn viết, với ý nghĩa độc lập chúng Nói cách khác, việc nhằm tìm ngữ nghĩa đầu vào ngơn từ Phân tích ngữ nghĩa bao gồm hai mức độ: Ngữ nghĩa từ vựng biểu ý nghĩa từ thành phần, phân biệt nghĩa từ; Ngữ nghĩa thành phần liên quan đến cách thức từ liên kết để hình thành nghĩa rộng Phân tích diễn ngơn: phân tích văn có xét tới mối quan hệ ngơn ngữ ngữ cảnh sử dụng (context-of-use) Phân tích diễn ngơn, đó, thực mức độ đoạn văn tồn văn thay phân tích riêng mức câu Một Số Ứng Dụng Của NLP NLP ngày ứng dụng nhiều Một số ứng dụng kể đến như: Nhận dạng tiếng nói (Automatic Speech Recognition – ASR, Speech To Text – STT) chuyển đổi ngơn ngữ từ dạng tiếng nói sang dạng văn bản, thường ứng dụng chương trình điều khiển qua giọng nói Tổng hợp tiếng nói (Speech synthesis Text to Speech – TTS) chuyển đổi ngôn ngữ từ dạng văn sang tiếng nói, thường dùng đọc văn tự động Truy xuất thơng tin (Information Retrieval – IR) có nhiệm vụ tìm tài liệu dạng khơng có cấu trúc (thường văn bản) đáp ứng nhu cầu thông tin từ nguồn tổng hợp lớn Những hệ thống truy xuất thông tin phổ biến bao gồm cơng cụ tìm kiếm Google, Yahoo, Bing search Những công cụ cho phép tiếp nhận câu truy vấn dạng ngôn ngữ tự nhiên làm đầu vào cho danh sách tài liệu xếp theo mức độ phù hợp Trích chọn thơng tin (Information Extraction – IE) nhận diện số loại thực thể xác định trước, mối quan hệ thực thể kiện văn ngôn ngữ tự nhiên Khác với truy xuất thông tin trả danh sách văn hợp lệ trích chọn thơng tin trả xác thơng tin mà người dùng cần Những thơng tin người, địa điểm, tổ chức, ngày tháng, chí tên cơng ty, mẫu sản phẩm hay giá Trả lời câu hỏi (Question Answering – QA) có khả tự động trả lời câu hỏi người dạng ngôn ngữ tự nhiên cách truy xuất thông tin từ tập hợp tài liệu Một hệ thống QA đặc trưng thường bao gồm ba mô đun: Mô đun xử lý truy vấn (Query Processing Module) – tiến hành phân loại câu hỏi mở rộng truy vấn; Mô đun xử lý tài liệu (Document Processing Module) – tiến hành truy xuất thơng tin để tìm tài liệu thích hợp; Mơ hình xử lý câu trả lời (Answer Processing Module) – trích chọn câu trả lời từ tài liệu truy xuất Tóm tắt văn tự động (Automatic Text Summarization) toán thu gọn văn đầu vào tóm tắt ngắn gọn với nội dung quan trọng văn gốc Có hai phương pháp tóm tắt, phương pháp trích xuất (extractive) phương pháp tóm lược ý (abstractive) Những tóm tắt trích xuất hình thành cách ghép số câu lấy y nguyên từ văn cần thu gọn Những tóm lược ý thường truyền đạt thơng tin đầu vào sử dụng lại cụm từ hay mệnh đề đó, nhìn chung thể ngơn ngữ người tóm tắt Chatbot việc chương trình máy tính có khả trị chuyện (chat), hỏi đáp với người qua hình thức hội thoại dạng văn (text) Chatbot thường sử dụng ứng dụng hỗ trợ khách hàng, giúp người dùng tìm kiếm thơng tin sản phẩm, giải đáp thắc mắc Dịch máy (Machine Translation – MT) việc sử dụng máy tính để tự động hóa phần tồn q trình dịch từ ngơn ngữ sang ngơn ngữ khác Các phương pháp dịch máy phổ biến bao gồm dịch máy dựa ví dụ (example-based machine translation – EBMT), dịch máy dựa luật (rule-based machine translation – RBMT), dịch máy thống kê (statistical machine translation – SMT), dịch máy sử dụng mạng nơ-ron (neural machine translation) Kiểm lỗi tả tự động việc sử dụng máy tính để tự động phát lỗi tả văn (lỗi từ vựng, lỗi ngữ pháp, lỗi ngữ nghĩa) đưa gợi ý cách chỉnh sửa lỗi Các cơng nghệ trí tuệ nhân tạo 2.1 Cây định Cây định dùng để đưa tập luật if – then nhằm mục đích dự báo, giúp người nhận biết tập liệu Cây định cho phép phân loại đối tượng tuỳ thuộc vào điều kiện nút cây, gốc tới nút sát lá-Nút xác định phân loại đối tượng Mỗi nút xác định điều kiện thuộc tính mơ tả đối tượng Mỗi nhánh tương ứng với điều kiện: Nút (thuộc tính) giá trị Đối tượng phân loại nhờ tích hợp điều kiện nút gốc thuộc tính mơ tả với giá trị thuộc tính đối tượng Thời tiết Nắng Nhiều Mưa mây Đợ ẩm Cao Không chơi Trung bình Chơi Gió Chơi Mạnh Khơng chơi Nhẹ Chơi Hình 4.1:Một ví dụ định Hình 4.1 định phân loại xem thời tiết phù hợp với việc chơi tennis a) Tạo định Xét bảng liệu T = (A, D) A = {A1, A2, , An } tập thuộc tính dẫn xuất, D = {r1, r2, , rn} thuộc tính mục tiêu Vấn đề đặt tập thuộc tính A ta phải chọn thuộc tính để phân hoạch? Một phương pháp dựa vào độ lợi thơng tin Hay cịn gọi thuật giải ID3 Lựa chọn chủ yếu giải thuật ID3 chọn thuộc tính để đưa vào nút Ta chọn thuộc tính phân rã tập mẫu tốt Thước đo độ tốt việc chọn lựa thuộc tính gì? Ta cần xác định độ đo thống kê, gọi thông tin thu được, đánh giá thuộc tính chọn tốt phụ thuộc vào việc phân loại mục tiêu tập mẫu ID3 sử dụng thông tin thu đánh giá để chọn thuộc tính cho bước thuộc tính ứng viên, q trình phát triển c Entropy( S )    pi log2 pi i 1 Để đánh giá xác thơng tin thu được, dùng Entropy(S): Độ bất định (độ pha trộn/độ hỗn tạp) S liên quan đến phân loại xét Trong pi xác suất xuất trạng thái i hệ thống Theo lý thuyết thông tin: mã có độ dài tối ưu mã gán –log2p bits cho thơng điệp có xác suất p S tập huấn luyện Nếu gọi p xác suất xuất ví dụ dương tập S, p xác suất xuất ví dụ âm tập S Entropy đo độ bất định tập S là: Entropy( S )   p log2 p  p log2 p Quy định 0.log0 = Chẳng hạn với tập S gồm 14 mẫu có chung vài giá trị logic gồm mẫu dương mẫu âm Khi đại lượng Entropy tập S liên quan đến phân loại logic là: Entropy([9+, 5-]) = - (9/14)log2(9/14) - (5/14)log2(5/14) = 0,940 Chú ý : Đại lượng Entropy = tất thành viên tập S thuộc lớp (vì tất dương (P+ = 1), P- = 0, Entropy(S) =  1log2  log2  ) Đại lượng Entropy(S) = tập S chứa tỉ lệ tập mẫu âm mẫu dương Nếu tập S chứa tập mẫu âm tâp mẫu dương có tỉ lệ P+ khác P- Entropy(S)  (0,1) Dựa xác định entropy, ta tính Gain(S, A) = Lượng giảm entropy mong đợi qua việc chia ví dụ theo thuộc tính A Gain( S , A)  Entropy( S )  | Sv | Entropy( Sv ) vValues ( A ) | S |  Ví dụ 4.1: Xem xét nhiệm vụ học đưa tập mẫu , thuộc tính mục tiêu là: chơi tennis có giá trị có khơng, giá trị thuộc tính dự đốn dựa vào thuộc tính mơ tả Ngày Thời tiết Nhiệt độ Độ ẩm Gió Chơi tennis D1 Nắng Nóng Cao Nhẹ Khơng D2 Nắng Nóng Cao Mạnh Khơng D3 Nhiều mây Nóng Cao Nhẹ Có D4 Mưa Dễ chịu Cao Nhẹ Có D5 Mưa Lạnh Trung bình Nhẹ Có D6 Mưa Lạnh Trung bình Mạnh Khơng D7 Nhiều mây Lạnh Trung bình Mạnh Có D8 Nắng Dễ chịu Cao Nhẹ Khơng D9 Nắng Lạnh Trung bình Nhẹ Có D10 Mưa Dễ chịu Trung bình Nhẹ Có D11 Nắng Dễ chịu Trung bình Mạnh Có D12 Nhiều mây Dễ chịu Cao Mạnh Có D13 Nhiều mây Nóng Trung bình Nhẹ Có D14 Mưa Dễ chịu Cao Mạnh Không Giải bước giải thuật, tạo nút đỉnh định Nên đưa thuộc tính vào đầu tiên? ID3 xác định thơng tin thu cho thuộc tính ứng cử (thời tiết, nhiệt độ, độ ẩm gió) sau chọn số mà có thơng tin thu cao Giá trị thông tin thu cho thuộc tính là: Gain(S, thời tiết) = 0,246 Gain(S, độ ẩm) = 0,151 Gain(S, gió) = 0,048 Gain(S, nhiệt độ) = 0,029 Trong tập S tập mẫu bảng Theo đánh giá thông tin thu được, thuộc tính thời tiết cung cấp dự đốn tốt thuộc tính mục tiêu “chơi tennis” tập mẫu Do đó, thuộc tính “thời tiết” chọn thuộc tính định cho nút gốc, nhánh tạo nút gốc tương ứng với giá trị thuộc tính thời tiết (như nắng, mưa, nhiều mây) với tập mẫu them vào nút {D1, D2, …, D14} [9+, 5-] Thời tiết Nắng {D1,D2,D8,D9,D11} Nhiều mây Mưa {D3,D7,D12,D13} {D4,D5,D6,D10,D14} Hình 4.2 Cây định sau lần phân hoạch đầu tiên Mọi mẫu mà có thời tiết = ‘nhiều mây’ mẫu dương với thuộc tính chơi tennis Do nút trở thành nút với phân loại thuộc tính chơi tennis = ‘Có’ Trái lại với nút tương ứng với thời tiết = ‘nắng’ “thời tiết” = ‘mưa’ có giá trị Entropy ≠ định phát triển xa nút Q trình chọn thuộc tính để phân loại tập mẫu lặp lại cho nút Lúc sử dụng mẫu có liên quan tới nút Những thuộc tính mơ tả có kết hợp chặt chẽ ngăn chặn Bởi mà thuộc tính đưa xuất theo nhánh Quá trình xử lí cịn tiếp cho nút hai điều kiện sau thoả mãn: Tập thuộc tính rỗng (mọi thuộc tính nằm dọc theo nhánh cây) tất mẫu có liên quan với nút có giá trị thuộc tính mục tiêu (giá trị entropy chúng = 0) 2.2 Học dựa xác suất Kỹ thuật hiểu đơn giản sau: với mẫu liệu cần phân lớp, ta tính xác suất có điều kiện để mẫu liệu rơi vào lớp tập lớp biết trước Mẫu liệu phân vào lớp có xác suất cao a) Một số khái niệm ban đầu Hiện tượng tất yếu: tượng thực điều kiện giống cho kết giống Chẳng hạn đun nước đến 1000C nước sơi Hiện tượng tất yếu đối tượng nghiên cứu Vật lý, Hóa học Hiện tượng ngẫu nhiên: tượng dù quan sát điều kiện giống nhau, kết khác Ví dụ: tung đồng xu, quan sát xem đồng xu “sấp” hay “ngửa” Hiện tượng ngẫu nhiên đối tượng nghiên cứu xác suất học Trong tượng ngẫu nhiên ta biết chắn kết xảy nào, hình dung khả mà kết xảy Tập hợp tất kết xảy gọi khơng gian mẫu, ký hiệu  Ví dụ: tung đồng xu,  = {sấp, ngửa}; tung xúc sắc tính điểm,  = {1, 2, 3, 4, 5, 6} Biến cố: tập không gian mẫu, ký hiệu là: A, B, C Ví dụ: tung xúc sắc, gọi A biến cố số điểm chẵn B biến cố số điểm lẻ A = {2, 4, 6}, B = {1, 3, 5} Vì biến cố tập hợp, nên ta thường sử dụng phép tính tập hợp cho biến cố: : A  B (A hay B xảy ra) - Phép hội - Phép giao: A  B = AB (A B xảy ra) - Phép bù: A   \ A (A không xảy ra) Khi quan sát tượng, ta thấy có tượng thường xun xảy ra, có tượng xảy Xác suất số đo lường mức độ thường xuyên xảy biến cố Xác suất xảy biến cố A (hay xác suất A), ký hiệu P(A) tỷ lệ số lần biến cố A xảy số lượng tất biến cố: P(A) = | A| || (4.1) Tính chất xác suất: ≤ P(A) ≤ 1; P(true) = 1; P(false) = 0; P(A  B) = P(A) + P(B) - P(A  B) Xác suất có điều kiện: P(A|B) phần khơng gian mà A đúng, với điều kiện (đã biết) B Nói cách khác, P(A|B) xác suất xảy biến cố A với điều kiện có xảy biến cố B, thường gọi “xác suất A có B” Ví dụ: A: Tơi đá bóng vào ngày mai, B: Trời không mưa vào ngày mai, P(A|B): Xác suất việc tơi đá bóng vào ngày mai (đã biết rằng) trời không mưa vào ngày mai Gọi P(A, B) xác suất xảy đồng thời hai kiện A B P(B) xác suất xảy kiện B Dễ dàng thấy rằng: P( A | B)  P( A, B) P( B) (4.2) Cơng thức xác suất tồn phần: Nếu B1 + B2 + …+ Bn =  BiBj =  i ≠ j, với biến cố A liên quan tính theo cơng thức: n P(A) =  P ( A | Bi ) P ( Bi ) (4.3) i 1 b) Định lý Bayes Cho h giả thiết x tập giá trị quan sát Khi đó, xác suất để giả thiết h biết x tính sau: P(h | X )  P ( X | h) P ( h) P( X ) (4.4) đó: P(h): xác suất tiên nghiệm giả thiết h Đây xác suất để giả thiết h mà khơng liên quan tới X Nó gọi “tiên nghiệm” với hàm ý khơng quan tâm tới thông tin X P(X): xác suất tiên nghiệm việc quan sát X Đây xác suất xảy X mà không quan tâm tới h P(X|h): xác suất xảy X, biết giả thiết h Nói cách khác, xác suất xảy X biết giả thiết h xảy c) Phân lớp kỹ thuật Nạve Bayes Trước tiên, ta xét tốn phân lớp Cho tập liệu huấn luyện X Rn×(m+1) gồm n mẫu liệu, mẫu có m thuộc tính thuộc tính lớp Mỗi mẫu huấn luyện xX biểu diễn vectơ m+1 chiều x(x1, x2, , xm, y) gồm m thành phần liệu y nhãn lớp Cho tập xác định nhãn lớp C = {c1, c2, , cq} gồm q lớp Dễ thấy yC Cho mẫu liệu zRm z biểu diễn bằng: z(z1, z2, ,zm) Hãy xác định lớp z Để xác định lớp z, cách đơn giản ta tính xác suất xảy khả z phân vào lớp ci, i=1 q, tức khả xảy ci Mẫu z phân vào lớp có xác suất xảy cao Tuy nhiên, mẫu z xác định với thành phần quan sát z1, z2, zm Do đó, xác suất để z thuộc vào lớp ci phải xác suất có điều kiện P(ci | z1, z , ,z m ) ký hiệu P(ci|z) Theo định lý Bayes, xác suất tính sau: P(c i | z) = (4.5) P(z | ci ) P(c i ) P( z ) Trong phương pháp Naïve Bayes, từ Nạve có hàm ý giả sử thuộc tính độc lập có điều kiện thuộc tính khác Do m P( z | ci )   P( z j | ci ), (4.6) j 1 (4.5) trở thành: m  P( z P(c i | z) = j | ci ) P(c i ) j 1 (4.7) P( z ) Mẫu liệu z phân vào lớp ck P(ck|z) lớn tức: m ck arg max p(c i ci C | z )  arg max ci C  P( z j | ci ).P(ci ) j 1 P( z ) (4.8) Vì P(z) số ci khác nhau, (3.8) tương đương với: m ck  arg max  P( z j | ci ).P(ci ) ciC (4.9) j 1 Một cách đơn giản hơn, để xác định lớp cho mẫu liệu z, ta tính giá trị m biểu thức  P( z j | ci ).P (ci ) với lớp ci {c1, c2, ,cq} Lớp ci cho giá trị j 1 biểu thức lớn lớp z Q trình phân lớp sử dụng phương pháp Nạve Bayes bao gồm hai bước: Bước 1: Đối với lớp ci  C, tính giá trị của: Xác suất tiên nghiệm P(ci) Xác suất tính xấp xỉ tổng số mẫu thuộc lớp ci tổng số mẫu liệu huấn luyện Đối với giá trị thuộc tính zj, tính P(zj|ci) xác suất xảy giá trị lớp ci Giá trị tính xấp xỉ tỷ lệ mẫu có giá trị thuộc tính thứ j zj số mẫu thuộc lớp ci Bước 2: Cần xác định lớp cho mẫu liệu z, ta thực hiện:  Đối với lớp ci C, tính giá trị biểu thức: (4.10) m  P( z j  Xác định lớp z ck: | ci ) p(ci ) , j 1 (4.11) m ck  argmax P( z j | ci )P(ci ) j 1 ciC Ví dụ 4.2 Cho bảng liệu huấn luyện gồm 14 mẫu định (có hay khơng) mua máy tính bảng, dựa vào quan sát tuổi (Age), thu nhập (Income), có sinh viên hay khơng (Student) tình hình tín dụng (Credit) ID Age Income Student Credit Buy Young High No Fair no Young High No Excellent no Medium High No Fair yes Old Medium No Fair yes Old Low Yes Fair yes Old Low Yes Excellent no Medium Low Yes Excellent yes Young Medium No Fair yes Young Low Yes Fair yes 10 Old Medium Yes Fair yes 11 Young Medium Yes Excellent yes 12 Medium Medium No Excellent yes 13 Medium High Yes Fair yes 14 Old Medium No Excellent no Cho mẫu liệu cần phân lớp x(Youth, Medium, Yes, Fair), tức xác định xem sinh viên trẻ với thu nhập trung bình mức đánh giá tín dụng bình thường có định mua máy tính hay khơng Dễ dàng thấy số mẫu liệu n=14; số thuộc tính liệu m=4 (do khơng xem xét thuộc tính ID); thuộc tính lớp Buy với tập lớp C={yes, no gồm lớp Quá trình xác định lớp cho mẫu liệu x trải qua hai bước: Bước 1: với lớp ciC:  Xét c1=yes: dễ dàng tình P(yes) = 10/14 Ta tiếp tục tính P(xj|c1): P(Age=Young | Buy=yes) = 3/10; P(Income=Medium | Buy=yes) = 5/10; P(Student = Yes | Buy = yes) = 6/10; P(Credit = Fair | Buy = yes) = 7/10  Xét c2=no: dễ dàng tính P(no) = 4/10 Ta tiếp tục tính P(xj|c2): P(Age=Young | Buy=no) = 2/4; P(Income=Medium | Buy=no) = 1/4; P(Student = Yes | Buy = no) = 1/4; P(Credit = Fair | Buy = no) = 1/10 Bước 2: Sử dụng kết vừa tính, ta được:  m  P( x j | c1 ) = P(Age = Youth | Buy = Yes) × j 1 P(Income = Medium | Buy = Yes) × P(Student = Yes | Buy = Yes) × P(Credit = Fair | Buy = Yes) = = 0,063 10 10 10 10 m  P( x j 1 j | c1 ) P(c1) = 0.063*10/14 = 0.045  m  P( x | c2 ) = j P(Age = Youth | Buy = no) × j 1 P(Income = Medium | Buy = no) × P(Student = Yes | Buy = no) × P(Credit = Fair | Buy = no) = 2111 = 0,0078 4444 m  P( x | c2 ) P(c2) j = 0.0078*4/14 = 0.0022 j 1 Vậy mẫu liệu x phân vào lớp c1 hay lớp x “yes” Phương pháp Naïve Bayes trường hợp liệu liên tục Các thuộc tính Bảng 3.1 có giá trị rời rạc Trong trường hợp thuộc tính có giá trị liên tục, ta áp dụng phương pháp rời rạc hóa Nếu khơng rời rạc hóa liệu, thay tính xác suất, ta sử dụng hàm mật độ xác suất Thông thường, ta hay giả thiết liệu lớp ci thuộc tính liên tục tuân theo phân bố Gauss phương pháp lúc gọi Gauss Nạve Bayes Xét thuộc tính A với giá trị liên tục Khi đó, ta phân đoạn giá trị A theo lớp Với lớp ci, ta tính µi giá trị trung bình i2 phương sai giá trị A lớp ci (với Ni số mẫu thuộc lớp ci yi lớp mẫu xi): i  Ni 2  i | x , xi : yi ci i xi  i 2  N i  xi : yi ci (4.12) Giá trị P(x|ci) gọi phân bố xác suất x vào lớp ci tính bằng:  p( x | ci )  2 i e  x  i 2 2 i (4.13) Ví dụ 4.3 Xét bảng liệu sau, xây dựng cách thay cột Income (thu nhập) giá trị thực liệu lại cột Buy sau: ID Age Income Student Credit Buy Young 3.1 No Fair no Young 2.8 No Excellent no Old Yes Excellent no Old 3.7 No Excellent no Medium 5.9 No Fair yes Old No Fair yes Old 6.1 Yes Fair yes Medium 3.1 Yes Excellent yes Young No Fair yes 10 Young 2.5 Yes Fair yes 11 Old 3.1 Yes Fair yes 12 Young 3.9 Yes Excellent yes 13 Medium 7.5 No Excellent yes 14 Medium 4.6 Yes Fair yes Giả sử mẫu liệu x(Youth, 5.2, Yes, Fair) cần phân lớp Các giá trị P(Income=5.2 | Buy=yes) P(Income = 5.2 | Buy = no) cần phải tính lại Xét lớp c1 = yes, ta dễ dàng tính µ1 = 4.97 giá trị trung bình cột Income mẫu thuộc lớp yes 12 = 3.12 phương sai tương ứng Tương tự với lớp c2=no, ta tính µ2 = 3.15 22 = 0.15 Ta có bảng giá trị trung bình phương sai lớp cột Income sau: Giá Lớp 2 trị µ yes 4.97 3.12 no 3.15 0.15 Vậy P(Income=5.2 | Buy=yes) =   5.2 4.97  e 2*3.12  0.191 *  * 3.12 P(Income = 5.2 | Buy = no) = *  * 0.15 e 15 2   5.22*03 15  1.7966.10-12 Và đó, P(x|c1) = P(x|c2) = 0.191  0.0241 10 10 10 11 1.7966 *1012  5.6 *1014 44 Mẫu liệu x phân vào lớp yes Trường hợp xuất xác suất không Xét mẫu liệu cần phân lớp x(x1, x2, ,xm) Xét giá trị xj thuộc tính j Nếu khơng có mẫu liệu lớp ci có giá trị thuộc tính j xj hiển nhiên m P(xj|ci) = Điều kéo theo P(ci ). P( x j | ci ) = j 1 Giải pháp đưa sử dụng ước lượng Laplace để ước lượng P(xj|ci) thay cho giá trị tính Giả sử ta có liệu với thuộc tính giống Bảng 3.1 lớp c1=“yes” có 1000 mẫu liệu Xét thuộc tính Income 1000 mẫu với mẫu có giá trị Income=”Low”; 990 mẫu liệu có Income=”Medium” 10 mẫu có Income=”High” Khi đó, xác suất P(Income=”Low” | Buy=yes), P(Income=”Medium” | Buy=yes) P(Income=”High” | Buy=yes) xấp xỉ 0, 990/1000 10/1000 Do đó, với mẫu x cần phân lớp có Income=”Low”, ví dụ x(Youth, Low, Yes, Fair) ta tính m  P( x j | c1 ) = P(Income=”Low” | Buy=yes)×P(Income=”Medium” | Buy=yes)× j 1 P(Income=”High” | Buy=yes)  990 10  1000 1000 1000 Để tránh trường hợp này, ta giả sử số mẫu liệu lớp “yes” lớn đó, ta bổ sung 01 mẫu liệu cho tập có Income=”Low”, Income=”Medium” Income=” High” việc khơng ảnh hưởng nhiều tới xác suất tính Nhưng đó, xác suất P(Income=”Low” | Buy=yes), P(Income=”Medium” | Buy=yes) P(Income=”High” | Buy=yes) thay đổi 1/1003, 991/1003 11/1003 m  P( x j 1 j | c1 )  991 11  0.000011 1003 1003 1003

Ngày đăng: 27/12/2023, 13:59

Xem thêm: