Tìm hiểu sơ bộ về Mô hình phân lớp dữ liệu cơ bản Naive Bayes

10 263 3
Tìm hiểu sơ bộ về Mô hình phân lớp dữ liệu cơ bản Naive Bayes

Đang tải... (xem toàn văn)

Thông tin tài liệu

Tìm hiểu sơ bộ về Mô hình phân lớp Naive Bayes với Bài toán xu hướng mua xe. Cấu trúc rời rạc cho Khoa học Máy tính 2018 Đại học Bách Khoa Đại học Quốc Gia thành phố Hồ Chí Minh..........................

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC - KỸ THUẬT MÁY TÍNH CẤU TRÚC RỜI RẠC CHO KHOA HỌC MÁY TÍNH Bài tập lớn hình Bayes cho tốn phân lớp GVHD: SV: Lê Hồng Trang Nguyễn Văn Biên - 1811562 Lê Ngọc Hiếu - 1812164 Nguyễn Khắc Đạo - 1811842 Nguyễn Văn Khang - 1812554 Nguyễn Duy Kiên - 1812704 TP HỒ CHÍ MINH, THÁNG 12/2018 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Mục lục Giới thiệu toán sở lý thuyết 2.1 Định lý Bayes (Bayes’s Theorem) 2.2 Phõn loi Naăve Bayes 4 Phương pháp kết tính tốn 3.1 Phương pháp tính 3.2 Thực tính toán kết 3.3 Thực lời giải cơng cụ lập trình 6 Kết luận Bài tập lớn môn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 1/9 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Báo cáo tài liệu trình bày mà nhóm chúng em tìm hiểu đề tài “Mơ hình Bayes cho tốn phân lớp” Báo cáo thể cơng việc mà nhóm làm bao gồm tìm hiểu nội dung phân lớp liệu, hình Bayes cho toán phân lớp liệu ứng dụng để giải tốn thực tế; tìm hiểu cơng cụ lập trình, cơng cụ tính tốn để hỗ trợ cho việc thực thi giải tốn, tả kết đầu Nhóm chúng em cố gắng tìm hiểu đúc kết lại thơng tin xác nội dung hình phân lớp liệu, giải chi tiết xác toán thực tế đề tài Báo cáo trình bày sở lí thuyết phân lớp liệu, hình Bayes cho tốn phân lớp, giới thiệu toán thực tế liên quan đến phân lớp liệu nêu phương pháp giải kết tốn Trong báo cáo trình bày cơng cụ hỗ trợ giải tốn, cơng cụ lập trình mà nhóm tìm hiểu để tả cho tốn phân lớp liệu Những thơng tin trình bày xun suốt báo cáo nhóm tìm hiểu rõ ràng, xác để đưa kết tốn Tuy nhiên q trình làm việc khơng thể tránh khỏi sai sót, mong nhận đánh giá góp ý thầy Bài tập lớn môn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 2/9 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Giới thiệu tốn Hiện nay, nhiều ví dụ thực tế dễ thấy phân lớp liệu xác định email phải “spam” hay không, xác định tài liệu thuộc loại văn nào, hay dự đốn tội phạm, quản lí khách hàng mạng, Trong số toán lựa chọn khách hàng sản phẩm quan tâm nhiều lĩnh vực kinh doanh nhu cầu ngày Vậy để hiểuphân lớp liệu, phân tích giải tốn xu hướng mua xe sau: Một người (nam nữ) chọn mua xe ô tô thường dựa vào số đặc điểm xe màu sắc, dòng xe xuất xứ Bảng thống kê số thông tin việc mua xe thực tế: TT 10 Màu sắc Đỏ Đỏ Đỏ Vàng Vàng Vàng Vàng Vàng Đỏ Đỏ Dòng xe Thể thao Thể thao Thể thao Thể thao Thể thao Du lịch Du lịch Du lịch Du lịch Thể thao Xuất xứ Trong nước Trong nước Trong nước Trong nước Nhập Nhập Nhập Trong nước Nhập Nhập Người mua Nam Nữ Nam Nữ Nam Nữ Nam Nữ Nữ Nam nhiều tốn đặt việc mua xe, nhiên phân tích toán đặc trưng sau: Cho xe với đặc điểm (Đỏ, Du lịch, Trong nước), xe xu hướng chọn người nam hay nữ? sở lý thuyết Bộ phân lớp Bayes phân lớp dựa vào thống kê Nó dùng để dự đốn xác suất để liệu rơi vào lớp liệu cụ thể hình phân lớp Bayes dựa vào định lí Bayes Những nghiên cứu so sánh thuật tốn phân loại tìm phân lớp Bài tập lớn môn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 3/9 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Bayes đơn giản biết n vi cỏi tờn naăve Bayes Vi b phõn lp này, ta giả định ảnh hưởng thuộc tính lên lớp độc lập với thuộc tính khác Giả định làm đơn giản hóa bước tính tốn trở nên hiệu với tập liệu lớn 2.1 Định lý Bayes (Bayes’s Theorem) Định lý Bayes đặt tên theo Thomas Bayes, nhà thống kê, nhà triết học người Anh Trong định lí Bayes: - Cho X liệu, X xác định số tạo tập gồm n thuộc tính - Cho H giả thiết mà tệp liệu X thuộc lớp C Khi phân loại, ta cần xác định P(H|X ) hay gọi xác suất xảy H biết X Nói theo cách khác, ta cần tìm xác suất để tệp liệu X rơi vào lớp C biết thuộc tính X - P(H|X ) xác suất hậu nghiệm (posterior probability) H dựa X Nó cho phép tính xác suất kiện H biết X Ví dụ, giả sử ta tập gồm liệu khách hàng xác định thuộc tính tuổi thu nhập, X khách hàng 40 tuổi với thu nhập 30 triệu đồng Giả sử H giả thiết khách hàng mua ô tô, P(H|X ) xác suất để khách hàng X mua ô tô biết X 40 tuổi thu nhập 30 triệu đồng - P(H) xác suất tiên nghiệm (prior probabiliry) H Xác suất xảy khơng cần thơng tin X Với ví dụ P(H) xác suất để khách hàng mua ô tô (không cần biết tuổi hay thu nhập) - Tương tự, ta P(X |H) xác suất hậu nghiệm X dựa H - P(X ) xác suất tiên nghiệm X, khơng cần thơng tin H Ta định lý Bayes: P (X|H) × P (H) P (H|X) = P (X) 2.2 Phõn loi Naăve Bayes B phõn lp Naăve Bayes, hoạt động sau: Bài tập lớn môn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 4/9 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Cho D tập liệu huấn luyện gồm liệu nhãn chúng Mỗi liệu miêu tả vector thuộc tính n-chiều X = (x1 , x2 , , xn ) diễn tả phép đo (measurement) tập gồm n thuộc tính A1 , A2 , A3 , An Giả sử m lớp C1 , C2 , C3 , Cm Cho liệu X, phân lớp dự đoán X thuộc vào lớp xác suất posterior cao dựa thuộc tính cho trước X Theo đó, phõn lp Naăve Bayes s d oỏn rng X thuc lớp Ci nếu: P (Ci |X) > P (Cj |X) với ≤ j ≤ m, j = i Do đó, với liệu gồm m lớp C1 , C2 , C3 , Cm , ta tìm Ci cho P(Ci |X) lớn Ci gọi maximum posterior hypothesis Bằng định lý Bayes: P (X|Ci ) × P (Ci ) P (Ci |X) = P (X) Bởi P(X ) không thay đổi với lớp, ta cần tối đa hóa P (X|Ci ) × P (Ci ) Nếu xác suất cho trước lớp (P (Ci )) chưa biết, ta thường giả định lớp nhau, nghĩa P (C1 ) = P (C2 ) = = P (Cm ) ta tối đa hóa P (X|Ci ) Nếu khơng, ta tối đa hóa P (X|Ci ) × P (Ci ) P (Ci ) tính công thức P (Ci ) = |Ci,D |/|D| với |Ci,D | số liệu huấn luyện lớp Ci D Cho tập liệu với nhiều thuộc tính, khó khăn mặt tính tốn ta tính P (X|Ci ) Để tránh điều này, giả định “ngây thơ” đặt ra, giá trị thuộc tính độc lập điều kiện với thuộc tính khác, dựa nhãn lớp liệu (nghĩa khơng quan hệ phụ thuộc thuộc tính) Từ đó, ta có: P (X|Ci ) = n k=1 P (xk |Ci ) = P (x1 |Ci ) × P (x2 |Ci ) × × P (xn |Ci ) Ta tính tốn dễ dàng xác suất P (x1 |Ci ), P (x2 |Ci ), , P (xn |Ci ) từ liệu huấn luyện Với xk giá trị thuộc tính Ak với liệu X Để dự đoán nhãn lớp mà X thuộc về, ta cần phải tính P (X|Ci ) × P (Ci ) với lớp Ci khác Sau chọn lớp xác suất lớn Bài tập lớn mơn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 5/9 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Phương pháp kết tính tốn 3.1 Phương pháp tính S dng nh lý Bayes v b phõn lp Naăve Bayes B phõn lp Naăve Bayes giỳp xỏc nh mt đối tượng liệu với thuộc tính độc lập (a1 , a2 , a3 , , an ) nhãn v ∗ ∈ V quy tắc: v ∗ = arg max P (vj ) n i=1 P (ai |vj ) (1) Tức tìm giá trị lớn : P (vj ) × P (D|vj ) = P (vj ) n i=1 P (ai |vj ) = P (vj ) × P (a1 |vj ) × P (a2 |vj ) × × P (an |vj ) với D liệu miêu tả (a1 , a2 , a3 , , an ) Trong đó, V tập nhãn lớp tập liệu cho trước Trong (1), xác suất điều kiện P (ai |vj ) định nghĩa bởi: P (ai |vj ) = • • • • nc + mp n+m (2) Trong đó: n: số điểm liệu huấn luyện nhãn vj nc : số điểm liệu huấn luyện nhãn vj thuộc tính p: ước lượng tiền định (priori estimate) cho P (ai |vj ) m: kích thước mẫu (equilvalent sample size) 3.2 Thực tính tốn kết • Gọi D(màu = đỏ, dòng = du lịch, xuất xứ = nước) liệu cần phân loại • Từ bảng (tập liệu huấn luyện), ta bảng số liệu sau: Bài tập lớn môn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 6/9 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Màu sắc Nam Nữ Đỏ Vàng Dòng xe Nam Thể thao Du lịch Nữ Xuất xứ Nam Trong nước Nhập Nữ Người mua Nam Nữ 5 • Áp dụng cơng thức (2), với m = p = 0.5, ta có: Màu sắc Nam Nữ Đỏ 9/16 7/16 Vàng 7/16 9/16 Dòng xe Nam Thể thao 11/16 Du lịch 5/16 Nữ 7/16 9/16 Xuất xứ Nam Trong nước 7/16 Nhập 9/16 Nữ 9/16 7/16 Người mua Nam Nữ 1/2 1/2 • Áp dụng cơng thức (1), ta có: P(Nam|D) = P(Màu sắc=Đỏ|Nam)×P(Dòng xe=Du lịch|Nam)×P(Xuất xứ=Trong nước|Nam)×P(Nam) = × × × ≈ 0.038 16 16 16 P(Nữ|D) = P(Màu sắc=Đỏ|Nữ)×P(Dòng xe=Du lịch|Nữ)×P(Xuất xứ=Trong nước|Nữ)×P(Nữ) 9 = × × × ≈ 0.069 16 16 16 Vì 0.069 > 0.038 nên xác suất để người mua xe liệu D(màu = đỏ, dòng = du lịch, xuất xứ = nước) người nữ Kết quả: Chiếc xe với đặc điểm (Đỏ, du lịch, nước) xu hướng chọn nữ 3.3 Thực lời giải công cụ lập trình Phần mềm dùng để lập trình Code::Blocks (phiên 17.12) File code: "code-BAYES.cpp" - ngơn ngữ lập trình C++ Giới thiệu Code::Blocks Code::Blocks IDE - Integrated Development Environment, mơi trường phát triển tích hợp, bao gồm trình soạn thảo, trình dịch (compiler), trình sốt lỗi (debugger) giúp đỡ lập trình viên việc phát triển phần mềm (hoặc mục đích học tập) Code::Blocks phiên 17.12 hoạt động hệ điều hành Windows Bài tập lớn mơn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 7/9 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Dữ liệu đầu vào liệu đầu a Dữ liệu đầu vào: • Chương trình chạy với số lượng liệu nhỏ 2000 Chương trình chạy tập liệu huấn luyện gồm thuộc tính: Màu sắc (chỉ gồm “đỏ” “vàng”), Dòng xe (chỉ gồm “thể thao” “du lịch“), Xuất xứ (chỉ gồm “trong nước” “nhập”), người mua (chỉ gồm “nam” “nữ”) • Nếu liệu nhập vào khơng thỏa mãn (ví dụ màu xe nhập “xanh“) chương trình yêu cầu nhập lại Để thuận tiện cho việc nhập, nên viết sẵn liệu cần nhập file riêng (có thể dùng txt , docx Ở file "training data.txt") copy vào chương trình b Dữ liệu đầu ra: • Tập liệu huấn luyện (trình bày dạng bảng) • Giá trị đại lượng xác suất cần thiết để tìm kết • Phép tính để tìm kết • Kết quả: xác định người mua xu hướng nam hay nữ Kết luận Như nói từ đầu, tốn phân loại toán quan trọng thực tiễn, đem lại hiệu lớn lao việc tiên đốn, từ xây dựng nên hệ thống tự động hóa hoạt động xác Cụ thể báo cáo hình phân lớp Bayes Với phương pháp thống kê dựa định lí Bayes v b phõn lp Naăve Bayes ta cú th phõn loại liệu theo cách đơn giản mà hiệu việc tối đa hóa xác xuất hậu nghiệm giả thiết Trong tốn trên, dựa vào lí thuyết, ta dự đoán nhãn lớp(Nam hay Nữ) liệu (ở xe) sau biết thuộc tính (màu sắc, dòng xe, xuất xứ) Sau nghiên cứu hình phân lớp Bayes, kết đạt là: - Bước đầu hiểu Machine Learning, phương pháp phân loại, c bit l b phõn lp Naăve Bayes - Hiu thuật ngữ chuyên ngành xác suất thống kê - Giải toán phân lớp Bài tập lớn môn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 8/9 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Tài liệu [1] J.Han, M Kamber, and J Pei, Data Mining: Concepts and Techniques, 3rd ed., Morgan Kafmann Publishers, 2011 [2] Internet HẾT ! Bài tập lớn môn Cấu trúc rời rạc cho KHMT - Niên khóa 2018-2019 Trang 9/9 ... tài liệu trình bày mà nhóm chúng em tìm hiểu đề tài “Mơ hình Bayes cho toán phân lớp Báo cáo thể cơng việc mà nhóm làm bao gồm tìm hiểu nội dung phân lớp liệu, mơ hình Bayes cho tốn phân lớp liệu. .. dùng để dự đốn xác suất để liệu rơi vào lớp liệu cụ thể Mơ hình phân lớp Bayes dựa vào định lí Bayes Những nghiên cứu so sánh thuật tốn phân loại tìm phân lớp Bài tập lớn môn Cấu trúc rời rạc cho... thuyết phân lớp liệu, mơ hình Bayes cho tốn phân lớp, giới thiệu toán thực tế liên quan đến phân lớp liệu nêu phương pháp giải kết toán Trong báo cáo trình bày cơng cụ hỗ trợ giải tốn, cơng cụ

Ngày đăng: 21/12/2018, 21:23

Từ khóa liên quan

Mục lục

  • Gii thiu bài toán

  • C s lý thuyt

    • Ðinh lý Bayes (Bayes’s Theorem)

    • Phân loai Naïve Bayes

    • Phng pháp và kt qua tính toán

      • Phng pháp tính

      • Thc hin tính toán và kt qua

      • Thc hin li giai bng công cu lp trình

      • Kt lun

Tài liệu cùng người dùng

Tài liệu liên quan