Báo cáo bài tập lớn môn Trí tuệ nhân tạo trường đại học Công Nghiệp Hà Nội. Báo cáo bài tập lớn môn Trí tuệ nhân tạo trường đại học Công Nghiệp Hà NộiBáo cáo bài tập lớn môn Trí tuệ nhân tạo trường đại học Công Nghiệp Hà Nội
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN BÀI TẬP LỚN TRÍ TUỆ NHÂN TẠO ĐỀ TÀI: XÂY DỰNG CÂY QUYẾT ĐỊNH TÌM HIỂU VỀ BỆNH VIÊM TAI-MŨI-HỌNG Giáo viên hướng dẫn: Lớp: Kỹ Thuật Phần Mềm 02 – DHCNHN – K12 Sinh viên thực hiện: • Nguyễn Thị Hải • Nguyễn Ngọc Hải • Nguyễn Văn Hải • Hà Quang Hải • Ninh Khương Duy • Nguyễn Thị Hà Giang • Nguyễn Minh Hải LỜI MỞ ĐẦU AI ứng dụng nhiều hoạt động lĩnh vực khác Đối với hoạt động nghiên cứu lĩnh vực toán học, vật lý lượng tử, sinh học di truyền, hóa học phân tích, AI giúp giải phương trình vi phân, đạo hàm riêng, tính tốn mơ q trình tương tác mức lượng tử, mô tái tạo thành công lỗ hổng đen, tối ưu hóa Gen, xác định marker cho điều chỉnh Gen, thiết kế thuốc Gen, xác định cấu trúc hóa học, đề xuất kết hợp… Đối với hoạt động nghiên cứu ứng dụng, với thành tựu lĩnh vực xã hội, quân sự, kinh tế, giao thông, y tế… AI hỗ trợ bác sỹ chẩn đốn bệnh, phân tích hình ảnh y khoa, dự báo dịch bệnh, xem xét tác động sách… Hiện nhiều công ty, từ công ty nhỏ đến công ty hàng đầu giới áp dụng AI để xác định khách hàng tiềm năng, nhóm nhân viên rời bỏ cơng ty, phát triển sản phẩm, tối ưu vận chuyển, dự đoán xu nhu cầu khách hàng, đề xuất sản phẩm cần thiết cho người dùng… làm công cụ hữu dụng để tăng khả kinh doanh, quản lý cạnh tranh cho doanh nghiệp Trong xã hội ngày bệnh viêm tai-mũi-họng dần trở nên phổ biến hơn, ngày nhiều người phải phiền phức bệnh Bệnh viêm tai-mũi-họng nhiều nguyên nhân gây gây ảnh hưởng trực tiếp đến sức khỏe bệnh nhân Nhận thấy điều nên nhóm định chọn đề tài Bài tập lớn mơn Trí tuệ nhân tạo xây dựng định để tìm hiểu bệnh Dựa vào mơ hình định ta tìm hiểu ngun nhân gây bệnh từ phòng tránh mắc bệnh MỤC LỤC PHẦN I: KHÁI NIỆM, ỨNG DỤNG TRÍ TUỆ NHÂN TẠO 1.0 Khái niệm Trí Tuệ Nhân Tạo Ngày cơng nghệ thơng tin ứng dụng hầu hết lĩnh vực đời sống Bên cạnh cách làm truyền thống xuất kỹ thuật áp dụng đem lại hiệu đáng kể Với lượng thông tin lớn, với tốn có độ phức tạp cao, vấn đề đặt làm để phát tri thức, đưa lời giải mà thời gian thực chấp nhận Trong số kỹ thuật sử dụng Trí Tuệ Nhân Tạo Trí tuệ nhân tạo trí thông minh máy người tạo Ngay từ máy tính điện tử đời, nhà khoa học máy tính hướng đến phát hiển hệ thống máy tính (gồm phần cứng phần mềm) cho có khả thơng minh loài người Mặc dù nay, theo quan niệm người viết, ước mơ xa thành thực, thành tựu đạt không nhỏ: làm hệ thống (phần mềm chơi cờ vua chạy siêu máy tinh GeneBlue) thắng vua cờ giới; làm phần mềm chứng minh tốn hình học; v.v Hay nói cách khác, số lĩnh vực, máy tính thực tốt tương đương người (tất nhiên tất lĩnh vực) Đó hệ thống thơng minh Có nhiều cách tiếp cận để làm trí thơng minh máy (hay trí tuệ nhân tạo), chẳng hạn nghiên cứu cách não người sản sinh trí thơng minh lồi người ta bắt chước nguyên lý đó, có cách khác sử dụng ngun lý hồn tồn khác với cách sản sinh trí thơng minh lồi người mà làm máy thơng minh người; giống máy bay bay tốt chim có chế bay giống chế bay chim Như vậy, trí tuệ nhân tạo nói đến khả máy thực công việc mà người thường phải xử lý; dáng vẻ ứng xử kết thực máy tốt tương đương với người ta gọi máy thơng minh hay máy có trí thơng minh Hay nói cách khác, đánh giá thông minh máy dựa nguyên lý thực nhiệm vụ có giống cách người thực hay khơng mà dựa kết dáng vẻ ứng xử bên ngồi có giống với kết dáng vẻ ứng xử người hay không Các nhiệm vụ người thường xuyên phải thực là: giải tốn (tìm kiếm, chứng minh, lập luận), học, giao tiếp, thể cảm xúc, thích nghi với môi trường xung quanh, v.v., dựa kết thực nhiệm vụ để kết luận có thơng minh hay khơng Mơn học Trí tuệ nhân tạo nhằm cung cấp phương pháp luận để làm hệ thống có khả thực nhiệm vụ đó: giải tốn, học, giao tiếp, v.v cách làm có người hay không mà kết đạt dáng vẻ bên ngồi người Trong mơn học này, tìm hiểu phương pháp để làm cho máy tính biết cách giải tốn, biết cách lập luận, biết cách học, v.v 1.1 Cây Quyết Định 1.1.0 Giới thiệu chung.: Trong lĩnh vực học máy, định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng Mỗi nút (internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định Học định phương pháp thông dụng khai phá liệu Khi đó, định mơ tả cấu trúc cây, đó, đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại đó[1] Một định học cách chia tập hợp nguồn thành tập dựa theo kiểm tra giá trị thuộc tính [1] Q trình lặp lại cách đệ qui cho tập dẫn xuất Q trình đệ qui hồn thành khơng thể tiếp tục thực việc chia tách nữa, hay phân loại đơn áp dụng cho phần tử tập dẫn xuất Một phân loại rừng ngẫu nhiên (random forest) sử dụng số định để cải thiện tỉ lệ phân loại Cây định phương tiện có tính mơ tả dành cho việc tính tốn xác suất có điều kiện Cây định mơ tả kết hợp kỹ thuật tốn học tính tốn nhằm hỗ trợ việc mô tả, phân loại tổng quát hóa tập liệu cho trước Dữ liệu cho dạng ghi có dạng: (x, y) = (x1, x2, x3 , xk, y) Biến phụ thuộc (dependant variable) y biến mà cần tìm hiểu, phân loại hay tổng quát hóa x1, x2, x3 biến giúp ta thực công việc 1.1.1 Các kiểu định Cây hồi quy (Regression tree) ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại (ví dụ: ước tính giá nhà khoảng thời gian bệnh nhân nằm viện) Cây phân loại (Classification tree), y biến phân loại như: giới tính (nam hay nữ), kết trận đấu (thắng hay thua) Ví dụ thực hành : Ta dùng ví dụ để giải thích định: David quản lý câu lạc đánh golf tiếng Anh ta có rắc rối chuyện thành viên đến hay khơng đến Có ngày muốn chơi golf số nhân viên câu lạc lại không đủ phục vụ Có hơm, khơng hiểu lý mà chẳng đến chơi, câu lạc lại thừa nhân viên Mục tiêu David tối ưu hóa số nhân viên phục vụ ngày cách dựa theo thông tin dự báo thời tiết để đoán xem người ta đến chơi golf Để thực điều đó, anh cần hiểu khách hàng định chơi tìm hiểu xem có cách giải thích cho việc hay khơng Vậy hai tuần, thu thập thông tin về: Trời (outlook) (nắng (sunny), nhiều mây (clouded) mưa (raining)) Nhiệt độ (temperature) độ F Độ ẩm (humidity) Có gió mạnh (windy) hay khơng Và tất nhiên số người đến chơi golf vào hơm David thu liệu gồm 14 dòng cột Hình 2.1 Bảng liệu chơi golf Sau đó, để giải tốn David, người ta đưa mơ hình định Hình 2.2 định Cây định mô hình liệu mã hóa phân bố nhãn lớp (cũng y) theo thuộc tính dùng để dự đốn Đây đồ thị có hướng phi chu trình dạng Nút gốc (nút nằm đỉnh) đại diện cho tồn liệu Thuật tốn phân loại phát cách tốt để giải thích biến phụ thuộc, play (chơi), sử dụng biến Outlook Phân loại theo giá trị biến Outlook, ta có ba nhóm khác nhau: Nhóm người chơi golf trời nắng, nhóm chơi trời nhiều mây, nhóm chơi trời mưa Kết luận thứ nhất: trời nhiều mây, người ta luôn chơi golf Và có số người ham mê đến mức chơi golf trời mưa Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm Ta thấy khách hàng không muốn chơi golf độ ẩm lên 70% Cuối cùng, ta chia nhóm trời mưa thành hai thấy khách hàng không chơi golf trời nhiều gió Và lời giải ngắn gọn cho tốn mơ tả phân loại David cho phần lớn nhân viên nghỉ vào ngày trời nắng ẩm, ngày mưa gió Vì chẳng có chơi golf ngày Vào hơm khác, nhiều người đến chơi golf, thuê thêm nhân viên thời vụ để phụ giúp công việc Kết luận định giúp ta biến biểu diễn liệu phức tạp thành cấu trúc đơn giản nhiều 1.2 Các công thức dựng định 1.2.1.Thuật giải Qui Lan Dùng thuật toán CART (Classification and Regression Trees) Nó dựa vào việc bình phương xác suất thành viên cho thể loại đích nút Giá trị tiến đến cực tiểu (bằng 0) trường hợp nút rơi vào thể loại đích Giả sử y nhận giá trị {1, 2, , m} gọi f(i,j) tần xuất giá trị j nút i Nghĩa f(i,j) tỷ lệ ghi với y=j xếp vào nhóm i Hình 2.3 công thức Qui lan 1.2.2.Giải thuật ID3 Dùng thuật toán sinh ID3, C4.5 C5.0 Số đo dựa khái niệm entropy lý thuyết thông tin (information theory) Hình 2.4 Cơng thức ID3 1.3.Ưu điểm định So với phương pháp khai phá liệu khác, định phương pháp có số ưu điểm: Cây định dễ hiểu Người ta hiểu mơ hình định sau giải thích ngắn Việc chuẩn bị liệu cho định khơng cần thiết Các kỹ thuật khác thường địi hỏi chuẩn hóa liệu, cần tạo biến phụ (dummy variable) loại bỏ giá trị rỗng Cây định xử lý liệu có giá trị số liệu có giá trị tên thể loại Các kỹ thuật khác thường chuyên để phân tích liệu gồm loại biến Chẳng hạn, luật quan hệ dùng cho biến tên, mạng nơ-ron dùng cho biến có giá trị số Cây định mơ hình hộp trắng Nếu quan sát tình cho trước mơ hình, dễ dàng giải thích điều kiện logic Boolean Mạng nơ-ron ví dụ mơ hình hộp đen, lời giải thích cho kết q phức tạp để hiểu Có thể thẩm định mơ hình kiểm tra thống kê Điều làm cho ta tin tưởng vào mơ hình Cây định xử lý tốt lượng liệu lớn thời gian ngắn Có thể dùng máy tính cá nhân để phân tích lượng liệu lớn thời gian đủ ngắn phép nhà chiến lược đưa định dựa phân tích định PHẦN II: ỨNG DỤNG, Ý NGHĨA MỤC TIÊU ĐỀ TÀI 2.1.Ứng dụng: Artificial Intelligent, hay trí thơng minh nhân tạo thể máy móc, có nhiều ứng dụng xã hội ngày Cụ thể hơn, Weak AI, dạng AI nơi chương trình phát triển để thực nhiệm vụ cụ thể, sử dụng cho loạt hoạt động bao gồm chẩn đoán y tế , tảng giao dịch điện tử , điều khiển robot viễn thám AI sử dụng để phát triển phát triển nhiều lĩnh vực ngành cơng nghiệp, bao gồm tài chính, y tế, giáo dục, giao thông vận tải, v.v 2.2.Nông nghiệp Trong nông nghiệp, tiến AI giúp nâng cao suất để gia tăng nghiên cứu phát triển trồng Trí thơng minh nhân tạo dự đoán thời gian cần thiết cho loại trồng dự báo thời gian chín tăng hiệu canh tác Những tiến AI Giám sát trồng đất, Robot nông nghiệp Phân tích dự đốn Giám sát trồng đất sử dụng thuật toán liệu thu thập đồng ruộng để quản lý theo dõi sức khỏe trồng làm cho nông dân dễ dàng bền vững Nhiều chuyên ngành AI nông nghiệp kỹ thuật tự động hóa nhà kính , mơ , mơ hình hóa tối ưu hóa 2.3 Khoa học máy tính Các nhà nghiên cứu tạo nhiều công cụ để giải vấn đề khó khăn khoa học máy tính Nhiều phát minh họ khoa học máy tính thống áp dụng coi phần AI: chia sẻ thời gian thực, phiên dịch tương tác , giao diện đồ họa người dùng , môi trường phát triển ứng dụng nhanh cấu trúc liệu danh sách liên kết, quản lý lưu trữ tự động, lập trình biểu tượng, lập trình chức năng, lập trình động lập trình hướng đối tượng AI sử dụng để có khả xác định nhà phát triển nhị phân ẩn danh AI sử dụng để tạo AI khác Ví dụ: vào khoảng tháng 11 năm 2017, dự án AutoML Google để phát triển cấu trúc liên kết mạng thần kinh tạo NASNet , hệ thống tối ưu hóa cho ImageNet COCO Theo Google, hiệu suất NASNet vượt tất hiệu suất ImageNet cơng bố trước 2.4.Giáo dục Gia sư AI cho phép sinh viên nhận thêm trợ giúp Các thiết bị học tập tạo học, câu hỏi trò chơi để phù hợp với nhu cầu học sinh cụ thể đưa phản hồi Nhưng AI tạo môi trường bất lợi với hiệu ứng không mong muốn tiêu cực không lường trước cho xã hội Ví dụ việc sử dụng cơng nghệ mở rộng cản trở khả tập trung tư sinh viên thay giúp họ học hỏi phát triển 2.5.Tài Giao dịch tiền thuật toán liên quan đến việc sử dụng hệ thống AI phức tạp để đưa định giao dịch với tốc độ lớn nhiều bậc so với người có khả năng, thường thực hàng triệu giao dịch ngày mà không cần can thiệp người Giao dịch gọi Giao dịch cao tần đại diện cho lĩnh vực phát triển nhanh giao dịch tài Nhiều ngân hàng, quỹ công ty thương mại độc quyền có tồn danh mục đầu tư quản lý hoàn toàn hệ thống AI Một số tổ chức tài lớn đầu tư vào công cụ AI để hỗ trợ thực hành đầu tư họ Công cụ AI BlackRock , Aladdin, sử dụng công ty khách hàng để giúp đưa định đầu tư Nhiều chức bao gồm việc sử dụng xử lý ngôn ngữ tự nhiên để đọc văn tin tức, báo cáo môi giới nguồn cấp liệu truyền thơng xã hội Sau đó, đánh giá tình cảm công ty đề cập định số điểm Các ngân hàng UBS Deutsche Bank sử dụng cơng cụ AI có tên Sqreem (Mơ hình khai thác giảm lượng tử tuần tự) khai thác liệu để phát triển hồ sơ người tiêu dùng kết hợp chúng với sản phẩm quản lý tài sản mà họ mong muốn Một số sản phẩm lên sử dụng AI để hỗ trợ người tài cá nhân Ví dụ, Digit ứng dụng cung cấp trí tuệ nhân tạo, tự động giúp người tiêu dùng tối ưu hóa chi tiêu tiết kiệm dựa thói quen mục tiêu cá nhân họ Ứng dụng phân tích yếu tố thu nhập hàng tháng, số dư thói quen chi tiêu, sau tự đưa định chuyển tiền vào tài khoản tiết kiệm Robot cố vấn trở nên sử dụng rộng rãi ngành quản lý đầu tư Robo-cố vấn cung cấp tư vấn tài quản lý danh mục đầu tư với can thiệp tối thiểu người Nhóm cố vấn tài hoạt động dựa thuật toán xây dựng để tự động phát triển danh mục đầu tư tài theo mục tiêu đầu tư khả chịu rủi ro khách hàng Nó điều chỉnh theo thay đổi thời gian thực thị trường theo hiệu chỉnh danh mục đầu tư 2.6 Y tế Tại nước phát triển giới cịn bất bình đẳng dịch vụ y tế thành thị nơng thơn, thiếu hụt bác sĩ nguyên nhân Một số nghiên cứu việc áp dụng kỹ thuật y tế hỗ trợ máy tính AI cải thiện kết chăm sóc sức khỏe khu vực nông thôn nước phát triển Hiện nay, lượng thông tin y khoa tăng gấp đôi sau năm Người ta ước tính bác sĩ muốn cập nhật tồn thơng tin y khoa phải đọc 29 ngày Ngoài ra, nguồn liệu lớn (big data), bao gồm liệu từ hồ sơ sức khoẻ điện tử (EHR), liệu “omic” - liệu di truyền học (genomics), liệu chuyển hóa (metabolomics) liệu protein (proteomics), liệu xã hội học lối sống nguồn liệu khơng có ích khơng phân tích tồn diện Giải pháp để tiếp cận sử dụng khối lượng thông tin khổng lồ lĩnh vực y tế sử dụng cơng nghệ trí tuệ nhân tạo Lỗi chẩn đốn mối đe dọa nghiêm trọng chất lượng an tồn chăm sóc sức khỏe Tại Mỹ, ước tính tỷ lệ lỗi chẩn đốn ngoại trú 5,08% tương đương 12 triệu người năm Khoảng nửa số lỗi có khả gây hại Công nghệ AI sử dụng để cải thiện chất lượng chẩn đoán, đặc biệt X quang AI dựa nguồn liệu 129.450 hình ảnh lâm sàng để chẩn đốn bệnh ngồi da, kết chứng minh hệ thống phân loại ung thư da mức tương đương với bác sĩ da liễu Một thuật toán dựa hình ảnh cộng hưởng từ chuyển động tim cho phép dự đốn xác kết bệnh nhân bị tăng áp phổi; phương pháp phân loại nhịp tự động phân tích điện tâm đồ liên tục (ECGs) bệnh nhân mắc bệnh nghiêm trọng Một nghiên cứu khác xem xét kết đầy hứa hẹn sử dụng AI hình ảnh đột quỵ cho cơng nghệ AI đóng vai trò quan trọng việc quản lý bệnh nhân đột quỵ 2.7 Ý nghĩa, mục tiêu đề tài Với ý nghĩa ứng dụng lớn lao trí tuệ nhân tạo, việc tìm hiểu phát triển ứng dụng thực tiễn đời sống sinh viên Công nghệ thông tin vô cấp thiết Việc áp dụng phần nhỏ trí tuệ nhân tạo vào việc phân tích loại bênh lý, ảnh hưởng tiêu cực tích cực, yếu tố khách quan hình thành bệnh khả phịng ngừa, chữa trị bệnh mang lại ý nghĩa lớn lao y học nói chung ngành cơng nghệ thơng tin nói riêng.Vì nhóm em xin chọn áp dụng phương pháp xây dựng định để phân tích triệu chứng ảnh hướng bệnh lý Viêm xoang nhằm đưa thông tin đánh giá phần bệnh lý PHẦN 3: KHẢO SÁT, THU THẬP DỮ LIỆU, VẼ CÂY QUYẾT ĐỊNH 3.1 Khảo sát liệu Người Thời tiết Hút thuốc Mang trang Nắng Có Khơng Mưa Khơng Có Nắng Có Khơng Nắng Có Khơng Mưa Khơng Khơng Nắng Có Có Mưa Có Có Nơi sống Thành phố Thành phố Thành phố Nông thôn Thành phố Nông thôn Thành phố Bị sâu Nghề nghiệp Viêm họng Bị viêm xoang Không Trí óc Khơng Có Khơng Khơng Khơng Có Khơng Có Tay Chân Tay Chân Khơng Trí óc Có Có Có Trí óc Có Có Khơng Có Có Có Khơng Có Tay Chân Tay Chân Nắng Khơng Có Mưa Có Khơng 10 Nắng Có Khơng 12 Nắng Khơng Khơng 13 Mưa Khơng Có 14 Nắng Khơng Khơng 15 Nắng Có Khơng 16 Mưa Khơng Khơng 17 Mưa Khơng Có 18 Nắng Khơng Khơng 19 Mưa Có Có 20 Nắng Có Khơng 21 Nắng Khơng Khơng 22 Nắng Khơng Khơng 23 Mưa Không Không 24 Nắng Không Không 25 Mưa Khơng Có 26 Nắng Có Khơng 27 Mưa Khơng Khơng 28 Mưa Khơng Có 29 Nắng Có Khơng 30 Nắng Khơng Có 31 Mưa Có Khơng 32 Nắng Khơng Có 33 Mưa Không Không Thành phố Nông thôn Thành phố Thành phố Nông thôn Thành phố Thành phố Thành phố Thành phố Thành phố Nông thôn Thành phố Thành phố Nông thôn Nông thôn Thành phố Thành phố Nông thôn Nông thôn Thành phố Thành phố Thành phố Nông thôn Thành phố Nơng thơn Khơng Trí óc Khơng Khơng Có Tay Chân Khơng Có Khơng Trí óc Khơng Có Có Có Có Khơng Khơng Khơng Khơng Có Khơng Có Có Khơng Có Có Có Tay Chân Tay Chân Trí óc Tay Chân Tay Chân Khơng Trí óc Có Khơng Khơng Trí óc Khơng Khơng Khơng Trí óc Có Có Có Tay Chân Có Có Khơng Trí óc Khơng Khơng Khơng Tay Chân Có Có Có Trí óc Khơng Có Khơng Tay Chân Có Có Khơng Trí óc Khơng Khơng Có Tay Chân Có Có Khơng Trí óc Khơng Khơng Có Tay Chân Khơng Khơng Có Trí óc Có Có Khơng Trí óc Khơng Khơng Có Có Có Có Khơng Khơng Khơng Có Khơng Tay Chân Tay Chân Trí óc 34 Nắng Có Khơng 35 Mưa Khơng Có 36 Mưa Có Khơng 37 Nắng Khơng Khơng 38 Mưa Có Có 39 Nắng Khơng Có 40 Mưa Có Có 41 Nắng Có Khơng 42 Mưa Khơng Có 43 Nắng Có Khơng 44 Nắng Có Có 45 Mưa Khơng Khơng 46 Nắng Khơng Khơng 47 Mưa Khơng Có 48 Nắng Có Khơng 49 MƯA Khơng Có 50 Nắng Có Khơng Thành phố Nơng thôn Thành phố Nông thôn Thành phố Thành phố Nông thôn Thành phố Thành phố Nông thôn Nông thôn Thành phố Nông thôn Thành phố Nông thôn Thành phố Nông thơn Có Tay Chân Khơng Có Khơng Trí óc Khơng Khơng Khơng Trí óc Khơng Có Có Có Khơng Có Có Khơng Tay Chân Tay Chân Có Trí óc Có Có Khơng Trí óc Khơng Có Có Trí óc Khơng Có Khơng Trí óc Có Khơng Có Tay Chân Khơng Có Khơng Trí óc Có Có Có Trí óc Khơng Khơng Có TC Khơng Có Có Trí óc Có Khơng Khơng TC Có Có Có Trí óc Khơng Khơng Khơng TC Có Có 3.2 Giải tốn Dựa vào bảng khảo sát xây dựng định để tìm nguyên nhân mắc bệnh viêm xoang? Lời giải Chọn nút gốc định: Tập liệu có 32 kết Yes 17 kết No, ta kí hiệu S: [32+,17−] Theo cơng thức tính Entropy (độ hỗn tạp liệu) tập: đó: • • tỷ lệ mẫu thuộc lớp dương S tỷ lệ mẫu thuộc lớp âm S Lưu ý: • Entropy tất thành viên S thuộc lớp • Entropy tập hợp chứa số lượng thành viên thuộc lớp âm dương Cơng thức tính Information Gain thuộc tính A tập S sau: đó: • Value(A) tập giá trị cho thuộc tính A • tập S mà A nhận giá trị v Từ công thức ta áp dụng vào tốn: Xét thuộc tính Thời tiết, thuộc tính nhận giá trị Nắng Mưa Ứng với thuộc tính, ta có: • (có nghĩa tập liệu (S), có 19 kết Nắng kết Mưa Thời tiết = Nắng) Tương tự: • 994 796 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Thời tiết tập S: 135 Xét thuộc tính Hút thuốc Ta có: • • • 524 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Hút thuốc tập S: 407 Xét thuộc tính Mang trang Ta có: • 0,982 • 0,722 • 823 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính tập S: 108 Xét thuộc tính Nơi sống Ta có: • 981 • 764 • Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Nơi sống tập S: 03 Xét thuộc tính Bị sâu Ta có: • 0,755 • 996 • 883 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Bị sâu tập S: 049 Xét thuộc tính Nghề nghiệp Ta có: • 0,996 • 559 • 791 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Nghề nghiệp tập S: 14 Xét thuộc tính Viêm họng Ta có: • 0,702 • 996 • 87 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Viêm họng tập S: 061 Thuộc tính Hút thuốc có Information Gain cao nhất, chọn làm nút gốc: Hút thuốc Khơng ? Có Có Hình Cây định sau chọn Xây dựng tiếp định: Sau chọn nút gốc Hút thuốc, ta tính tiếp nút thuộc tính nút vừa chọn Trong hình 1: Nhánh bên trái ứng với Hút thuốc =Không có, chưa phân lớp hồn tồn nên phải tính tốn chọn nút Xét thuộc tính Thời tiết Ta có: • (nghĩa liệu có Hút thuốc = Khơng Thời tiết=Nắng,có kết Có kết Khơng ) • 722 • 836 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Thời tiết tập S: Xét thuộc tính Mang trang Ta có: 0,619 985 808 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Mang trang tập S: Xét thuộc tính Nơi sống Ta có: 899 929 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Nơi sống tập S: 022 Xét thuộc tính Bị sâu Ta có: 0,961 591 769 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính tập S: Xét thuộc tính Nghề nghiệp Ta có: ,672 881 788 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính tập S: Xét thuộc tính Viêm họng Ta có: 0,945 696 797 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Viêm họng tập S: Nhận thấy thuộc tính Bị sâu có Information Gain cao nhất, chọn thuộc tính làm nút cho nhánh trái Hút thuốc tH.Pylori Khôn g Có Bị sâu Có Khơng C ? ? Hình Trong hình 2: Nhánh bên phải ứng với Bị sâu răng= Khơng, có [2+,12−], chưa phân lớp hồn tồn nên phải tính tốn chọn nút Tương tự cho nhánh Xét thuộc tính Thời tiết Ta có: • (nghĩa liệu có Hút thuốc= Khơng, Bị sâu răng= • Khơng Thời tiết=Nắng có kết Có kết Khơng) • 423 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính Thời tiết tập S: 196 Xét thuộc tính Mang trang Ta có: • • ,918 • Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính tập S: 196 Xét thuộc tính Nơi sống Ta có: • ,543 • ,722 • 611 Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tính tập S: 008 Xét thuộc tính Viêm họng Ta có: • • • Tiếp theo tính Information Gain (độ lợi thơng tin) thuộc tínhtrên tập S: 319 Nhận thấy thuộc tính Viêm họng có Information Gain cao nhất, chọn thuộc tính làm nút cho nhánh bên phải Hút thuốc Khơng Có Có Bị sâu Có Khơng ? Viêm họng Có ? khơ Khơng Hình Trong hình 3: Nhánh bên phải ứng với Viêm họng= Không , tập liệu nhánh hoàn toàn phân lớp âm với 0+ 9- Tại định, Viêm họng= Khơng khơng bị mắc bệnh viêm xoang Nhánh ứng với Viêm họng= Có, có chưa phân lớp hồn tồn nên phải tính tốn chọn nút Từ đó: Nhận thấy thuộc tính Thời tiết thuộc tính Mang trang có Information Gain cao nhất, chọn thuộc tính Thời tiết làm nút cho nhánh Hút thuốc Khơng Có Có Bị sâu Có Khơng ? Viêm họng Có Thời tiết Nắn Có Khơ Khơng Mưa Khơng Hình Với nhánh trái Bị sâu răng, ta có: Nhận thấy thuộc tính Mang trang có Information Gain cao nhất, chọn thuộc tính làm nút cho nhánh Tương tự ta có định hồn chỉnh: Hút thuốc Khơn g Có Bị sâu Có Có Khơng ị Mang trang Viêm họng Có Có Khơ Nghề nghiệp Khơ Trí Khơng Thời tiết Nơi sống Tay Có Có Mưa Nắn Thành Có Có Hình Cây định hồn chỉnh Không ... thuộc lớp • Entropy tập hợp chứa số lượng thành viên thuộc lớp âm dương Cơng thức tính Information Gain thuộc tính A tập S sau: đó: • Value(A) tập giá trị cho thuộc tính A • tập S mà A nhận giá... dẫn tới phân loại đó[1] Một định học cách chia tập hợp nguồn thành tập dựa theo kiểm tra giá trị thuộc tính [1] Quá trình lặp lại cách đệ qui cho tập dẫn xuất Q trình đệ qui hồn thành tiếp tục... gây gây ảnh hưởng trực tiếp đến sức khỏe bệnh nhân Nhận thấy điều nên nhóm định chọn đề tài Bài tập lớn mơn Trí tuệ nhân tạo xây dựng định để tìm hiểu bệnh Dựa vào mơ hình định ta tìm hiểu ngun