Việc áp dụng công nghệ thông tin vào tất cả các lĩnh vực như số hóa, lưu trữ thông tin làm cho nguồn thông tin ngày càng không lồ, điều này hiện là điều kiện tốt cho việc khai thác lượn
Trang 1TRUONG DAI HOC NGUYEN TAT THANH KHOA CONG NGHE THONG TIN
Giảng viên hướng dan: Ths NGUYEN BINH MINH
Mã số sinh viên: 2000002035
Chuyên ngành: Khoa Học Dữ Liệu
Môn học: Khai thác dữ liệu và ứng dụng
Tp.HCM, tháng 6 năm 2023
Trang 2
TRUONG DAI HOC NGUYEN TAT THANH KHOA CONG NGHE THONG TIN
Giảng viên hướng dan: Ths NGUYEN BINH MINH
Mã số sinh viên: 2000002035
Chuyên ngành: Khoa Học Dữ Liệu
Môn học: Khai thác dữ liệu và ứng dụng
Tp.HCM, tháng 6 năm 2023
Trang 3
TRUONG DAI HOC NGUYEN TAT THANH
TRUNG TAM KHAO THI
PHIẾU CHAM THI TIEU LUAN/BO AN Môn thị: Khai thác dữ liệu và ứng dụng
Nhóm sinh viên thực hiện:
Phân đánh giá của giảng vién (can cir trén thang rubrics cua môn học):
KY THI KET THUC HQC PHAN
VÀ , :Ä Ke Diem
Tiéu chi (theo CDR „ pos Diém tôi
Danh gia cua GV dat
được Cấu trúc của báo cáo |_ c2 01 HH2 21 ray L5
Nội dung
Các nội dung thành phân |_ - 5-52 212E21121221112212712121 212 xx2 5
Lap Ware ap tue eeceececceccceessecscecseenscenseseeesseseseeseeeseeseenseenseeeeteeees 2
Kếtluận —— | 2.222.22 212 are
0.5 Trinh bay ——— | 2 22212 202111001112211 1211 ea 1
Giảng viên chấm thi (, ghỉ rõ họ tên)
Trang 4LOI CAM ON
Chúng em xin gửi lời cảm ơn đến trường đại học Nguyễn Tất Thành đã tạo điều kiện cho chúng em được học tập, và trải nehiệm với môn học này bên cạnh những kiến thức mới mà chưa bao giờ chúng em được tiếp xúc trước đây
Và sâu sắc nhất, nhóm chúng em muốn gởi lời cảm ơn đến giảng viên thầy ThS Nguyễn Bình Minh đã giảng dạy tận tinh và có những tiết học sôi động trong thời gian qua, ngoải ra thầy giúp các nhóm tìm ra đề tài cũng như là đóng góp ý kiến và chỉnh sửa các chỉ tiết trone đồ án đề giúp chúng em có đủ kĩ năng và vững bước hơn trong các đề tài sau này
Cuốỗi cùng, xin gửi lời cảm ơn đến các thành viên trong nhóm đã dốc sức cùng nhau làm việc va hop tác để hoàn thành bài đồ án hoàn chỉnh này
Trang 5LOI MO DAU Trong những năm gan day, viéc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản xuất, kinh doanh Cá nhân hoặc tô chức nảo thu thập và hiểu được thông tin, hành động dựa trên các thông tin được kết xuất từ các thông tin đã
có sẽ đạt được thành công trong mọi hoạt động
Sự tăng trưởng vượt bậc của các cơ sở đữ liệu trong cuộc sống như: thương mại, quản lý đã làm nảy sinh và thúc đây sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu không chỉ bằng các phép toán đơn giản thông
thường như: phép đếm, thống kê mà đòi hỏi một cách xử lý thông minh hơn,
hiệu quả hơn Các kỹ thuật cho phép ta khai thác được trị thức hữu dụng từ cơ sở
dữ liệu lớn được gọi là các kỹ thuật khai phá dữ liệu (datamining) Đồ án nghiên cứu về những khải niệm cơ bản về khai phá dữ liệu, luật kết hợp và ứng dụng thuật toán khai phá luật kết hợp trong cơ sở dữ liệu lớn
Trang 6NHAN XET CUA GIANG VIEN GIANG DAY
Tp HCM, Ngảy tháng 06 Năm 2023
Giảng viên giảng day
Trang 7(Ký tên và phi rõ họ tên)
Trang 8MUC LUC LOI CAM ON
LOI MO ĐẦU
DANH MUC BANG HINH
LL GiGi thidu dé tabi ccccccccccccccececetecetsesesesesesesvscstsvsvstseetees
2.2 Học máy (Machine Learning) - ¿+ c cs c2 2x sse2
2.2.1 Một số phương thức của Machine Learning
2.3 Thuật toán K-nearest neIehbor - 5c c2 s2 s2
2.3.1 Khái niệm cece 2012112111 11111111 11111101211 11111 111g
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH
3.1 Tổng quan về tập dữ liệu 52-5 2 1E1211211211222 2 xe
3.2 Xây dựng mô hình bằng Google Colaboration s-
3.2.1 Import thư viện và đọc đữ liệu -:-c 22222252 3.2.2 Xử lý dữ liệu -.S 1S S2 212111111151111 11110111111 8 te 3.2.3 Xây dựng mô hình . 2: 22 22112212221 2212 2212211222222
4.1 Dùng Weka chạy thuật toán SVM c2 neee
CHUONG 5: KET LUAN VA HUONG PHAT TRIEN
5.2 Hướng phát triỂn - - 1+2 2111211112111 121121121 211111 se
kHHH Tnhh 19
kH HH TH HH ớt 19
Trang 9DANH MUC CAC BANG HINH
Hinh 3 Các thư viện được khai báo trong việc xây dựng mô hìỉnh 10 Hình 4 Đọc dữ liệu từ file dulieul.c§v 111 n1 S221 1 nn ng 1n 122 xxx2 10 Hình 5 Kiểm tra các 1á trị nuÏÏ trone tập dữ liệu 22 2222222 ezs2 11 Hinh 6 Loại bỏ thuộc tính 1d - 0022110111111 11111111 11111 SE 111111 11115511151155 11 sa 11
Hình 7 Chọn thuộc tính để huấn luyện và kiếm tra 7222x222 1222 se2 12 Hình 8 Chia bộ đữ liệu thanh 2 phan train và test -2- 2S 222212121 1e 12 Hình 9 Xử lý mắt cân bằng đữ liệu - 5 5+ S19 E211 1211121211211 2221 22x 1e 13
Hình 10 Mô hình phân loại khối u thông qua thuat toan K - Nearest Neighbors .13 Hình 11 Kết quả thuật toán khi n_neighbors = l -2 22 22222112122 xe 13 Hình 12 Kết quả sau khi tang n_ neighbors lên 15 2-52 Sccz 2 SE 2EcE22xcxe 14 Hình 13 Kết quả sau khi tang n_ neighbors lên 20 2 2S S112 5212222221 xe 15 Hình 14 Chọn file test.csv để trainning - 2+ se St 212121 1 1111151211112 1x6 16 Hinh 15 Weka sau khi chọn file tesf.CSV 0000001020112 111111111 kh sat 16
Hinh 16 Kết quả trainning dữ liệu - 222222 S2SE2EE2E122E2212222122121221 22221 XeE 17
Hình 17 Chọn supplied test set 2 0 2 121122211211 19111111111111111111 11211122 xe 17
Hình 18 Kết quả test 5-1 1 2 1 11121211112112111111 21 1212021121121 te ra 17
Trang 10Chuong 1 TONG QUAN
1.1 Giới thiệu đề tài
Hiện nay, việc ứng dụng những lợi ích của công nghệ thông tin vào cuộc sống hang ngày hiện không còn quá xa lạ với chúng ta Việc áp dụng công nghệ thông tin vào tất cả các lĩnh vực như số hóa, lưu trữ thông tin làm cho nguồn thông tin
ngày càng không lồ, điều này hiện là điều kiện tốt cho việc khai thác lượng dữ liệu
này để tìm ra một lượng tri thức có ích, phục vụ các nhu cầu nghiên cửu, học tập bằng việc sử dụng các công cụ truy vấn, lập bảng biểu và khai phá đữ liệu
Khai phá dữ liệu là một kỹ thuât dựa trên nền tảng của nhiều lý thuyết khác như xác suất, thông kê, máy học nhằm tìm kiếm các trí thức tiềm ấn trong các kho đữ liệu khổng 16 ma con người khó có thể tìm được, khó có thể nhận biết được bằng các phương pháp thông thường
Hiện tại, nguồn dữ liệu về y tế rất lớn nhưng hầu hết chưa được khai thác hợp
lý, đồng nghĩa với việc những lợi ích từ việc khai phá dữ liêu chưa phát huy được hết khả năng, công dụng của mình, vì thế nếu áp dụng các kỹ thuật khai phá dit liệu vào các nguồn dữ liệu y tế không lồ nảy thì sẽ tìm được những nguồn thông tin quý giá mang lại giá trị lớn trong việc nghiên cứu cũng như chân đoán, phòng bệnh cũng như chữa bệnh giúp đóng góp một phần trong công cuộc chữa bệnh của các bác sĩ nhằm đem lại kết quả tốt nhất cho bệnh nhân
Ứng dụng thuật toán K - Nearest Neighbors trong khai phá dữ liệu vào việc phân loại khối u là mục tiêu chính của đề tài này Sau khi phân tích cũng như nghiên cứu, nhận thấy thuật toán K - Nearest Neighbors là thuật toán phù hợp
nhất đề xây dựng mô hình này
1.2 Lý do chọn đề tài
Ung thư là căn bệnh xảy ra khi có tế bào không bình thường xuất hiện, sinh trưởng mắt kiểm soát và hợp thành một khối u Các tế bào ung thư dần dẫn sẽ phá hủy và xâm lắn các mô lành trong cơ thế, xuất phát từ các cơ quan lân cận cho đến toàn co thé
Trang 11Ngày nay, có hơn 200 bệnh ung thư được các nhà khoa học phát hiện, tên của bệnh sẽ được đặt theo bộ phận khởi phát khối u cũng như tính chất của bệnh Chẳng hạn, ung thư có nguồn gốc từ phôi được gọi là ung thư phôi hoặc ung thư phổi nguyên phát, khi lây đến gan sẽ gọi là bệnh ung thư gan thứ phát.(Theo www.medlatec.vn)
Hình I : Phẫu thuật ung thư tại Bệnh viện Ung Biếu TP.HCM
Tỷ lệ ung thư mới và tử vonegdo ung thư tiếp tục gia tăng Số liệu được Globocan (dự án của Cơ quan nghiên cứu ung thư quốc tế) công bố năm 2020, trên thế giới ước tính có khoảng 19,3 triệu ca mới và 9,9 triệu ca tử vong, cao hơn nhiều so với khoảng 14 triệu ca mới và 8,2 triệu ca tử vong vào năm 2012
Cũng theo Globocan, năm 2020 Việt Nam có khoảng 182.563 ca ung thư mới
và 122.690 ca tử vong do ung thư Đáng lưu ý, năm 2020, Việt Nam xếp hạng 91/185 nước có số mắc mới ung thư và số tử vong xếp hạng 50/185 nước (so với
99/185 và 56/185 năm 2018) Điều này chứng tỏ sự tăng nhanh số ca mắc mới và
tử vone do ung thư
Riêng tại Bệnh viện Ung bướu TP.HCM số lượng bệnh nhân ung thư gửi đến điều trị hằng năm khoảng 23.000 ca mới (2019)
Do nhận thây tầm ảnh hưởng tiêu cực một cách nghiêm trọng của ung thư đối với xã hội, chủng em đã quyết định thực hiện mô hình này nhằm giup mot phan công sức của mình củng chung tay bảo vệ chung ta khỏi dịch bệnh
Trang 121.3 Mục tiêu của đề tài
Đề tài tập trung vào việc so sánh các chỉ số của cái chưa biết với cái đã nhận biết rồi sau đó tiền hành phân loại thông qua thuật toán KNN nhằm tìm ra các giải thuật làm tiền đề cho việc nghiên cứu và xây đựng ứng dụng cụ thế Bên cạnh đó, việc đánh giá chất lượng cũng như độ hiệu quả của mô hình cũng là một trong những phần quan trọng của đề tai
1.4 Mô hình áp dụng
Mô hình KNN (K-Nearest Neiphbors) là một phương pháp học máy có giám sát đơn giản, dựa trên việc tìm kiếm các điểm đữ liệu gần nhất trong không gian đặc trưng để dự đoán kết quả cho một điểm dữ liệu mới Ý tưởng chính của KNN là nếu một mẫu có đặc trưng gẵn giống nhau, chúng có nhiều khả năng sẽ thuộc về củng một nhóm hoặc cùng một lớp
Khi sử dụng mô hình KNN, bạn cần chọn số lượng hàng xóm, được biểu thị bằng k Giá trị tối thiêu của k là 1, nghĩa là chỉ sử dụng một hàng xóm gần nhất cho việc dự đoán Tùy thuộc vào bài toán cụ thể và dữ liệu, giá trị k được chọn có thể ảnh hưởng đến hiệu suất của mô hình Một số phương pháp có thể được sử dung dé chon gia trị k tối ưu, chẳng hạn như kiếm định chéo (cross-validation) KNN có thể được sử dụng cho cả bài toán phân loại (classification) và hồi quy (repression) Trong bài toán phân loại, KNN dự đoán lớ của điểm dữ liệu mới dựa trên lớp phô biến nhất của k hàng xóm gần nhất Trong bài toán hồi quy, KNN dự đoán ø1á trị của điểm dữ liệu mới dựa trên trung bình (hoặc trọng số) của 214 trị k hàng xóm gần nhất
Để triển khai mô hình KNN, bạn có thê sử dụng các thư viện học máy phổ biến như seikit-learn trong Python Mé hình KNN trong scikit-learn cung cấp các hàm
để huấn luyện và dự đoán dữ liệu, giúp bạn nhanh chóng áp dụng KNN cho bài toan cua minh
Việc chọn KNN cho đề tài này mang lại những lợi ích sau:
Không cần quá trình huấn luyện đặc biệt, tức là tiết kiệm thời gian va nguồn lực khi áp dụng thuật toán này vào bài toán phân loại tế bảo u
Trang 13Chúng ta có thể điều chỉnh số lượng láng giềng gần nhất (K) và phương pháp
đo lường khoảng cách đề cải tiên độ chính xác của mô hình
KNN dựa trên các điểm dữ liệu đã có trong tập đữ liệu huấn luyện; do đó, nếu
có mẫu mới được thêm vào, mô hình có thê cập nhật kết quả dự đoán mà không can huan luyện lại từ đâu
Nhờ những ưu điểm nêu trên, việc áp dụng thuật toán KNN vào mô hình phân loại tế bào u sẽ giúp đạt được kết quả một cách nhanh chóng và đáng tin cậy, hỗ trợ quá trình chuẩn đoán và điều trị bệnh lý liên quan đến tế bảo u
Chương 2 CƠ SỞ LÝ THUYẾT
2.1 Khai pha di ligu (Datamining)
Data mining là quá trình sử dụng máy tính và tự động hóa để tìm kiếm các mẫu
và xu hướng trong tập dữ liệu lớn, chuyển đôi những phát hiện đó thành thông tin kinh doanh và dự đoán Data mining không chỉ dừng lại ở quá trình tìm kiếm mà còn sử dụng đữ liệu để đánh giá xác suất trong tương lai và phat triên các phân tích hành động
Lịch sử của data mining bắt nguồn từ trước khi máy tính ra đời Các khái niệm thống kê ban đầu của data mining duoc dua ra boi Dinh ly Bayes vao nam 1763 va phát hiện ra phân tích hồi quy vào năm 1805 Qua Turing Universal Machine (1936), phát hiện ra mạng Neural (1943) và phát triển cơ sở dữ liệu (những năm 1970)
Data mining giúp xác định yêu cầu của khách hàng, nhằm tìm ra sản phẩm tốt nhất cho từng khách hàng Nó sử dụng dự đoán để tìm ra các yếu tố có thể ảnh hưởng đến lựa chọn của khách hàng
Data mining cũng được gọi là khám phá kiến thức trong cơ sở dữ liệu (KDD) và
là lĩnh vực tìm ra thông tin mới và tiềm năng từ các nguồn dữ liệu lớn
Quá trình data mining được thiết kế để khám phá các mẫu và xu hướng nhất quán từ lượng đữ liệu lớn (thường là dữ liệu kinh doanh hoặc thị trường)
Trang 14Data mining bao gồm nhiều pha khác nhau và có nhiều loại khai thác dữ liệu phổ biến nhất, như phân loại, học tập không giám sát, phân cụm, hỗồi quy và rút sọn đặc trưng
Tóm lại, data mining là một công cụ quan trọng giúp các doanh nghiệp và tô chức tìm ra thông tin hữu ích từ lượng đữ liệu lớn, giúp họ đưa ra quyết định kinh doanh và phát triển chiến lược hiệu quả hơn
2.2 Hoc may (Machine Learning):
Machine learning (ML) hay may hoc 1a mét nhanh cua tri tué nhan tao (AI), nó
là một lĩnh vực nghiên cứu cho phép máy tính có khả năng cải thiện chính bản thân chúng dựa trên dữ liệu mẫu (training data) hoac dựa vào kinh nghiệm (những
gi đã được học) Machine learning có thê tự dự đoán hoặc đưa ra quyết định mà không cần được lập trình cụ thê
Bai toan machine learning thuong duoc chia lam hai loai la du doan (prediction) va phan loai (classification) Cac bài toán dự đoán như dự đoán giá nha, 1á xe Các bài toán phân loại như nhận diện chữ viết tay, nhận diện dé
vat
2.2.1 Một số phương thức của Machine Learning:
Học có giám sát: Thuật toán dự đoán đầu ra của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) da biét tir truéc Cap dit ligu nay con duge goi la (data, label), tic là (đữ liệu, nhãn), Supervised learning là nhóm phổ biến nhất trong cac thuat toan Machine Learning
Học có giám sát được chia thành hai loại chính:
Classification (phan lớp): Là quá trình phân lớp một đối tượng đữ liệu vào một hay nhiều lớp đã cho trước nhờ mô hình phân lớp (model) Mô hình này được xây dựng dựa trên một tap đữ liệu được xây dựng trước đó có gan nhan (hay còn gọi là tập huấn luyện) Quá trình phân lớp là quá trình gán nhãn cho đữ liệu
Có nhiều bài toán phân lớp như nhị phân, phân lớp đa lớp, phân lớp đa trị
Trong đó phân lớp nhị phân là một loại phân lớp đặc biệt của phân lớp đa lớp