1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuyên đề học phầnhọc máy nâng cao đề tài dự đoán khả năng mắc bệnh ung thư sử dụngthuật toán pca

22 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự Đoán Khả Năng Mắc Bệnh Ung Thư Sử Dụng Thuật Toán PCA
Tác giả Phan Tùng Anh, Nguyễn Anh Hào
Người hướng dẫn Vũ Văn Định
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo
Năm xuất bản 2020 - 2025
Thành phố Hà Nội
Định dạng
Số trang 22
Dung lượng 1,3 MB

Nội dung

 TRƯỜNG ĐẠI HỌC ĐIỆN LỰC  KHOA CÔNG NGHỆ THÔNG TIN  BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN HỌC MÁY NÂNG CAO ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG MẮC BỆNH UNG THƯ SỬ DỤNG THUẬT TOÁN PCA Sinh Viên Thực Hiện : Phan Tùng Anh - 20810310063  Nguyễn Anh Hào – 20810310290 Giảng Viên Hướng Dẫn : VŨ VĂN ĐỊNH Khoa : CÔNG NGHỆ THÔNG TIN Chuyên Nghành : CÔNG NGHỆ PHẦN MỀM Lớp : D15CNPM3 – D15CNPM2 Khóa : 2020 – 2025   PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Chữ ký Ghi PHAN TÙNG ANH 20810310063  NGUYỄN ANH HÀO 20810310290 Giảng viên chấm: Họ tên Giảng viên chấm : Giảng viên chấm : Chữ ký Ghi MỤC LỤC LỜI CẢM ƠN LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY 1.1 Khái niệm học máy 1.2 Các mơ hình học máy 1.2.1 Học có giám sát .4 1.2.2 Học không giám sát 1.2.3 Học bán giám sát 1.2.4 Học tăng cường .5 1.3 Ứng dụng học máy CHƯƠNG 2: THUẬT TOÁN PCA (GIẢM CHIỀU DỮ LIỆU) 2.1 Khái niệm .7 2.2 Các bước thực PCA 2.3 Mục đích PCA 2.4 Ưu điểm, nhược điểm thuật toán PCA .7 CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN PCA TRONG BÀI TỐN ĐỂ PHÂN TÍCH VÀ PHÂN LOẠI CƠ SỞ DỮ LIỆU VỀ TIỀN ĐIỆN TỬ 3.1 Dữ liệu 3.1.1 Phát biểu toán 3.1.2 Yêu cầu 3.2 Kết thực nghiệm KẾT LUẬN 12 LỜI CẢM ƠN Lời đầu tiên, em xin chân thành gửi lời cảm ơn tới thầy giáo Trường Đại học Điện Lực nói chung thầy cô giáo Khoa Công nghệ thông tin nói riêng tận tình giảng dạy, truyền đạt cho chúng em kiến thức kinh nghiệm quý báu suốt trình học Đặc biệt, chúng em xin gửi lời cảm ơn đến Thầy Vũ Văn Định - giảng viên Khoa Công nghệ thông tin - Trường Đại học Điện Lực Thầy tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Trong thời gian học tập với thầy, nhóm chúng em tiếp thu thêm nhiều kiến thức bổ ích mà học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho chúng em q trình học tập cơng tác sau Do thời gian thực có hạn kiến thức cịn nhiều hạn chế nên làm chúng em chắn khơng tránh khỏi thiếu sót định Em mong nhận ý kiến đóng góp thầy giáo bạn để em có thêm kinh nghiệm tiếp tục hồn thiện đồ án Chúng em xin chân thành cảm ơn! LỜI MỞ ĐẦU  Ngày nay, phát triển mạnh mẽ học máy, Công Nghệ Thông Tin ngành phát triển xã hội Nó ứng dụng rộng rãi nhiều ngành, lĩnh vực khác đạt hiệu cao sống Tin học hóa xem yếu tố mang tính định hoạt động kinh doanh, dịch vụ, xã hội, khoa học, giáo dục,… Ứng dụng công nghệ thơng tin đóng vai trị quan trọng, tạo bước đột phá Từ liệu thu thập, sử dụng thuật toán học máy để đưa dự đốn tương lai với độ xác cáo, từ dự đốn giúp đưa bước để phát triển Để đạt mục tiêu đó, việc sử dụng học máy để đưa dự đoán ngày trở nên phổ biến Với dự đoán tương lai, tỉ lệ xác cao, người đưa phương án cho kế hoạch tới Trong mơn học “Học máy nâng cao” Thầy Vũ Văn Định giảng dạy, chúng em chọn đề tài “Dự đoán khả mắc bệnh ung thư sử dụng thuật toán PCA” làm đề tài nghiên cứu kết thúc môn học CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY 1.1 Khái niệm học máy Học máy (ML) là công nghệ phát triển từ lĩnh vực trí tuệ nhân tạo Các thuật tốn ML chương trình máy tính có khả học hỏi cách hồn thành nhiệm vụ cách cải thiện hiệu suất theo thời gian Học máy đòi hỏi đánh giá người việc tìm hiểu liệu sở lựa chọn kĩ thuật phù hợp để phân tích liệu Đồng thời, trước sử dụng, liệu phải sạch, khơng có sai lệch khơng có liệu giả Các mơ hình học máy u cầu lượng liệu đủ lớn để "huấn luyện" đánh giá mơ hình Trước đây, thuật tốn học máy thiếu quyền truy cập vào lượng lớn liệu cần thiết để mơ hình hóa mối quan hệ liệu Sự tăng trưởng liệu lớn (big data) cung cấp thuật toán học máy với đủ liệu để cải thiện độ xác mơ hình dự đốn 1.2 Các mơ hình học máy 1.2.1 Học có giám sát Trong học có giám sát, máy tính học cách mơ hình hóa mối quan hệ dựa liệu gán nhãn (labeled data) Sau tìm hiểu cách tốt để mơ hình hóa mối quan hệ cho liệu gắn nhãn, thuật toán huấn luyện sử dụng cho liệu Ứng dụng kĩ thuật học có giám sát: Xác định tín hiệu hay biến số tốt để dự báo lợi nhuận tương lai cổ phiếu dự đốn xu hướng thị trường chứng khốn 1.2.2 Học khơng giám sát Trong học khơng giám sát, máy tính khơng cung cấp liệu dán nhãn mà thay vào cung cấp liệu mà thuật tốn tìm cách mơ tả liệu cấu trúc chúng Ứng dụng học không giám sát: Phân loại cơng ty thành nhóm cơng ty tương đồng dựa đặc điểm chúng thay sử dụng tiêu chuẩn nhóm ngành quốc gia 1.2.3 Học bán giám sát Mơ hình học máy cung cấp với tập liệu lớn, số liệu đánh nhãn Mơ hình học máy sử dụng tập liệu để học cách  phân loại đầu vào Thực tế cho thấy nhiều toán Machine Learning thuộc vào nhóm việc thu thập liệu có nhãn tốn nhiều thời gian có chi phí cao Rất nhiều loại liệu chí cần phải có chuyên gia gán nhãn (ảnh y học chẳng hạn) Ngược lại, liệu chưa có nhãn thu thập với chi phí thấp từ internet 1.2.4 Học tăng cường  Nghiên cứu cách thức agent môi trường nên chọn thực hành động để cực đại hóa khoản thưởng (reward) lâu dài Các thuật tốn học tăng cường cố gắng tìm chiến lược ánh xạ trạng thái giới tới hành động mà agent nên chọn trạng thái 1.3 Ứng dụng học máy - Tự động phân loại: Phân loại tin tức ứng dụng điểm chuẩn khác  phương pháp học máy.Vận dụng nào? Như vấn đề thực tế  bây khối lượng thông tin tăng lên nhiều web Tuy nhiên, người có sở thích lựa chọn cá nhân Vì vậy, để chọn thu thập phần thông tin phù hợp trở thành thách thức người dùng từ vô số nội dung trang web Phân loại danh mục cách rõ ràng, dễ điều hướng giúp cho khách hàng mục tiêu chắn tăng khả truy cập trang tin tức Hơn nữa, độc giả người dùng tìm kiếm tin tức cụ thể cách hiệu nhanh chóng - Ứng dụng mạng xã hội: Học máy sử dụng loạt ứng dụng ngày Một ví dụ tiếng Facebook News Feed Nguồn cấp tin tức sử dụng học máy để cá nhân hóa nguồn cấp liệu thành viên Nếu thành viên thường xuyên dừng lại để đọc thích đăng người bạn cụ thể, News Feed  bắt đầu hiển thị nhiều hoạt động người bạn trước nguồn cấp liệu Đằng sau hệ thống ấy, phần mềm sử dụng phân tích thống kê phân tích dự đốn để xác định mẫu liệu người dùng sử dụng mẫu để điền vào News Feed Nếu thành viên khơng cịn dừng lại để đọc, thích bình luận đăng bạn bè, liệu bao gồm tập liệu News Feed điều chỉnh tương ứng Khơng riêng facebook, ta bắt gặp tính tương tự qua mạng xã hội khác Google, Instagram, - Nhận diện hình ảnh: Nhận dạng hình ảnh ví dụ máy học trí tuệ nhân tạo phổ biến Về bản, cách tiếp cận để xác định phát đặc trưng đối tượng hình ảnh kỹ thuật số Hơn nữa, kỹ thuật sử dụng để phân tích sâu hơn, chẳng hạn nhận dạng mẫu, nhận diện hình khn, nhận dạng khn mặt, nhận dạng ký tự quang học nhiều nữa, CHƯƠNG 2: THUẬT TOÁN PCA (GIẢM CHIỀU DỮ LIỆU) VÀ CÂY MIN 2.1 Khái niệm - Phương pháp Principle Component Analysis (PCA), đây tựu tóan học mà ngày ứng dụng nhiều lĩnh vực: công nghệ thơng tin, sinh học, tài chính, cơng nghệ thực phẩm - Với đữ liệu cần phân tích ban đầu phụ thuộc nhiều biển, đề biến thường có tương quan với bất lợi cho việc áp dụng biển để xây dựng mơ hình tính tốn vi đụ: hồi quy với số biến giải thích lớn khó để có nhìn trực quan đữ liệu 2.2 Các bước thực PCA - Phương pháp PCA "chiều" (biểu điễn) đữ liệu đa chiều lên khơng gian có sở trực giao, tức ta xem mồi sỡ không gian biến hình ảnh đữ liệu gốc không gian biểu điễn thông qua biến độc lập (tuyến tinh) Vấn đề chuyển đữ liệu ban đầu sang không gian thơng tin đáng quan tâm đữ liệu ban đầu liệu có bị mất? Để giải vấn đề phương pháp PCA tìm khơng gian với tiêu chi cố gắng phăn ánh nhiêu thông tin gốc tôt, thước đo cho khái niệm "thông tin" phương sai Một điểm hay biến không gian độc lập, nên ta tính tốn tỷ lệ giải thích phương sai biến liệu, điều cho phép ta cân nhắc việc dùng số biến để giãi thích liệu - Nói cách ngắn gọn, mục tiêu PCA tìm khơng gian (với số chiêu nhỏ không gian cũ) Các trục tọa độ không gian xây dựng cho trục, độ biến thiên đữ liệu lớn Tiếng Việt dài địng, tiếng Anh mục tiêu gọi maximize the variability Ba chữ gói gọn ý tưởng PCA - Mình họa PCA: phép chiêu lên trục tọa độ khác cho cách nhìn khác liệu - Một vi dụ kinh điển hình ảnh lạc đà Cùng lạc đà nhìn từ bên hơng ta có đầy đủ thơng tin nhất, nhìn từ phía trước thật khó để nói lạc đà 2.3 Mục đích PCA   Phân tích thành phần (PCA) sử dụng cho hai mục tiêu: + Giảm số lượng biển bao gồm liệu giữ lại biến đồi liệu + Xác định mơ hình ẩn liệu, phân loại chúng theo nhiều cách thông tin, lưu trữ liệu - Khi khai thác liệu bao gồm nhiều biến (sử dụng thay cho với kích thước hạn sau đây), có khả tập biến liên quan chặt chẽ với Cho tương quan cao hại hay nhiều biến số kết luận biến đư thừa đo chia nguyên tắc việc xác định kết Đề minh chưng cho lập luận chung ta hay xem xet mọt vi dụ ban Gia sử chung ta đo tham số (tức tinh đại điện số lượng sơ) hình  phẳng, chiều dài chiều rộng hình dạng, mà xác định kết quan tâm Từ việc kiểm tra quan sát chúng tôi, nhận thấy hai thuộc tính đường có mối tương quan tích cực Do đó, thay thể chúng biến khu vực hình dạng, mà nắm bắt hầu hết thơng tin hình đạng cung cấp chiều dài chiều rộng - Trong đữ liệu đa biển giảm kích thước PCA cho phép phân tích liệu chúng tơi khơng gian nhìn thấy chiều (2D) 3D, với chi lỗ đơn thông tin - Các điều kiện tiên - Sự tương quan Kể từ PCA chũ yếu quan tâm đến việc xác định mối tương quan liệu, tập trung ý đến ý nghĩa tương quan Sự tương quan đo lường đồng thời thay đổi giá trị hai hay nhiều biển Có nhiều mơ hình đề mơ tá hành vi bán chất thay đổi đồng thời giá trị, chẳng hạn tuyển tính, hàm số mũ, định kỳ nhiều Các môi tương quan tuyến tinh sử dụng PCA - Các cách tiềp cận trực quan để xác định mối tương quan Một khía cạnh hình ảnh tương quan thu cách đại điện cho cặp biến trục hệ toa độ Descartes, nơi giá trị biến điểm vẽ mặt phẳng (hình 1) Tương quan quan điểm này, biện pháp thê pịt hình chúng tơi tin mơ tả xu hương điêm đô thị, phù hợp với xu hướng thực thị  Hình 1: Độ thị phân tán cặp biến - Nó vơ quan trọng để hiểu khia cạnh hình ảnh mối tương quan đề sử dụng đùng cách Sự hiểu biết cung cấp nhin sâu sắc quan trọng cầu đữ liệu phân tích, ngăn chặn sai số tiềm tàng xảy cách trực tiếp giải thích kết thu từ số chạy thủ tục tinh toán 2.4 Ưu điểm, nhược điểm thuật toán PCA  Ưu điểm: Giảm số chiều liệu: giúp giảm kích thước khơng gian liệu ban đầu mà bảo tồn thơng tin quan trọng Điều giúp tiết kiệm thời gian tài ngun tính tốn làm việc với liệu lớn Loại bỏ tương quan: loại bỏ tương quan biến đầu vào, giúp liệu trở nên độc lập tuyến tính Điều làm giảm noise cải thiện hiệu suất mô hình dự đốn phân loại Tính tốn nhanh chóng: tính tốn cách nhanh chóng  bằng ma trận hiệp phương sai giá trị riêng, đặc biệt sử dụng thư viện tích hợp ngơn ngữ lập trình Python R Tích hợp vào nhiều ứng dụng: PCA sử dụng nhiều lĩnh vực khác xử lý ảnh, nhận dạng biểu đồ, phân tích liệu thống kê, khoa học liệu Nhược điểm Mất thông tin: loại bỏ phần thơng tin khơng quan trọng noise, dẫn đến mát thông tin quan trọng liệu không chọn đủ số lượng thành phần áp dụng sai cách Không phân biệt biến quan trọng: PCA không cung cấp thông tin ý nghĩa thành phần Điều vấn đề bạn muốn hiểu ý nghĩa biến liệu Không áp dụng cho liệu phi tuyến tính: PCA giả định liệu tuyến tính, nên khơng phù hợp cho liệu phi tuyến tính  Nhạy cảm với scale: PCA nhạy cảm với khác biệt đơn vị đo lường biến Điều giải cân nhắc chuẩn hóa liệu trước áp dụng PCA          - Tổng quan, PCA công cụ mạnh mẽ để giảm số chiều liệu trích xuất thơng tin quan trọng, cần áp dụng đánh giá cẩn thận để đảm bảo phù hợp cho tốn cụ thể khơng gây mát thông tin quan trọng 2.5 Cây Min Trong đoạn mã trên, thuật toán K-Means sử dụng để thực nhiệm vụ sau : - Tạo Elbow Curve ( Biểu đồ khuỷu tay ): Thuật toán K-Means sử dụng để phân cụm liệu dựa giá trị trục ( principal components ) pcs_df Tuy nhiên , trước định số cụm tốt nhất, bạn muốn tạo biểu đồ Elbow Curve để xác định giá trị tối ưu K ( số lượng cụm ) Đoạn mã tính tốn độ lệch ( inertia ) cho loạt giá trị K từ đến 10  bằng cách thực K-Means clustering với giá trị K lưu độ lệch vào danh sách inertia - Tạo Elbow Curve Plot: Sau tính toán độ lệch cho giá trị K, liệu sử dụng để tạo biểu đồ Elbow Curve cách sử dụng thư viện hvPlot Biểu đồ Elbow Curve giúp bạn xác định K tối ưu dựa điểm khuỷu tay biểu đồ Điều giúp xác định số lượng cụm tốt cho việc phân loại liệu - Phân cụm liệu: Sau xác định giá trị tối ưu K, thuật toán K-Means sử dụng để phân chia liệu trông pcs_df thành cụm sử dụng số cụm tối ưu Kết phân cụm lưu biến predictions - Kết hợp liệu: Dữ liệu phân cụm sau kết hợp với DataFrame gốc crypto_df để tạo clustered_df Điều giúp bạn thực phân tích liệu phân loại cung cấp thông tin cụm cho dòng liệu crypto_df - Trong đoạn mã, việc sử dụng thuật toán K-Means giúp phân cụm liệu dựa đặc trưng pcs_df tạo biểu đồ Elbow Curve để xác định số cụm tối ưu CHƯƠNG 3: ỨNG DỤNG THUẬT TỐN PCA TRONG BÀI TỐN ĐỂ PHÂN TÍCH VÀ PHÂN LOẠI CƠ SỞ DỮ LIỆU VỀ TIỀN ĐIỆN TỬ  3.1 Dữ liệu 3.1.1 Phát biểu toán - Input: thông tin đặc điểm loại tiền điện tử - Output: phân tích phân loại sở liệu tiền điện tử 3.1.2 Yêu cầu - Lấy liệu mơ tả đặc điểm bệnh nhân - Trích chọn đặc trưng từ tập liệu - Xử lý, chuẩn hóa, scale liệu - Fit data với thư viện PCA, phân tách thành phần - Trực quan hóa kết 3.2 Kết thực nghiệm KẾT LUẬN Sau thời gian nghiên cứu bắt tay vào thực hiện, với mong muốn xây dựng mơ hình dự đốn, quan tâm hướng dẫn tận tình thầy Hoàng Văn Quý, chúng em bước đầu hoàn thành đề tài: “ PHÂN TÍCH VÀ PHÂN LOẠI CƠ SỞ DỮ LIỆU VỀ TIỀN ĐIỆN TỬ SỬ DỤNG THUẬT TỐN PCA” Kết đạt được:    Tìm hiểu học máy toán học máy Tìm hiểu thuật tốn PCA (Giảm chiều liệu) Xây dựng mơ hình dự đốn Vì thời gian triển khai có hạn, việc tìm hiểu cơng nghệ cịn gặp nhiều khó khăn khơng có nhiều tài liệu nên khơng tránh sai sót Chúng em mong nhận đóng góp kiến hướng dẫn thầy để đồ án thêm hoàn chỉnh Chúng em xin chân thành cảm ơn!

Ngày đăng: 14/11/2023, 05:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w