Báo cáo bài tập lớn thuộc học phần tìm hiểu hồi quy logistic và ứng dụng cho bài toán phân loại vị trí nội địa hóa tế bào của protein

32 0 0
Báo cáo bài tập lớn thuộc học phần tìm hiểu hồi quy logistic và ứng dụng cho bài toán phân loại vị trí nội địa hóa tế bào của protein

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Machine Learning có liên quan thống kêvới cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê,học máy tập trung vào sự phức tạp của các giải thuật trong việc t

lOMoARcPSD|39222806 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ======* * * ====== BÁO CÁO BÀI TẬP LỚN THUỘC HỌC PHẦN: HỌC MÁY Đề tài: Tìm hiểu hồi quy logistic và ứng dụng cho bài toán phân loại vị trí nội địa hóa tế bào của protein GVHD : Trần Hùng Cường Lớp : 20222IT6047002 Nhóm :5 Thành viên : Lương Đức Anh Nguyễn Lương Nam Anh Nguyễn Đức Chiến Nguyễn Đức Hảo Bùi Hải Linh Hà Nội, 2023 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 MỤC LỤC DANH MỤC HÌNH ẢNH 4 MỞ ĐẦU 5 CHƯƠNG 1: TỔNG QUAN .6 1.1 Tìm hiểu về Machine Learning (Học Máy) 6 1.1.1 Khái niệm 6 1.1.2 Vai trò của Machine Learning .6 1.1.3 Một số kỹ thuật trong Machine Learning 7 1.1.3 Một số phương pháp của Machine Learning .7 1.2 Tìm hiểu về bài toán phân loại vị trí nội địa hóa tế bào của protein 11 1.2.1 Tổng quan về bài toán phân loại vị trí nội địa hóa tế bào của protein .11 1.2.2 Ứng dụng của bài toán phân loại vị trí nội địa hóa tế bào của protein trong đời sống hiện nay .12 CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 13 2.1 Thuật toán hồi quy logistic (Logistic Regression) 13 2.1.1 Định nghĩa 13 2.1.2 Quy trình làm việc của thuật toán KNN 13 2.1.3 Ví dụ minh họa 13 2.1.4 Ví dụ về KNN nhiễu 14 2.1.5 Khoảng cách trong không gian vector .14 2.1.6 Ưu điểm của thuật toán .14 2.1.7 Nhược điểm của thuật toán .15 2.2 Random Forests .15 2.2.1 Định nghĩa 15 2.2.2 Cách hoạt động 15 2.3.3 Ưu điểm của thuật toán .15 2.3.4 Nhược điểm của thuật toán .15 2.4 Support Vector Machine (SVM) 15 2.4.1 Định nghĩa 15 2.4.2 Ví dụ minh họa 15 2.4.3 Ưu điểm của thuật toán .16 2.4.4 Nhược điểm của thuật toán .16 CHƯƠNG 3 : XÂY DỰNG MÔ HÌNH 17 2 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 3.1 Nhận diện khuôn mặt bằng KNN (K-Nearest Neighbors) .17 3.1.1 Lí do chọn KNN (K-Nearest Neighbors) 17 3.1.2 Các thư viện được sử dụng nhận dạng 18 3.3 Bộ dữ liệu huấn luyện thuật toán .20 3.4 Thực hiện xây dựng mô hình 21 Tài liệu Tham khảo 27 3 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 DANH MỤC HÌNH ẢNH 4 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 MỞ ĐẦU Những năm gần đây, trí tuệ nhân tạo (AI) nổi lên như một bằng chứng của cuộc cách mạng công nghiệp lần thứ 4 Trí tuệ nhân tạo có thể được định nghĩa như một ngành của khoa học máy tính liên quan đến việc tự động hóa các hành vi thông minh Machine learning là một lĩnh vực của trí tuệ nhân tạo Mục tiêu của machine learning nói chung là hiểu cấu trúc dữ liệu và điều chỉnh dữ liệu đó thành các model mà mọi người có thể hiểu và sử dụng Các ứng dụng của Machine Learning đã quá quen thuộc với con người: xe tự hành của Google và Tesla, hệ thống tự tag khuôn mặt trên Facebook, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi ý phim của Netflix …, chỉ là một vài trong vô vàn những ứng dụng của trí tuệ nhân tạo và cụ thể là Machine Learning Xu hướng phát triển công nghệ thông tin ngày càng tăng, song song với nó lượng dữ liệu được sinh ra cũng ngày lớn Vì vậy nhu cầu để xử lý dữ liệu cũng lớn hơn, Machine Learnig đang góp phần giải quyết vấn đề này Một trong những thuật toán thường dùng trong Machine Learning đó là thuật hồi quy logistic Thuật toán hồi quy logistic là một thuật toán phân loại được dùng để gán các đối tượng cho một tập hợp các giá trị rời rạc NHÓM 5 5 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 CHƯƠNG 1: TỔNG QUAN 1.1 Tìm hiểu về Machine Learning (Học Máy) 1.1.1 Khái niệm Là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết các vấn đề cụ thể Ví dụ các máy có thể học cách phân loại thư điện tử có phải thư rác hay không và tự động sắp xếp vào các thư mục tương ứng Machine Learning có liên quan thống kê với cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán Machine Learning có hiện nay được áp dụng rộng rãi bao gồm truy tìm dữ liệu, máy phân tích thị trường chứng khoán, nhận dạng tiếng nói và chữ viết … 1.1.2 Vai trò của Machine Learning Ngày nay, hầu hết các ngành nghề khi phải làm việc với lượng dữ liệu lớn đang dần nhận thấy sự quan trọng của machine learning Nhiều ngành nghề đã áp dụng chúng vào trong thực tiễn  Dịch vụ tài chính: Có thể thấy ngành nghề này liên quan đến những con số và dữ liệu rất cao, chúng được sử dụng để xác định những thông tin quan trọng về dữ liệu và ngăn chặn gian lận Phân tích được các cơ hội đầu tư tránh những rủi ro  Chính phủ: Các cơ quan an ninh cộng đồng và các đơn vị công ích đã sử dụng cho các ứng dụng như phân tích dữ liệu cảm biến, phát hiện gian lận và hành vi trộm cắp danh tính  Chăm sóc sức khỏe: Các thiết bị đeo trên người là ứng dụng dựa trên machine learning, chúng có thể phân tích cảm biến để đánh giá sức khỏe của bệnh nhân theo thời gian thực và đưa ra cảnh báo kịp thời  Dầu khí: ngành dầu khí sử dụng để tìm kiếm những nguồn năng lượng mới Phân tích được các chất khoáng phía dưới lòng đất và dự đoán lỗi cảm biến của những máy lọc dầu 6 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806  Giao thông vận tải: Phân tích mô hình và xu hướng cho các địa hình cho ngành vận tải Đưa ra những tuyến đường hiệu quả hơn và dự đoán những vấn đề tiềm ẩn về lợi nhuận 1.1.3 Một số kỹ thuật trong Machine Learning  Trợ lý cá nhân ảo (Virtual Personal Assistants)  Nhận dạng khuôn mặt, giọng nói, vân tay, chữ, số, …  Chuyển đổi lời nói thành văn bản  Xử lý ngôn ngữ tự nhiên  Chuyển đổi văn bản thành giọng nói  Ứng dụng trong các mạng xã hội  Tự động phân loại 1.1.3 Một số phương pháp của Machine Learning - Học có giám sát (supervised learning): Hình 1.1 Học có giám sát (supervised learning) Học máy có giám sát yêu cầu thực hiện huấn luyện thuật toán với cả dữ liệu đầu vào sẽ được gắn nhãn Các thuật toán học tập có giám sát phù hợp với các tác vụ sau: ● Phân loại nhị phân: Chia dữ liệu thành hai loại ● Phân loại nhiều lớp: Lựa chọn giữa nhiều hơn hai loại câu trả lời ● Mô hình hồi quy: Dự đoán các giá trị liên tục 7 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 ● Ghép nối: Kết hợp các dự đoán của nhiều mô hình học máy để tạo ra dự đoán chính xác - Học không có giám sát (unsupervised learning): Hình 1.2 Học không có giám sát (unsupervised learning) Các thuật toán học máy không giám sát không yêu cầu dữ liệu phải được gắn nhãn Hầu hết các loại học sâu, bao gồm cả mạng thần kinh nhân tạo, đều là các thuật toán không được giám sát Các thuật toán học tập không giám sát tốt cho các tác vụ sau: ● Phân cụm: Tách tập dữ liệu thành các nhóm dựa trên sự giống nhau ● Phát hiện bất thường: Xác định các điểm dữ liệu bất thường trong tập dữ liệu ● Khai thác liên kết: Xác định các tập hợp các mục trong tập dữ liệu thường xuyên xảy ra cùng nhau  Giảm kích thước: Giảm số lượng biến trong tập dữ liệu 8 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 - Học bán giám sát (semi-supervised learning): Hình 1.3 Học bán giám sát (semi-supervised learning) Học máy bán giám sát hoạt động khi các nhà khoa học cung cấp một lượng nhỏ dữ liệu đào tạo được gắn nhãn cho một thuật toán Từ đó, thuật toán tìm hiểu các kích thước của tập dữ liệu, sau đó nó có thể áp dụng cho dữ liệu mới, chưa được gắn nhãn Hiệu suất của các thuật toán thường được cải thiện khi chúng đào tạo trên các tập dữ liệu được gắn nhãn Tuy nhiên việc ghi nhãn dữ liệu có thể tốn thời gian và tốn kém Học máy bán giám sát đặt nền tảng trung gian giữa hiệu suất của học máy có giám sát và hiệu quả của học máy không giám sát Một số lĩnh vực sử dụng phương pháp học máy bán giám sát bao gồm:  Dịch máy: Dạy các thuật toán dịch ngôn ngữ dựa trên ít hơn một từ điển đầy đủ các từ  Phát hiện gian lận: Xác định các trường hợp gian lận khi bạn chỉ có một vài ví dụ tích cực  Dán nhãn dữ liệu: Các thuật toán được đào tạo trên tập dữ liệu nhỏ có thể học cách áp dụng nhãn dữ liệu cho các tập lớn hơn một cách tự động 9 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 - Học tăng cường (reinforcement learning): Hình 1.4 Học tăng cường (reinforcement learning) Học máy tăng cường hoạt động bằng cách lập trình một thuật toán với một mục tiêu riêng biệt và một bộ quy tắc được chỉ định để hoàn thành mục tiêu đó Các nhà khoa học cũng lập trình thuật toán để tìm kiếm phần thưởng tích cực – mà nó nhận được khi thực hiện một hành động có lợi cho mục tiêu cuối cùng – và tránh các hình phạt – mà nó nhận được khi thực hiện một hành động khiến nó càng xa mục tiêu cuối cùng Học máy tăng cường thường được sử dụng trong các lĩnh vực như: ● Robot: Robot có thể học cách thực hiện các nhiệm vụ trong thế giới thực bằng cách sử dụng kỹ thuật này ● Trò chơi video: Học máy tăng cường đã được sử dụng để dạy bot chơi một số trò chơi điện tử ● Quản lý nguồn lực: Với nguồn lực hữu hạn và một mục tiêu xác định, việc học máy tăng cường có thể giúp doanh nghiệp lập kế hoạch phân bổ nguồn lực 10 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 Bạn đọc có thể kiểm tra được rằng Xét thuộc tính temperature, ta có phân chia như các Bảng dưới đây Việc tính toán với hai thuộc tính còn lại được dành cho bạn đọc Nếu các kết quả là giống nhau, chúng sẽ bằng: Như vậy, thuộc tính cần chọn ở bước đầu tiên là outlook vì H(outlook,S) đạt giá trị nhỏ nhất (information gain là lớn nhất) Sau bước phân chia đầu tiên này, ta nhận được ba child node với các phần tử như trong ba Bảng phân chia theo outlook Child node thứ hai không cần phân chia tiếp vì nó đã tinh khiết Với child node thứ nhất, ứng với outlook = sunny, kết quả tính được bằng ID3 sẽ cho chúng ta thuộc tính humidity vì tổng trọng số của entropy sau bước 18 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 này sẽ bằng 0 với output bằng yes khi và chỉ khi humidity = normal Tương tự, child node ứng với outlook = wind sẽ được tiếp tục phân chia bởi thuộc tính wind với output bằng yes khi và chỉ khi wind = weak Như vậy, cây quyết định cho bài toán này dựa trên ID3 sẽ có dạng như dưới: Decision tree cho bài toán ví dụ sử dụng thuật toán ID3 2.3.3 Ưu điểm của thuật toán  Mô hình dễ hiểu và dễ giải thích  Cần ít dữ liệu để huẩn luyện  Có thể xử lý tốt với dữ liệu dạng số (rời rạc và liên tục) và dữ liệu hạng mục  Mô hình dạng white box rõ ràng  Xây dựng nhanh  Phân lớp nhanh 2.3.4 Nhược điểm của thuật toán  Không đảm bảo xây dựng được cây tối ưu  Có thể overfitting (tạo ra những cây quá khớp với dữ liệu huấn luyện hay quá phức tạp)  Thường ưu tiên thuộc tính có nhiều giá trị (khắc phục bằng các sử dụng Gain Ratio) 2.4 Support Vector Machine (SVM) 2.4.1 Định nghĩa Support Vector Machine (SVM) là một mô hình phân loại hoạt động bằng việc xây dựng một siêu phẳng (hyperplane) có (n - 1) chiều trong không gian n chiều của 19 Downloaded by MON HOANG (monmon3@gmail.com) lOMoARcPSD|39222806 dữ liệu sao cho siêu phẳng này phân loại các lớp một cách tối ưu nhất Nói cách khác, cho một tập dữ liệu có nhãn (học có giám sát), thuật toán sẽ dựa trên dữ liệu học để xây dựng một siêu phẳng tối ưu được sử dụng để phân loại dữ liệu mới Ở không gian 2 chiều thì siêu phẳng này là 1 đường thẳng phân cách chia mặt phẳng không gian thành 2 phần tương ứng 2 lớp với mỗi lớp nằm ở 1 phía của đường thẳng 2.4.2 Ví dụ minh họa Ta có các điểm dữ liệu như hình dưới đây với mỗi điểm thuộc 1 trong 2 lớp cho trước: Hình 2.16 Ví dụ mô hình SVM Một đường thẳng phân cách có thể được vẽ như sau: Hình 2.17 Ví dụ mô hình SVM Đường thẳng này chia cách khá tốt 2 lớp trên mặt phẳng Tất cả những điểm dữ liệu nằm bên trái đường thẳng đều thuộc về lớp hình tròn và những điểm nằm ở bên phải thuộc về lớp hình vuông Nhiệm vụ của SVM chính là tìm ra đường thẳng / siêu phẳng phân cách cách sao cho phân loại dữ liệu tốt nhất có thể 2.4.3 Ưu điểm của thuật toán Là một kĩ thuật phân lớp khá phổ biến, SVM thể hiện được nhiều ưu điểm trong số đó có việc tính toán hiệu quả trên các tập dữ liệu lớn Có thể kể thêm một số ưu điểm của phương pháp này như: 20 Downloaded by MON HOANG (monmon3@gmail.com)

Ngày đăng: 21/03/2024, 17:21

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan