Machine Learning có liên quan thống kêvới cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê,học máy tập trung vào sự phức tạp của các giải thuật trong việc t
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN
======* * * ======
BÁO CÁO BÀI TẬP LỚN THUỘC HỌC PHẦN:
HỌC MÁY
Đề tài: Tìm hiểu hồi quy logistic và ứng dụng cho bài toán phân loại vị trí nội
địa hóa tế bào của protein
Thành viên : Lương Đức Anh
Nguyễn Lương Nam AnhNguyễn Đức ChiếnNguyễn Đức HảoBùi Hải Linh
Hà Nội, 2023
Trang 2MỤC LỤC
DANH MỤC HÌNH ẢNH 4
MỞ ĐẦU 5
CHƯƠNG 1: TỔNG QUAN 6
1.1 Tìm hiểu về Machine Learning (Học Máy) 6
1.1.1 Khái niệm 6
1.1.2 Vai trò của Machine Learning 6
1.1.3 Một số kỹ thuật trong Machine Learning 7
1.1.3 Một số phương pháp của Machine Learning 7
1.2 Tìm hiểu về bài toán phân loại vị trí nội địa hóa tế bào của protein 11
1.2.1 Tổng quan về bài toán phân loại vị trí nội địa hóa tế bào của protein 11
1.2.2 Ứng dụng của bài toán phân loại vị trí nội địa hóa tế bào của protein trong đời sống hiện nay 12
CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 13
2.1 Thuật toán hồi quy logistic (Logistic Regression) 13
2.1.1 Định nghĩa 13
2.1.2 Quy trình làm việc của thuật toán KNN 13
2.1.3 Ví dụ minh họa 13
2.1.4 Ví dụ về KNN nhiễu 14
2.1.5 Khoảng cách trong không gian vector 14
2.1.6 Ưu điểm của thuật toán 14
2.1.7 Nhược điểm của thuật toán 15
2.2 Random Forests 15
2.2.1 Định nghĩa 15
2.2.2 Cách hoạt động 15
2.3.3 Ưu điểm của thuật toán 15
2.3.4 Nhược điểm của thuật toán 15
Trang 33.1 Nhận diện khuôn mặt bằng KNN (K-Nearest Neighbors) 17
3.1.1 Lí do chọn KNN (K-Nearest Neighbors) 17
3.1.2 Các thư viện được sử dụng nhận dạng 18
3.3 Bộ dữ liệu huấn luyện thuật toán 20
3.4 Thực hiện xây dựng mô hình 21
Tài liệu Tham khảo 27
Trang 4DANH MỤC HÌNH ẢNH
Trang 5MỞ ĐẦU
Những năm gần đây, trí tuệ nhân tạo (AI) nổi lên như một bằng chứng của cuộccách mạng công nghiệp lần thứ 4 Trí tuệ nhân tạo có thể được định nghĩa như mộtngành của khoa học máy tính liên quan đến việc tự động hóa các hành vi thông minh.Machine learning là một lĩnh vực của trí tuệ nhân tạo Mục tiêu của machine learningnói chung là hiểu cấu trúc dữ liệu và điều chỉnh dữ liệu đó thành các model mà mọingười có thể hiểu và sử dụng Các ứng dụng của Machine Learning đã quá quen thuộcvới con người: xe tự hành của Google và Tesla, hệ thống tự tag khuôn mặt trênFacebook, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi ý phim của Netflix …,chỉ là một vài trong vô vàn những ứng dụng của trí tuệ nhân tạo và cụ thể là MachineLearning Xu hướng phát triển công nghệ thông tin ngày càng tăng, song song với nólượng dữ liệu được sinh ra cũng ngày lớn Vì vậy nhu cầu để xử lý dữ liệu cũng lớnhơn, Machine Learnig đang góp phần giải quyết vấn đề này Một trong những thuậttoán thường dùng trong Machine Learning đó là thuật hồi quy logistic Thuật toán hồiquy logistic là một thuật toán phân loại được dùng để gán các đối tượng cho một tậphợp các giá trị rời rạc
NHÓM 5
Trang 6CHƯƠNG 1: TỔNG QUAN 1.1 Tìm hiểu về Machine Learning (Học Máy)
1.1.1 Khái niệm
Là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựngcác kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết các vấn đề cụthể Ví dụ các máy có thể học cách phân loại thư điện tử có phải thư rác hay không và
tự động sắp xếp vào các thư mục tương ứng Machine Learning có liên quan thống kêvới cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê,học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán.Machine Learning có hiện nay được áp dụng rộng rãi bao gồm truy tìm dữ liệu, máyphân tích thị trường chứng khoán, nhận dạng tiếng nói và chữ viết …
1.1.2 Vai trò của Machine Learning
Ngày nay, hầu hết các ngành nghề khi phải làm việc với lượng dữ liệu lớn đang dần nhận thấy sự quan trọng của machine learning Nhiều ngành nghề đã áp dụng chúng vào trong thực tiễn
Dịch vụ tài chính: Có thể thấy ngành nghề này liên quan đến những con số và
dữ liệu rất cao, chúng được sử dụng để xác định những thông tin quan trọng về
dữ liệu và ngăn chặn gian lận Phân tích được các cơ hội đầu tư tránh những rủiro
Chính phủ: Các cơ quan an ninh cộng đồng và các đơn vị công ích đã sử dụng
cho các ứng dụng như phân tích dữ liệu cảm biến, phát hiện gian lận và hành vitrộm cắp danh tính
Chăm sóc sức khỏe: Các thiết bị đeo trên người là ứng dụng dựa trên machine
learning, chúng có thể phân tích cảm biến để đánh giá sức khỏe của bệnh nhântheo thời gian thực và đưa ra cảnh báo kịp thời
Trang 7 Giao thông vận tải: Phân tích mô hình và xu hướng cho các địa hình cho ngành
vận tải Đưa ra những tuyến đường hiệu quả hơn và dự đoán những vấn đề tiềm
ẩn về lợi nhuận
1.1.3 Một số kỹ thuật trong Machine Learning
Trợ lý cá nhân ảo (Virtual Personal Assistants)
Nhận dạng khuôn mặt, giọng nói, vân tay, chữ, số, …
Chuyển đổi lời nói thành văn bản
Xử lý ngôn ngữ tự nhiên
Chuyển đổi văn bản thành giọng nói
Ứng dụng trong các mạng xã hội
Tự động phân loại
1.1.3 Một số phương pháp của Machine Learning
- Học có giám sát (supervised learning):
Hình 1.1 Học có giám sát (supervised learning)
Học máy có giám sát yêu cầu thực hiện huấn luyện thuật toán với cả dữ liệu đầuvào sẽ được gắn nhãn Các thuật toán học tập có giám sát phù hợp với các tác vụsau:
● Phân loại nhị phân: Chia dữ liệu thành hai loại
● Phân loại nhiều lớp: Lựa chọn giữa nhiều hơn hai loại câu trả lời
● Mô hình hồi quy: Dự đoán các giá trị liên tục
Trang 8● Ghép nối: Kết hợp các dự đoán của nhiều mô hình học máy để tạo ra dựđoán chính xác
- Học không có giám sát (unsupervised learning):
Hình 1.2 Học không có giám sát (unsupervised learning)
Các thuật toán học máy không giám sát không yêu cầu dữ liệu phải đượcgắn nhãn Hầu hết các loại học sâu, bao gồm cả mạng thần kinh nhân tạo, đều làcác thuật toán không được giám sát Các thuật toán học tập không giám sát tốtcho các tác vụ sau:
● Phân cụm: Tách tập dữ liệu thành các nhóm dựa trên sự giống nhau
● Phát hiện bất thường: Xác định các điểm dữ liệu bất thường trong tập dữliệu
● Khai thác liên kết: Xác định các tập hợp các mục trong tập dữ liệuthường xuyên xảy ra cùng nhau
Giảm kích thước: Giảm số lượng biến trong tập dữ liệu
Trang 9- Học bán giám sát (semi-supervised learning):
Hình 1.3 Học bán giám sát (semi-supervised learning)
Học máy bán giám sát hoạt động khi các nhà khoa học cung cấp một lượngnhỏ dữ liệu đào tạo được gắn nhãn cho một thuật toán Từ đó, thuật toán tìm hiểucác kích thước của tập dữ liệu, sau đó nó có thể áp dụng cho dữ liệu mới, chưađược gắn nhãn Hiệu suất của các thuật toán thường được cải thiện khi chúng đàotạo trên các tập dữ liệu được gắn nhãn Tuy nhiên việc ghi nhãn dữ liệu có thể tốnthời gian và tốn kém Học máy bán giám sát đặt nền tảng trung gian giữa hiệusuất của học máy có giám sát và hiệu quả của học máy không giám sát Một sốlĩnh vực sử dụng phương pháp học máy bán giám sát bao gồm:
Dịch máy: Dạy các thuật toán dịch ngôn ngữ dựa trên ít hơn một từ điểnđầy đủ các từ
Phát hiện gian lận: Xác định các trường hợp gian lận khi bạn chỉ có mộtvài ví dụ tích cực
Dán nhãn dữ liệu: Các thuật toán được đào tạo trên tập dữ liệu nhỏ cóthể học cách áp dụng nhãn dữ liệu cho các tập lớn hơn một cách tự động
Trang 10- Học tăng cường (reinforcement learning):
Hình 1.4 Học tăng cường (reinforcement learning)
Học máy tăng cường hoạt động bằng cách lập trình một thuật toán với mộtmục tiêu riêng biệt và một bộ quy tắc được chỉ định để hoàn thành mục tiêu đó.Các nhà khoa học cũng lập trình thuật toán để tìm kiếm phần thưởng tích cực –
mà nó nhận được khi thực hiện một hành động có lợi cho mục tiêu cuối cùng –
và tránh các hình phạt – mà nó nhận được khi thực hiện một hành động khiến nócàng xa mục tiêu cuối cùng Học máy tăng cường thường được sử dụng trong cáclĩnh vực như:
● Robot: Robot có thể học cách thực hiện các nhiệm vụ trong thế giới thựcbằng cách sử dụng kỹ thuật này
● Trò chơi video: Học máy tăng cường đã được sử dụng để dạy bot chơimột số trò chơi điện tử
● Quản lý nguồn lực: Với nguồn lực hữu hạn và một mục tiêu xác định,việc học máy tăng cường có thể giúp doanh nghiệp lập kế hoạch phân bổnguồn lực
Trang 111.2 Tìm hiểu về bài toán phân loại vị trí nội địa hóa tế bào của protein
1.2.1 Tổng quan về bài toán phân loại vị trí nội địa hóa tế bào của protein
Input: Các thuộc tính mcg, gvh, alm, mit, erl, pox, vac, nuc.
mcg Phương pháp nhận dạng chuỗi tín hiệu của McGeoch
gvh Phương pháp nhận dạng chuỗi tín hiệu của von Heijne
alm Điểm của chương trình dự đoán khu vực kéo dài màng ALOMmit Điểm phân tích phân biệt hàm lượng axit amin của vùng đầu N
(dài 20 gốc) của protein ty thể và protein ngoài ty thể
erl
Sự hiện diện của chuỗi con "HDEL" (được cho là hoạt động như một tín hiệu để lưu giữ trong lòng mạng lưới nội chất) Thuộc tính nhị phân
pox Tín hiệu nhắm mục tiêu peroxisomal trong C-terminator
vac Điểm phân tích phân biệt hàm lượng axit amin của protein
không bào và protein ngoại bào
nuc Điểm phân tích phân biệt các tín hiệu định vị hạt nhân của
protein hạt nhân và phi hạt nhân
Output: xuất ra tên lớp vị trí nội địa hóa tế bào của protein
Bài toán phân loại vị trí nội địa hóa tế bào của protein là một bài toán quan trọng trongsinh học phân tử và được giải quyết bằng các phương pháp học máy như SVM,Random Forests và Neural Networks, Logistic Regression, …
Trang 121.2.2 Ứng dụng của bài toán phân loại vị trí nội địa hóa tế bào của protein trong đời sống hiện nay
Bài toán phân loại vị trí nội địa hóa tế bào của protein có nhiều ứng dụng trong đời sống hiện nay Một số ứng dụng của bài toán này bao gồm:
Dự doán chức năng của protein: Bài toán phân loại vị trí nội địa hóa tế bào của protein có thể giúp xác định chức năng của protein
Nghiên cứu bệnh lý: Bài toán này có thể giúp xác định các protein liên quan đến các bệnh lý và giúp phát triển các phương pháp điều trị mới
Thiết kế thuốc: Bài toán này có thể giúp thiết kế các thuốc mới để điều trị các bệnh lý liên quan đến protein
Trang 13CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ.
2.1 Thuật toán hồi quy logistic (Logistic Regression)
2.1.1 Định nghĩa
K-láng giềng gần nhất (K Nearest Neighbor - KNN) là một trong những thuậttoán học có giám sát đơn giản nhất trong Machine Learning Ý tưởng của KNN là tìm
ra output của dữ liệu dữ trên thông tin của những dữ liệu training gần nó nhất
2.1.2 Quy trình làm việc của thuật toán KNN.
Bước 1: Xác định tham số K = số láng giềng gần nhất
Bước 2: Tính khoảng cách đối tượng cần phân lớp với tất cả các đối tượng trongtraining data
Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gầnnhất với đối tượng cần phân lớp
Bước 4: Lấy tất cả các lớp của K láng giềng gần nhất
Bước 5: Dựa vào phần lớn lớp của K để xác định lớp cho đối tượng cần phân lớp
2.1.3 Ví dụ minh họa
Hình 2.1 Ví dụ minh họa của thuật toán KNN
Bài toán được đặt ra: Bạn có điểm của một môn học nhưng bạn không biết thuộcloại nào (Giỏi, khá) Giả sử bạn không biết bất kỳ quy tắc nào để phân loại cả.Ta dễdàng thấy: Hình vuông đỏ biểu diễn cho những bạn có điểm Khá, hình tam giác xanhbiểu diễn cho những bạn có điểm Giỏi Điểm chấm xanh lá là điểm của mình muốntìm thuộc loại nào.Có một cách giải quyết là bạn phải đi khảo sát những người xungquanh Để biết điểm của mình thuộc loại nào thì bạn phải đi hỏi những đứa có điểm
Trang 14gần số điểm mình nhất Giả sử trong lớp 50 đứa, mình khảo sát 3 đứa gần điểm mìnhnhất và được dữ liệu như hình trên Với K = 3 dựa theo hình trên ta dễ dàng nhận ra cóhai hình tam giác xanh và một hình vuông đỏ có khoảng cách gần nhất với điểm chấmxanh và với tỷ lệ tam giác xanh nhiều hơn hình vuông đỏ ta có thể đoán được điểm củamình là điểm Khá.
2.1.5 Khoảng cách trong không gian vector
Trong không gian một chiều, khoảng cách giữa hai điểm là trị tuyệt đối giữa hiệugiá trị của hai điểm đó Trong không gian nhiều chiều, khoảng cách giữa hai điểm có
Trang 15●Việc dự đoán kết quả của dữ liệu mới dễ dàng.
● Độ phức tạp tính toán nhỏ
2.1.7 Nhược điểm của thuật toán
●KNN nhiễu dễ đưa ra kết quả không chính xác khi K nhỏ
●Cần thời gian lưu training set, khi dữ liệu training và test tăng lên nhiều sẽ mất nhiều thời gian tính toán
2.2 Decision Tree
2.2.1 Định nghĩa.
Decision tree là một mô hình supervised learning, có thể được áp dụng vào cả hai bài toán classification và regression Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗinút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định
Mô hình ví dụ về bài toán phân lớp sử dụng decision tree
Trang 162.2.2Ví dụ minh họa.
Đây là một bảng dữ liệu được sử dụng rất nhiều trong các bài giảng về decision tree Bảng dữ liệu này mô tả mối quan hệ giữa thời tiết trong 14 ngày (bốn cột đầu, không tính cột id) và việc một đội bóng có chơi bóng hay không (cột cuối cùng) Nói cách khác, ta phải dự đoán giá trị ở cột cuối cùng nếu biết giá trị của bốn cột còn lại
Có bốn thuộc tính thời tiết:
1 Outlook nhận một trong ba giá trị: sunny, overcast, rainy.
2 Temperature nhận một trong ba giá trị: hot, cool, mild.
3 Humidity nhận một trong hai giá trị: high, normal.
4 Wind nhận một trong hai giá trị: weak, strong.
(Tổng cộng có 3×3×2×2=363×3×2×2=36 loại thời tiết khác nhau, trong đó 14 loạiđược thể hiện trong bảng.)
Đây có thể được coi là một bài toán dự đoán liệu đội bóng có chơi bóng không dựatrên các quan sát thời tiết Ở đây, các quan sát đều ở dạng categorical Cách dự đoándưới đây tương đối đơn giản và khá chính xác, có thể không phải là cách ra quyết địnhtốt nhất:
Nếu outlook = sunny và humidity = high thì play = no.
Nếu outlook = rainy và windy = true thì play = no.
Trang 17Tiếp theo, chúng ta tính tổng có trọng số entropy của các child node nếu chọn một trong các thuộc tính outlook, temperature, humidity, wind, play để phân chia dữ liệu Xét thuộc tính outlook Thuộc tính này có thể nhận một trong ba giá trị sunny,
overcast, rainy Mỗi một giá trị sẽ tương ứng với một child node Gọi tập hợp các
điểm trong mỗi child node này lần lượt là vớitương ứng phần tử Sắp xếp lại Bảng ban đầu theo thuộc tính outlook ta đạtđược ba Bảng nhỏ sau đây
Quan sát nhanh ta thấy rằng child node ứng với outlook = overcast sẽ có entropy bằng
0 vì tất cả mo=4 output đều là yes Hai child node còn lại với ms=mr=5có
entropy khá cao vì tần suất output bằng yes hoặc no là xấp xỉ nhau Tuy nhiên,
hai child node này có thể được phân chia tiếp dựa trên hai thuộc
tính humidity và wind
Trang 18Bạn đọc có thể kiểm tra được rằng
Xét thuộc tính temperature, ta có phân chia như các Bảng dưới đây
Việc tính toán với hai thuộc tính còn lại được dành cho bạn đọc Nếu các kết quả là giống nhau, chúng sẽ bằng:
Như vậy, thuộc tính cần chọn ở bước đầu tiên là outlook vì H(outlook,S) đạt giá trị
Trang 19này sẽ bằng 0 với output bằng yes khi và chỉ khi humidity = normal Tương tự, child node ứng với outlook = wind sẽ được tiếp tục phân chia bởi thuộc tính wind với outputbằng yes khi và chỉ khi wind = weak.
Như vậy, cây quyết định cho bài toán này dựa trên ID3 sẽ có dạng như dưới:
Decision tree cho bài toán ví dụ sử dụng thuật toán ID3
2.3.3 Ưu điểm của thuật toán
Mô hình dễ hiểu và dễ giải thích
Cần ít dữ liệu để huẩn luyện
Có thể xử lý tốt với dữ liệu dạng số (rời rạc và liên tục) và dữ liệu hạng mục
Mô hình dạng white box rõ ràng
Xây dựng nhanh
Phân lớp nhanh
2.3.4 Nhược điểm của thuật toán.
Không đảm bảo xây dựng được cây tối ưu
Có thể overfitting (tạo ra những cây quá khớp với dữ liệu huấn luyện hay quá phức tạp)
Thường ưu tiên thuộc tính có nhiều giá trị (khắc phục bằng các sử dụng Gain Ratio)
2.4 Support Vector Machine (SVM)
2.4.1 Định nghĩa
Support Vector Machine (SVM) là một mô hình phân loại hoạt động bằng việcxây dựng một siêu phẳng (hyperplane) có (n - 1) chiều trong không gian n chiều của