Đề tài phân loại chủ đề bài báo bằng thuật toán kmeans

21 2 0
Đề tài phân loại chủ đề bài báo bằng thuật toán kmeans

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN NHẬP MÔN HỌC MÁY ĐỀ TI: PHÂN LOẠI CHỦ ĐỀ BI BÁO BẰNG THUẬT TỐN K-MEAN Sinh viên thực : BÙI CHÍ VIỆT NGUYỄN XUÂN LỘC NGUYỄN TRỌNG THỊNH Giảng viên hướng dẫn : PHẠM ĐỨC HỒNG Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ PHẦN MỀM Lớp : D15CNPM4 Khóa : 2020 - 2025 Hà Nội, tháng năm 2023 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Chữ kí Ghi Nguyễn Trọng Thịnh Nguyễn Xuân Lộc Bùi Chí Việt Giảng viên chấm: Họ tên Chữ ký Ghi Giảng viên chấm : Giảng viên chấm : MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ HỌC MÁY 1.1 Khái niệm học máy (machine learning) 1.2 Vai trò học máy 1.3 Cách hoạt động học máy .5 1.4 Ứng dụng học máy CHƯƠNG 2: THUẬT TOÁN K-MEANS CLUSTERING TRONG BÀI TOÁN PHÂN CỤM 2.1 Tổng quan thuật toán K-Means Clustering 2.2 Thuật toán K-Means Clustering 2.2.1 Mơ hình tốn học 2.2.2 Độ xác thuật toán 2.2.3 Nghiệm thuật toán K-Means Clustering 2.2.4 Tóm tắt thuật tốn: .10 CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN K-MEANS CLUSTERING 11 3.1 Dữ liệu toán .11 3.1.1 Phát biểu toán 11 3.1.2 Yêu cầu 11 3.1.3 Bộ liệu 11 3.1.4 Tiến hành phân cụm 13 KẾT LUẬN 18 TÀI LIỆU THAM KHẢO 19 LỜI MỞ ĐẦU Công nghệ ngày phổ biến không phủ nhận tầm quan trọng hiệu mà đem lại cho sống Bất kì lĩnh vực nào, góp mặt trí tuệ nhân tạo giúp người làm việc hồn thành tốt cơng việc Và gần đây, thuật ngữ “Machine learning” nhiều người quan tâm Thay phải code phần mềm với cách thức thủ công theo hướng dẫn cụ thể nhằm hồn thành nhiệm vụ đề máy tính tự “học hỏi” cách sử dụng lượng lớn liệu thuật toán cho phép thực tác vụ Hiện nay, việc quan tâm machine learning ngày tăng lên nhờ có machine learning giúp gia tăng dung lượng lưu trữ loại liệu sẵn, việc xử lý tính tốn có chi phí thấp hiệu nhiều Chính hiệu cơng việc lợi ích vượt bậc mà đem lại cho khiến machine learning ngày trọng quan tâm nhiều Vì chúng em chọn đề tài “Phân loại chủ đề báo thuật toán Kmeans” Chúng em xin chân thành gửi lời cảm ơn tới thầy cô giáo Trường Đại học Điện Lực nói chung thầy giáo Khoa Cơng nghệ thơng tin nói riêng tận tình giảng dạy, truyền đạt cho chúng em kiến thức kinh nghiệm quý báu suốt trình học Đặc biệt, em gửi lời cảm ơn đến Thầy Phạm Đức Hồng tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Chúng em xin chân thành cảm ơn! CHƯƠNG TỔNG QUAN VỀ HỌC MÁY 1.1 Khái niệm học máy (machine learning) Học máy hay biết đến với tên Machine Learning nhánh nhỏ ngành trí tuệ nhân tạo (AI) khoa học máy tính Nó tập trung vào việc xử lý data thuật toán để bắt chước cách mà người học Từ cải thiện độ xác dự đốn mà đưa Học máy thành phần vô quan trọng phát triển khoa học liệu Thông qua việc sử dụng phương pháp thống kê thuật toán, chúng huấn luyện để đưa phân loại, dự đoán khám phá tri thức dự án khai phá liệu Những tri thức tác động đến định ứng dụng doanh nghiệp Khi internet ngày phổ biến, người số thường xuyên lên mạng để cập nhập tin tức, giải trí, mua sắm, Chính hoạt động sản sinh lượng lớn liệu Khi liệu lớn tiếp tục mở rộng phát triển, nhu cầu thị trường với nhà khoa học liệu ngày tăng Nó địi hỏi nhà khoa học phải hỗ trợ xác định câu hỏi doanh nghiệp đưa định phù hợp 1.2 Vai trò học máy Ngày nay, liệu có sẵn gần vơ hạn, khả lưu trữ với chi phí thấp kèm theo phát triển mạnh mẽ trình xử lý thúc đẩy lĩnh vực học máy Nhiều ngành phát triển mơ hình học máy mạnh mẽ hơn, có khả phân tích liệu lớn phức tạp Đồng thời cung cấp kết nhanh hơn, xác quy mô rộng lớn Công cụ học máy cho phép tổ chức xác định nhanh hội có lợi rủi ro tiềm ẩn Những ứng dụng thực tế học máy thúc đẩy kết kinh doanh ảnh hưởng đáng kể đến lợi nhuận công ty Những kỹ thuật lĩnh vực phát triển nhanh chóng mở rộng ứng dụng học máy đến khả gần vô hạn Nhiều ngành coi việc học máy cách tốt để xây dựng mơ hình, lập chiến lược lập kế hoạch Vì họ phụ thuộc vào lượng lớn liệu cần hệ thống để phân tích liệu cách hiệu xác 1.3 Cách hoạt động học máy Theo UC-Berkeley (Đại học California-Berkeley) họ chia hệ thống học máy làm phần chính: - A Decision Process (quá trình định): Nhìn chung thuật tốn học máy sử dụng để đưa dự đoán phân lớp Dựa vào liệu đầu vào gán nhãn khơng gán nhãn, thuật tốn đưa ước tính mẫu liệu - An Error Function (hàm tính tốn lỗi): Một hàm tính tốn lỗi tính xem model có tỷ lệ dự đoán cao hay thấp, dựa vào liệu biết trước - An Model Optimization Process (quá trình tối ưu mơ hình): Sau xây dựng model bản, người ta tối ưu mơ hình cách điều chỉnh trọng số cho model đạt đến tỷ lệ xác phù hợp định Các thuật toán học máy tự động cập nhập cải thiện độ xác sau lần lặp Bản chất việc lặp lại này độc đáo có giá trị chúng diễn mà khơng có can thiệp người Nó tự động khám phá hiểu biết mà không lập trình cụ thể để làm 1.4 Ứng dụng học máy • Chăm sóc sức khỏe: - Các thiết bị cảm biến giám sát thứ từ nhịp tim, số bước nồng độ oxy, số đường huyết Thậm chí giấc ngủ tạo lượng liệu lớn đáng kể cho phép bác sĩ đánh giá sức khỏe bệnh nhân họ thời gian thực Học máy cịn phát ung thư tuyến vú thơng qua việc phân tích ảnh x-quang, chẩn đốn bệnh võng mạc tiểu đường thơng qua hình ảnh võng mạc, • Tiếp thị bán hàng: - Học máy cách mạng hóa lĩnh vực marketing Rất nhiều doanh nghiệp thành cơng việc triển khai trí tuệ nhân tạo (AI) học máy để tăng nâng cao hài lòng khách hàng - Theo Forbes, “57% giám đốc điều hành tin tưởng lợi ích lớn phát triển AI học máy cải thiện trải nghiệm khách hàng” Recommandé pour toi 10 Suite du document ci-dessous Sherlock Holmespdf (10) - Sociology StuDocu Summary Library EN Mcq binomial and hypergeometric probability distribution with correct answers Bachelor of Business Administration & Bachelor of Legislative Law 22 100% (8) Beliefs in Society - Knowledge Organisers domestic acctg 27 100% (1) 93% (14) Personal Identification Techniques Word Business Law and Taxation 100% (4) - Các trang thương mại điện tử mạng xã hội sử dụng học máy để phân tích sản phẩm mà bạn mua tìm kiếm trước Sau đưa đồ đề xuất khác mà bạn mua - Rất nhiều chuyên tin tương lai ngành bán lẻ bị chi phối AI học máy Bởi ứng dụng kinh doanh học sâu ngày trở nên thành thạo việc nắm bắt, phân tích sử dụng liệu để cá nhân hóa trải nghiệm mua sắm cá nhân Đồng thời phát triển chiến dịch tiếp thị có mục tiêu tùy chỉnh • Dịch vụ tài chính: - Những thông tin cung cấp học máy lĩnh vực cho phép nhà đầu tư xác định hội biết cần giao dịch - Học máy giúp hiệu chỉnh danh mục đầu tư đánh giá rủi ro khoản vay bảo lãnh phát hành - Những câu hỏi bảo mật lỗi thời ngày trước usernames, passwords thay nhân diện giọng nói, nhận diện khn mặt, sinh trắc học • Đối với phủ: - Hệ thống học máy giúp phủ dễ dàng dự đốn kịch tiềm tương lai, thích ứng với tình thay đổi nhanh Học máy cịn giúp việc cải thiện an ninh mạng, trí thơng minh mạng, hỗ trợ nỗ lực chống lại khủng bố, tối ưu hóa khả sẵn sàng, Ngồi cịn nhiều ứng dụng khác mà học máy mang lại tồn xung quanh CHƯƠNG 2: THUẬT TOÁN K-MEANS CLUSTERING TRONG BI TOÁN PHÂN CỤM 2.1 Tổng quan thuật toán K-Means Clustering Với thuật toán K-Means Clustering, nhãn (label) điểm liệu Mục đích làm thể để phân liệu thành cụm (cluster) khác cho liệu cụm có tính chất giống Ý tưởng đơn giản cluster (cụm) tập hợp điểm gần khơng gian (khơng gian có nhiều chiều trường hợp thơng tin điểm liệu lớn) Hình bên ví dụ cụm liệu (từ tơi viết gọn cluster) Hình 2.1 Bài tốn với clusters Giả sử cluster có điểm đại diện (center) màu vàng Và điểm xung quanh center thuộc vào nhóm với center Một cách đơn giản nhất, xét điểm bất kỳ, ta xét xem điểm gần với center thuộc nhóm với center 2.2 Thuật tốn K-Means Clustering 2.2.1 Mơ hình tốn học Ta gọi điểm vị trí trung bình tất điểm liệu cụm trung tâm cụm Như vậy, có K cụm có K trung tâm cụm trung tâm cụm nằm gần điểm liệu cụm tương ứng trung tâm cụm khác Trong hình đây, K = ta có trung tâm cụm điểm màu vàng Hình 2.2 Mơ hình liệu phân cụm Để phân cụm liệu K-Means Clustering, trước hết ta chọn K số cụm để phân chia chọn ngẫu nhiên K số m liệu ban đầu làm trung tâm cụm μ1, μ2, …, μK Sau đó, với điểm liệu x(i) ta gán cho cụm c(i) cụm có trung tâm cụm gần Khi tất điểm liệu gán cụm, bước tính tốn lại vị trí trung tâm cụm trung bình tọa độ điểm liệu cụm với k1, k2, …, kn số liệu thuộc cụm thứ k Các bước lặp lại vị trí trung tâm cụm khơng đổi sau bước lặp 2.2.2 Độ xác thuật toán Hàm mát thuật toán K-Means Clustering đặc trưng cho độ xác lớn khoảng cách từ điểm liệu tới trung tâm cụm lớn 2.2.3 Nghiệm thuật toán K-Means Clustering Trong bước thuật toán, thực chất bước gán điểm liệu trung tâm cụm gần bước thay đổi trung tâm cụm vị trí trung bình điểm liệu cụm nhằm mục đích giảm hàm mát Thuật tốn kết thúc vị trí trung tâm cụm khơng đổi sau bước lặp Khi hàm mất đạt giá trị nhỏ Khi K nhỏ so với m, thuật toán dễ đến kết chưa phải tối ưu Điều phụ thuộc vào cách chọn K trung tâm cụm ban đầu Để khắc phục điều này, ta cần lặp lại thuật toán nhiều lần chọn phương án có giá trị hàm mát nhỏ 2.2.4 Tóm tắt thuật tốn: • Đầu vào: Dữ liệu XX số lượng cluster cần tìm KK • Đầu ra: Các center MM label vector cho điểm liệu YY 1) Chọn KK điểm làm center ban đầu 2) Phân điểm liệu vào cluster có center gần 3) Nếu việc gán liệu vào cluster bước khơng thay đổi so với vịng lặp trước ta dừng thuật tốn 4) Cập nhật center cho cluster cách lấy trung bình cộng tất các điểm liệu gán vào cluster sau bước 5) Quay lại bước CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN K-MEANS CLUSTERING 3.1 Dữ liệu toán 3.1.1 Phát biểu toán Bài toán dự đoán chủ đề báo 10 - Giá trị input: tiêu đề báo - Giá trị output: tên cụm chúng phân vào 3.1.2 Yêu cầu - Lấy liệu mơ tả đặc tính chủ đề báo - Trích chọn đặc trưng từ tập liệu lấy - Xử lý, làm liệu - Tiến hành phân cụm - Dữ liệu hóa đồ thị 3.1.3 Bộ liệu Bộ liệu bao gồm đặc trưng nồng độ thành phần ảnh hưởng, bao gồm: - ‘the-thao’ - ‘the-gioi’ - ‘kinh-doanh’ - ‘gia-tri’ - ‘phap-luat’ - ‘giao-duc’ - ‘suc-khoe’ - ‘doi-song’ - ‘du-lich’ - ‘khoa-hoc’ 11 12 3.1.4 Tiến hành phân cụm 13 14 15 16 KẾT LUẬN Bài học kinh nghiệm 17 - Cần xây dựng phương án trước thực dự án - Phải trau dồi thêm kiến thức khai phá liệu - Phân chia cơng việc hợp lý, làm việc có hiệu cao - Rèn luyện thêm kỹ làm việc nhóm quản lý tốt thành viên Sau trình thực chủ đề, nhóm chúng em nhận thấy chủ đề ngun cứu có tính khả thi cao Bám sát yêu cầu công việc thực tế tương lai Địi hỏi tư kiến thức mơn khai phá liệu Thuận lợi: - Được trang bị đủ kiến thức khai phá liệu - Có giúp đỡ, hỗ trợ nhiệt tình kịp thời từ giảng viên - Có thơng tin từ nhiều nguồn thực tế để tham khảo Khó khăn: - Thành viên nhóm chưa hiểu nhau, có khoảng cách địa lý nên chưa trao đổi nhiều - Trong trình thực có vài trở ngại , bất đồng ý kiến - Kiến thức sâu rộng hạn hẹp cần làm việc nhóm nhiều trao dồi thêm Trên báo cáo tập lớn nhóm chúng em chủ đề “Phân loại chủ đề báo thuật tốn K-means”, có lẽ chương trình báo cáo chúng em chưa chuyên nghiệp hoàn chỉnh nhất, cịn có thiếu xót Vì em mong thầy bạn góp ý để nhóm em sửa dổi tiếp tục xây dựng để đạt kết tốt Xin chân thành cảm ơn! TI LIỆU THAM KHẢO 1) https://machinelearningcoban.com/2017/01/01/kmeans/ 18 2) https://rabiloo.com/vi/blog/hoc-may-la-gi-vi-sao-machine-learning-quan-trong/ 3) https://en.wikipedia.org/wiki/Machine_learning/ 4) https://niithanoi.edu.vn/machine-learning-la-gi-va-tai-sao-no-lai-dang-thay-doithe-gioi.html 19

Ngày đăng: 12/06/2023, 15:31

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan