1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài sử dụng thuật toán hồi quy tuyến tính để đánh giá các quốc gia trên thế giới theo gdp

20 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 460,73 KB

Nội dung

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI SỬ DỤNG THUẬT TOÁN HỒI QUY TUYẾN TÍNH ĐỂ ĐÁNH GIÁ CÁC QUỐC GIA TRÊN THẾ GIỚI THEO GDP Sinh viên th[.]

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: SỬ DỤNG THUẬT TỐN HỒI QUY TUYẾN TÍNH ĐỂ ĐÁNH GIÁ CÁC QUỐC GIA TRÊN THẾ GIỚI THEO GDP Sinh viên thực : TRỊNH THANH TÙNG : ĐINH VŨ MẠNH Giảng viên hướng dẫn : NGUYỄN THỊ THANH TÂN Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CƠNG NGHỆ PHẦN MỀM Lớp : D15CNPM6 Khóa : 2020 - 2025 Hà Nội, tháng năm 2023 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Nội dung Điểm Chữ ký Trịnh Thanh Tùng MSV:2081031052 Đinh Vũ Mạnh MSV:2081032013 Giảng viên chấm điểm: Họ tên giảng viên Giảng viên chấm 1: Giảng viên chấm : Chữ ký Ghi MỤC LỤC LỜI MỞ ĐẦU Chương I: Tổng quan khai phá liệu, tiền xử lý liệu 1.Đặt vấn đề 2.Tổng quan khai phá liệu 2.1.Khái niệm .2 2.2.Quy trình khai phá tri thức 2.3.Lợi ích khai phá liệu 2.4.Ứng dụng khai phá liệu .3 3.Tiền xử lý liệu 3.1.Khái niệm .4 3.2.Làm liệu (data cleaning) 3.3.Tích hợp liệu (data integration) .4 3.4.Biến đổi liệu (data transformation) 3.5.Thu giảm liệu (data reduction) Chương II: Khái qt Thuật tốn hồi quy tuyến tính sử dụng để khai phá liệu 1.Khái niệm 2.Dạng Linear Regression 3.Hàm mát 4.Tìm nghiệm mơ hình hồi quy tuyến tính 5.Ưu điểm hạn chế hồi quy tuyến tính Chương III: Thử nghiệm, kết .7 1.Giới thiệu toán 1.1.Mô tả .7 1.2.Yêu cầu toán 2.Môi trường thử nghiệm 2.1.Giới thiệu python 2.2.Đặc điểm Python 2.3.Cài đặt Python 3.Xây dựng liệu 3.1.Bộ liệu đánh giá quốc gia giới theo GDP 3.2.Cài đặt thuật toán 10 4.Kết .12 KẾT LUẬN 15 LỜI MỞ ĐẦU Công nghệ ngày phổ biến khơng phủ nhận tầm quan trọng hiệu mà đem lại cho sống Bất kỳ lĩnh vực nào, góp mặt trí tuệ nhân tạo giúp người làm việc hoàn thành tốt công việc Và gần đây, thuật ngữ “machine learning” nhiều người quan tâm.Thay phải code phần mềm với cách thức thủ công theo hướng dẫn cụ thể nhằm hoàn thành nhiệm vụ đề máy tự “học hỏi” cách sử dụng lượng lớn liệu thuật tốn cho phép thực tác vụ Đây lĩnh vực khoa học không mới, cho thấy lĩnh vực trí tuệ nhân tạo ngày phát triển tiến xa tương lai Đồng thời, thời điểm xem lĩnh vực “nóng” dành nhiều mối quan tâm để phát triển cách mạnh mẽ, bùng nổ Hiện nay, việc quan tâm machine learning ngày tăng lên nhờ có machine learning giúp gia tăng dung lượng lưu trữ loại liệu sẵn, việc xử lý tính tốn có chi phí thấp hiệu nhiều Những điều hiểu thực tự động, nhanh chóng để tạo mơ hình cho phép phân tích liệu có quy mơ lớn phức tạp đồng thời đưa kết cách nhanh xác Chính hiệu cơng việc lợi ích vượt bậc mà đem lại cho khiến machine learning ngày trọng quan tâm nhiều Vì chúng em định chọn đề tài: “ Sử dụng thuật toán hồi quy để đánh giá quốc gia giới theo GDP “ ” để làm báo cáo Chương I: Tổng quan khai phá liệu, tiền xử lý liệu 1.Đặt vấn đề Ứng dụng công nghệ thông tin vào việc lưu trữ xử lý thông tin ngày áp dụng hầu hết lĩnh vực, điều tạo lượng lớn liệu lưu trữ với kích thước tăng lên khơng ngừng Đây điều kiện tốt cho việc khai thác kho liệu để đem lại tri thức có ích với công cụ truy vấn, lập việc khai thác kho liệu để đem lại tri thức có ích với công cụ truy vấn, lập bẳng biểu khai phá liệu Khai phá liệu kỹ thuật dựa tảng nhiều lý thuyết xác xuất, thống kê, máy học nhằm tìm kiếm tri thức tiềm ẩn kho liệu có kích thước lớn mà người dùng khó nhận biết kỹ thuật thông thường Nguồn liệu y khoa lớn, áp dụng khai phá liệu lĩnh vực mang lại nhiều ý nghĩa cho ngành y tế Nó cung cấp nững thơng tin quý giá nhằm hỗ trợ việc chuẩn đoán điều trị sớm giúp bệnh nhân thoát nhiều bệnh hiểm nghèo Ứng dụng thuật toán hồi quy tuyến tính vào thực tiễn nhóm em định làm để tài khai phá liệu sử dụng thuật tốn hồi quy tuyến tính để đánh giá quốc gia giới theo GDP 2.Tổng quan khai phá liệu 2.1.Khái niệm Khai phá liệu ( Data Mining ) qui trình mà doanh nghiệp sử dụng để biến liệu thô thành thông tin hữu ích Bằng cách dùng phần mềm để tìm mẫu hình tập liệu, doanh nghiệp hiểu khách hàng họ phát triển chiến lược marketing hiệu quả, giúp tăng doanh thu giảm chi phí 2.2.Quy trình khai phá tri thức -Tìm hiểu lĩnh vực tốn (ứng dụng): Các mục đích tốn,các tri thức cụ thể lĩnh vực -Tạo nên (thu thập) tập liệu phù hợp -Làm tiền xử lý liệu -Giảm kích thước liệu, chuyển đổi liệu: Xác định thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến -Lựa chọn chức khai phá liệu: Phân loại, gom cụm, dự báo, sinh luật kết hợp -Lựa chọn/ Phát triển (các) giải thuật khai phá liệu phù hợp -Tiến hành khai phá liệu -Đánh giá mẫu thu biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ mẫu dư thừa,… -Sử dụng tri thức khai phá Quá trình khám phá tri thức chuỗi lặp gồm bước: -Data cleaning (làm liệu) -Data integration (tích hợp liệu) -Data selection (chọn lựa liệu) -Data transformation (biến đổi liệu) -Data mining (khai phá liệu) -Pattern evaluation (đánh giá mẫu) -Knowledge presentation (biểu diễn tri thức) 2.3.Lợi ích khai phá liệu -Lợi ích q trình phân tích liệu +Chọn lọc, loại bỏ tất liệu không liên quan liệu bị trùng +Xác định mẫu liệu, liệu có liên quan liệu trùng lặp tập liệu +Với data mining, phân tích khối lượng lớn liệu thời gian ngắn sau chuyển đổi liệu thành thơng tin, kiến thức -Lợi ích sau Data mining +Hỗ trợ định tự động +Hỗ trợ đưa dự báo xác +Hỗ trợ giảm thiểu chi phí +Hỗ trợ khả thấu hiểu khách hàng 2.4.Ứng dụng khai phá liệu Kinh tế-ứng dụng kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm, thương mại, ngân hàng, … Đưa báo cáo giàu thơng tin; phân tích rủi ro trước đưa chiến lược kinh doanh, sản xuất; phân loại khách hàng từ phân định thị trường, thị phần; … Khoa học: Thiên văn học – dự đốn đường thiên thể, hành tinh, Cơng nghệ sinh học – tìm gen mới, giống mới… Web: cơng cụ tìm kiếm 3.Tiền xử lý liệu 3.1.Khái niệm Quá trình xử lý liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) từ cải thiện chất lượng kết khai phá *Chất lượng liệu (data quality) - Tính xác (accuracy): giá trị ghi nhận với giá trị thực - Tính hành (currency/timeliness): giá trị ghi nhận khơng bị lỗi thời - Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận - Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp *Các kỹ thuật tiền xử lý liệu - Làm liệu (data cleaning/cleansing) - Tích hợp liệu (data integration) - Biến đổi liệu (data transformation) - Thu giảm liệu(data reduction) 3.2.Làm liệu (data cleaning) Data cleaning hay làm liệu quy trình chuẩn bị liệu trước phân tích thơng qua xử lý hay loại bỏ liệu khơng xác, khơng đầy đủ, không phù hợp định dạng, bị trùng lặp, khơng có giá trị, khơng đủ thơng tin, khơng liên quan,…những liệu ảnh hưởng đến kết phân tích sau 3.3.Tích hợp liệu (data integration) Là trình trộn liệu từ nguồn khác vào kho liệu sẵn sàng cho trình khai phá liệu 3.4.Biến đổi liệu (data transformation) Là trình biến đổi hay kết hợp liệu vào dạng thích hợp cho q trình khai phá liệu Làm trơn liệu (smoothing) Kết hợp liệu (aggregation) Tổng quát hoá (generalization) Xây dựng thuộc tính/đặc tính (attribute/feature construction) Chuẩn hố (normalization) 3.5.Thu giảm liệu (data reduction) Tập liệu biến đổi đảm bảo tồn vẹn, nhỏ/ít nhiều số lượng so với ban đầu Các chiến lược thu giảm: Kết hợp khối liệu (data cube aggregation) Chọn số thuộc tính (attribute subset selection) Thu giảm chiều (dimensionality reduction) Thu giảm lượng (numerosity reduction) Rời rạc hóa (discretization) Tạo phân cấp ý niệm (concept hierarchy generation) Chương II: Khái qt Thuật tốn hồi quy tuyến tính sử dụng để khai phá liệu 1.Khái niệm Hồi quy tuyến tính la phương pháp thống kê để hồi quy liệu với biến phụ thuộc có giá trị liên tục biến độc lập có hai giá trị liên tục giá trị phân loại Hồi quy tuyến tính haidạng lớn học có giám sát (supervised learning) dựa tập liệu mẫu Nói cách khác "Hồi quy tuyến tính" phương pháp để dự đoán biếnphụ thuộc (Y) dựa giá trị biến độc lập (X) Nó sử dụng cho trường hợp muốn dự đoán số lượng liên tục Ví dụ, dự đốn giao thơng cửa hàng bán lẻ, dự đoán thời gian người dùng dừng lại trang số trang truy cập vào website v.v 2.Dạng Linear Regression Hồi quy tuyến tính có phương trình đạng : F(x) = w0 + w1x1 + w2x2 + … + wnxn (1) Trong đó, w1, w2, wn, w0 số, w0 gọi bias hay sai số Mối quan hệ y f(x) bên mối quan hệ tuyến tính (linear) Bài toán làm toán thuộc loại regression Bài tốn tìm hệ số tối ưu { w1, w2, wn, w0 } gọi toán Linear Regression (Hồi quy tuyến tính) Trong phương trình (1) đặt w = [w 0, w1, w2, wn]T vecter (cột) hệ số cần phải tối ưu =[1, x1, x2, xn] (đọc x bar tiếng Anh) vector (hàng) liệu đầu vào mở rộng Số đầu thêm vào để phép tính đơn giản thuận tiện cho việc tính tốn Khi đó, phương trình (1) viết lại dạng: y ( vecter hàng) 3.Hàm mát Máy học từ giá trị trung bình hàm mát Đây phương pháp đánh giá độ hiệu thuật tốn liệu cho trước Nếu kết dự đoán chênh lệch nhiều so với kết thực tế, hàm mát số lớn Điều tương tự xảy với tất cặp (x i, y i), i = 1, 2, 3, …, N với N số lượng liệu quan sát Để hàm mát nhỏ tổng sai số nhỏ tương đương với việc tìm w để hàm số sau đạt giá trị nhỏ nhất: J(w) = (2) Hàm số J(w) gọi hàm mát (loss function) toán Linear Regression Chúng ta mong muốn mát (sai số) nhỏ nhất, điều đồng nghĩa với việc tìm vector hệ số w cho giá trị hàm mát nhỏ tốt Trước tìm lời giải, đơn giản hóa phép tốn phương trình hàm mát (2) Đặt vector cột chứa tất output training data; = ma trận liệu đầu vào (mở rộng) mà hàng điểm liệu 4.Tìm nghiệm mơ hình hồi quy tuyến tính Để tìm nghiệm cho toán tối ưu thường giải phương trình đạo hàm J(w) = Đạo hàm theo w hàm mát là: Phương trình đạo hàm tương đương với: Đặt b ( ) ta có : A.W = b (với I ma trận đơn vị) nghiệm mơ hình hồi quy tuyến tính Trên thực tế A khơng khả nghịch nên ta dùng ma trận giả nghịch đảo nên ta có W = hay W = Đây nghiệm tổng quát hồi quy tuyến tính 5.Ưu điểm hạn chế hồi quy tuyến tính *Ưu điểm -Đơn giản dễ hiểu: Thuật tốn hồi quy tuyến tính đơn giản dễ hiểu, thường sử dụng tảng để giới thiệu Machine Learning cho người bắt đầu -Tính linh hoạt: Thuật tốn hồi quy tuyến tính sử dụng để giải nhiều toán khác nhau, bao gồm dự đoán giá cổ phiếu, dự báo thời tiết, phân tích liệu kinh doanh nhiều ứng dụng khác -Tính khả diễn giải: Kết thuật toán hồi quy tuyến tính dễ hiểu khả diễn giải Bạn dễ dàng giải thích hệ số mơ hình cách chúng ảnh hưởng đến kết dự đốn -Tính nhanh hiệu quả: Thuật tốn hồi quy tuyến tính tính tốn cách nhanh chóng hiệu quả, đặc biệt số lượng đặc trưng liệu không lớn *Hạn chế -Giả định tuyến tính: Thuật tốn hồi quy tuyến tính giả định mối quan hệ biến đầu vào biến đầu tuyến tính Trong trường hợp mối quan hệ khơng tuyến tính, thuật tốn khơng đưa kết xác -Nhạy cảm với nhiễu: Thuật toán hồi quy tuyến tính bị ảnh hưởng giá trị nhiễu liệu, dẫn đến kết khơng xác -Tính khả mở rộng: Thuật tốn hồi quy tuyến tính khơng phù hợp cho tốn có số lượng đặc trưng lớn đặc trưng có mối tương quan cao với Chương III: Thử nghiệm, kết 1.Giới thiệu tốn 1.1.Mơ tả Bài toán đánh giá quốc gia giới theo GDP việc đo lường so sánh phát triển kinh tế quốc gia dựa giá trị GDP (Gross Domestic Product - Tổng sản phẩm quốc nội) GDP số quan trọng để đánh giá sức mạnh kinh tế quốc gia thường sử dụng để so sánh kinh tế khác Để đánh giá quốc gia theo GDP: -InPut: Thông tin, số liệu GDP quốc gia -OutPut: Đưa xếp hạng quốc gia 1.2.u cầu tốn -Thu thập số liệu GDP quốc gia -Trích chọn đặc trưng từ tập liệu lấy -Huấn luyện tập liệu -Đưa xếp hạng quốc gia 2.Mơi trường thử nghiệm 2.1.Giới thiệu python Python ngôn ngữ lập trình sử dụng rộng rãi ứng dụng web, phát triển phần mềm, khoa học liệu máy học (ML) Các nhà phát triển sử dụng Python hiệu quả, dễ học chạy nhiều tảng khác Phần mềm Python tải xuống miễn phí, tích hợp tốt với tất loại hệ thống tăng tốc độ phát triển 2.2.Đặc điểm Python -Đơn giản dễ đọc: Python thiết kế để có cú pháp đơn giản rõ ràng, giúp người lập trình dễ dàng đọc, hiểu viết code Nó sử dụng từ khố tiếng Anh đơn giản khơng có ký tự đặc biệt phức tạp ngôn ngữ khác -Đa mục đích: Python hỗ trợ nhiều mục đích lập trình khác nhau, từ viết script đơn giản cho công việc hàng ngày, phát triển ứng dụng web, xử lý liệu, trí tuệ nhân tạo, đến phát triển game nhiều lĩnh vực khác -Mã nguồn mở cộng đồng lớn: Python ngôn ngữ mã nguồn mở, điều có nghĩa mã nguồn truy cập, chỉnh sửa phân phối tự Python có cộng đồng lớn, động chia sẻ tri thức, cung cấp thư viện framework phong phú -Hỗ trợ đa tảng: Python có sẵn cho nhiều hệ điều hành Windows, macOS Linux Điều cho phép bạn viết code tảng chạy tảng khác mà không cần thay đổi mã nguồn Hướng đối tượng: Python hỗ trợ lập trình hướng đối tượng (OOP), cho phép người lập trình tổ chức mã nguồn theo đối tượng lớp OOP giúp tăng tính tổ chức, tái sử dụng bảo trì mã nguồn -Thư viện phong phú: Python có cộng đồng phát triển mạnh mẽ thư viện phong phú, cho phép bạn sử dụng chức tính phổ biến mà khơng cần phải viết code từ đầu Một số thư viện tiếng Python bao gồm NumPy, Pandas, Matplotlib, TensorFlow, Django Flask -Tương tác gỡ lỗi dễ dàng: Python cung cấp môi trường tương tác (interpreter) cho phép bạn thực thi code dòng kiểm tra kết Điều giúp bạn thử nghiệm 2.3.Cài đặt Python Cài đặt thư viện : Numpy , Pip install pandas , Pip install sklearn -Cài đặt ngơn ngữ lập trình Python: Python -Mơi trường lập trình Python: PyCharm 3.Xây dựng liệu 3.1.Bộ liệu đánh giá quốc gia giới theo GDP Tệp liệu gồm 212 bảng với số đánh giá theo GDP khác nhau, làm để xếp hạng quốc gia Từ tổng hợp toàn liệu phân loại xếp hạng -Đặt y xếp hạng nước, y nhỏ thứ hạng cao -Bộ liệu gồm thuộc tính: +Rank (Thứ hạng): Thứ hạng quốc gia +ID : Id quốc gia +Country (Quốc gia): Các quốc gia +Continent (Khu vực): Africa , Asia , Europe, North America, … +Population (Dân số): Số lượng dân số quốc gia +IMF_GDP (Quỹ Tiền tệ Quốc tế) +UN_GDP +GDP_per_capita: Sản phẩm quốc nội chia theo đầu người Bộ liệu chia thành phần: Trong 80% liệu làm liệu huấn luyện mơ hình ( tập train ), 20% cịn lại làm liệu thử nghiệm độ xác mơ hình ( tập test ) 3.2.Cài đặt thuật toán -Khai báo thư viện 10 -Đọc liệu, phân tích liệu, chuẩn hóa, chia tỉ lệ train-test -Chạy mơ hình học máy đánh giá mơ hình dựa kết dự đoán 11 4.Kết -In liệu -Dữ liệu đầu vào X -Dữ liệu đầu y -X_train, y_train +X_train: 12 +y_train: -X_test, y_test +X_test: 13 +y_test: 14 -Kết đánh giá: Sau thử nghiệm với sở liệu kết hồi quy đạt 4.5% 15 KẾT LUẬN -Những kết đạt đề tài: +Đã tìm hiểu kiến thức Machine Learning +Đã tìm hiểu mơ hình hồi quy tuyến tính +Đã áp dụng mơ hình hồi quy tuyến tính để xếp hạng quốc gia với tỉ lệ thấp 4.5% -Hạn chế: Trong trình làm chúng em cịn gặp nhiều vấn đề tìm hiểu thuật tốn cịn gặp nhiều khó khăn,kiến thức cịn hạn chế,thời gian có hạn -Hướng phát triển: Chúng em tiếp tục nghiên cứu Machine Learning áp dụng mơ hình hồi quy tuyến tính cho tốn khác Trong thời gian điều kiện định, cố gắng để hoàn thành đồ án với tất nỗ lực Tuy nhiên, bước đầu vào thực tế, tìm hiểu xây dựng báo cáo thời gian có hạn, với lượng kiến thức cịn hạn chế, nhiều bỡ ngỡ, nên làm em tránh khỏi thiếu sót Em mong nhận quan tâm, thơng cảm đóng góp q báu thầy cô bạn để đồ án ngày hoàn thiện Em xin gửi lời cảm ơn đến giáo viên giảng dạy môn nhập mơn học máy Thầy tận tình dạy, quan sát giúp đỡ em từ ngày đầu trình nghiên cứu học tập Em xin chân thành cảm ơn! 16

Ngày đăng: 21/05/2023, 05:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w