1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đồ án học phần khoa học dữ liệu chất lượng của các biến thể màu đỏ của rượu vang bồ đào nha vinho verde

28 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 826,6 KB

Nội dung

Untitled ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU Đề tài chất lượng của các biến thể màu đỏ của r[.]

lOMoARcPSD|21993952 ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU Đề tài: chất lượng biến thể màu đỏ rượu vang Bồ Đào Nha “ Vinho Verde” GVHD: TS.GVC Nguyễn Quốc Hùng Nhóm thực hiện: nhóm số 1.Chau Sa Rinh ( nhóm trưởng ): 31201026517 2.Lê Hoàng Nguyên: 31201020415 3.Đặng Lê Tấn Trường: 31201020612 4.Nguyễn Hữu Nhân: 31201020422 5.Nguyễn Ngọc Hiếu :31201027320 TP Hồ Chí Minh, Tháng 01/2022 lOMoARcPSD|21993952 MỤC LỤC Table of Contents DANH MỤC HÌNH ẢNH DANH MỤC BIỂU ĐỒ Lời mở đầu .7 BẢNG PHÂN CÔNG CÁC THÀNH VIÊN .8 Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu vềề khoa học liệu 1.1.1 1.1.2 1.1.3 1.1.4 Dữ liệu gì? Tổng quan vềề khoa học liệu 10 Sự phát triển Khoa học liệu 11 Ứng dụng tiêu biểu Khoa học liệu 12 1.2 Giới thiệu đề tài: 14 2.1 Các phương pháp Excel dùng để khai phá liệu 15 2.1.1 Các phương pháp thốống kê mố tả Excel 15 2.1.2 Phương pháp vêề phân tch dự báo 17 2.1.3 Phương pháp phân tch tốối ưu 20 2.2 Phâềm mềềm Orange .22 2.2.1 Mố tả phâền mêềm .22 2.2.2 Tính phâền mêềm Orange 22 2.3 Phương pháp phân lớp liệu 25 2.3.1 Bài toán phân lớp liệu 25 2.3.2 Một sốố phương pháp phân lớp 25 2.3.3 Các phương pháp đánh giá mố hình phân lớp 26 2.4 Phương pháp phân cụm liệu 27 2.4.1 Bài toán phân cụm liệu 27 2.4.2 Một sốố phương pháp phân cụm .28 2.4.3 Đánh giá mố hình phân cụm .29 2.4.4 Minh họa mố hình phân cụm bằềng Orange .29 Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 29 Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH .30 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 31 TÀI LIỆU THAM KHẢO .32 Báo cáo đồ án môn khoa học liệu lOMoARcPSD|21993952 Lời mở đầu Lời nói chúng em xin gửi lời cảm ơn chân thành đến T.S Nguyễn Quốc Hùng thành viên nhóm Trong suốt thời gian học tập, tìm hiểu hồn thành đồ án mơn học Khoa học liệu chúng em nhận quan tâm giúp đỡ, hướng dẫn tận tình tâm huyết thầy với hợp tác ăn ý, hiệu suất nhóm giúp em tích luỹ thêm nhiều kinh nghiệm kiến thức để có nhìn sâu sắc hồn thiện phần mền orange nói riêng khoa học liệu nói chung Thơng qua đồ án này, nhóm em xin trình bày lại kiến thức kỹ mà nhóm thu thập trình học Trong trình hồn thành đồ án, chắn khơng tránh khỏi thiếu sót Vì vậy, nhóm em mong nhận góp ý chân thành đên từ thầy để đồ án kết thúc mơn học chúng em hồn thiện Trước bắt đầu, chúng em trình bày lý tính cấp bách đề tài Chúng ta biết thu nhập khoản tài sản bất tận quan trọng người Thu thập hỗ trợ ta việc tiêu, trang trãi sống Việc dự đoán thu thập cao hay thấp cung cấp cho ta nhiều thông tin giá trị biết khoản phải nộp, có đáp ứng nhu cầu sinh hoạt hay khơng Từ đưa định nhằm cãi thiện nâng cao thu nhập Thu nhập cịn có tầm quan trọng với kinh tế quốc gia Với kiến thức học môn khoa học liệu, chúng em xây dựng nên mơ hình đánh giá chất lượng biến thể màu đỏ rượu vang Bồ Đào Nhan dựa thông tin từ số liệu excel orange Nhóm tìm hiểu yếu tố ảnh hưởng đến chất lượng rượu vang từ đưa kết dự đốn ta áp dụng vào thực tế Trong báo cáo này, chúng em giới thiệu Khoa học liệu gồm đối tượng làm việc, khái niệm, quy trình thực phát triẻn khoa học liệu Sau giới thiệu sơ lược đề tài chúng em Chương với kiến thức phần mền orange phương pháp phân lớp phân cụm chúng em học Ở chương 3, nhóm ứng dụng phương pháp vào liệu nhằm dụ báo phân tích Và báo cáo kết phần chương 4, dựa vào kết ta phát triển ứng dụng đời sống Báo cáo đồ án mơn khoa học liệu lOMoARcPSD|21993952 BẢNG PHÂN CƠNG CÁC THÀNH VIÊN TT Họ tên Chau Sa Rinh (Trưởng nhóm) Lê Hồng Ngun Đặng Lê Tấn Trường Nguyễn Hữu Nhân Trần Ngọc Hiếu Công việc phụ trách -kết luận phương pháp phân lớp tốt -Chương 4: kết luận hướng phát triển đề tài -Chương 1: Giới thiệu khoa học liệu giới thiệu đề tài -Lời mở đầu+lời cảm ơn thành viên, thầy hướng dẫn -Chỉnh sửa hình thức trình bày word cho đồ án -Chương 2: tổng quan chương trình sử dụng phương pháp sử dụng Ví dụ phần mềm Orange, thuật toán SVM, Trê, Logistic, Regresion, K-means,… -Chương 2: tổng quan chương trình sử dụng phương pháp sử dụng Ví dụ phần mềm Orange, thuật tốn SVM, Trê, Logistic, Regresion, K-means,… -Chương 3:ứng dụng phương pháp vào toán cụ thể đề tài Mức độ hoàn thành 100% 100% 100% 100% 100% Báo cáo đồ án môn khoa học liệu lOMoARcPSD|21993952 Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu khoa học liệu 1.1.1 Dữ liệu gì? Trước tìm hiểu khoa học liệu tìm hiểu đối tượng làm việc ngành này, liệu Dữ liệu ( data ) tập hợp liệu số , hình ảnh, chuỗi kỳ tự nhắm đo lường mô tả vật, đối tường cụ thể Dự liệu đễ dàng thu nhập từ kênh thông tin khác nhau, từ nguồn sẵn có mạng xã hội, bên thứ ba ( quan nhà nước ), tự thu nhập thông qua việc quan sát , vấn làm khảo sát… Dữ liệu yếu tố quan trọng lĩnh vực kinh doanh, tài sản quý báu doanh nghiệp liệu giúp Doanh nghiệp cãi thiệm tình trạng kinh doanh hỗ trợ đưa định nhanh xác hơn, dự đoán xu hướng thị trường, tăng khả cạnh trạnh thị trường Không lĩnh vực kinh tế, lĩnh vực khác y tế , giáo dục, truyền thống giải trí phát triển biết cách xử lý liệu áp dụng cách hiệu Theo thống kê digital ( tính đến tháng1/2021), số lượng người dùng internet đạt 4,66 tỷ người giới, tỷ lệ tham gia internet mức 60% Người dùng di động giới chiếm 66,6 % dùng mạng xã hội chiếm tới 53% dân số giới nghiên cứu ( Kemo, S (2021 Janyary 27) Điều minh chứng cho phổ biến liệu Theo tiến xã hội, đặc biệt sau cách mạng công nghệ 4.0, liệu trở thành nguồn tài nguyên thiếu thời đại số Dữ liệu lớn (Big Data) đời phát tiên liệu có khối lượng lớn đa dạng phức tạp Với đặc tính liệu lớn khó quản lý công cụ quản lý truyền thông phần mềm thông thương (số sách, phân nềm excel) Báo cáo đồ án môn khoa học liệu lOMoARcPSD|21993952 Vậy doanh nghiệp phải quản lý khai thác lượng liệu khổng lồ nào? Ngành Khoa học liệu giúp ta biết để quản trị biến nguồn liệu khổng lồ thành thơng tin hữu ích phù hợp nhu cầu sử dụng 1.1.2 Tổng quan khoa học liệu Theo Oracle - Một tập đồn cơng nghệ máy tính đa quốc gia - Khoa học hiệu kết hợp nhiều lĩnh vực bao gồm thống kê, phương pháp khoa học, trí tuệ nhân tạo (A) phân tích liệu để chiết xuất giá trị từ liệu Những người thực khoa học liệu gọi nhà khoa học liệu họ kết hợp loạt kỹ để phân tích liệu thu thập để có thơng tin chi tiết hữu ích theo (Oracle (n.d.) Retrieved October 3.2021) Hoặc theo International Business Machines (IBM) - Một tập đồn cơng nghệ máy tính đa quốc gia - Khoa học đừ liệu phương pháp tiếp cận đa ngành để trích xuất thơng tin chi tiết sử dụng từ lượng lớn liệu tổ chức ngày thu thập tạo theo nghiên cứu (IBM Cloud Education 2021) Nói tóm lại, khoa học liệu ngành nghiên cứu khoa học quản trị phân tích liệu, chuyển đổi liệu thành tri thức, thông tin giá trị trợ giúp việc đưa định hành động doanh nghiệp, Khoa học liệu ngành phát triển dựa kết hợp Tốn học, Thống kê, Kỹ lập trình Cơng nghệ thơng tin (học máy) Mục đích khoa học liệu giúp ta có nhìn sâu đánh giá kĩ, phân tích chuyển hóa liệu thô trở thành giá trị hữu ích Công việc khoa học liệu gồm trình thu thập liệu xử lý, tiến hành phân tích chun sâu cuối trình bày thơng qua đưa định hành động Nhìn đơn giản cơng việc u cầu nhà khoa học liệu (Data Scientist) phải có lượng kiến thức đa dạng phong phú, đặc biệt kiến thức học máy Machine Learning) Học máy cho phép hệ thống tự học hỏi dựa liệu đưa vào Sự kết hợp trí thơng minh Con người tính tự động hóa hệ thống giúp khoa học liệu phân tích chi tiết hiểu biết sâu liệu kết xác Quy trình phân tích khoa học liệu có bước chính: Bước 1: Đặt vấn đề thu thập Ở bước này, nhà khoa học liệu phải đặt câu hỏi vấn đề mà doanh nghiệp gặp phải để trích xuất liệu đa vấn đề Dữ liệu thu thập từ nhiều nguồn kênh thơng tin sẵn có phương pháp thủ công kết hợp hai Sau đó, kiểm tra liệu xm có phù hợp với mục tiêu hay không Bước : Tiền xử lý Bước chiếm tỷ trọng nhiều quy trình Dữ liệu thu thập thương bị lỗi bị thiếu bị nhiều tính qn Nhà khoa học liệu dành nhiều thời gian theo dõi liệu cách tỉ mỉ xem có lỗi hay khơng từ sửa lỗi để có liệu hồn chỉnh 10 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 Bước : Chuyển đổi liệu Định dạng lại cấu trúc liệu nhầm giúp việc phân tích để dàng cải thiện kết phân tích Bước 4: Phân tích Các nhà khoa học liệu sử dụng phương pháp tính tốn xây dưng nên mơ hình giải cho vấn đề doanh nghiệp Bước vận dụng phương pháp liệu chuẩn bị trước Đây bước thể tính chất liên ngành lhoa học liệu Bước 5: Trình bày kết phân tích Kỹ thuyết trình kỹ quan trọng nhà khoa học liệu Nha khoa học liệu hóa thành người kể chuyện, câu chuyện dựa số liệu phân tích, họ lồng ghép câu chuyện cho người nghe (các thành viên nhóm, ban quản lý, lãnh đạo) hiểu Thơng qua việc giải thích, nhà khoa học liệu tìm đề xuất hỗ trợ cho doanh nghiệp địa a định hành động giải vấn đề Như vậy, khoa học hiệu công cụ quan trọng kỷ nguyên số Thơng qua q trình đánh giá, khai thác phân tích, liệu rời rạc trở thành tệp thơng tin có giá trị, nguồn tri thức q báu 1.1.3 Sự phát triển Khoa học liệu Cuộc cách mạng công nghiệp lần thứ tư kết hợp công nghệ lĩnh vực vật lý, công nghệ số sinh học Những đột phá phổ biến cách mạng IoT (Internet of Things - Internet vạn vật) AI (Artificial Intelligence - Trí tuệ nhân tạo), Blockchain (Chuỗi khối), Cloud Computing (Điện toán đám mây) Big Data (Dữ liệu lớn) Cùng với đột công nghệ khoa học liệu mở cánh ca cho khả cách công ty phát triển biến họ trở nên đặc biệt cạnh tranh kinh tế số Trong khoảng 10 năm trước, chẳng sử dụng liệu không nhận thông tin giá trị mà liệu mang lại có nhiều doanh nghiệp nhận giá trị to lớn từ liệu, họ phát nên tiếp cận liệu cách khoa học hơn, phù hợp Khoa học liệu thành lĩnh vực mà họ quan tâm Nhiều tập đồn lớn có riêng đội ngũ khoa học chữ liệu Google, Facebook, Youtube, Amazon, họ tiếp tục tìm kiếm nhà phân tích tài Cơ hội nghề nghiệp ngành tăng cao nhu cầu xử lý liệu lớn gia tăng Theo tạp chí Harvard Business Review, Khoa học liệu gọi Ngành nghề quyến rũ Thế kỷ 21"như nghiên cứu Thomas A Davenport, & DỊ Panl 2017, May 26) Năm 2019, IBM dự đoán tăng nhu cầu khoa học liệu tăng vọt 28% 11 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 năm 2020 theo nghiên cứu Columbus, L ( 2017, May 14) Theo xếp hạng 50 công việc tốt Mỹ năm 2021, công việc Khoa học liệu đứng thứ Với tăng trưởng không ngừng đối tượng liệu kinh tế số, nhu cầu khoa học liệu doanh nghiệp tăng mạnh làm thúc đẩy cho phát triển ngành nghề 1.1.4 Ứng dụng tiêu biểu Khoa học liệu Khoa học liệu lĩnh vực liên ngành nên áp dụng đa dạng vào hầu hết ngành nghề Một số ứng dụng phổ biến khoa học liệu kể đến Với khoa học liệu, việc quản lý liệu khách hàng trở nên hiệu dàng Khoa học liệu cịn giúp đánh giá liệu có từ giao dịch ngày thông tin khách hàng từ dự đốn doanh thu Ngoài ra, khoa học từ liệu cung cấp thuật tốn tự động hóa giúp hoạt động ngân hàng diễn sn sẻ Trong việc phân tích đánh giá, ngân hàng sử dụng thuật toán học máy để cải thiện chiến lược Ví dụ ngân hàng muốn mở chi nhánh mới, nhờ vào thuật toán phân cụm xác định địa điểm tập trung nhiều khách hàng tiềm Hoặc việc bảo động nguy cơ, khoa học liệu đảm bảo khơng có giao 12 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 dịch trái phép thực nhờ thuật tốn phân tích học máy Từ ngăn chặn hành vi trái phép nhằm bảo vệ lợi ích khách hàng ngân hàng Đối với ngân hàng : việc rủi ro tín dụng xảy khơng thể tránh khỏi giảm thiểu khả nhờ xây dựng mơ hình rủi ro Với hỗ trợ khoa học liệu liệu, ngân hàng phân tích chọn lọc khách hàng khơng có khả tốn nợ trước hạn từ đưa định phòng ngừa trường hợp xấu xảy Ngành tài chính: Khoa học liệu đóng vai trị quan trọng việc tự động hóa nghiệp vụ doanh nghiệp Giống ngân hàng, tài sử dụng hệ thống báo động để nhận biết sớm vấn đề giải Sử dụng máy móc, thuật tốn học máy việc phân tích thơng tin từ khách hàng giúp doanh nghiệp bảo doanh thu, thực chiến lược hiệu Khoa học liệu kết hợp học máy thúc đẩy tương tác mạng xã hội, tìm hiểu dịch vụ khách hàng yêu thích xây dựng mối quan hệ tốt với khách hàng Đánh giá đâu khách hàng tiềm nhằm đề xuất xây dựng chiến lược kinh doanh phù hợp mở rộng thị trường Bên cạnh đó, khai thác liệu ứng dụng khoa học liệu giữ chuyển đổi thông tin hữu ích để tăng khả cạnh tranh kinh tế số Ngành y tế: Khoa học liệu không giúp ích lĩnh vực kinh doanh mà y học Cũng giống ngân hàng, thông tin bệnh nhân bệnh án khoa học liệu quản lý hiệu Các nhà khoa học liệu tư liệu để dự đoán hường phát triển bệnh Bác sĩ vào kết phân tích xây chuỗi thành thông tin giả n phục vụ cho việc khám chữa bệnh Điều chế thuốc lành vực nhạy cảm y học, địi hỏi q trình phức tạp việc điều chế hỗ trợ khoa học liệu giúp đơn giản hóa quy trình điều chế cung cấp nguồn thông tin dược liệu Đồng thời học máy góp phần phân tích thành phần phức tạp thuốc hay tác dụng thuốc lên người để dự đoán kết đưa vào thực tiễn chung Từ nâng tỷ lệ thành công điều chế thuốc Một ứng dụng khác khoa học liệu trợ lý sức khỏe ứng dụng chăm sức khoẻ Ứng dụng kết hợp với trí tuệ nhân tạo giúp phân tích số riêng người, đánh giá tình trạng sức khỏe sau đưa phương pháp phù hợp nhằm cải thiện sức khỏe Ví dụ ứng dụng We Do Pulse phát triển Prudential Trong bối cảnh địch bệnh COVID-19 yêu cầu sử dụng 13 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 ứng dụng chăm sóc sức khỏe để khai báo y tế đánh giá sức khỏe thân Tóm lại khoa học liệu thành phần thiếu thời đại số Khoa học liệu phát triển tương lai với nhiều ứng dụng đời sống người 1.2 Giới thiệu đề tài: Khoa học liệu thể sức mạnh việc ứng dụng vào lĩnh vực, đặc biệt lĩnh vực phân tích chất lượng sản phẩm Vì vậy, ứng dụng mơ hình học máy khoa học liệu để dự đoán chất lượng sản phẩm rượu vang xãy ? Ai mong muốn đưa chất lượng ngon rượu công ty đến với tất khách hàng giới Liệu bên cạnh yếu tố độ ngon , độ thành rượu cịn có thành phần tác động đến chất lượng rượu hay không ? Với mong muốn tìm hiểu thêm cách xác định tìm kiếm hội cao chất lượng rượu, chúng em lựa chọn đề tài “ chất lượng biến thể màu đỏ rượu vang Bồ Đào Nha “ Vinho Verde” “ Từ liệu excel mà thầy cung cấp cho chúng em để dự đoán xem chất lượng biến thể màu đỏ rượu vang Bồ Đào Nha Dựa vào thông tin chi tiết nhân để đánh giá chất lượng rượu cao hay thấp Chúng em xây dựng mơ hình dự báo độ ngon để đưa kết thu nhập có ngon hay khơng Đồng thời ta tìm hiểu tương quan biến thể màu đỏ rượu vang với yêu tố độ ngon độ thành rượu… Từ đưa kết mơ hình, ta đưa định phù hợp với nhu cầu người sử dụng 14 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 Bước 1: Chuẩn bị bảng số liệu cần dự báo Bước 2: Chọn thẻ Data -> Data Analysis -> Moving Average Bước 3: Khai báo thơng số Input Output Options Trong đó: Input Rang: tham chiếu đến vùng liệu thực tế Lables in first row: Khai báo hàng Input Rang có tiêu đề cột hay khơng Interval: số lượng kì trước muốn tính tốn Output Rang: tham chiếu đến vùng xuất kết Chart Output: tùy chọn dùng tạo biểu đồ nhúng với vùng xuất kết Standard Errors: tùy chọn tạo thêm cột chứa sai số chuẩn Bước 4: Nhấn Ok 2.1.2.2 Phương pháp san mũ (Exponential Smoothing) ► Cách thực Excel: Bước 1: Chuẩn bị bảng số liệu cần dự báo Bước 2: Chọn thẻ Data -> Data Analysis -> Exponential Smoothing, xuất hộp thoại Exponential Smoothing Bước 3: Nhập thơng số Input Output Options Trong đó: Input Rang: tham chiếu đến vùng liệu thực tế Daming Factor: giá trị dùng làm hệ số san Đó giá trị điều chỉnh bất ổn liệu, giá trị mặc định Daming Factor (1-a) = 0.3 Lable: tùy chọn cho biết hàng/cột Input Rang có chứa tiêu đề hay khơng Output Rang: tham chiếu đến vùng cần xuất kết Bước 4: Nhấn OK 2.1.2.3 Phương pháp hồi quy (Regression) Phân tích hồi quy nghiên cứu phụ thuộc biến (biến phụ thuộc hay gọi biến giải thích) vào hay nhiều biến khác (biến độc lập hay cịn gọi biến giải thích) 18 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 Phương trình hồi quy có dạng tổng quát: Y = f(X1,X2,…,Xn) (Hồi quy đơn biến: Y = aX + b) Trong đó: Y: biến phụ thuộc (dependent variable) Xi : biến độc lập (independent variable) ► Cách thực công cụ Regression: Bước 1: Chọn bảng số liệu cần dự báo Bước 2: Chọn lệnh Data -> Data Analysis -> Regression, xuất hộp thoại Regression Bước 3: Khai báo thông số Input Output Options Trong đó: Input Y Rang: chọn vung địa chứa biến phụ thuộc Y Input X Rang: Vùng địa chứa biến độc lập X (có thể chọn nhiều biến X trường hợp hồi quy đa biến) Lables: Tích vào mục để khẳng định ô (các ô) không chứa liệu hồi quy Constant is Zero: Tích vào mục để khẳng định hệ số tự hàm hồi quy tuyến tính a = Confidentce Level: Độ tin cậy hồi quy (mặc định α = 95%) – α, với α mức ý nghĩa hay xác suất mắc sai lầm loại 1, bác bỏ H0 H0 Output Rang: Vùng phía bên trái vùng chứa kết New Worksheet Ply: In kết sheet khác New Workbook: In kết file Excel Residuals: Sai số ngẫu nhiên Standardardlized Residuals: Chuẩn hóa sai số Residuals Plots: Đồ thị sai số Line fit Plots: Đồ thị hàm hồi quy tuyến tính Normal Probability Plots: Đồ thị xác suất phân phối chuẩn Bước 4: Nhấn Ok ► Cách thực đồ thị: Bước 1: Chuẩn bị bảng số liệu cần dự báo Bước 2: Chọn vùng địa chứa biến phụ thuộc Y vùng địa chứa biến độc lập X 19 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 Bước 3: Vẽ đồ thị dạng Scatter Bước 4: Click chuột phải vào data series, chọn Add Trendline Bước 5: Tùy chọn hiển thị Trendline Options Linear: dạng đường thẳng Display Equation on chart Display R-squared value on chart 2.1.3 Phương pháp phân tích tối ưu Ví dụ: Một nhà quản lí dự án nơng nghiệp muốn lựa chọn phương án trồng trọt lúa mì lúa gạo để tối đa hóa lợi nhuận dự án dựa số liệu sau: ► Các bước lập mơ hình: Bước 1: Xác định biến định Gọi x1,x2 lượng lúa gạo, lúa mì (tấn) cần sản xuất Bước 2: Xác định hàm mục tiêu Mục tiêu toán tối đa hóa lợi nhuận ta có: P = P(lúa gạo) + P(lúa mì) = 18X1 + 21x2 -> max Bước 3: Xác định hệ ràng buộc Ràng buộc tài nguyên sử dụng: Về diện tích đất: 2x1 + 3x2 ≤ 50 Về nước tưới: 6x1 + 4x2 ≤ 90 Về lao động: 15x1 + 12x2 ≤ 250 Ràng buộc tự nhiên: x1, x2 ≥ ► Sử dụng công cụ SOLVER để giải mơ hình kinh tế Bước 1: Thiết lập bảng tính 20 Báo cáo đồ án mơn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 Khởi tạo biến x1, x2 1, nhập hệ ràng buộc tương đương diện tích, lượng nước nhân cơng Tiếp đến, ta dung hàm SUMPRODUCT để tính giá trị vế trái theo biến khởi tạo Bước 2: Chọn thẻ Data -> Solver, xuất hộp thoại Solver Parameters Bước 3: Khai báo thông số tốn hình sau: Bước 4: Nhấn Solver để giải mơ hình Khai báo lựa chọn hộp thoại Solver Results Keep Solver Solution: Giữ kết in bảng tính Restore Original Values: Hủy kết vừa tìm trả biến định dạng ban đầu Save Scenario: Lưu kết vừa tìm thành tình để xem lại sau Có thể xuất thêm dạng báo cáo kết quả: Answer, Sensitivity Limits 21 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 Bước 5: Nhấn Ok để xem kết hình bên Các báo cáo kèm theo sau: 2.2 Phầm mềm Orange 2.2.1 Mô tả phần mềm Orange cơng cụ trực quan hóa, khai thác phân tích liệu Hệ thống Orange gọi Widget, bao gồm từ việc trực quan hóa liệu, lựa chọn tập xử lí trước, đến việc đánh giá thực nghiệm thuật toán mơ hình dự đốn 2.2.2 Tính phần mềm Orange Orange bao gồm giao diện canvas mà người dùng đặt widget tạo quy trình phân tích liệu Các widget cung cấp chức đọc liệu, hiển thị bảng liệu, dự đoán training, chọn chức so sánh thuật toán, trực quan hóa 22 Báo cáo đồ án mơn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 phần tử liệu,… Người dùng tương tác khám phá hình ảnh trực quan đứa tập chọn vào widget khác ► Tiện ích: Thẻ Data: chứa chức dùng để rút trích, biến đổi nạp liệu Thẻ Visualize: chứa chức liên quan đến vẽ đồ thị Thẻ Model: chứa kỹ thuật học có giám sát (phân lớp liệu) Thẻ Evaluate: chứa phương pháp đánh giá mô hinh máy học (phân lớp) Thẻ Unsupervised: chứa kỹ thuật phân cụm liệu Thẻ Educational: 2.2.2.1 Thẻ Data ► File: dùng để đọc tệp liệu đầu vào (bảng liệu với trường hợp liệu) gửi tập liệu đến địa đầu Lịch sử tệp mở gần trì cơng cụ File Nó bao gồm thư mục với liệu mẫu cài đặt sẵn Orang File: duyệt qua tệp liệu mở trước tải tệp mẫu Reload: tải lại tệp tin liệu chọn URL: chèn liệu từ địa URL Info: thông tin tập liệu tải Instances (bản ghi, số lượng quan sát, Features (trường liệu) Missing Value (trường bị lỗi) Columns: thơng tin bổ sung tính liệu Name: tên trường Type: kiểu liệu (numeric: kiểu liệu số, Categorical: kiểu liệu True/False, Text: liệu kiểu văn bản, Datetime: liệu kiểu ngày tháng) Role: thuộc tính trường liệu thường tồn hai dạng: fuatures: trường (biến) độc lập, target: trường (biến) phụ thuộc ► Datasets: lấy liệu chọn từ máy chủ gửi đến đầu Tệp tải xuống nhớ cục có sẵn kể khơng có kết nối Internet Mỗi tập liệu cung cấp thông tin Title (chủ đề), Size (kích thước liệu), Instances (số lượng phiên bản), Variables (số lượng biến), Target (mục tiêu) Tag (thẻ) ► Data Table: nhận liệu đầu vào nhều liệu hiển thị chúng bảng tính Cơng cụ cho phép xếp liệu theo thuộc tính hay trợ giúp lựa chọn liệu Untitled: cho ta biết tên biến nằm hàng giá trị biến nằm cột Info: thông tin vê kích thước tập liệu tại, số lượng loại biến Variables: giá trị biến liên tục biểu với màu sắc quy mức độ khác Selection: biến (ở hàng) chọn đưa vào đầu công cụ Restore Original Order: khôi phục lại thứ tự ban đầu sau xếp dựa thuộc tính ► Data Sampler: dùng để thực số phương pháp lấy mẫu liệu Nó xuất tập lấy mẫu bổ sung (với liệu từ đầu vào không bao gồm tập liệu lấy mẫu) Information: Thông tin liệu vào liệu xuất Sampling Type: Mong muốn phương pháp lấy mẫu Fixed proportion of data: thể tỷ lệ phần trăm đữ liệu chọn 23 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com) lOMoARcPSD|21993952 Fixed sample size: trả số trường hợp liệu chọn có hội đặt Sample with raplacement, ln lấy mẫu từ tồn tập liệu (khơng trừ trường hợp có tập hợp con) Cross Validation: phân vùng trường hợp liệu thành tập bổ sung, bạn chọn số lần gấp (tập con) lần gấp bạn muốn sử dụng làm mẫu Bootstrap: lấy mẫu từ thống kê dân số Replicable sampling trì mẫu lấy mẫu thực người dùng, stratify sample bắt chước thành phần liệu đầu vào ► Preprocess: cung cấp số phương pháp tiền xử lý kết hợp rong đường ống tiền xử lí Một số phương thức có sẵn dạng tiện ích riêng biệt, cung cấp kỹ thuật nâng cao điều chỉnh tham số lớn Tiền xử lý làm cho kết phân tích chất lượng tốt Tại ta có thể: Remove: loại bỏ giá giá lỗi Replace: thay giá trị ngẫu nhiên ► Save Data: dùng để lưu liệu ta thực Orange vào máy tính 2.2.2.2 Thẻ Visualize ► Tree Viewer: dùng để thể hình ảnh trực quan phân loại hồi quy Người dùng chọn nút, hướng dẫn widget xuất liệu liên kết với nút, cho phép phân tích liệu khám phá 2.2.2.3 Thẻ Model ► Tree (thuật toán định): thuật toán đơn giản phân chia liệu thành nút lớp liệu Tree phần mềm Orange thiết kế bên xử lý liệu rời rạc liên tục ► SVM (thuật toán siêu phẳng): kỹ thuật máy học phân tách khơng gian thuộc tính với siêu phẳng, tối đa hóa điểm liệu tất lớp Kỹ thuật thường mang lại kết dự đoán tối cao ► Logistic Regression (thuật toán hồi quy Logistic): thuật toán phân loại dùng để gán đối tượng cho tập hợp giá trị rời rạc (như 0, 1, 2, ) Thuật toán dùng hàm sigmoid logistic để đưa đánh giá theo xác suất 2.2.2.4 Thẻ Evaluate ► Test and Score: cho kết đánh giá thuật toán phân loại thử nghiệm hiệu phân lớp đạt phần trăm, từ giúp người sử dụng tìm mơ hình tốt Number of folds: chia liệu thành phần, từ thay đổi kết AUC: diện tích đường cong vận hành máy thu CA: độ xác phân loại F1: độ đo trung bình hài hịa ► Prediction: dự báo kết thuật toán phân loại thử nghiệm ► Confusion Matrix: bước bổ sung Test and Score, cho biết số / tỷ lệ trường hợp lớp dự đoán thực tế Từ có thêm sở để đánh giá mơ hình tốt cho việc dự báo Nếu sai lầm loại nằm góc bên trái (như hình ) lớn mơ hình khơng xác Do vậy, ta phải chọn mơ hình có sai lầm loại nhỏ tốt 2.2.2.5 Thẻ Unsupervised 24 Báo cáo đồ án môn khoa học liệu Downloaded by tr?n hi?n (vuchinhhp23@gmail.com)

Ngày đăng: 09/05/2023, 21:10

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w