Cac quyét di ưựa trên các đặc trưng củ ữ ệ để tìm ra các thuộc tín Ọ at dé phan loa O dt phuong phapké ợ ủ éu cay quyét dinh, no su ụ y a ếu đề đưa ra dự đoán phân lớ ột điề i é O ang no
Trang 1
ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ THIẾT KE CÔNG NGHỆ THÔNG TIN KINH DOANH
UEH UNIVERSITY
ANH HUONG CUA BO DU LIEU “
” BANG PHAN MEM
Giang vién: Dang Hoang Thanh
Mã lớp hoc phan:
Nhóm sinh viên thực hiện: Nhóm 8
: TP Hồ Chí Minh ngày than năm
Trang 2SACH THANH VIEN NHOM 8:
Link bộ dữ liệu:
Trang 3PHẢN II CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU:
1 Các Mô Hình Phân Lớp Dữ Liệu: 1.1 Mô Hình Logistic Regression: 1.2 M6 Hinh Decision Tree: 1.3 Mô Hình Support Vector Machine: 1.4 M6 Hinh Neural Network 2 Quy Trình Phân Lớp Dữ Liệu
2.1 Tiền Xử Lý Dữ Liệu
2.2 Phân Lớp Dữ Liệu 2.3 Đánh Giá Tính Hiệu Quả:
PHAN III CAC KET QUA THUC NGHIEM
1 Bộ Dữ Liệu 1.1 Giới thiệu về bộ dữ liệu 1.2 Mục đích của bài phân tích 1.3 Mô tả bộ dữ liệu 1.4 Xem xét sự phân bố của các biến trong bộ dữ liệu: 2 Tiến hành phân tích chuyên sâu và đưa ra kết quả bằng phần mém Orange:
2.1 Tiến hành phân tích chuyên sâu:
2.1.1 Tiền xử lý:
2.1.2 Phân lớp: Kết quả thực nghiệm:
2.2.1 Kết quả thực nghiệm Test and Score:
2.2.2 Kết quả thực nghiệm ROC Analysis:
Trang 42.2.3 Kết quả thực nghiệm Confusion Matrix:
3 Phân Tích và Đánh Giá Ở phân tiền xử lý:
Ở phân phân lớp: 3.3 O phần đánh giá kết quả thuật toán: PHẢN IV KÉT LUẬN:
Trang 5LOI NOI DAU
Sydney là một trong những thành phố lớn nhất của Australia và đang chịu ảnh hưởng của nhiều yếu tố thời tiết khác nhau Việc đưa ra dự báo chính xác về thời tiết tại Sydney là vô cùng quan trọng để phục vụ cho nhu cầu của người dân và các hoạt động kinh tế xã hội Với sự phát triển của công nghệ và kho đữ liệu không lồ hiện nay, việc áp dụng các phương pháp phân tích đữ liệu để đưa ra dự báo thời tiết là cực kỳ hữu ích và tiện lợi Chính vì thế, nhóm chúng em đã lựa chọn đề tài Phân tích và dự đoán thời tiết Sydney dựa trên các yếu tổ ảnh hưởng của bộ dữ liệu “Rain Forecast in Australia” bằng phần mềm Orange là “nhân vật chính” cho báo cáo cuối kỳ môn Khoa học đữ liệu do thầy Đặng Ngọc Hoàng Thành giảng dạy
Mục tiêu của đề tài nghiên cứu này chúng em hướng đến phân tích các yếu tố ảnh hưởng đến thời tiết tại Sydney, đưa ra dự báo thời tiết và đánh giá mức độ chính xác của dự báo bằng phần mềm Orange Nghiên cứu này hướng đến mục tiêu cung cấp thông tin dự báo thời tiết chính xác và hữu ích cho người dân và các cơ quan chức năng tại Šydney
Phạm vi của nghiên cứu sẽ giới hạn trong việc phân tích và dự toán thời tiết chỉ ở thành phố Sydney, Australia dựa trên các yêu tố ảnh hưởng của bộ đữ liệu "Rain Forecast in Australia" Các yêu tô này bao gồm nhiệt độ, độ âm, tốc độ gió và các chỉ số khí hậu khác, và sẽ được phân tích bằng phần mềm Orange Nghiên cứu sẽ không đi sâu vào các yếu tô khác như địa hình, môi trường hay con nguoil, va
Mặc dù chúng em đã dành rat nhiêu sự cô gang dé hoan thign do án này nhưng với kinh nghiệm còn hạn chê, đô án của chúng em chăc chăn vân còn rât nhiêu sai sót kính mong thây xem xét và góp ý đề bài đô án cuôi kỳ của chúng em được hoàn thiện hơn
Chúng em xin cảm ơn thầy !
Trang 6PHAN I TONG QUAN
Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu
Bài toán phân lớp dữ liệu là một trong những bài toán quan trọng của lĩnh vực học máy Nó liên quan đến việc xây dựng một mô hình máy học để dự đoán lớp hoặc nhãn của các điểm dữ liệu chưa biết lớp hoặc nhãn đó
Đề giải quyết bài toán phân lớp dữ liệu, ta cần phải có một tập đữ liệu huấn luyện, trong đó mỗi điểm đữ liệu được gán nhãn hoặc lớp tương ứng Một số thuật toán phân lớp đữ liệu phố biến bao gồm:
Oo 6 6 ật toán phân lớ ến tính đơn giản Nó tì 6 € ữa các biến đầu vào và đầ ang cách sử ung ham logistic dé ự đoán xác
â ủ ộtđê ữ ệ 6 6 6 6 atdi
| May Vector Hỗ o 6 ật toán phân lớ ựa trên việ tìm ra ranh giới phân cách giữa các lớ ảng cáchtừcácđểể ữ ệ 4 at dé
đườ ới đólàlớ 4 E1 Cây quyết di ộ ậttoán phân lớ ưa trên việc xây dự ột cây
ết định để phân loại các dié ữ éu Cac quyét di ưựa trên các đặc trưng củ ữ ệ để tìm ra các thuộc tín Ọ at dé phan loa
O dt phuong phapké ợ ủ éu cay quyét dinh, no su ụ y a ếu đề đưa ra dự đoán phân lớ ột điề i é
O ang no 6 ật toán phanIG tựa trên mộ ang no ron nhan tạ đượ é édé o 6 ệ tra cac đặc trưng đầu vào và đầu ra phan loa
=> Tùy thuộc vào bải toán cụ thể và tính chất của dữ liệu, các thuật toán nảy có thể được sử dụng
một cách hiệu quả đề phân lớp dữ liệu 2 Giới Thiệu Về Python và Phần Mềm Orange
Python là một ngôn ngữ lập trình thông dịch, có tính đa năng, linh hoạt và dễ học Python là một trong những ngôn ngữ lập trình phố biến nhất trên thế giới, được sử dụng trong nhiều lĩnh vực, 0 gồm khoa học dữ liệu, trí tuệ nhân tạo, phấât triển web, và nhiều lĩnh vực khác Python có cộng đồng người dùng vô cùng lớn và cũng có nhiều thư viện hỗ trợ mạnh mẽ, giúp các nhà phát triển có thé dé đàng tạo ra các ứng dụng và dịch vụ chất lượng cao
nge là một phần mềm mã nguồn mở dành cho việc phân tích đữ liệu và học máy Nó cung cấp cho người dùng một giao diện đồ họa đề tạo và thiết lập các luéng xử ly dữ liệu, từ việc nhập đữ liệu, tiền xử lý, trực quan hoá dữ liệu, chọn thuộc tính, đào tạo mô hình vả đánh giá mô hình Orange cũng cung cấp cho người dùng nhiều công cụ phân tích dữ liệu, bao gồm phân tích cụm, phân tích hỏi quy, phân tích thành phần chính, phân tích chuỗi thời gian và nhiều công cụ khác Đặc biệt, Oranse hỗ trợ tích hợp với Python, cho phép người dùng sử dụng các thư viện Python phố biến để mở rộng tính năng của Orange
=> Với sự kết hợp giữa Python và Orange, người dùng có thể dễ dàng tạo ra các ứng dụng và công cụ phân tích dữ liệu mạnh mẽ và hiệu quả
3 Lý Do Chọn Lựa Đề Tài
Thời tiết là một yếu tố quan trọng trong cuộc sống hàng ngày của chúng ta Nó ảnh hưởng đến cách chúng ta mặc, đi lại, hoạt động ngoài trời, thậm chí cả tâm trạng của chúng ta Hiện nay, thông
Trang 7tin về thời tiết cụ thở được tớm kiếm trởn nhiều nguồn khõc nhau, bao gồm cõc ứng dụng di động, trang web chuyởn dụng hoặc cõc trang mạng xọ hội Điều nỏy giỷp bạn cụ thể dễ dỏng tiếp cận vỏ năm bắt thừng tin Kết hợp cỳng cõc kỹ thuật dự bõo tiởn tiến, cõc nhỏ khoa học đọ cụ thể dự đoõn thời tiết với độ chợnh xõc cao hơn bằng dự bõo số học vỏ mừ hớnh khợ hậu Chủ đề thời tiết phỳ hợp cho nhiều đối tượng độc giả khõc nhau, bao gồm cả những ai quan tóm đến sức khỏe vỏ cõc hoạt động thở thao ngoỏi trời, những người đi du lịch hoặc tham gia cõc hoạt động vui chơi ngoỏi trời vỏ những người quan tóm đến khoa học vỏ cừng nghệ
ậy nởn, với dự õn nỏy, chỷng em sẽ “Phón tợch vỏ dự đoõn thời tiết ở cõc khu vực của nước ĩc dựa trởn cõc yếu tố ảnh hưởng của bộ đữ liệu Rain Forecast In Australia bằng phần mềm Orange”
PHAN II CạC Mễ HèNH PHẦN LỚP DỮ LIỆU:
Cõc Mừ Hớnh Phón Lớp Dữ Liệu 1.1 Mừ Hớnh Logistic Regression Khải mệm: Hồi quy Logistic lỏ mừ hớnh xõc suất dự bõo giõ trị đầu ra rời rạc từ một tập giõ trỊ đầu vỏo vỏ được biểu diễn dưới dạng vector
1.2 Mừ Hinh Decisi Khõi niệm:
Trong lý thuyết quản trị, cóy quyết định lỏ đồ thị cõc quyết định cỳng cõc kết quả khả đĩ đi kộm nhằm hỗ trợ quõ trớnh ra quyết định
Trong lĩnh vực khai thõc đữ liệu, cóy quyết định lỏ phương phõp nhằm mừ tả, phón loại vỏ tổng quõt hụa tập đữ liệu cho trước
Lu điểm:
ễ ở
^
Khừng đúihỏ đờ ón hụa dữ ệ
Cothờ ửlýtrởnnhề ữ ệu khõc nhau ửlytổ ộtlượ ữ ệ ớ ờ A
Nhược điểm: Khụ giả ết trong tinh hud ữ ệ u 6 ờ Chi phợ xóy dựng mừ hớnh cao
1.3 Mừ Hớnh Support Vector Machine Khõi niệm:
SVM la m6 ật toõn cụ giõm sõt, SVM nhậ ir ệu vỏo, xem chỷng như những cõc vector trong khừng gian vỏ phón loại chỷng vỏo cõc lớp khõc nhau bằng cõch xóy dự 6 siờu phang trong khờng gian nhiờ ờu lam mat phan cach caclờ ữ ệ
Để diuukờ ả phón lớp thớ phải xõc định siởu phẳng (hyperplane) cụ khoảng cõch đế
cõc đi it 6 ủ õ ả cõc lớ ất cụ thở
SVMcụnhề € phỳhợ ới cõc bỏi toõn phón loại khõc nhau Một số khõi niệm:
Trang 8là khoảng cách giữa siêu phăng (trong trường hợp không gian 2 chiều là đường thắng) đến 2 điểm dữ liệu gần nhất tương ứng với 2 phân lớp
Các điểm xanh, đỏ nằm trên 2 đường biên (màu xanh lá) được gọi là các support vector, vì chúng có nhiệm vụ hỗ tro dé tim ra siêu phăng (màu cam)
Các biến thể của SVM
Hard Margin SVM |Hai lớp cần phân lớp là có thê phân chia tuyến tính (1inearly seperable) Soft Margin SVM |Hai lớp cân phân lớp là "gân" phân chia tuyến tính (almost linear seperable) Multi-classSVM [Phân lớp đa lớp (biên giữa các lớp là tuyến tính)
Kemel SVM Dữ liệu là phi tuyến
Lu điểm:
Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm đữ liệu mới với mặt siêu phẳng tìm được
mà không cần tính toán lại)
Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến (sử dụng các kernel khác nhau) Xử lý được trong không gian nhiều chiều
Nhược điểm: Trong trường hợp số chiều đữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tốt Chưa thê hiện tính xác suất trong phân lớp
Mô hình Neural Network trong Orange là một mô hình học máy dựa trên các thuật toán học tập sâu và được sử dụng để giải quyết các vấn dé phân loại, dự đoán và phân cụm Mô hình Neural Network được xây dựng trên cơ sở các đơn vị tính toán gọi là neurons (nơ ron) và các kết nỗi giữa chúng, tương tự như cách các nơ ron trong não của con người hoạt động Các mô hình Neural Network trong Orange cung cap nhiéu tính năng linh hoạt, bao gồm khả năng xác định số lượng lớp đầu ra, số lượng nơ ron ân, hàm kích hoạt và các thuật toán tối ưu hóa
Trang 9Overfitting (có xu hướở 1 ức là nó có thê đưa ra các dự đoán rất chính xác trên ậ a ện nhưng lại không hoạtđộ ốttrêndữ ệ ới Điều này có thể ảy ra khi mô
tống quan về đữ liệu Xử lý đữ liệu bị thiếu (missing data): Là dữ liệu không có săn, không đủ khi cần sử dụng
5 Nguyên nhân: Khách quan (không tổn tại lúc được nhập liệu, sự cố, .) Chủ quan (tác nhân con nĐười)
1 Giải pháp cho dữ liệu bị thiếu: o_ Bỏ qua Xử lý tay (không tự động, bán tự động) o Dung gia trị thay thế (tự động): hăng số toàn cục, trị phố biến nhất, trung bình toàn
cục, trung bình cục bộ, trị dự đoán, o_ Ngăn chặn dữ liệu bị thiểu: thiết kế tốt CSDL và các thủ tục nhập liệu (các ràng buộc
đữ liệu) Xử lý dữ liệu bị nhiễu (noisy data): Bao gồm: nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data)
=_ Định nghĩa: Outliers: những dữ liệu (đối tượng) không tuân theo đặc tinh/hanh vi chung cua tập dữ liệu (đối tượng) Noisy data: outliers bị loại bỏ (rejected/ discarded outliers) như là những trường hợp ngoại lệ (exceptions)
3 Giải pháp nhận điện phần tử biên
o_ Dựa trên phân bồ thống kê (statistical đistribution o_ Dựa trên khoảng cách (distance based) Dựa trên mật độ (density o_ Dựa trên độ lệch (devIation
z Giải pháp giảm thiêu nhiễu o Phan gid (binning) o Hi quy (regression)
Trang 10o Phan tich cum (cluster analysis) Xử lý đữ liệu không nhất quán:
5 Định nghĩa: Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực thé OG Nguyên nhân:
o_ Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu o_ Định đạng không nhất quán của các vùng nhập liệu
o_ Thiết bị ghi nhận dữ liệu
1 Giải pháp: o_ Tận dụng siêu đữ liệu, ràng buộc đữ liệu, sự kiểm tra của nhà phân tích dữ liệu cho
việc nhận diện o _ Điều chỉnh dữ liệu không nhất quán bằng tay o_ Các giải pháp biến đồi/chuân hóa đữ liệu tự động Bước 2 Tích hợp dữ liệu
Tích hợp dữ liệu (data integration): trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào một kho dữ liệu Bao gồm:
5 Vấn đề nhận dạng thực thê Tích hợp lược đồ (schema integration) So trùng đối tượng (object o Van dé du thira (redundancy)
1 Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and resolution of da
Bước 3 Chuyển đổi dữ liệu
Oo Làm trơn đữ liệu (smoothing) o Cac phuong phap binning (bin means, bin medians, bin boundaries) ø Hồi quy
o _ Các kỹ thuật gom cụm (phân tích phần tử biên) o_ Các phương pháp rời rạc hóa dữ liệu
J_ Kết hợp dữ liệu (agg o_ Các tác vụ kết hợp/tóm tắt dữ liệu o_ Chuyển dữ liệu ở mức chí tiết này sang dữ liệu ở mức kém chỉ tiết hon o_ Hỗ trợ việc phân tích dữ liệu ở nhiều độ mịn thời gian khác nhau 5 Tổng quát hóa dữ liệu (generalization): Chuyên đôi đữ liệu cấp thấp/nguyên tố/thô sang các
khái niệm ở mức cao hơn thông qua các phân cấp ý niệm co Chuan hoa dit liéu (normalization): Cac gia trị thuộc tính được chuyên đôi vào một miễn trị
nhất định được định nghĩa trước 1 Xây dựng thuộc tính (attribute/feature construction)
o Cac thuộc tính mới được xây dựng và thêm vào từ tập các thuộc tính sẵn có o _ Hỗ trợ kiểm tra tính chính xác và giúp hiểu cấu trúc của dữ liệu nhiều chiều o_ Hỗ trợ phát hiện thông tin thiếu sót về các mối quan hệ giữa các thuộc tính đữ liệu Bước 4 Rút gọn đữ liệu: thu giảm kích thước dữ liệu (nghĩa là giảm số phần tử) bằng kết hợp đữ liệu (data aggregation), loại bỏ các đặc điểm dư thừa (redundant features) (nghĩa là giảm số chiều/thuộc tính dữ liệu), gom cụm dữ liệu
Bao gồm: 5 Kết hợp khối dữ liệu (data cube aggrega 1 Chọn tập con các thuộc tinh (attribute subset selection)
Trang 11Thu giam chiéu (dimensionality reduction) Thu giam luong (numerosity reduction) Tao phan cap y niém (concept hierarchy generation) Roi rac hoa (discretization)
Quy trình phán lớp n Xây dựng mồ hình phân lớp: Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp đữ liệu hay các khái niệm định trước Đầu vào của quá trình này là một tập dữ liệu có cầu trúc được mô tả băng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó Mỗi bộ giá trị được gọi chung là một phần tử đữ liệu (data tuple), có thể là các mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case) Khoá luận sử dụng các thuật ngữ này với nghĩa tương đương Trong tập dữ liệu này, mỗi phần tử đữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luat dang if then, cay quyét dinh (Decision Tree), héi quy logic (Logistic Regression), hay mang noron (Neural Network), SVM (Support Vector Machine),
¡ Sử dụng mô hình phân lớp Việc sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sử dụng mô hình người ta thường phải đánh giá tinh chính xác của mô hình trong đó: nhãn được biết của mẫu kiểm tra được so sánh với kết quả phân lớp
của mô hình, độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loại đúng bởi mô hình,
tập kiểm tra là độc lập với tập huấn luyện
¡ñ Ước lượng độ chính xác của mô hình
Đầu vào là một tập dữ liệu mẫu được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu huấn luyện, cũng đã được gán nhãn và tiền xử lý
Bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp từ mô hình, ta dễ dàng xác định được tính đúng đắn của mô hình Holdout là một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các các mẫu trong tập đữ liệu dự báo được mô hình phân lớp đúng (so với thực tế) Kết quả của bước này là mô hình sẽ được sử dụng để phân lớp những đữ liệu cần thiết trong tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết nếu của mô hình phủ hợp và có độ chính xác cao
Trang 12O Phan lép dé ligu mới
Dữ liệu đầu vào là đữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn) Mô hình sẽ tự động
phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước xây dựng mô hình phân lớp
2.3 Đánh Giá Tính Hiệu Quả ậ 4 an (Confusion Matrix) và độ chính xác (Accuracy); ROC, AUC, Ma trận nhằm lan (Confusion Matrix)
a a anlamata i ộ ở ụ ê tự đoán có bao nhiêu điề tr ệ ựư ưự_ ộ ênó vả rơi vào lớp nào Phương pháp này là có kích thướ oi k la s6 lượ ở u té
Đây là mộ ữ Ỹ ật đo lườ ệ atduo ử ong rai, da ệt là cho các mô hình phân loa
Confusion Matrix
Actually Actually Positive (1) | Negative (0)
(TPs) (FPs) Chú thích ma trận:
False True Tích cực đúng (TPs) : Dự đoán lớp tích cực là tích cực Nghe 0) Negatives | Negatives Tich cực sai (FPs) : Du doan lop phủ định là tích cực
(FNs) (TNs) Phủ định sai (FNs) : Dự đoán lớp tích cực là tiêu cực Phủ định đúng (TN$) : Dự đoán lớp phủ định là tiêu cực
Nguồn anh: Measuring Performance: The Confusion Matrix Do chinh xac (Accuracy)
Accuracy cé thé hiéu là là tỉ lệ giữa số mẫu dự đoán đúng với tông số mẫu trong tập dữ liệu được tính ra mà không chỉ ra được chính xác mỗi loại được phân lớp như thế nào, phân loại đúng nhiều nhất thuộc về lớp nào và đữ liệu thường bị phân loại nhằm vào lớp khác đang năm ở lớp nào Tuy nhiên, nó vẫn có thể giúp chúng ta ta đánh giá hiệu quả dự báo của mô hình trên một bộ đữ liệu Độ chính xác cảng cao thì mô hình càng chuẩn xác
(độ chính xác) cho biết tỉ lệ số điểm true positive (TP) trong số những điểm được phân loai la positive (TP + FP)
(d6 phu) hay d6 nhay (sensitivity) hay TPR (True Positive Rate) la ti 16 gitra s6 diém true positive (TP) và những điểm thực sự là positive (TP + EN)
là giá trị trung bình điều hòa của hai độ đo và với giá trị nhỏ hơn giữa 2 giá trị và và
đều lớn cho thay độ tin cậy của mô hình cao hơn ROC (Receiver Operating Characteristic) va AUC (Area Under the Curve)
Fl c6 gia tri gan cảng lớn nêu cả 2 gia tri và
Trang 130 ROC là một đồ thị được sử dụng khá phô biến trong đánh giá các mô hình phân loại nhị
phân Đường cong này được tạo ra bằng cách biểu diễn ty lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo False Positive Rate (FPR) tại các ngưỡng khác nhau Một mô hình hiệu
quả khi có ROC càng tiệm cận với điểm (0;1) hay có TPR cao và FPR thấp thì mô hình càng
phu hop J_ Còn AUC là phần diện tích nằm dưới đường cong ROC và có giá trị là một số đương nhỏ hơn
hoặc bằng 1 Giá trị này cảng lớn thì độ chính xác của mô hình càng cao
Phương pháp K fold cross validation phan chia dữ liệu thành k tập con có cùng kích thước (gọi là các fold), trong đó sử dụng một trong các fold làm tập dữ liệu dự báo và phần còn lại làm tập đữ liệu huấn luyện Quá trình này lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu đánh giá So với Phương pháp Hold out, phương pháp này thường được ưa chuộng hơn do mô hình sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau Từ đó mô hình có độ tin cậy cảng
MINH HỌA:
Trang 14
PHAN III CAC KET OUA THUC NGHIEM
1 Bộ Dữ Liệu 1.1 Giới thiệu về bộ dữ liệu
Bộ đữ liệu là dữ liệu thời tiết của trạm thời tiết của Úc suốt 10 năm (2007
duoc cung cap béi Joe Young va Adam Young trên Kapgle 1.2, Mục dích của bài phân tích
Dựa trên các yếu tô ảnh hưởng đến thời tiết tại Sydney được thu thập trên trên bộ đữ liệu để dự đoán về tình hình mưa ngày mai với biến mục tiêu là RainTomorrow
1.3 Mô tả bộ đữ liệu
Bộ đữ liệu bao gồm 23 cột và 145 000 dòng, trong đó bao gồm các biến sau đây:
Tên biên Giải thích
Ngày ghi nhận thông tin thời tiết
Vị trí của trạm thời tiết Nhiệt độ thấp nhất được ghi nhận trong 24 giờ qua Nhiệt độ cao nhất được ghi nhận trong 24 giờ qua
Lượng mưa đo được trong ngảy (mm) Lượng hơi nước bốc hơi trong ngày (mm) Thời lượng ánh nắng tông cộng trong ngày (giờ)
Hướng gió mạnh nhất trong ngày Vận tốc gió mạnh nhất trong ngày (km/h)
Hướng gió vào lúc 9:00 sáng Hướng gió vào lúc 3:00 chiều
Vận tốc gió vào lúc 9:00 sáng (km/h) Vận tốc gió vào lúc 3:00 chiều (km/h)
Độ âm vào lúc 9:00 sáng (%) Độ âm vào lúc 3:00 chiều (%) Áp suất không khí vào lúc 9:00 sáng (hPa)
Trang 15Ap suat khéng khi vao lic 3:00 chiéu (hPa) Chỉ số mây vào lúc 9:00 sáng (0 Chỉ số mây vào lúc 3:00 chiều (0 Nhiệt độ lúc 9:00 sáng (Độ C) Nhiệt độ lúc 3:00 chiều (Độ C)
Có mưa trong ngày không? (yes or no) Dự báo có mưa vào ngày tiếp theo hay không? (yes Nhìn vào tập dữ liệu này, ta có thê thấy sự phân bố biến của các đặc trưng khác nhau, đồng thời cũng có các mỗi tương quan giữa chúng Tốc độ và hướng gió, độ âm và áp suất không khí có thể ảnh hưởng đến sự tạo thành của mưa Do đó, ta có thể sử dụng các công cụ và kỹ thuật phân tích dữ liệu để khám phá mỗi quan hệ giữa các đặc trưng này và các biến mục tiêu, như dự báo có mưa trên ngày tiếp theo hay không
1.4 Xem xét sự phân bồ của các biến trong bộ dữ liệu: Dựa vào kiến thức đã được thông qua các buôi học, nhóm thực hiện xem xét sự phân bố của các biến trong bộ dữ liệu bằng Widget Data Tablet và Distribution (Nhóm chỉ xem xét những biến quan trọng và có cơ sở, bỏ qua các biến không quan trong như Date và Location (mục tiêu vị trí là
135 độ C (MinTemp) và 23 23.5 độ C
(MaxTemp), và độ lệch chuẩn nhỏ, khoảng từ 4 6 độ C
cho MimTemp và 4 5 độ C cho MaxTemp Điều này cho thay rang nhiệt độ tối thiểu và tối đa trong ngày khá đồng đều và ít có những giá trị bất thường hoặc ngoại lệ
Đại diện cho lượng mưa trong ngày được ghi nhận bằng đơn vị
Khi xem xét sw phan bé cua bién Rainfall trong tap dit liệu, ta có thể nhận thấy răng nó có phân bố với độ lệch cao và không đồng đều Có thê thấy rằng đa số các ngày trong tập dữ liệu khôn ghi nhận mưa hoặc chỉ có ít mưa (từ 0 2 mm), trong khi một số ngày có lượng mưa lớn hơn (từ L0
Điều này cho thấy rằng biến Rainfall có đặc tính thưa thớt và phân bố không đồng đều, với một số giá trị bất thường hoặc ngoại lệ gây ảnh hưởng đáng kế đến phân
Trang 16Wind Dir9am va
bồ của biến này trong tập dữ liệu Đại diện cho lượng hơi nước bốc hơi trong ngày được ghi nhận bằng mm
Khi xem xét sự phân bố của biến Evaporation trong tập dữ liệu, ta có thể nhận thấy rằng nó cũng có phân bố khá không đồng đều, tuy nhiên phân bó của nó ít bất thường và hướng đến phân bố chuẩn hơn so với biến Rainfll Có thê thấy nhiều ngày trong tập dữ liệu không có lượng hơi nước bốc hơi hoặc chỉ có ít hơi nước bốc hơi (từ 0 mm), còn các giá trị cao hơn (từ 4 20 mm) thì phân bố kha thưa
Biến Evaporation trong bộ đữ liệu này có phân bố không đồng đều tại một số gia tri nhat dinh (chu yếu ở các giá trị cao hơn) nhưng ít có các giá trị bất thường hoặc ngoại lệ
Đại diện cho tông số giờ nang trong ngay Khi xem xét sự phân bố của biến Sunshine trong tập đữ liệu, ta có thể nhận thấy rằng nó cũng có phân bố không đồng đều và thưa hơn so với biến MinTemp và MaxTemp Thông thường, số giờ nắng trong ngày có xu
hướng phân bố từ 0 10 giờ, tuy nhiên cũng có một số
ngày có số giờ nắng cao hơn (từ 12 14 giờ) Có thê thấy rằng biến Sunshine có ít giá trị bất thường hoặc ngoại lệ
Đại diện cho hướng g1ó cơn giật trong ngày Khi xem xét sự phân bố của biến WindGustDir trong tập đữ liệu, ta có thể thấy rằng nó phân bố đều trên khắp l6 hướng gió, mỗi hướng chiếm khoảng 6,25% trong tong sd
Đại diện cho tốc độ gió cực đại trong một ngày Khi xem xét sự phân bố của biến này trong tập dữ liệu, ta có thể thấy rằng nó có phân phối đối xứng nhưng
tương đối phân tán với đuôi dài về phía bên phải, tức là
có nhiều giá trị cực đại hơn giá trị trung bình Tốc độ gió cực đại thường dao động từ 20
Đại diện cho hướng gió lúc 9 giờ sáng và 3 giờ chiều trong ngày
Khi xem xét sự phân bố của hai biến nảy trong tập dữ liệu, ta có thể thấy rằng chúng đều là biến phân loại (categorical) và có thê được biểu diễn dưới dạng biểu đồ
cột tần suất Chúng được phân thành 16 nhóm hướng gió
khác nhau, tương ứng với các góc đo theo chiều kim
đồng hồ từ 0 đến 360 độ Các hướng phố biến nhất là N,
Trang 17E, S và W (phân biệt giữa buôi sáng và buôi chiều)
Đại diện cho tốc độ gió lúc 9 giờ sáng và 3 giờ chiều trong ngày
xét sự phân bố của hai biến này trong tập đữ liệu, ta có thể thấy rằng chúng đều có phân phối đối xứng nhưng tương đối phân tán với đuôi dài về phía bên phải, tức là có nhiều giá trị cao hơn giá trị trung bình Tốc độ gió lúc 9 giờ sáng thường dao động tử
khi tốc độ gió lúc 3 giờ chiều thường dao động từ 0
Đại diện cho độ âm lúc 9 giờ sáng và 3 giờ chiều trong
ngày Khi xem xét sự phân bố của hai biến này trong tập dữ liệu, ta có thể thấy rằng chúng đều có phân phối đối xứng khá phân tán với đuôi dài về phía bên phải, tức là có nhiều giá trị cao hơn giá trị trung bình Độ âm lúc 9 giờ sáng thường dao động từ 50 100%, trong khi độ ấm lúc 3 giờ chiều thường dao động từ 20
Đại diện cho áp suất khí quyền lúc 9 giờ sáng và 3 giờ
chiều trong ngày Khi xem xét sự phân bố của hai biến này trong tập dữ liệu, ta có thê thấy rằng chúng đều có phân phối khá giống với phân phối chuẩn Áp suất khí quyên lúc 9 giờ sáng thường dao động từ 1000 1020 hPa, trong khi áp suất khí quyền lúc 3 giờ chiều thường đao động từ 1000
Đại diện cho tông số tầng mây lúc 9 giờ sáng và 3 giờ chiều trong ngày
Khi xem xét sự phân bố của hai biến này trong tập dữ liệu, ta có thể thấy rằng chúng đều là biến phân loại (categorical) và có thê được biểu diễn dưới dạng biểu đồ
cột tần suất Chúng được phân thành 10 nhóm khác nhau, tương ứng với số tầng mây từ 0 9 Nhóm 0 đại điện cho
trời quang đãng và nhóm 9 đại diện cho trời đầy mây Trong số các giá trị trung bình, Cloud3pm thường cao hơn Cloud9am do quá trình hình thành mây vào cuốỗi buổi chiêu
Điều này cho thấy rằng mức độ mây phủ trong ngày có thê dao động từ thấp đến cao và tùy thuộc vào điều
iện thời tiết
Đại diện cho nhiệt độ lúc 9 giờ sang va 3 giờ chiều trong ngày
Khi xem xét sự phân bố của hai biến này trong tập dữ
Trang 18liệu, ta có thê thấy rằng chúng đều có phân phối khá
giống với phân phối chuẩn Nhiệt độ lúc 9 giờ sáng
thường dao động từ 10 20 độ C, trong khi nhiệt độ lúc 3 giờ chiều thường dao động từ L5 30 độ C
2 Tiến hành phân tích chuyên sâu và đưa ra kết quả bằng phần mém Orange: Tiến hành phân tích chuyên sâu:
File Lua chon Location là Impute loai bé Date va Location vi để Train va 20%
Sydney dé giam số lượng dữ liêu | z không anh hưởng đáng kể đến TC 2
Giải quyêt vẫn đề số mẫu quá lớn
Automatically detect type Info
145460 mstances
23 features (10.3% missing values)
Data has no target variable
0 meta att:
Columns (Double dick to edit)
2 Location © categorical feature Adelaide, Albany, Albury, AliceSprings,
? B | G 14%