BÁO CÁO ĐỒ ÁN, MÔN KHAI THÁC DỮ LIỆU
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HOA SEN
BÁO CÁO ĐỒ ÁN
MÔN KHAI THÁC DỮ LIỆU
Gi ng viên ảng viên : Nguyễn Phượng Hoàng
Sinh viên : Mai Thuận Thảo - 2001753
Giản Diệu KIên - 2001925
ngày 28, tháng 10 năm 2014
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HOA SEN
BÁO CÁO ĐỒ ÁN
MÔN KHAI THÁC DỮ LIỆU
Gi ng viên ảng viên : Nguyễn Phượng Hoàng
Sinh viên : Mai Thuận Thảo - 2001753
Giản Diệu KIên - 2001925
ngày 28, tháng 10 năm 2014
Trang 3M c L c ục Lục ục Lục
I ĐỊNH NGHĨA BÀI TOÁN 2
II THU THẬP DỮ LIỆU 3
III TIỀN XỬ LÝ DỮ LIỆU 4
1) Làm sạch dữ liệu (Data Cleaning) 4
2) Tích hợp dữ liệu (data integration) 5
3) Biến đổi dữ liệu (data transformation) 6
4) Thu giảm dữ liệu (data reduction) 8
IV TÀI LIỆU THAM KHẢO 9
MỤC LỤC HÌNH ẢNH 10
Trang 4I ĐỊNH NGHĨA BÀI TOÁN
Hiện nay Việt Nam ta đang hội nhập với quốc tế nên du lịch nước ta ngày càng được chú trọng và đẩy mạnh Cho nên việc phân tích, khai phá dữ liệu lượng khách quốc tế đến Việt Nam ta rất cần thiết sẽ giúp cho công ty du lịch có số liệu thống kê chính xác về du lịch Việt Nam Cụ thể là nắm rõ thong tin thị trường du lịch khách quốc tế đến Việt Nam để có thể đề ra các chính sách đẩy mạnh khu vực du lịch (dịch vụ, văn hóa,…) đối với từng thị trường cho khách quốc tế
Dựa vào môn học Khai Thác Dữ Liệu, nhóm sẽ áp dụng các bước trong tiền xử lý
dữ liệu để làm sạch dữ liệu và chuyển đổi dữ liệu cho phù hợp với mục đích thống
kê được Tình Hình Khách Quốc Tế Đến Việt Nam vào tháng 7 năm 2014 (đặc biệt
là các nước lân cận).
Trang 5II THU THẬP DỮ LIỆU
Nhóm lấy dữ liệu từ:
- Website ITDR ( http://www.itdr.org.vn/ ) viện nghiên cứu phát triển du lịch Link lấy dữ liệu: http://www.itdr.org.vn/so-lieu-thong-ke-du-lich/so-lieu-thong-ke- du-lich-viet-nam/826-tinh-hinh-khach-quoc-te-den-viet-nam-thang-7-va-7-thang-nam-2014.html
Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng 7năm 2014
Trang 6III TIỀN XỬ LÝ DỮ LIỆU 1) Làm sạch dữ liệu (Data Cleaning)
Làm sạch dữ liệu là quá trình thêm vào các giá trị còn thiếu, làm gọn dữ liệu nhiễu, xác định hoặc xóa bỏ outlier và giải quyết dữ liệu thiếu nhất quán Như ở dữ liệu trên, côt
dữ liệu “7 tháng năm 2014” là không cần thiết so với mục đích chính của nhóm.
Quá trình làm sạch dữ liệu:
Đối với những dữ liệu bị thiếu
- : Kiểm tra dữ liệu thiếu gì Các trường hợp thiếu:
o Giá trị (người, %) đã thống nhất mỗi cột chưa
o Các đơn vị tổng số có chính xác chưa n v t ng s có chính xác ch a ị tổng số có chính xác chưa ổng số có chính xác chưa ố có chính xác chưa ưa
Chỉ tiêu
tháng 7/2014 Tháng 7/2014 so với
tháng trước (%)
Tháng 7/2014 so với tháng 7/2013 (%)
7 tháng năm 2014 so với cùng
kỳ năm trước (%) (người)
Chia theo phương tiện đến
Chia theo mục đích chuyến đi
Du lịch, nghỉ
Thăm thân
Các mục đích
Chia theo một số thị trường
Trang 7Hà Lan 5.836 206,7 93,8 107,3
Các thị trường
Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi được làm sạch
2) Tích hợp dữ liệu (data integration)
Tích hợp dữ liệu là quá trình trộn dữ liệu từ các nguồn khác nhau vào một kho
dữ liệu có sẵn cho quá trình khai phá dữ liệu.
Vì dữ liệu này được lấy từ Website ITDR ( http://www.itdr.org.vn/ ) viện nghiên cứu phát triển du lịch Cho nên thong tin ở đây đã được tích hợp từ nhiều nguồn dữ liệu khác do đó tại bước này nhóm chúng tôi chỉ kiểm tra, xác thực tính tổng hợp dữ liệu
ở website này.
Sau khi tìm hiểu thì nhóm xác định đây là dữ liệu đã được thống nhất và chính xác.
Chỉ tiêu
tháng 7/2014 Tháng 7/2014 so với
tháng trước (%)
Tháng 7/2014 so với tháng 7/2013 (%)
7 tháng năm 2014 so với cùng
kỳ năm trước (%) (người)
Chia theo phương tiện đến
Chia theo mục đích chuyến đi
Du lịch, nghỉ
Thăm thân
Các mục đích
Chia theo một số thị trường
Trang 8Italy 1.879 97,9 96,2 115
Các thị trường
Hình 3: Bảng thống kê sau khi tích hợp dữ liệu 3) Biến đổi dữ liệu (data transformation)
Biến đổi dữ liệu là việc chuyển toàn bộ tập giá trị của một thuộc tính sang một tập các giá trị thay thế, sao cho mỗi giá trị cũ tương ứng với một trong các giá trị mới.
Các phương pháp biến đổi dữ liệu :
- Làm trơn (smoothing) : Loại bỏ nhiễu/lỗi khỏi dữ liệu
- Kết hợp (aggregation) : Sự tóm tắt dữ liệu, xây dựng các khối dữ liệu.
- Khái quát hóa (generalization) : Xây dựng các phân cấp khái niệm.
- Chuẩn hóa (normalization) : Đưa các giá trị về một khoảng được chỉ định Tại dữ liệu chia theo thị trường vẫn còn rộng và là nơi cần tích hợp thêm một số thông tin hữu ích đối với mục đích chính là thống kê du lịch ở các nước lân cận Nên nhóm chúng tôi dùng phương pháp Khái quát hóa để phân cấp dữ liệu.
Chỉ tiêu
tháng 7/2014 Tháng 7/2014 so với
tháng trước (%)
Tháng 7/2014 so với tháng 7/2013 (%)
7 tháng năm 2014 so với cùng kỳ năm trước (%) (người)
Chia theo phương tiện đến
Chia theo mục đích chuyến đi
Trang 9Các mục đích khác 31.625 101 90,2 121,1 Chia theo một số thị trường
Thị trường Châu Á
Thị trường Đông Nam Á
Tổng số
Tổng số Châu Á 367.184
Thị trường Châu Âu
Tổng số châu Âu 90.299
Thị trường Châu Úc
Tổng số Châu Úc 34.566
Thị trường Châu Mỹ
Tổng số Châu Úc 46.597
Hình 4: Dữ liệu sau khi biến đổi dữ liệu
Thông qua bảng trên nhóm chúng tôi tổng kết được
Bảng dữ liệu so sánh tổng số du lịch Đông Nam Á so với các khu vực (%)
Trang 104) Thu giảm dữ liệu (data reduction)
Một kho dữ liệu lớn có thể chứa lượng dữ liệu lên đến terabytes sẽ làm cho quá trình khai phá dữ liệu chạy rất mất thời gian, do đó nên thu giảm dữ liệu.
Việc thu giảm dữ liệu sẽ thu được một biểu diễn thu gọn, mà nó vẫn sinh ra cùng (hoặc xấp xỉ) các kết quả khai phá như tập dữ liệu ban đầu.
Chiến lược thu giảm:
- Giảm số chiều (dimensuinality reduction), loại bỏ bớt các thuộc tính khống (ít) quan trọng.
- Giảm lượng dữ liệu (data/numberosity reduction)
+ Kết hợp khối dữ liệu
+ Nén dữ liệu
+ Hồi quy
+ Rời rạc hóa.
Sau khi xem xét kỹ lưỡng dữ liệu trên thì nhóm cho rằng dữ liệu trên không cần phải thu giảm bởi vì dữ liệu trên nhỏ và các giá trị trên đều cần thiết (không thể lược bỏ thêm) cho mục đích thống kê tình hình khách quốc tế đến Việt Nam.
Trang 11IV TÀI LIỆU THAM KHẢO
Data Mining Concepts and Techniques - Third Edition by Jiawei Han, Micheline Kamber, Jian Pei
Data Mining with SQL Server 2008
http://www.academia.edu/8033090/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB
%87u_-_data_mining
Trang 12MỤC LỤC HÌNH ẢNH
Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng 7năm 2014 3
Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi được làm sạch 5
Hình 3: Bảng thống kê sau khi tích hợp dữ liệu 6
Hình 4: Dữ liệu sau khi biến đổi dữ liệu 8
Hình 5:Bảng dữ liệu so sánh tổng số du lịch Đông Nam Á so với các khu vực (%) 8