1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO CÁO ĐỒ ÁN MÔN KHAI THÁC DỮ LIỆU

12 526 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 404,5 KB

Nội dung

BÁO CÁO ĐỒ ÁN, MÔN KHAI THÁC DỮ LIỆU

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HOA SEN



BÁO CÁO ĐỒ ÁN

MÔN KHAI THÁC DỮ LIỆU

Gi ng viên ảng viên : Nguyễn Phượng Hoàng

Sinh viên : Mai Thuận Thảo - 2001753

Giản Diệu KIên - 2001925

ngày 28, tháng 10 năm 2014

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HOA SEN



BÁO CÁO ĐỒ ÁN

MÔN KHAI THÁC DỮ LIỆU

Gi ng viên ảng viên : Nguyễn Phượng Hoàng

Sinh viên : Mai Thuận Thảo - 2001753

Giản Diệu KIên - 2001925

ngày 28, tháng 10 năm 2014

Trang 3

M c L c ục Lục ục Lục

I ĐỊNH NGHĨA BÀI TOÁN 2

II THU THẬP DỮ LIỆU 3

III TIỀN XỬ LÝ DỮ LIỆU 4

1) Làm sạch dữ liệu (Data Cleaning) 4

2) Tích hợp dữ liệu (data integration) 5

3) Biến đổi dữ liệu (data transformation) 6

4) Thu giảm dữ liệu (data reduction) 8

IV TÀI LIỆU THAM KHẢO 9

MỤC LỤC HÌNH ẢNH 10

Trang 4

I ĐỊNH NGHĨA BÀI TOÁN

Hiện nay Việt Nam ta đang hội nhập với quốc tế nên du lịch nước ta ngày càng được chú trọng và đẩy mạnh Cho nên việc phân tích, khai phá dữ liệu lượng khách quốc tế đến Việt Nam ta rất cần thiết sẽ giúp cho công ty du lịch có số liệu thống kê chính xác về du lịch Việt Nam Cụ thể là nắm rõ thong tin thị trường du lịch khách quốc tế đến Việt Nam để có thể đề ra các chính sách đẩy mạnh khu vực du lịch (dịch vụ, văn hóa,…) đối với từng thị trường cho khách quốc tế

Dựa vào môn học Khai Thác Dữ Liệu, nhóm sẽ áp dụng các bước trong tiền xử lý

dữ liệu để làm sạch dữ liệu và chuyển đổi dữ liệu cho phù hợp với mục đích thống

kê được Tình Hình Khách Quốc Tế Đến Việt Nam vào tháng 7 năm 2014 (đặc biệt

là các nước lân cận).

Trang 5

II THU THẬP DỮ LIỆU

Nhóm lấy dữ liệu từ:

- Website ITDR ( http://www.itdr.org.vn/ ) viện nghiên cứu phát triển du lịch Link lấy dữ liệu: http://www.itdr.org.vn/so-lieu-thong-ke-du-lich/so-lieu-thong-ke- du-lich-viet-nam/826-tinh-hinh-khach-quoc-te-den-viet-nam-thang-7-va-7-thang-nam-2014.html

Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng 7năm 2014

Trang 6

III TIỀN XỬ LÝ DỮ LIỆU 1) Làm sạch dữ liệu (Data Cleaning)

Làm sạch dữ liệu là quá trình thêm vào các giá trị còn thiếu, làm gọn dữ liệu nhiễu, xác định hoặc xóa bỏ outlier và giải quyết dữ liệu thiếu nhất quán Như ở dữ liệu trên, côt

dữ liệu “7 tháng năm 2014” là không cần thiết so với mục đích chính của nhóm.

Quá trình làm sạch dữ liệu:

Đối với những dữ liệu bị thiếu

- : Kiểm tra dữ liệu thiếu gì Các trường hợp thiếu:

o Giá trị (người, %) đã thống nhất mỗi cột chưa

o Các đơn vị tổng số có chính xác chưa n v t ng s có chính xác ch a ị tổng số có chính xác chưa ổng số có chính xác chưa ố có chính xác chưa ưa

Chỉ tiêu

tháng 7/2014 Tháng 7/2014 so với

tháng trước (%)

Tháng 7/2014 so với tháng 7/2013 (%)

7 tháng năm 2014 so với cùng

kỳ năm trước (%) (người)

Chia theo phương tiện đến

Chia theo mục đích chuyến đi

Du lịch, nghỉ

Thăm thân

Các mục đích

Chia theo một số thị trường

Trang 7

Hà Lan 5.836 206,7 93,8 107,3

Các thị trường

Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi được làm sạch

2) Tích hợp dữ liệu (data integration)

Tích hợp dữ liệu là quá trình trộn dữ liệu từ các nguồn khác nhau vào một kho

dữ liệu có sẵn cho quá trình khai phá dữ liệu.

Vì dữ liệu này được lấy từ Website ITDR ( http://www.itdr.org.vn/ ) viện nghiên cứu phát triển du lịch Cho nên thong tin ở đây đã được tích hợp từ nhiều nguồn dữ liệu khác do đó tại bước này nhóm chúng tôi chỉ kiểm tra, xác thực tính tổng hợp dữ liệu

ở website này.

Sau khi tìm hiểu thì nhóm xác định đây là dữ liệu đã được thống nhất và chính xác.

Chỉ tiêu

tháng 7/2014 Tháng 7/2014 so với

tháng trước (%)

Tháng 7/2014 so với tháng 7/2013 (%)

7 tháng năm 2014 so với cùng

kỳ năm trước (%) (người)

Chia theo phương tiện đến

Chia theo mục đích chuyến đi

Du lịch, nghỉ

Thăm thân

Các mục đích

Chia theo một số thị trường

Trang 8

Italy 1.879 97,9 96,2 115

Các thị trường

Hình 3: Bảng thống kê sau khi tích hợp dữ liệu 3) Biến đổi dữ liệu (data transformation)

Biến đổi dữ liệu là việc chuyển toàn bộ tập giá trị của một thuộc tính sang một tập các giá trị thay thế, sao cho mỗi giá trị cũ tương ứng với một trong các giá trị mới.

Các phương pháp biến đổi dữ liệu :

- Làm trơn (smoothing) : Loại bỏ nhiễu/lỗi khỏi dữ liệu

- Kết hợp (aggregation) : Sự tóm tắt dữ liệu, xây dựng các khối dữ liệu.

- Khái quát hóa (generalization) : Xây dựng các phân cấp khái niệm.

- Chuẩn hóa (normalization) : Đưa các giá trị về một khoảng được chỉ định Tại dữ liệu chia theo thị trường vẫn còn rộng và là nơi cần tích hợp thêm một số thông tin hữu ích đối với mục đích chính là thống kê du lịch ở các nước lân cận Nên nhóm chúng tôi dùng phương pháp Khái quát hóa để phân cấp dữ liệu.

Chỉ tiêu

tháng 7/2014 Tháng 7/2014 so với

tháng trước (%)

Tháng 7/2014 so với tháng 7/2013 (%)

7 tháng năm 2014 so với cùng kỳ năm trước (%) (người)

Chia theo phương tiện đến

Chia theo mục đích chuyến đi

Trang 9

Các mục đích khác 31.625 101 90,2 121,1 Chia theo một số thị trường

Thị trường Châu Á

Thị trường Đông Nam Á

Tổng số

Tổng số Châu Á 367.184

Thị trường Châu Âu

Tổng số châu Âu 90.299

Thị trường Châu Úc

Tổng số Châu Úc 34.566

Thị trường Châu Mỹ

Tổng số Châu Úc 46.597

Hình 4: Dữ liệu sau khi biến đổi dữ liệu

Thông qua bảng trên nhóm chúng tôi tổng kết được

Bảng dữ liệu so sánh tổng số du lịch Đông Nam Á so với các khu vực (%)

Trang 10

4) Thu giảm dữ liệu (data reduction)

Một kho dữ liệu lớn có thể chứa lượng dữ liệu lên đến terabytes sẽ làm cho quá trình khai phá dữ liệu chạy rất mất thời gian, do đó nên thu giảm dữ liệu.

Việc thu giảm dữ liệu sẽ thu được một biểu diễn thu gọn, mà nó vẫn sinh ra cùng (hoặc xấp xỉ) các kết quả khai phá như tập dữ liệu ban đầu.

Chiến lược thu giảm:

- Giảm số chiều (dimensuinality reduction), loại bỏ bớt các thuộc tính khống (ít) quan trọng.

- Giảm lượng dữ liệu (data/numberosity reduction)

+ Kết hợp khối dữ liệu

+ Nén dữ liệu

+ Hồi quy

+ Rời rạc hóa.

Sau khi xem xét kỹ lưỡng dữ liệu trên thì nhóm cho rằng dữ liệu trên không cần phải thu giảm bởi vì dữ liệu trên nhỏ và các giá trị trên đều cần thiết (không thể lược bỏ thêm) cho mục đích thống kê tình hình khách quốc tế đến Việt Nam.

Trang 11

IV TÀI LIỆU THAM KHẢO

Data Mining Concepts and Techniques - Third Edition by Jiawei Han, Micheline Kamber, Jian Pei

Data Mining with SQL Server 2008

http://www.academia.edu/8033090/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB

%87u_-_data_mining

Trang 12

MỤC LỤC HÌNH ẢNH

Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng 7năm 2014 3

Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi được làm sạch 5

Hình 3: Bảng thống kê sau khi tích hợp dữ liệu 6

Hình 4: Dữ liệu sau khi biến đổi dữ liệu 8

Hình 5:Bảng dữ liệu so sánh tổng số du lịch Đông Nam Á so với các khu vực (%) 8

Ngày đăng: 27/09/2019, 18:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w