1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án môn học kho dữ liệu xây dựng module data house trích xuất dữ liệu python

21 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 2,19 MB

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT – HÀN KHOA KHOA HỌC MÁY TÍNH ĐỒ ÁN MÔN HỌC: KHO DỮ LIỆU XÂY DỰNG MODULE DATA HOUSE TRÍCH XUẤT DỮ LIỆU PYTHON Sinh viên thực hiện: PHẠM VĂN TÀI NGÔ MINH TUẤN ĐÀO ĐỨC TRƯỞNG PHẠM MẠNH TRUNG Giảng viên hướng dẫn: ThS.Lê Văn Minh Đà Nẵng, tháng năm 2023 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT – HÀN KHOA KHOA HỌC MÁY TÍNH ĐỒ ÁN MƠN HỌC: KHO DỮ LIỆU XÂY DỰNG MODULE DATA HOUSE TRÍCH XUẤT DỮ LIỆU PYTHON Đà Nẵng, tháng năm 2023 LỜI CẢM ƠN Trong năm gần đây, công nghệ kho liệu đời đáp ứng nhu cầu quản lý, lưu trữ thơng tin có khối lượng lớn có khả khai thác liệu đa chiều thiêu chiều sâu nhằm hỗ trợ việc đưa định nhà quản lý Đối với doanh nghiệp nước ngoài, họ áp dụng kho liệu quản lý phân tích liệu cho thấy hiệu to lớn giúp ích cho việc hoạch định chiến lược kinh doanh nghiên cứu phát triển ứng dụng phân tích liệu Thơng qua mơn học Kho liệu mà thầy Lê Văn Minh truyển đạt kiến thức, giúp chúng em bắt tay vào việc xây dựng phân tích kho liệu thơng qua tập lớn Chúng em xin gửi lời cảm ơn chân thành tri ân sâu sắc thầy cô trường Đại học CNTT TT Việt – Hàn, đặc biệt thầy khoa Khoa Học Máy Tính trường tạo điều kiện cho em thực xong đồ án sở Chúng em xin chân thành cám ơn thầy Lê Văn Minh nhiệt tình hướng dẫn chúng em để chúng em hồn thành mơn học Trong q trình thực đề tài nghiên cứu, chúng em cố gắng nỗ lực, nhiên không tránh khỏi sai sót Chúng em mong nhận góp ý thầy giáo, từ phía hội đồng để đề tài nghiên cứu chúng em hoàn thiện Chúng em xin chân thành cảm ơn !! NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Chữ ký giảng viên (K ý rõ họ tên) MỤC LỤC MỤC LỤC CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Giới Thiệu Kho Dữ Liệu 1.2 Giới Thiệu Docker 1.2.1 Một số ưu điểm cảu Docker .9 1.3 Giới Thiệu Python 11 1.4 Giới thiệu hệ quản trị CSDL MYSQL 11 1.3.1 MYSQL gì? 11 1.5 Giới thiệu thư viện mysql-connector python 12 1.6 Giới thiệu Flask Python 12 1.7 Sơ lược ngơn ngữ lập trình web PHP: 12 Đặc điểm PHP .13 Ưu điểm PHP 13 Nhược điểm PHP 14 CHƯƠNG 2: TỔNG QUAN PHẦN MỀM 15 CHƯƠNG 3: TRIỂN KHAI XÂY DỰNG 32 CHƯƠNG 4: KẾT QUẢ DEMO 35 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37 DANH MỤC TÀI LIỆU THAM KHẢO 38 MỞ ĐẦU Ngày nay, ứng dụng công nghệ thông tin việc tin học hóa xem yếu tố mang tính định hoạt động phủ, tổ chức, cơng ty, đóng vai trị quan trọng, tạo bước đột phá mạnh mẽ Cùng với phát triển không ngừng kỹ thuật máy tính mạng điện tử, cơng nghệ thơng tin cơng nghệ có đẳng cấp cao chinh phục hết đỉnh cao đến đỉnh cao khác Mạng Internet sản phẩm có giá trị lớn lao ngày trở nên công cụ thiếu, tảng cho truyền tải, trao đổi thơng tin toàn cầu Giờ đây, việc liên quan đến thông tin trở nên thật dễ dàng cho người sử dụng: cần có máy tính kết nối internet dịng liệu truy tìm gần lập tức… giới vấn đề mà bạn quan tâm ra, có đầy đủ thơng tin, hình ảnh chí đơi lúc có âm bạn cần… Bằng internet, thực nhiều công việc với tốc độ nhanh chi phí thấp nhiều so với cách thức truyền thống Trong hoạt động sản xuất, kinh doanh, đây, thương mại điện tử khẳng định vai trò xúc tiến thúc đẩy phát triển doanh nghiệp Đối với cửa hàng hay shop, việc quảng bá giới thiệu đến khách hàng sản phẩm đáp ứng nhu cầu khác hàng cần thiết Sau xây dựng Website cho cửa hàng quảng bá tất sản phẩm bán khoảng thời gian, từ chủ cửa hàng cần phải lọc liệu khách hàng doanh thu từ đứa tinh thần họ Vì vậy, chúng em lên kế hoạch để giúp chủ shop tiến hành thực đồ án: “ Xây dựng module trích xuất liệu từ website bán điện thoại website bán laptop”! CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Giới Thiệu Kho Dữ Liệu Môn học Kho liệu (Data Warehousing) môn học thuộc lĩnh vực Khoa học liệu (Data Science) Hệ thống thông tin (Information Systems) Môn học tập trung vào việc xây dựng quản lý kho liệu, sử dụng để lưu trữ liệu có cấu trúc khơng có cấu trúc từ nhiều nguồn khác Trong kho liệu, liệu tập trung vào nơi để dễ dàng truy cập phân tích Các kho liệu thường thiết kế để hỗ trợ việc đưa định thơng minh đưa dự đốn xu hướng liệu tương lai Một số chủ đề mơn học Kho liệu bao gồm:  Thiết kế, triển khai quản lý kho liệu  Sử dụng công cụ kỹ thuật khai thác liệu để truy xuất thông tin từ kho liệu  Xử lý liệu lớn liệu khơng có cấu trúc  Xây dựng hệ thống truy vấn báo cáo để đưa kết phân tích liệu  Các vấn đề liên quan đến an toàn bảo mật liệu kho liệu  Môn học Kho liệu đóng vai trị quan trọng việc phát triển giải pháp phân tích liệu quản lý liệu doanh nghiệp tổ chức đại Nó mơn học chương trình đào tạo Khoa học liệu Hệ thống thông tin 1.2 Giới Thiệu Docker Docker tảng ảo hóa cấp cao cho phép người dùng đóng gói ứng dụng thành phần cần thiết vào container độc lập với hệ thống Các container triển khai chạy máy chủ hỗ trợ Docker mà không cần cài đặt thành phần phụ thuộc khác Một số đặc tính Docker:  Các container Docker nhẹ chạy hệ điều hành hỗ trợ Docker  Docker cung cấp công cụ quản lý container ứng dụng, cho phép người dùng dễ dàng tạo, chạy, đóng gói, triển khai quản lý container ứng dụng  Docker cho phép ứng dụng đóng gói cách độc lập, bao gồm phụ thuộc, thư viện, tệp cấu hình, thành phần khác, đảm bảo tính quán đáng tin cậy ứng dụng môi trường sản xuất  Docker cho phép người dùng dễ dàng triển khai quản lý ứng dụng môi trường đám mây, giúp tiết kiệm chi phí tăng tính linh hoạt việc triển khai mở rộng ứng dụng Với ưu điểm đó, Docker trở thành cơng cụ hữu ích việc triển khai quản lý ứng dụng môi trường phát triển sản xuất 1.2.1 Một số ưu điểm cảu Docker Với hỗ trợ docker, việc coding, testing, deploying trở nên đơn giản Khả di động (portable): mơi trường develop dựng lên docker chuyển từ người sang người khác mà không làm thay đổi cấu hình Trong kỹ thuật, gọi provisioning Application-centric: docker dùng nhiều mơi trường, đặc biệt tương thích mơi trường develop, hướng đến việc coding thuận tiện Versioning: docker tích hợp VCS-git, để tracking dịng lệnh thiết lập, hay đánh dấu version Component re-use: nghĩa docker có khả sử dụng lại resource trước đó, cách đánh dấu resources giống mã ID Các mơi trường dựng lên sau kiểm tra mã ID trước đó, trùng docker sử dụng lại Sharing: với Docker Hub (public registry), developer tìm sử dụng mơi trường dựng sẵn 1.3 Giới Thiệu Python Python ngơn ngữ lập trình bậc cao, đa dễ học Nó tạo vào năm 1991 Guido van Rossum trở thành ngôn ngữ lập trình phổ biến giới Python ngơn ngữ mã nguồn mở, có nghĩa tải xuống sử dụng miễn phí Python có cú pháp đơn giản rõ ràng, giúp cho việc viết mã trở nên dễ dàng so với ngơn ngữ khác Nó có cộng đồng lớn động, cung cấp nhiều thư viện framework cho ứng dụng khác Python sử dụng rộng rãi nhiều lĩnh vực, bao gồm khoa học liệu, trí tuệ nhân tạo, phát triển web, phát triển game, đồ họa máy tính, nhiều lĩnh vực khác Python ngôn ngữ phổ biến khóa học lập trình cho người bắt đầu - Một số đặc điểm Python:Cú pháp dễ đọc dễ hiểu: + Hỗ trợ đa tảng (Windows, macOS, Linux, ) + Có nhiều thư viện framework phong phú + Hỗ trợ nhiều mơ hình lập trình khác (hàm, hướng đối tượng, ) + Hỗ trợ kiểu động (dynamic typing) quản lý nhớ tự động (automatic memory management) 1.4 Giới thiệu hệ quản trị CSDL MYSQL 1.3.1 MYSQL gì? MySQL hệ quản trị sở liệu tự nguồn mở phổ biến giới nhà phát triển ưa chuộng trình phát triển ứng dụng Vì MySQL sở liệu tốc độ cao, ổn định dễ sử dụng, có tính khả chuyển, hoạt động nhiều hệ điều hành cung cấp hệ thống lớn hàm tiện ích mạnh Với tốc độ tính bảo mật cao, MySQL thích hợp cho ứng dụng có truy cập CSDL internet MySQL miễn phí hồn tồn bạn tải MySQL từ trang chủ Nó có nhiều phiên cho hệ điều hành khác nhau: phiên Win32 cho hệ điều hành dòng Windows, Linux, Mac OS X, Unix, FreeBSD, NetBSD, Novell NetWare, SGI Irix, Solaris, SunOS, … MySQL ví dụ Hệ Quản trị Cơ sở liệu quan hệ sử dụng Ngơn ngữ truy vấn có cấu trúc (SQL) MySQL sử dụng cho việc bổ trợ PHP, Perl, nhiều ngơn ngữ khác, làm nơi lưu trữ thông tin trang web viết PHP hay Perl, … 1.5 Giới thiệu thư viện mysql-connector python Mysql-connector thư viện Python cho phép bạn kết nối thao tác với sở liệu MySQL Thư viện phát triển Oracle cách phổ biến để kết nối với MySQL từ Python Mysql-connector hỗ trợ phiên Python từ 2.7 đến 3.7 cung cấp chức kết nối đến sở liệu MySQL, thực thi truy vấn SQL, xử lý kết truy vấn quản lý giao dịch Để sử dụng mysql-connector, bạn cần cài đặt thư viện pip Sau đó, bạn sử dụng lớp phương thức thư viện để kết nối đến sở liệu thực thi truy vấn SQL 1.6 Giới thiệu Flask Python Flask framework web micro cho Python thiết kế để xây dựng ứng dụng web nhỏ đơn giản Flask dễ học sử dụng, khơng u cầu nhiều cấu hình có nhiều tính mạnh mẽ Một số đặc tính Flask:  Flask xây dựng thư viện WSGI Werkzeug Jinja2  Flask cung cấp tính xử lý yêu cầu HTTP, quản lý phiên, routing, đa ngôn ngữ, định dạng mã hóa, gửi email  Flask có khả mở rộng thông qua phần mở rộng (extensions) công cụ (toolkits) bên thứ ba  Flask khơng bao gồm đặc tính framework web đầy đủ Django, điều cho phép lập trình viên linh động việc xây dựng ứng dụng web theo ý muốn họ Với tính đó, Flask lựa chọn tuyệt vời cho lập trình viên muốn xây dựng ứng dụng web nhỏ đơn giản với Python 1.7 Sơ lược ngơn ngữ lập trình web PHP: PHP gọi Hypertext Preprocessor (bộ tiền xử lí siêu văn bản), ngơn ngữ lập trình kịch hay loại mã lệnh chủ yếu dùng để phát triển ứng dụng viết cho máy chủ, mã nguồn mở, dùng cho mục đích tổng quát Nó thích hợp với web dễ dàng nhúng vào trang HTML Đặc điểm PHP  PHP đơn giản dễ sử dụng  PHP kết nối sở liệu hiệu giúp trình tải ứng dụng nhanh  PHP bảo mật sử dụng Framwork  Nó quen thuộc nhà phát triển hỗ trợ trực tuyến cung cấp cho người bắt đầu  PHP có khả tích hợp linh hoạt với ngơn ngữ lập trình khác  PHP nguồn mở miễn phí  PHP nhẹ có nhiều Framework có sẵn để lập trình website  PHP giúp cho trình phát triển website trở nên nhanh Ưu điểm PHP Ưu điểm quan trọng PHP nguồn mở miễn phí Nó tải xuống nơi Sẵn sàng để sử dụng cho việc phát triển ứng dụng web Nó tảng độc lập Các ứng dụng dựa PHP chạy hệ điều hành UNIX, Linux Windows, v.v Ứng dụng dựa PHP dễ dàng tải kết nối với sở liệu Nó chủ yếu sử dụng tốc độ tải nhanh Internet chậm nhiều trường hợp, PHP có tốc độ cao với nhiều ngơn ngữ lập trình khác PHP dễ học cho người bắt đầu, đơn giản dễ sử dụng Nếu người biết lập trình C dễ dàng học làm việc với PHP Nó ổn định từ nhiều năm với giúp đỡ việc cung cấp hỗ trợ liên tục cho phiên khác Từ phiên trở lên PHP hỗ trợ thêm đặc tính Lập trình hướng đối tượng OOP Lập trình web với PHP có ưu điểm code ngắn, cấu trúc đơn giản Điều giúp dễ dàng quản lý mã nguồn PHP hỗ trợ nhiều thư viện mạnh mẽ để dễ dàng mô-đun chức cho việc biểu diễn liệu Các mô-đun kết nối sở liệu tích hợp sẵn PHP Từ giảm cơng sức thời gian để phát triển website Tốc độ nhanh nhiều với mắt phiên PHP Nhược điểm PHP Bản thân PHP khơng an tồn nhiều ngơn ngữ khác (Vì dự án cần đề cao tính bảo mật khơng sử dụng PHP) PHP khơng phù hợp cho ứng dụng web cần xử lý nội dung lớn PHP kiểu Weak type (Không chặt chẽ Java) nên dẫn đến liệu thơng tin khơng xác cho người dùng Sử dụng Framework PHP cần học thêm Built-in Function (Các chức tích hợp sẵn PHP) để tránh lại viết lại chức lần thứ Việc sử dụng nhiều tính Famework PHP làm hiệu suất trang web bị đi.Sơ lược XAMPP Phần mềm XAMPP loại ứng dụng phần mềm phổ biến thường hay lập trình viên sử dụng để xây dựng phát triển dựa án website theo ngôn ngữ PHP XAMPP sử dụng cho mục đích nghiên cứu, phát triển website qua Localhost máy tính cá nhân XAMPP ứng dụng nhiều lĩnh vực từ học tập đến nâng cấp, thử nghiệm Website lập trình viên điểm XAMPP XAMPP chạy tất hệ điều hành: Từ Crossplatform, Window, MacOS Linux XAMPP có cấu hình đơn giản nhiều chức hữu ích cho người dùng Tiêu biểu gồm: giả lập Server, giả lập Mail Server, hỗ trợ SSL Localhost XAMPP tích hợp nhiều thành phần với tính năng:  Apache  PHP (tạo môi trường chạy tập tin script *.php);  MySql (hệ quản trị liệu mysql); Thay phải cài đặt thành phần trên, bạn cần cài XAMPP có web server hồn chỉnh Mã nguồn mở: Khơng Appserv, XAMPP có giao diện quản lý tiện lợi Nhờ đó, người dùng chủ động bật tắt khởi động lại dịch vụ máy chủ lúc uyết điểm XAMPP Tuy nhiên, có cấu hình đơn giản nên XAMPP khơng hỗ trợ cấu hình Module, khơng có Version MySQL, đó, đơi mang đến bất tiện cho người dùng Trong WAMP có nhiều tùy chọn có nhiều phiên cho thành phần server PHP, Apache, MySQL Bên cạnh đó, dung lượng XAMPP tương đối nặng, dung lượng file cài đặt XAMPP 141Mb, nặng nhiều so với WAMP 41Mb CHƯƠNG 2: TỔNG QUAN PHẦN MỀM CHƯƠNG 3: TRIỂN KHAI XÂY DỰNG 3.1 Đưa hai phần mềm lên docker - Sử dụng docker-compose.yml để tạo container - Docker file: 3.2 Module kết nối liệu hiển thị website Gồm tính năng:  Lấy liệu table “users” hai database (2 web) ghi vào database  Hiển thị liệu thu thập được: thống kê số lượng người dùng ngoại quốc website, tổng số lượng người dùng website Sử dụng thư viện như:  Ngôn ngữ python  mysql.connector: kết nối đến sở liệu  flask: framework tạo trang web từ python Tiến hành xây dựng: CHƯƠNG 4: KẾT QUẢ DEMO 4.2 Hiển thị table users mà module lấy Hiển thị table users mà module lấy 4.3 Hiển thị table doanh thu mà module lấy KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN NHỮNG VẤN ĐỀ ĐẠT ĐƯỢC  Tìm hiểu cách sử dụng Docker  Tìm hiểu cách lấy liệu từ website  Tìm hiểu cách sử dụng Flask python NHỮNG VẤN ĐỀ CHƯA ĐẠT ĐƯỢC  Chưa xây dựng thành API HƯỚNG PHÁT TRIỂN Về bản, nghiên cứu đạt yêu cầu đặt Tuy nhên có điều kiện, đồ án cố gắng phát triển thêm chức sau: DANH MỤC TÀI LIỆU THAM KHẢO 1) Thư viện Học liệu Mở Việt Nam (VOER) tài trợ Vietnam Foundation vận hành tảng Hanoi Spring Đ?a ch@: https://voer.edu.vn [Truy cập ngày: 20/12/2019] 2) Packt Publishing Ltd (2015), “Mastering OpenVPN” Đ?a ch@: https://bom.to/WkJrOs [Truy cập ngày: 20/12/2019] 3) ITFORVN Đ?a ch@: https://bom.to/32JzKs [Truy cập ngày: 10/01/2020] GitHup Đ?a ch@: https://github.com [Truy cập ngày: 19/01/2020]

Ngày đăng: 24/08/2023, 10:23

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w