PHÂN TÍCH DỮ LIỆU LỚN

Một phần của tài liệu TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM CHƯƠNG TRÌNH ĐÀO TẠO TRÌNH ĐỘ THẠC SĨ NGÀNH: CÔNG NGHỆ THÔNG TIN (Trang 44 - 47)

12.1. Tên học phần: Phân tích dữ liệu lớn 12.2. Mã số: ITEC515 12.2. Mã số: ITEC515

12.3. Số tín chỉ: 2 tín chỉ (30 tiết) 12.4. Người phụ trách: 12.4. Người phụ trách:

12.5. Khoa/Viện

12.6. Mục tiêu học phần:

Kiến thức: Mơn học giới thiệu các kiến thức và các cơng nghệ phân tích dữ liệu lớn nhằm tìm kiếm tri thức từ dữ liệu lớn hỗ trợ tiến trình ra quyết định. Mơn học cung cấp khái niệm về dữ liệu lớn, phân tích dữ liệu lớn và các cơng cụ, kỹ thuật để lưu trữ và phân tích dữ liệu lớn như HDFS, MapReduce, Apache Spark, Mahout, hệ cơ sở dữ liệu NoSQL. Mơn học cịn giới thiệu cách dùng ngơn ngữ Python, Java, Scala để phân tích dữ liệu lớn và các ứng dụng của big data trong thực tiễn

Kỹ năng: Học viên cĩ khả năng đề xuất, áp dụng các giải pháp phân tích dữ liệu lớn trong

thực tế.

Thái độ: Cĩ thái độ, nhận thức đúng đắng về nội dung và các hoạt động nghiên cứu liên quan đến mơn học

12.7. Mơ tả học học:

Phân tích dữ liệu lớn là một quy trình hồn chỉnh kiểm tra các tập hợp dữ liệu lớn thơng qua các cơng cụ và quy trình khác nhau để khám phá các mẫu chưa biết, mối tương quan ẩn, xu hướng cĩ ý nghĩa và các thơng tin chi tiết khác để đưa ra quyết định dựa trên dữ liệu nhằm theo đuổi mục tiêu tốt hơn các kết quả.

Mơn học này giới thiệu một số tài nguyên dữ liệu lớn về các ứng dụng liên quan đến hoạt động của các doanh nghiệp lớn từ bán hàng, tiếp thị và các chuỗi sản xuất và cung ứng bằng cách dùng các kỹ thuật xử lý song song dựa trên map-reduce và nền tảng liên quan. Học viên sẽ được cung cấp kiến thức tổng quan về các khái niệm, các kỹ thuật, các cơng cụ và cơng nghệ liên quan đến Big Data. Học viên sẽ được cung cấp các kỹ thuật và cơng cụ để thực hiện phân tích dữ liệu lớn như HDFS, MapReduce, Apache Spark, Mahout, hệ cơ sở dữ liệu NoSQL. Mơn học giới thiệu các ngơn ngữ lập trình để thực hiện phân tích dữ liệu lớn.

Chương Nội dung

Phân phối thời lượng LT (giờ) TL (giờ) BTL (giờ) TiL (giờ) TH (giờ) TN (giờ) 1 Chương I. Dữ liệu lớn 3 2

Chương II. Phân tích dữ liệu lớn và

tính tốn phân tán 4

3

Chương III. Hadoop nền tảng để xử

lý phân tán 4

4

Chương IV. Giới thiệu một số cơng cụ cũng như các kỹ thuật để quản lý và phân tích dữ liệu lớn

4

45

12.8. Nội dung chi tiết

Chương I. Dữ liệu lớn

1.1. Đặc điểm và vai trị của dữ liệu lớn 1.2. Các loại dữ liệu lớn

1.3. Quản lý dữ liệu lớn

1.4. Một số ứng dụng dữ liệu lớn.

1.5. Các đặc điểm của vấn đề kinh doanh phù hợp với giải pháp Big data 1.6. Nhu cầu trong việc giám sát và quản trị dữ liệu lớn của doanh nghiệp Tài liệu chương 1

[1]. Big Data Now: 2012 Edition (https://www.kdnuggets.com/2015/09/freedata-science- books.html).

[2]. Giáo trình Phân tích dữ liệu lớn, Đỗ Phúc từ trang 1-trang 11. Chương II. Phân tích dữ liệu lớn và tính tốn phân tán

2.1. Phân tích dữ liệu cĩ cấu trúc

2.1.1. Phân chia dữ liệu, giám sát và nhận dạng bất thường 2.1.2. Khai phá dữ liệu

2.1.3. Phân tích hoạt động và hiệu quả kinh doanh 2.1.4. Giải thuật phân tích dữ liệu

2.2. Phân tích dữ liệu phi cấu trúc 2.2.1. Phân tích văn bản

2.2.2. Kỹ thuật phân tích và trích xuất nội dung văn bản 2.3. Tính tốn phân tán

2.3.1. Khái quát

2.3.2. Hiệu năng của tính tốn phân tán Tài liệu tham khảo chương 2

[1]. Giáo trình Phân tích dữ liệu, Đỗ Phúc từ trang 12 đến trang 33.

[2]. Paul Zikopoulos, Dirk deRoos, David Corrigan, Tom Deutsch, Krishnan Parasuraman, James Giles, Harness the Power of Big Data, Mc Graw Hill, 2012.

Chương III. Hadoop nền tảng để xử lý phân tán 3.1. Tổng quan về Hadoop

3.2. Kiến trúc và các cơ chế HDFS 3.3. Cơ chế xử lý phân tán

Tài liệu tham khảo chương 3

[1]. Giáo trình Phân tích dữ liệu lớn, Đỗ Phúc, trang 45 đến 61. [2]. http://hadoop.apache.org

Chương IV. Giới thiệu một số cơng cụ cũng như các kỹ thuật để quản lý và phân tích dữ liệu lớn

4.1. NoSQL – Mơ hình lưu trữ và quản lý dữ liệu được áp dụng để phát triển ứng dụng dữ liệu lớn.

4.2. Giới thiệu ngơn ngữ lập trình python, Scala

4.3. Mơ hình lập trình HadoopMapreduce, HadoopSpark

4.4. Mơ hình phân tích đồ thị trong một số vấn đề trong kinh doanh Tài liệu tham khảo chương 4

[1]. Hadoop: http://hadoop.apache.org.

[2]. Spark: https://spark.apache.org/docs/latest/quick-start.html. [3]. Giáo trình Phân tích dữ liệu, Đỗ Phúc từ trang 92 đến trang 120

Nội dung bài tập lớn: Phân tích một kho dữ liệu cụ thể, nhận xét và đưa ra kết luận.

46

Tài liệu học tập

[1]. Giáo trình Phân tích dữ liệu, Đỗ Phúc. Nhà xuất bản ĐHQG-HCM 2019.

[2]. Big Data Now: 2012 Edition (https://www.kdnuggets.com/2015/09/freedata-science- books.html).

[3]. Paul Zikopoulos, Dirk deRoos, David Corrigan, Tom Deutsch, Krishnan Parasuraman, James Giles, Harness the Power of Big Data, Mc Graw Hill, 2012.

Tài liệu tham khảo

[4]. http://hadoop.apache.org

[5]. Spark: https://spark.apache.org/docs/latest/quick-start.html.

12.10. Thang điểm: 10/10

TT Nội dung đánh giá Trọng số (%) Ghi chú

1 Điểm Kiểm tra/TL/TH/TN 20

2 Điểm /BTL/TiL 30

3 Điểm thi kết thúc học phần 50

Tổng cộng 100

12.11. Ngày phê duyệt: Cấp phê duyệt: Cấp phê duyệt:

47

Một phần của tài liệu TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM CHƯƠNG TRÌNH ĐÀO TẠO TRÌNH ĐỘ THẠC SĨ NGÀNH: CÔNG NGHỆ THÔNG TIN (Trang 44 - 47)

Tải bản đầy đủ (PDF)

(119 trang)