Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Công nghệ thông tin 1 ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐH CNTT TT VIỆT-HÀN Độc Lập - Tự Do - Hạnh Phúc ĐỀ CƯƠNG CHI TIẾT HỌC PHẦN Trình độ đào tạo: Đại học Chương trình đào tạo: Kỹ sư Ngành: Công nghệ thông tin Chuyên ngành: Khoa học dữ liệu và Trí tuệ nhân tạo 1. Thông tin chung về học phần 1.1 Mã học phần: AI2030 1.2 Tên học phần: Xử lý dữ liệu lớn 1.3 Loại học phần:
Trang 1ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
ĐỀ CƯƠNG CHI TIẾT HỌC PHẦN
Trình độ đào tạo: Đại học Chương trình đào tạo: Kỹ sư Ngành: Công nghệ thông tin Chuyên ngành: Khoa học dữ liệu và Trí tuệ nhân tạo
1 Thông tin chung về học phần
1.3 Loại học phần:
🗹 Bắt buộc
🗹 Tự chọn bắt buộc
X Tự chọn tự do
1.4 Tên tiếng Anh: Big Data Processing
1.6 Phân bổ thời gian:
- Bài tập/Thảo luận:
1.7 Các giảng viên phụ trách học phần:
- Giảng viên phụ trách chính: TS.Nguyễn Thanh
- Giảng viên cùng giảng dạy: TS.Nguyễn Sĩ Thìn
TS.Nguyễn Đức Hiển ThS.Trần Uyên trang
TS Nguyễn Thu Hương
- Bộ môn phụ trách giảng dạy:
1.8 Điều kiện tham gia học phần:
- Học phần tiên quyết:
- Học phần học trước: Tin học đại cương, Lập trình Python
- Học phần song hành:
2 Mô tả tóm tắt học phần
Học phần nhằm cung cấp cho sinh viên những kiến thức cơ bản về Apache Spark - một trong những công cụ xử lý dữ liệu lớn phổ biến hiện nay, bao gồm: kiến trúc, các chức năng của Spark; lập trình trên Spark; xử lý dữ liệu với Spark SQL; và sử dụng Python để phân tích dữ liệu lớn trên Spark
3 Mục tiêu học phần (Course Objective – viết tắt là CO)
3.1 Mục tiêu chung
Cung cấp cho sinh viên những kiến thức cơ bản về Apache Spark - một trong những công cụ xử
lý dữ liệu lớn phổ biến hiện nay
3.2 Mục tiêu cụ thể
Trang 2Sau khi kết thúc học phần, sinh viên có khả năng:
- CO1: Nắm được kiến thức của các công nghệ xử lý dữ liệu lớn
- CO2: Nắm được kiến trúc, các chức năng của Apache Spark
- CO3: Vận dụng được các kiến thức đã học để lập trình trên Spark
- CO4: Vận dụng được các kiến thức đã học để xử lý dữ liệu với Spark SQL
- CO5: Sử dụng Python để phân tích dữ liệu lớn trên Spark
- CO6: Phát triển các kỹ năng trong môi trường làm việc chuyên nghiệp
4 Chuẩn đầu ra của học phần (Course Learning Outcome – viết tắt là CLO)
Sau khi kết thúc học phần, sinh viên có khả năng:
Bảng 4.1 Chuẩn đầu ra của học phần (CLO)
CLO1 Nắm được kiến thức về các công nghệ xử lý dữ liệu lớn
CLO2 Nắm được kiến trúc, các chức năng của Apache Spark và cách cài đặt
CLO3 Vận dụng được các kiến thức đã học để lập trình trên SPARK
CLO4 Vận dụng được các kiến thức đã học để xử lý dữ liệu với Spark SQL
CLO5 Sử dụng Python để phân tích dữ liệu lớn trên Spark
CLO6 Phát triển các kỹ năng trong môi trường làm việc chuyên nghiệp
5 Ma trận thể hiện sự đóng góp của các chuẩn đầu ra học phần (CLO) vào việc đạt được các chuẩn đầu ra của CTĐT (PLO) và các chỉ số PI (Performance Indicator)
Bảng 5.1 Mối liên hệ giữa CLO và PLO/PI
CLO
PLO và chỉ số PI
PLO1 PLO2 PLO3 PLO4 PLO5 PLO6 PLO7 PLO8
PI
1
PI
2
PI
3
PI
1
PI
2
PI
3
PI
1
PI
2
PI
3
PI
1
PI
2
PI
1
PI
2
PI
1
PI
2
PI
3
PI
1
PI
2
PI
1
PI
2
Xử lý
dữ liệu
lớn
6 Đánh giá học phần
Sinh viên được đánh giá kết quả học tập trên cơ sở điểm thành phần như sau:
Bảng 6.1 Phương pháp, hình thức kiểm tra - đánh giá kết quả học tập của SV
Thành phần
đánh giá
Trọng
số (%)
CLO
Hình thức kiểm tra đánh giá
Công cụ đánh giá
Trọng số CLO
trong thành phần đánh giá (%)
Lấy dữ liệu
đo lường mức độ đạt
PLO/PI
A1 30% CLO6 Chuyên cần Điểm danh 33.3%
Trang 3Đánh giá
quá trình
CLO3 CLO4 CLO5
Thực hành trên máy tính
Bài tập
cá nhân 66.7%
A2
Đánh giá
giữa kỳ
20%
CLO1 CLO2 CLO3
Trắc nghiệm Đề kiểm tra trắc nghiệm 100%
A3
Đánh giá
cuối kỳ 50%
CLO2 CLO3 CLO4 CLO5
Dự án theo nhóm
Sản phẩm phần mềm 100%
7 Kế hoạch và nội dung giảng dạy học phần
Bảng 7.1 Kế hoạch và nội dung giảng dạy của học phần theo tuần phần lý thuyết
Tuần
(3
tiết)
Bài đánh giá
CĐR học phần
1-2
CHƯƠNG 1 TỔNG QUAN VỀ DỮ LIỆU
LỚN
− Khái niệm dữ liệu lớn
− Ứng dụng của dữ liệu lớn
− Sự khác biệt giữa dữ liệu lớn và kho dữ liệu
− Giới thiệu những công nghệ
xử lý dữ liệu lớn
Dạy:
- Giảng viên giới thiệu về môn học:
chuẩn đầu ra, hình thức đánh giá, nội dung các bài học
- Giảng bài kết hợp chiếu slide
- Đặt câu hỏi, sinh viên suy nghĩ, trả lời
Học ở lớp:
- Nghe giảng
- Trả lời câu hỏi của giảng viên
- Đặt câu hỏi về vấn đề liên quan bài học
Học ở nhà:
- Ôn lại lý thuyết, làm bài tập
- Đọc tài liệu, tìm hiểu nội dung bài mới
A1 A2 A3
CLO1 CLO6
3-4
CHƯƠNG 2
CƠ BẢN VỀ APACHE SPARK
− Tổng quan về Apache Hadoop và Spark
− Apache Hadoop
− Apache Spark
− Sự khác biệt giữa Apache Hadoop và Spark
− Các tính năng của Spark
− Kiến trúc của Spark
Dạy:
- Giảng bài kết hợp chiếu slide
- Đặt câu hỏi, sinh viên suy nghĩ, trả lời
Học ở lớp:
- Nghe giảng
- Trả lời câu hỏi của giảng viên
- Đặt câu hỏi về vấn đề liên quan bài học
Học ở nhà:
- Ôn lại lý thuyết, làm bài tập
- Đọc tài liệu, tìm hiểu nội dung bài mới
A1 A2 A3
CLO2 CLO6
5-6
CHƯƠNG 3
MÔ HÌNH LẬP TRÌNH
TRONG SPARK
− Spark RDD (Resilient Distributed Dataset) là gì?
− Chuyển đổi dữ liệu và các thao tác với RDD
− Lập trình cơ bản với Spark
− MapReduce
− Các thao tác khác
− Tạo RDD từ file
− Giới thiệu bộ thư viện của Spark
− Bài thực hành
Dạy:
- Giảng bài kết hợp chiếu slide, code
- Đặt câu hỏi, sinh viên suy nghĩ, trả lời
Học ở lớp:
- Nghe giảng
- Trả lời câu hỏi của giảng viên
- Đặt câu hỏi về vấn đề liên quan bài học
Học ở nhà:
- Ôn lại lý thuyết, làm bài tập
- Đọc tài liệu, tìm hiểu nội dung bài mới
A1 A2 A3
CLO2 CLO3 CLO6
Trang 47 Kiểm tra giữa kỳ
8-9
CHƯƠNG 4
SPARK SQL
− Spark SQL là gì?
− DataFrame
− Dataset
− Data Catalog
− Gộp và nối dữ liệu trong Spark SQL
− Bài thực hành
Dạy:
- Giảng bài kết hợp chiếu slide, code
- Đặt câu hỏi, sinh viên suy nghĩ, trả lời
Học ở lớp:
- Nghe giảng
- Trả lời câu hỏi của giảng viên
- Đặt câu hỏi về vấn đề liên quan bài học
Học ở nhà:
- Ôn lại lý thuyết, làm bài tập
- Đọc tài liệu, tìm hiểu nội dung bài mới.
A1 A3
CLO2 CLO4 CLO6
10-11
CHƯƠNG 5
PHÂN TÍCH DỮ LIỆU VỚI
PYTHON
− Giới thiệu bộ thư viện xử lý
dữ liệu với Python trong Spark
− Thiết lập dataset
− Làm việc với biểu đồ
− Bài thực hành
Dạy:
- Giảng bài kết hợp chiếu slide, code
- Đặt câu hỏi, sinh viên suy nghĩ, trả lời
Học ở lớp:
- Nghe giảng
- Trả lời câu hỏi của giảng viên
- Đặt câu hỏi về vấn đề liên quan bài học
Học ở nhà:
- Ôn lại lý thuyết, làm bài tập
- Đọc tài liệu, tìm hiểu nội dung bài mới.
A1 A3
CLO2 CLO5 CLO6
8 Học liệu
Bảng 8.1 Sách, giáo trình, tài liệu tham khảo
XB
Tên sách, giáo trình, tên bài báo, văn bản
NXB, tên tạp chí/ nơi ban hành VB Giáo trình chính
1 Rajanarayanan
Thottuvaikkatumana 2016 Apache Spark 2 for Beginners Packt Publishing
Sách, giáo trình tham khảo
1
Holden Karau,
Andy Konwinski,
Patrick Wendell,
Matei Zaharia
2015 Learning Spark: Lightning-Fast
Big Data Analysis O'Reilly Media
Bảng 8.2 Danh mục địa chỉ web hữu ích cho HP
Ngày cập nhật
9 Cơ sở vật chất phục vụ giảng dạy
Bảng 9.1 Cơ sở vật chất giảng dạy của HP
T
T
Tên giảng đường,
cơ sở TH
Danh mục trang thiết bị, phần mềm
chính phục vụ TN,TH Phục vụ cho nội dung
Bài học
Thiết bị, phần mềm Số lượng
1 Phòng học lý thuyết Bảng, máy chiếu, phấn 01 05 chương
Đà Nẵng, ngày 02 tháng 01 năm 2022