Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
2,29 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG lu an n va Nguyễn Hữu Tuyên p ie gh tn to VÀ TÍCH HỢP DỮ LIỆU LỚN d oa nl w NGHIÊN CỨU XÂY DỰNG GIẢI PHÁP LÀM SẠCH ll u nf va an lu m oi LUẬN VĂN THẠC SĨ KỸ THUẬT z at nh z m co l gm @ an Lu Hà Nội – 2021 n va ac th si HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Hữu Tuyên lu an n va gh tn to NGHIÊN CỨU XÂY DỰNG GIẢI PHÁP LÀM SẠCH p ie VÀ TÍCH HỢP DỮ LIỆU LỚN w oa nl Chuyên ngành: Hệ thống thông tin d Mã số: 8.48.01.04 u nf va an lu LUẬN VĂN THẠC SĨ KỸ THUẬT ll oi m z at nh NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ HẢI NAM z m co l gm @ an Lu Hà Nội – 2021 n va ac th si i LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm được trình bày luận văn thực dưới hướng dẫn thầy PGS.TS Hà Hải Nam Tất tham khảo từ nghiên cứu liên quan được nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, không có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo lu an n va tn to Hà Nội, ngày tháng năm 2021 p ie gh Học viên w d oa nl Nguyễn Hữu Tuyên ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Tôi xin trân trọng cảm ơn ban lãnh đạo trường Học viện Cơng nghệ Bưu Viễn thơng tồn thể thầy, Khoa Đào tạo Sau Đại học tạo điều kiện cho học viên lớp cao học Hệ thống thông tin khóa 2020 đợt được học môi trường rất tốt, đồng thời truyền đạt cho kiến thức quý báu, tư khoa học để phục vụ cho q trình học tập, nghiên cứu cơng tác Đặc biệt, tơi xin được bày tỏ lịng biết ơn sâu sắc đến thầy PGS.TS Hà Hải Nam tận tình hướng dẫn cho tơi suốt q trình học tập nghiên cứu, giúp tơi có nhìn nhận đắn đề tài luận văn lu an Cuối cùng, xin được gửi lời cảm ơn tới gia đình, đờng nghiệp, người thân n va động viên, giúp đỡ tơi q trình theo học nhà trường tn to Do vốn kiến thức lý luận thời gian kinh nghiệm thực tiễn chưa có gh nhiều nên luận văn không tránh khỏi thiếu sót Tôi xin trân trọng tiếp thu p ie ý kiến thầy, cô, bạn bè để luận văn được hoàn thiện d oa nl w Trân trọng cám ơn thầy cô! ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH vi lu an MỞ ĐẦU va n CHƯƠNG I TỔNG QUAN tn to 1.1 Khái niệm liệu, làm liệu ie gh 1.1.1 Dữ liệu p 1.1.2 Các dạng liệu nl w 1.1.3 Làm liệu oa 1.1.4 Dữ liệu lớn d 1.2 Tích hợp liệu 10 lu va an 1.2.1 Lịch sử phát triển .10 u nf 1.2.2 Khái niệm tích hợp liệu .11 ll 1.2.3 Vai trị tích hợp liệu .12 m oi 1.3 Một số lĩnh vực áp dụng liệu lớn 12 z at nh 1.3.1 Viễn thông 12 1.3.2 Y tế, chăm sóc sức khỏe 13 z @ 1.3.3 Bán lẻ .14 l gm 1.4 Kết luận chương 14 m co CHƯƠNG II: XÂY DỰNG QUY TRÌNH LÀM SẠCH VÀ TÍCH HỢP DỮ LIỆU LỚN 15 an Lu 2.1 Mơ hình làm tích hợp liệu lớn .15 n va ac th si iv 2.2 Quy trình làm liệu .15 2.2.1 Các yêu cầu nguyên lý làm sạch, tích hợp liệu lớn 15 2.2.2 Nghiên cứu công đoạn làm 18 2.2.3 Đề xuất quy trình làm 21 2.3 Phương pháp tích hợp liệu 23 2.3.1 Kỹ thuật hợp liệu 23 2.3.2 Kỹ thuật liên hiệp liệu 25 2.3.3 Kỹ thuật lan truyền liệu .26 2.4 Các cơng nghệ tích hợp liệu .28 lu 2.4.1 Công nghệ ETL (Extract, Transform and Load) 29 an n va 2.4.2 Công nghệ EII (Enterprise Information Integration) 31 2.4.4 Nhận xét đánh giá 33 gh tn to 2.4.3 Công nghệ EAI (Enterprise Application Integration) 32 ie 2.5 Kết luận chương 35 p CHƯƠNG III: THỰC NGHIỆM VÀ KẾT QUẢ 36 oa nl w 3.1 Thực trạng liệu trường Đại học Đại nam .36 3.2 Môi trường cài đặt phục vụ thực nghiệm .37 d an lu 3.3 Thực nghiệm .38 va 3.3.1 Chuẩn bị liệu .38 ll u nf 3.3.2 Tiến hành thực nghiệm làm liệu 44 oi m 3.3.3 Phân tích liệu nhận diện lỗi 44 z at nh 3.3.4 Tích hợp liệu vào kho liệu chung trường Đại học Đại nam 48 3.4 Kết luận chương 50 z KẾT LUẬN 51 @ gm DANH MỤC TÀI LIỆU THAM KHẢO 52 m co l PHỤ LỤC 55 an Lu n va ac th si v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt IPUMS Integrated Public Use Microdata Chuỗi vi liệu sử dụng cơng cộng tích hợp BLOB Binary Large Object Đối tượng nhị phân lớn ETL Extract, Transform and Load Trích xuất, chuyển đổi, tải EAI Enterprise Application Integration Tích hợp ứng dụng doanh nghiệp EDR Enterprise Data Replication Sao lưu liệu doanh nghiệp Enterprise Information Integration Tích hợp thông tin doanh nghiệp Service Oriented Architecture Kiến trúc hướng dịch vụ lu Series an n va tn to EII ie gh p SOA Thu thập liệu thay đổi Changed data capture d oa nl w CDC ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC HÌNH Hình 1: Năm đặc trưng liệu lớn Hình 1: Q trình làm tích hợp liệu 15 Hình 2: Các bước trình làm liệu 19 Hình 3: Quy trình làm liệu 21 Hình 4: Mơ hình lấy đẩy Data Consolidation 24 Hình 5: Kỹ thuật liên hiệp liệu 26 Hình 6: Quá trình xử lý ETL 31 Hình 1: Quy trình thực thực nghiệm 38 lu an Hình 2: Sơ đờ l̀ng làm tích hợp liệu hệ thống 39 n va Hình 3: Sơ đồ liên kết thực thể CSDL Khảo sát sinh viên 40 tn to Hình 4: Danh sách bảng CSDL Khảo sát sinh viên 41 gh Hình 5: Luồng ETL đồng thông tin sinh viên 42 p ie Hình 6: Chi tiết luồng ETL đồng thông tin sinh viên 42 w Hình 7: Tập liệu mẫu khảo sát sinh viên 43 oa nl Hình 8: Phân tích liệu khảo sát công cụ SPSS 45 d Hình 9: Kết phân tích lỗi thiếu giá trị SPSS 45 an lu Hình 10: Kết phân tích lỗi trùng lặp liệu SPSS 45 u nf va Hình 11: Kết phân tích lỗi giá trị ngoại lai liệu SPSS 46 Hình 12: Kết xử lý lỗi thiếu giá trị 47 ll oi m Hình 13: Kết xử lý lỗi giá trị ngoại lai 47 z at nh Hình 14: Q trình tích hợp liệu…………………………………………………….48 Hình 15: L̀ng ETL tích hợp liệu khảo sát được làm 49 z m co l gm @ Hình 16: Bảng liệu khảo sát được tích hợp vào CSDL Đại học Đại Nam 50 an Lu n va ac th si MỞ ĐẦU Internet công nghệ số ngày phát triển nay, liệu được tạo với dung lượng rất lớn Đối với tổ chức, doanh nghiệp liệu được tạo từ nguồn khác liệu khách hàng, liệu nghiệp vụ, liệu nhân sự, liệu điều tra từ mạng xã hội v.v Tổ chức lớn liệu đa dạng Do liệu được thu thập từ nguồn khác dẫn đến định dạng liệu rất đa dạng không tuân thủ theo tiêu chuẩn nhất quán Dữ liệu dạng có cấu trúc, phi cấu trúc bán cấu trúc Điều dẫn đến khó khăn việc chuẩn lu an hóa lưu trữ liệu phục vụ khai thác sau Dữ liệu thu thập từ nguồn khác n va dẫn đến trùng lặp nội dung, lỗi tả, lỗi ngữ nghĩa v.v tn to Với phát triển cơng nghệ phân tích liệu tiên tiến việc áp dụng trí gh tuệ nhân tạo vào giải vấn để liên quan đến tổ chức, đòi hỏi cần có p ie liệu để phát huy hiệu công nghệ mới Để xây dựng kho liệu w lớn đòi hỏi nghiên cứu cơng nghệ làm sạch, tích hợp liệu lưu trữ oa nl hệ thống liệu lớn phục vụ khai thác sau Đây toán lớn, khó phức d tạp được nghiên cứu giới [1] an lu Tại Việt Nam, chiến lược chuyển đổi số quốc gia xác định việc xây dựng u nf va sở liệu lớn quốc gia phục vụ chuyển đổi số quốc gia Đây xu hướng tất yếu xây dựng phủ điện tử hướng tới phủ số Chính phủ số phủ ll oi m định dựa liệu Nghị định 47/2020/NĐ-CP ngày 09/04/2020 quản lý, z at nh kết nối chia sẻ liệu số quan nhà nước cho thấy tầm quan trọng việc tích hợp chia sẻ liệu Các thử thách quy trình, cơng nghệ làm sạch, tích z hợp lưu trữ liệu lớn vẫn chưa được giải triệt để @ gm Với chiến lược liệu mở[2], tương lai Việt Nam có nguồn liệu l phong phú khổng lồ từ khu vực công tư được mở cho cộng đồng Để tận dụng an Lu lớn rất cần thiết m co nguồn liệu cho phát triển kinh tế xã hội, lực làm tích hợp liệu Các doanh nghiệp lớn Việt Nam VNPT, Viettel có ng̀n liệu n va ac th si đa dạng, phong phú khổng lồ liệu khách hàng, lịch sử sử dụng khách hàng,ý kiến phản hồi khách hàng…Đây nguồn nhiên liệu quan trọng đối với doanh nghiệp khai thác hiệu Tích hợp liệu đưa khung nhìn ảo thống nhất tất liệu phạm vi, cho phép người dùng có thể truy vấn liệu thơng qua lược đờ tích hợp hồn chỉnh Việc xây dựng hệ thống tích hợp liệu rất quan trọng ứng dụng thực tế Các cơng ty ứng dụng tích hợp liệu để lấy báo cáo số liệu chi nhánh Trong an ninh sử dụng tích hợp để điều tra tội phạm, tìm kiếm Các tổ chức quy mô lớn cần lấy thông tin từ đơn vị trực thuộc Hay việc lu an so sánh, kiểm định thông tin từ nhiều hệ thống khác n va Nội dung luận văn tập trung vào giới thiệu vấn đề xung quanh việc làm tn to tích hợp liệu lớn Các nội dung luận văn bao gờm: tổng quan liệu, làm tích hợp liệu lớn Giới thiệu số kỹ thuật, công nghệ gh p ie tích hợp liệu điển hình thường được sử dụng phần cuối tơi xin trình bày thực d oa nl w nghiệm làm tích hợp liệu lớn trường Đại học Đại Nam ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 42 lu an n va ie gh tn to p Hình 3.6: Luồng ETL đồng thông tin sinh viên d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ Hình 3.7: Chi tiết luồng ETL đồng thông tin sinh viên an Lu n va ac th si 43 (b) Chuẩn bị file khảo sát sinh viên Bộ liệu thực nghiệm liệu từ việc khảo sát lấy ý kiến phản hổi sinh viên hoạt động giảng dạy trường Đại học Đại nam, liệu chứa câu trả lời sinh viên được hỏi nội dung 17 câu hỏi phiếu khảo sát cho 17 khoa với số lượng sinh viên theo học hệ quy 6000 sinh viên hệ khác 2000 sinh viên (Biểu mẫu chi tiết phiếu khảo sát được trình bày mục phụ lục 1) Tuy nhiên, liệu thu thập từ sinh viên có thể gặp số lỗi như: Thiếu giá trị, liệu ngoại lại liệu trùng lắp lu an Vì vậy, trước tích hợp liệu khảo sát sinh viên vào kho liệu chung n va toàn trường liệu đó cần phải làm để thuận lợi cho việc tích hợp liệu tn to có được kết xác sau Hình 3.7 mô tả tập liệu mẫu sau thu thập p ie gh d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ Hình 3.8: Tập liệu mẫu khảo sát sinh viên an Lu n va ac th si 44 3.3.2 Tiến hành thực nghiệm làm liệu Tiến hành làm liệu được trải qua bước sau Bước 1: Phát kiếm tra, nhằm khảo sát phát nhiễu liệu theo liệu khảo sát Kiểm tra tổng thể qua công cụ thống kê qua phần mềm chuyên dụng SPSS Bước 2: Sửa lỗi, từ phát vấn đề gặp phải qua bước 1, bước tiến hành thao tác làm liệu trước vào q trình tích họp liệu 3.3.3 Phân tích liệu nhận diện lỗi Bộ liệu xuất số lỗi thường gặp như: Thiếu giá trị, liệu lu an ngoại lại, trùng lặp liệu Sau tơi trình bày cách xử lý từng lỗi công cụ n va SPSS trước đưa vào tích hợp liệu tn to Lỗi thiếu giá trị gh Như thấy hình 3.7 có giá trị bị thiếu bơi màu vàng, sau p ie đẩy liệu vào SPSS phân tích cho bảng kết báo thiếu giá trị câu d oa nl w 2, câu liệu ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 45 lu an n va ie gh tn to Hình 3.9: Phân tích liệu khảo sát công cụ SPSS p Kết quả: Từ kết xác định được liệu bị thiếu câu câu d oa nl w lu u nf Trùng lặp liệu va an Hình 3.10: Kết phân tích lỗi thiếu giá trị SPSS ll Trong hình 3.7 Tập liệu mẫu khảo sát sinh viên nhìn thấy có cột m oi trường thông tin “ MaSV” trùng nhau, được đánh dấu màu đỏ z at nh z m co l gm @ Hình 3.11: Kết phân tích lỗi trùng lặp liệu SPSS an Lu n va ac th si 46 Giá trị ngoại lai Trong bảng phiếu hỏi khảo sát, phương án trả lời từ đến Tuy nhiên liệu lại xuất giá trị 7, được bôi xanh bảng liệu lu an n va p ie gh tn to d oa nl w lu va an Hình 3.12: Kết phân tích lỗi giá trị ngoại lai liệu SPSS u nf (a) Thực làm liệu ll Với lỗi liệu nhận diện được mục, tơi trình bày cách xử lý với oi z at nh Lỗi thiếu giá trị m từng lỗi sau Sử dụng phương pháp cập nhật giá trị bị thiếu thông qua giá trị tương quan gần z m co l gm @ nhất liệu Kết đạt được sau: an Lu n va ac th si 47 lu an n va ie gh tn to p Hình 3.13: Kết xử lý lỗi thiếu giá trị nl w Lỗi giá trị ngoại lai d oa Trong bảng phiếu hỏi khảo sát, phương án trả lời từ đến Tuy nhiên an lu liệu lại xuất giá trị va Thực chuẩn hóa liệu theo tập kết phương án từ đến u nf Giá trị nhỏ giá trị kết nhỏ nhất (là 1): chuẩn hóa thành giá trị ll Giá trị lớn giá trị kết lớn nhất (là 5): chuẩn hóa thành giá trị oi m z at nh z m co l gm @ an Lu Hình 3.14: Kết xử lý lỗi giá trị ngoại lai n va ac th si 48 3.3.4 Tích hợp liệu vào kho liệu chung trường Đại học Đại nam lu an n va tn to Hình 3.154: Quá trình tích hợp liệu p ie gh Hình 3.14 trình bày sơ đờ tích hợp liệu khảo sát sinh viên tới kho liệu w Đại học Đại nam oa nl Dữ liệu khảo sát sinh viên sau được làm sạch, được tích hợp từ CSDL d Khảo sát sinh viên vào kho CSDL trường Đại học Đại Nam thông qua kỹ thuật lu an ETL Dữ liệu được đẩy vào CSDL khảo sát sinh viên kho liệu Đại định danh mã sinh viên ll u nf va học Đại Nam kết nối với thông tin kho liệu Đại học Đại Nam thông qua oi m z at nh z m co l gm @ an Lu n va ac th si 49 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh Hình 3.15: Luồng ETL tích hợp liệu khảo sát làm z gm @ Kết đạt được: Dữ liệu khảo sát sinh viên được tích hợp thành cơng vào m co l kho CSDL Đại học Đại Nam an Lu n va ac th si 50 lu an n va to gh tn Hình 3.166: Bảng liệu khảo sát tích hợp vào CSDL Đại học Đại Nam p ie 3.4 Kết luận chương w Từ kiến thức tìm hiểu chương chương Chương vào d oa nl giải toán thực tế Trường Đại học Đại nam với số liệu an lu nằm nhiều nguồn khác Chương tiến hành làm liệu Lấy ý Đại học Đại Nam tồn ll u nf va kiến phản hồi sinh viên hoạt động giảng dạy sau đó tích hợp vào liệu lớn oi m z at nh z m co l gm @ an Lu n va ac th si 51 KẾT LUẬN Kết đạt Vấn đề làm tích hợp liệu lớn mới đối với giới Việt Nam, nhiên để xây dựng hệ thống có tính đặc thù với trường đại học, cao đẳng v.v đặc biệt đối với trường có liệu lớn cần được quan tâm phát triển nhiều Một số vấn đề mà luận văn được được như: - Nghiên cứu làm liệu Các phương pháp làm sạch, tích hợp liệu lớn lu - Xây dựng, cài đặt, thử nghiệm với mơ hình trường Đại học Đại nam an Hướng phát triển luận văn va n Hướng mở rộng đề tài tiếp tục nghiên cứu mở rộng chức công tn to cụ làm sạch, tích hợp liệu lớn nhằm đáp ứng được yêu cầu chức sử dụng ie gh thay đổi nhanh chóng cơng nghệ Cụ thể là: p - Phát triển phiên Web - Hỗ trợ kết nối đến loại CSDL khác w oa nl - Nâng cấp tính phân tích liệu d - Sử dụng thuật tốn học máy học sâu nâng cao để làm sạch, tích hợp liệu lu ll u nf va an - Thực làm liệu với quy mô lớn oi m z at nh z m co l gm @ an Lu n va ac th si 52 DANH MỤC TÀI LIỆU THAM KHẢO [1] Martin, Gandalson, Data Warehouse Automation, Magentic LLC, 2018 [2] Nghị định 47/2020/NĐ-CP ngày 09/04/2020 quản lý, kết nối chia sẻ liệu số quan nhà nước [3] Saha, Barna, and Divesh Srivastava (2014) “Data Quality: The other face of Big Data.”in 2014 IEEE 30th International Conference on Data Engineering pp 12941297 [4] Shneiderman, Ben, and Catherine Plaisant (2015) “Sharpening Analytic Focus to Cope with Big Data Volume and Variety.” IEEE Computer Graphics and lu Applications 35 (3): 10-14 an va [5] Müller, Heiko, and Johann-Christoph Freytag (2003) Problems, Methods, and n Challenges in Comprehensive Data Cleansing, Humboldt University Berlin gh tn to [6] Gu, Randy Siran (2010) “Data Cleaning Framework: An Extensible Approach to DataCleaning.” [master’s thesis], University of Illinois, Urbana, Illinois ie p [7] Khayyat, Zuhair, Ihab F Ilyas, Alekh Jindal, Samuel Madden, Mourad Ouzzani, nl w and Paolo Papotti (2015) “BigDansing: A System for Big Data Cleansing”, in d oa Proceedings ofthe 2015 ACM SIGMOD International Conference on Management of [8] an lu Data, Melbourne, Victoria, Australia Yakout, Mohamed, Laure Berti-Équille, and Ahmed K Elmagarmid (2013) va u nf “Don't be SCAREd: use SCalable Automatic REpairing with maximal likelihood and ll bounded changes”, in the Proceedings of the 2013 ACM SIGMOD International m oi Conference on Management of Data, New York, New York, USA z at nh [9] Cappiello, Cinzia, Walter Samá, and Monica Vitali (2018) “Quality Awareness for a Successful Big Data Exploitation”, in ACM International Conference z gm @ Proceeding Series pp 37-44 [10] Cohen, Bevin, David K Vawdrey, Jianfang Liu, David Caplan, E Yoko l Furuya, andFrederick W Mis (2015) “Challenges Associated With Using Large Data m co Sets for QualityAssessment and Research in Clinical Settings.” Policy, Politics & an Lu Nursing Practice (16): 117-124 n va ac th si 53 [11] Sidi, Fatimah, Payam Hassany Shariat Panahy, Lilly Affendey, A Jabar, Marzanah, Hamidah Ibrahim, and Aida Mustapha (2012) “Data Quality: A Survey of Data Quality Dimensions.” International Conference on Information Retrieval & Knowledge Management pp 300- 304 Sonka, Steven (2016) “Big Data Characteristics.” International Food and [12] Agribusiness Management Review 19 (A): 7-12 [13] Wang, Hongzhi, Mingda Li, Yingyi Bu, Jianzhong Li, Hong Gao, and Jiacheng Zhang (2015) “Cleanix: a Parallel Big Data Cleaning System.” ACM SIGMOD Record 44 (4): 35-40 lu Swapnil, Walunj K., Anil H Yadav, and Sonu Gupta (2016) “Big Data: an [14] n va Characteristics, Challenges and Data Mining.” International Journal of Computer tn to Applications: 25-29 [15] Chu, Xu, John Morcos, Ihab F Ilyas, Mourad Ouzzani, Paolo Papotti, and Nan gh p ie Tang.(2015) “KATARA: A Data Cleaning System Powered by Knowledge Bases w and Crowdsourcing”, in Proceedings of the 2015 ACM SIGMOD International oa nl Conference onManagement of Data, Melbourne, Victoria, Australia [16] Wang, Jiannan, Sanjay Krishnan, Michael J Franklin, Ken Goldberg, Tim d an lu Kraska, and Tova Milo (2014) “A Sample-And-Clean Framework for Fast and u nf va Accurate Query Processing on Dirty Data”, in Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data, Snowbird, Utah, USA ll oi m [17] Wang, Hongzhi, Mingda Li, Yingyi Bu, Jianzhong Li, Hong Gao, and Jiacheng z at nh Zhang (2014) “Cleanix: A Big Data Cleaning Parfait”, in the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge z Management, Shanghai, China @ [18] Chu, Xu, John Morcos, Ihab F Ilyas, Mourad Ouzzani, Paolo Papotti, Nan gm l Tang, et al (2015) “KATARA: Reliable Data Cleaning with Knowledge Bases and m co Crowdsourcing.” Proceedings of the VLDB Endowment (12): 1952-1955 [19] Raman, Vijayshankar, and Joseph Hellerstein (2001) “Potter's Wheel: An an Lu Interactive Data Cleaning System”, in Proceedings of the 27th International n va ac th si 54 Conference on Very LargeData Bases, Roma, Italy [20] Lee, Mong Li, Tok Wang Ling, and Wai Lup Low (2000) “IntelliClean: A Knowledge-based Intelligent Data Cleaner”, in Proceedings of the sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston, Massachusetts, USA [21] Chu, Xu (2017) “Scalable and Holistic Qualitative Data Cleaning.” [doctoral dissertation], University of Waterloo [22] Enterprise Application Integration (EAI) Techniques - by Florence Lin 2005 [23] Enterprise Information Integration (EII) A Technical Ally of EAI and ETL - lu an by Bipin Chandra Joshi n va [24] Extraction, Transformation, and Loading (ETL) - by Panos Vassiliadis and tn to Alkis Simitsis [25] Data Integration: Using ETL, EAI, and EII Tools to Create an Integrated gh p ie Enterprise by Colin White, BI Research 2005 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 55 PHỤ LỤC Phụ lục 1: Mẫu phiếu khảo sát lấy ý kiến phản hồi sinh viên hoạt động giảng dạy TRƯỜNG ĐẠI HỌC ĐẠI PHIẾU LẤY Ý KIẾN PHẢN HỒI CỦA SINH NAM VIÊN PHỊNG KHẢO THÍ & VỀ HOẠT ĐỘNG GIẢNG DẠY ĐBCL Phiếu được sử dụng để lấy ý kiến người học hoạt động giảng dạy giảng viên nhằm từng bước cải thiện nâng cao chất lượng giảng dạy Nhà lu an trường Đề nghị em sinh viên trả lời cách cẩn thận, trung thực quan n va điểm cá nhân vào câu hỏi dưới Họ tên giảng viên (GV): tn to Lớp: Ngày khảo sát: gh Môn học: p ie Mỗi câu hỏi đánh giá với thang đo : w Rất không đồng ý Không đồng ý Tương đối đồng ý Đồng ý Hoàn d oa nl toàn đồng ý lu Thang đánh giá Nội dung an Stt từng giảng; công bố chi tiết kế hoạch giảng dạy toàn 5 Chuẩn bị giảng u nf va ll Công bố rõ ràng nội dung, mục tiêu môn học mục tiêu oi m tập, tình huống, tài liệu đọc thêm, …) gm @ Sử dụng công cụ hỗ trợ giảng dạy (file âm thanh, hình Phương pháp giảng dạy m co ảnh, slide) l Chuẩn bị tài liệu học tập cho người học (slide giảng, z z at nh môn học an Lu n va ac th si 56 Truyền đạt ngắn gọn, dễ hiểu, lôi tham gia 5 học ngồi học thơng qua hình thức khác 5 5 5 5 người học vào giảng Giọng nói, tốc độ giảng phù hợp cho việc học tập online Phân bổ thời gian, khối lượng kiến thức phù hợp để người học không mệt mỏi, có thể tập trung theo dõi giảng Người học được hỗ trợ, giải đáp thắc mắc trực tuyến (mạng xã hội, email…) lu Người học được kiểm tra đánh giá mức độ hiểu liên tục an giảng thơng qua hình thức khác n va Nội dung giảng day gh tn to Phù hợp với mục tiêu được giảng viên công bố 10 Nội dung giảng dạy được cập nhật, mang tính thực tế, nhiều p ie học bổ ích w 11 Nội dung giảng dạy đáp ứng nhu cầu người học oa nl Quản lý lớp Kế hoạch dạy - học được thực thời gian thời d an khóa biểu lu 12 Có phương pháp điểm danh kiểm soát được việc học tập ll người học qua ứng dụng Microsoft Teams oi m 14 u nf va 13 Vào lớp tan lớp Anh/chị hài lòng với việc hỗ trợ giáo viên chủ nhiệm, gm đội ngũ hỗ trợ Nhà trường trình học online m co l 17 giảng viên @ 16 Anh/Chị hài lòng với kiến thức thu được từ giảng online z 15 z at nh Đánh giá chung mức độ hài lòng Người học việc học online Anh/Chị hài lòng với phương pháp kiểm tra đánh giá an Lu được công bố n va ac th si