Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 33 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
33
Dung lượng
527,15 KB
Nội dung
KHOA CƠNG NGHỆ THƠNG TIN CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU – DATA MINING Thông tin giáo viên TT Họ tên giáo viên Hồ Nhật Quang Học hàm GV Học vị ThS Đơn vị công tác (Bộ môn) Công nghệ phần mềm Thời gian, địa điểm làm việc: Bộ môn CNPM – Khoa CNTT Địa liên hệ: Điện thoại, email: honhatquang@gmail.com Các hướng nghiên cứu chính: Khai phá liệu Kiểm thử phần mềm Thông tin chung học phần - Tên học phần: Khai phá liệu - Mã học phần: 12557151 - Số tín chỉ: - Cấu trúc học phần: - Học phần (bắt buộc hay lựa chọn): Lựa chọn - Các học phần tiên quyết: Hệ quản trị CSDL Các phương pháp tính tốn số Trí tuệ nhân tạo - Các yêu cầu học phần (nếu có): - Giờ tín hoạt động: Nghe giảng lý thuyết: 30 Làm tập lớp: 15 Thảo luận: Thực hành, thực tập (ở PTN, nhà máy, thực tập ): Hoạt động theo nhóm: Tự học: 66 - Khoa/Bộ môn phụ trách học phần, địa chỉ: Bộ môn CNPM – Khoa CNTT Mục tiêu học phần - Kiến thức: Hiểu bước q trình khám phá tri thức Mơ tả khái niệm bản, công nghệ ứng dụng khai phá liệu Mơ hình mẫu liệu Nắm vấn đề liệu giai đoạn tiền xử lý cho tác vụ khai phá liệu Dữ liệu độ đo Tìm hiểu tốn khai phá liệu phổ biến hồi qui, phân loại, gom cụm, khai phá luật kết hợp Sử dụng giải thuật công cụ khai phá liệu để phát triển ứng dụng khai phá liệu Được chuẩn bị kiến thức để nghiên cứu lĩnh vực khai phá liệu - Kỹ năng: Khả hiểu ý nghĩa vai trò khai phá liệu giải toán thực tế tình hình kinh tế- xã hội-khoa học-kỹ thuật ngày Khả nhận dạng hiểu vấn đề liên quan đến liệu khai phá trình khai phá liệu Khả ứng dụng khai phá liệu vào hoạt động cụ thể đơn vị, tổ chức Khả phân tích xử lý liệu cho trình khai phá liệu Khả phát triển kỹ thuật khai phá liệu Khả phát triển ứng dụng khai phá liệu Khả vận dụng tiện ích hỗ trợ khai phá liệu cung cấp phổ biến ngày Weka, MS SQL Server… Khả tham gia phân tích xử lý liệu cho trình khai phá liệu Khả tham gia phát triển kỹ thuật khai phá liệu Khả tham gia phát triển ứng dụng khai phá liệu - Thái độ, chuyên cần: Học viên lên lớp đầy đủ Tóm tắt nội dung học phần (khoảng 150 từ) Giới thiệu kiến thức khai phá liệu trình khám phá tri thức, giai đoạn trình khai phá liệu khám phá tri thức Học phần cung cấp cho người học tốn (task) KPDL phân lớp, phân cụm, hồi quy, chuỗi thời gian, luật kết hợp…cũng cách sử dụng công cụ hỗ trợ xây dựng ứng dụng KPDL Nội dung chi tiết học phần (tên chương, mục, tiểu mục) Số TT STT đề mục 1.1 1.1.1 1.1.2 1.1.3 1.1.4 1.1.5 1.2 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 1.2.6 1.3 1.3.1 1.3.2 1.4 1.5 1.6 1.6.1 1.6.2 1.6.3 Tên gọi phần, đề mục Số tiết Chƣơng Tổng quan KPDL Khai phá liệu Tại phải khai phá liệu? Các định nghĩa khai phá liệu Các bước khám phá tri thức KPDL Các dạng liệu KPDL Các lĩnh vực liên quan đến KPDL Các tốn KPDL Phân lớp (Classification) Phân cụm (Clustering) Luật kết hợp (Assoiation Rule) Hồi quy dự báo (Regression and Prediction) Chuỗi thời gian (sequential/temporal patterns) Mô tả khái niệm, tổng hợp (concept description & summarization) Ứng dụng & phân loại Các lĩnh vực ứng dụng Phân loại hệ KPDL Phân loại theo kiểu liệu khai phá Phân loại theo dạng tri thức khám phá Phân loại dựa kỹ thuật áp dụng Phân loại dựa lĩnh vực áp dụng Những thách thức KPDL Những vấn đề đƣợc trọng KPDL Một số công cụ dùng KPDL Weka Clementine SQL Server 2008 Chƣơng Tiền xử lý liệu Giáo trình, TLTL [1,2,3,4] [1,2,4] Ghi 3.1 3.2 3.2.1 3.2.2 3.3 3.3.1 3.3.2 Tại phải tiền xử lý liệu ? Chuẩn bị liệu Phân tích liệu Chuẩn hố liệu Trích chọn liệu Trích chọn đặc tính Trích chọn giá trị 3.4 3.4.1 Một số phƣơng pháp trích chọn thuộc tính Tiếp cận theo phương pháp Filter Thuật toán RELIEF Thuật toán FOCUS Thuật toán LVF Thuật tốn EBR Thuật tốn SCRAP Lựa chọn nhóm Tiếp cận theo phương pháp Wrapper Thuật toán LVW Thuật toán NeuralNet Một số tiếp cận khác Giải thuật di truyền Rời rạc hóa liệu Thực hành tiền xử lý liệu Trích chọn thuộc tính Analysis Services/MS SQL Server 2008 Shannon's entropy Bayesian with K2 Prior Bayesian Dirichlet Equivalent with Uniform Prior Interestingness score Trích chọn thuộc tính Weka Xếp hạng thuộc tính (Ranking attributes) Đánh trọng số thuộc tính sử dụng Cross Validation Attribute Evaluator Xây dựng ứng dụng tiền xử lý liệu Xử lý liệu lỗi: giá trị, sai kiểu, có giá trị khác thường… 3.4.2 3.4.3 3.5 3.5.1 3.5.2 3.5.3 3.1 3.1.1 3.1.2 3.1.3 3.1.4 3.1.5 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.4 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.5 Xử lý chuyển đổi liệu Thống kê miền giá trị phân bố giá trị Chƣơng Phân lớp Phát biểu toán phân lớp Mơ hình tốn Một số ví dụ Các bước giải tốn Một số tiếp cận giải tốn Một số khó khăn giải BT Kỹ thuật phân lớp dựa khoảng cách Ý tưởng Thuật toán k Người láng giềng gần Đánh giá thuật tốn Ví dụ minh họa Kỹ thuật phân lớp dựa định Giới thiệu định Các thuật toán tạo định Thuật toán ID3 Thuật toán C3.5 Một số vấn đề định Avoiding over-fitting the data Rule post-pruning Incorporating Continuous-Valued Attributes Handling Training Examples with Missing Attribute Values Đánh giá ưu nhược điểm định Thực hành phân lớp dựa vào định phần mềm CABRO Kỹ thuật phân lớp dựa mạng neuron Nhắc lại số khái niệm mạng neuron Mạng neuron perceptron đa lớp giải thuật học lan truyền ngược Ứng dụng mạng neuron toán phân lớp Đánh giá thuật tốn Ví dụ minh họa Kỹ thuật phân lớp dựa thống kê xác xuất [1,2,4] 3.5.1 3.5.2 3.5.3 3.5.4 3.5.5 3.6 3.6.1 3.6.2 4.1 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.2.6 Một số khái niệm xác xuất Lý thuyết xác xuất thống kê Bayets Phân lớp dựa theo kỹ thuật thống kê xác xuất Đánh giá thuật toán Ví dụ minh hoạt Thực hành phân lớp Sử dụng Weka thực hành tập phân lớp Cây định Mạng neuron Bayets Xây dựng ứng dụng phân lớp Nhận dạng chữ số viết tay Cài đặt thuật toán ID3 Cài đặt mạng neuron perceptron đa lớp Cài đặt thuật toán phân lớp Bayets Chƣơng Phân cụm Phát biểu toán phân cụm Phát biểu toán Ứng dụng toán Đánh giá kết phân cụm Các yêu cầu thực phân cụm Các tiếp cận giải tốn phân cụm Kỹ thuật phân hoạch Ý tưởng thuật toán Thuật toán K-Mean Đánh giá ưu nhược điểm thuật tốn Ví dụ minh họa Các cải tiến K-Mean Thuật toán K-Medoid Thuật toán CLARANS Thuật toán DBSCAN Thuật toán DBRS Thuật toán FCM Ý tưởng thuật toán Thuật toán FCM Đánh giá thuật toán Phân đoạn ảnh sử dụng FCM [1,2,4] 4.3 4.3.1 4.3.2 4.4 5.1 5.2 5.3 Một số tiếp cận phân cụm khác Các tiếp cận theo cấp bậc (cây) Phân cụm dựa theo lưới (grid) Thực hành xây dựng ứng dụng phân cụm Phân đoạn ảnh sử dụng FCM Phân cụm liệu sử dụng K-Mean Chƣơng Luật kết hợp Phát biểu toán Các khái niệm Giao dịch Hạng mục Độ hỗ trợ (phổ biến-support) Độ tin cậy (confidence) Tập phổ biến Một số bổ đề tập phổ biến Luật kết hợp Ví dụ minh họa Các giai đoạn trình tìm luật kết hợp Những hƣớng tiếp cận KPLKH Luật kết hợp nhị phân (binary association rule boolean association rule) Luật kết hợp có thuộc tính số thuộc tính hạng mục (quantitative and categorical association rule) Luật kết hợp mờ (fuzzy association rule): 5.4 5.5 Luật kết hợp nhiều mức (multi-level association rules): Luật kết hợp với thuộc tính đánh trọng số (association rule with weighted items): Thuật toán Apriori Ý tưởng thuật toán Các bước thực thuật tốn Ví dụ minh họa Đánh giá thuật toán Cải thiện thuật toán Apriori Các cải tiến tăng tốc độ thưc thi Apriori 12 [1,2,4] 5.6 5.7 5.8 5.8.1 5.8.2 5.8.3 6.1 6.2 6.2.1 6.2.2 6.2.3 Song song hóa thuật tốn Apriori Cấu trúc FP-Growth Luật kết hợp có trọng số Ý nghĩa thực tế Một số giải thuật Đánh giá thuật tốn Ví dụ minh họa Ứng dụng Luật kết hợp đảm bảo tính riêng tƣ Vấn đề đảm bảo tính riêng tư Các chiến lược "ẩn" luật nhạy cảm Đánh giá thuật toán Thực hành khai phá luật kết hợp Sử dụng thư viện MPI song song hóa thuật tốn khai phá luật kết hợp Phân tích tốn giỏ hàng Cài đặt thuật tốn Apriori: tìm tập phổ biến Đánh giá kết thực nghiệm, so sánh Cài đặt thuật toán Apriori cải tiến tìm luật kết hợp có trọng số CSDL giao dịch mua hàng Cài đặt thuật toán Các lựa chọn tham số thực Đánh giá kết Sử dụng Weka khai phá luật kết hợp Chƣơng Text Mining Tổng quan Text Mining Ý nnghĩa Các tốn Text Mining Mơ hình biểu diễn văn Sơ lược tình hình nghiên cứu ứng dụng Text Mining Bài toán Tách từ Tiếng Việt Vai trò tách từ Text Mining Nội dung tốn tách từ Một số khó khăn tách từ Tiếng Việt 12 [1,2,4] Một số hướng giải toán tách từ Tiếng Việt 6.2.5 Tách từ dựa vào từ điển Thuật toán Longest Matching Thuật toán Maximal Matching 6.2.6 Tách từ dựa vào thống kê Phương pháp Ngram Phương pháp MaximumEntropi 6.2.7 Tách từ dựa phương pháp lai 6.2.8 Đánh giá thuật tốn 6.2.9 Ví dụ minh họa 6.2.10 Xây dựng ứng dụng 6.3 Phân lớp văn 6.3.1 Quy trình giải tốn phân lớp văn 6.2.4 6.3.2 Ứng dụng Thuật toán Bayest phân lớp văn 6.3.3 6.3.4 6.4 6.4.1 6.4.2 6.4.3 6.4.4 6.5 6.5.1 Đánh giá ưu nhược điểm thuật tốn Ví dụ minh họa Giới thiệu số tốn Text Mining khác Tóm tắt văn (Text Summarization) Phân tích cú pháp (Grammar analysis) Kiểm lỗi tả (Check spelling) Phân tích hình thái (Morpholigical analysis) Thực hành xây dựng ứng dụng Text Mining Bài toán phân loại thư rác Giới thiệu toán Cấu trúc email Một số kỹ thuật phân loại thư rác Ứng dụng Bayet lọc thư rác Đánh giá Một số mã nguồn mở lọc thư rác Các thuật toán tách từ Tiếng Việt Cài đặt thử nghiệm đánh giá Cài đặt ứng dụng phân loại văn thuật toán xác xuất Bayet Chƣơng Web Mining Tổng quan Web Mining Một số khái niệm WebMining 6.5.2 6.5.3 7.1 [4,5] 10 7.2 7.2.1 7.2.2 7.2.3 7.3 7.3.1 7.3.2 7.3.3 7.3.4 7.3.5 7.4 7.4.1 7.4.2 7.4.3 7.4.4 7.5 7.5.1 7.5.2 7.5.3 7.5.4 7.6 7.6.1 Các toán Web Mining Mơ hình biểu diễn liên kết web Sơ lược tình hình nghiên cứu ứng dụng Web Mining Trích rút thơng tin từ URL Biểu diễn liên kết web Kỹ thuật trích rút tin từ URL Bóc tách tin theo mẫu Máy tìm kiếm Giới thiệu chung Cấu trúc chung máy tìm kiếm Nguyên tắc thực Robot Hệ thống lập mục phương pháp đánh mục, tính trọng số Máy tìm kiếm User Interface Query Engine WebRank, PageRank Một số vấn đề nâng cao chất lượng tìm kiếm Web Structure Mining Ý nghĩa thực tế Một số tiếp cận thực khai phá cấu trúc web Giới thiệu số công cụ hỗ trợ Đánh giá, kết luận Web Usage Mining Ý nghĩa thực tế Một số tiếp cận thực khai phá log web Giới thiệu số công cụ hỗ trợ Đánh giá, kết luận Thực hành xây dựng ứng dụng Web Mining Xây dựng công cụ tự động thu thập tin từ URL theo mẫu tin định trước Định nghĩa, mô tả mẫu tin Cài đặt ứng dụng lọc tin Phân loại tin theo chủ đề Khử trùng lặp liệu 19 thực tập, rèn nghề… Tự học, tự nghiên cứu Tuần Hình thức tổ chức dạy học Lý thuyết Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Thời gian, địa điểm Nội dung Yêu cầu SV chuẩn bị Ghi Yêu cầu SV chuẩn bị Ghi Theo 3.6 Thực hành phân lớp bố trí 3.6.1 Sử dụng Weka thực hành P2, tập phân lớp phòng Cây định máy Mạng neuron Bayets 3.6.2 Xây dựng ứng dụng phân lớp Nhận dạng chữ số viết tay Cài đặt thuật toán ID3 Cài đặt mạng neuron perceptron đa lớp Cài đặt thuật toán phân lớp Bayets Tự học, tự nghiên cứu Tuần Hình thức tổ chức dạy học Thời gian, địa điểm Nội dung 20 Lý thuyết Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Tự học, tự nghiên Theo Chương Phân cụm bố trí 4.1 Phát biểu toán phân cụm P2 4.1.1 Phát biểu toán 4.1.2 Ứng dụng toán 4.1.3 Đánh giá kết phân cụm 4.1.4 Các yêu cầu thực phân cụm 4.1.5 Các tiếp cận giải toán phân cụm 4.2 Kỹ thuật phân hoạch 4.2.1 Ý tưởng thuật toán 4.2.2 Thuật toán K-Mean 4.2.3 Đánh giá ưu nhược điểm thuật tốn 4.2.4 Ví dụ minh họa 4.2.5 Các cải tiến K-Mean Thuật toán K-Medoid Thuật toán CLARANS Thuật toán DBSCAN Thuật toán DBRS 4.2.6 Thuật toán FCM Ý tưởng thuật toán Thuật toán FCM Đánh giá thuật toán Phân đoạn ảnh sử dụng FCM 4.3 Một số tiếp cận phân cụm khác 4.3.1 Các tiếp cận theo cấp bậc (cây) 4.3.2 Phân cụm dựa theo lưới (grid) Bài tập phân lớp, phân cụm - Đọc trước giảng nhà - Chú ý nghe giảng - Tích cực tham gia phát biểu ý kiến 21 cứu Tuần Hình thức tổ chức dạy học Lý thuyết Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Thời gian, địa điểm Nội dung Theo bố trí P2, Phịng máy 4.3 Một số tiếp cận phân cụm khác 4.3.1 Các tiếp cận theo cấp bậc (cây) 4.3.2 Phân cụm dựa theo lưới (grid) 4.4 Thực hành xây dựng ứng dụng phân cụm Phân đoạn ảnh sử dụng FCM Sử dụng Matlap Cài đặt NNLT Phân cụm liệu sử dụng KMean Sử dụng Weka Sử dụng công cụ hỗ trợ khác Cài đặt NNLT Cài đặt biến thể K-mean Yêu cầu SV chuẩn bị Ghi Yêu cầu SV chuẩn bị Ghi Tự học, tự nghiên cứu Tuần Hình thức tổ chức dạy học Lý thuyết Thời Nội dung gian, địa điểm Theo Chương Luật kết hợp bố trí 5.1 Phát biểu toán P2 Các khái niệm - Đọc trước giảng nhà 22 Giao dịch Hạng mục Độ hỗ trợ (phổ biến-support) Độ tin cậy (confidence) Tập phổ biến Một số bổ đề tập phổ biến Luật kết hợp Ví dụ minh họa 5.2 Các giai đoạn trình tìm luật kết hợp 5.3 Những hướng tiếp cận KPLKH Luật kết hợp nhị phân (binary association rule boolean association rule) Luật kết hợp có thuộc tính số thuộc tính hạng mục (quantitative and categorical association rule) Luật kết hợp mờ (fuzzy association rule): Luật kết hợp nhiều mức (multilevel association rules): Luật kết hợp với thuộc tính đánh trọng số (association rule with weighted items): 5.4 Thuật toán Apriori Ý tưởng thuật toán Các bước thực thuật tốn Ví dụ minh họa Đánh giá thuật tốn 5.5 Cải thiện thuật toán Apriori Các cải tiến tăng tốc độ thưc thi Apriori Song song hóa thuật tốn Apriori Cấu trúc FP-Growth 5.6 Luật kết hợp có trọng số Ý nghĩa thực tế Một số giải thuật - Chú ý nghe giảng - Tích cực tham gia phát biểu ý kiến 23 Đánh giá thuật tốn Ví dụ minh họa Ứng dụng 5.7 Luật kết hợp đảm bảo tính riêng tư Vấn đề đảm bảo tính riêng tư Các chiến lược "ẩn" luật nhạy cảm Đánh giá thuật toán Bài tập luật kết hợp Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Tự học, tự nghiên cứu Tuần Hình thức tổ chức dạy học Lý thuyết Bài tập Thời gian, địa điểm Nội dung 5.8 Bài tập khai phá luật kết hợp 5.8.1 Sử dụng thư viện MPI song song hóa thuật tốn khai phá luật kết hợp Phân tích tốn giỏ hàng Cài đặt thuật tốn Apriori: tìm tập phổ biến Đánh giá kết thực nghiệm, so sánh 5.8.2 Cài đặt thuật tốn Apriori cải tiến tìm luật kết hợp có trọng số Yêu cầu SV chuẩn bị Ghi 24 CSDL giao dịch mua hàng Cài đặt thuật toán Các lựa chọn tham số thực Đánh giá kết 5.8.3 Sử dụng Weka khai phá luật kết hợp Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Tự học, tự nghiên cứu Tuần Hình thức tổ chức dạy học Lý thuyết Theo bố trí P2, phịng máy Thời Nội dung gian, địa điểm Theo Chủ đề Text Mining bố trí 6.1 Tổng quan Text Mining P2 Ý nnghĩa Các tốn Text Mining Mơ hình biểu diễn văn Sơ lược tình hình nghiên cứu ứng dụng Text Mining 6.2 Bài toán Tách từ Tiếng Việt 6.2.1 Vai trò tách từ Text Mining 6.2.2 Nội dung toán tách từ 6.2.3 Một số khó khăn tách từ Tiếng Việt 6.2.4 Một số hướng giải tốn tách từ Tiếng Việt 6.2.5 Tách từ dựa vào từ điển Yêu cầu SV chuẩn bị - Đọc trước giảng nhà - Chú ý nghe giảng - Tích cực tham gia phát biểu ý kiến Ghi 25 Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Tự học, tự nghiên Thuật toán Longest Matching Thuật toán Maximal Matching 6.2.6 Tách từ dựa vào thống kê Phương pháp Ngram Phương pháp MaximumEntropi 6.2.7 Tách từ dựa phương pháp lai 6.2.8 Đánh giá thuật tốn 6.2.9 Ví dụ minh họa 6.2.10 Xây dựng ứng dụng 6.3 Phân lớp văn 6.3.1 Quy trình giải tốn phân lớp văn 6.3.2 Ứng dụng Thuật toán Bayest phân lớp văn 6.3.3 Đánh giá ưu nhược điểm thuật toán 6.3.4 Ví dụ minh họa 6.4 Giới thiệu số tốn Text Mining khác 6.4.1 Tóm tắt văn (Text Summarization) 6.4.2 Phân tích cú pháp (Grammar analysis) 6.4.3 Kiểm lỗi tả (Check spelling) 6.4.4 Phân tích hình thái (Morpholigical analysis) Bài tập text mining 26 cứu Tuần 10 Hình thức tổ chức dạy học Lý thuyết Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Thời gian, địa điểm Nội dung Theo 6.5 Thực hành xây dựng ứng dụng bố trí Text Mining P2, 6.5.1 Bài tốn phân loại thư rác phịng Giới thiệu toán máy Cấu trúc email Một số kỹ thuật phân loại thư rác Ứng dụng Bayet lọc thư rác Đánh giá Một số mã nguồn mở lọc thư rác 6.5.2 Các thuật toán tách từ Tiếng Việt Cài đặt thử nghiệm đánh giá 6.5.3 Cài đặt ứng dụng phân loại văn thuật toán xác xuất Bayet Tự học, tự nghiên cứu Tuần 11 Hình Thời Nội dung thức tổ gian, chức địa dạy học điểm Lý thuyết Theo Chủ đề Web Mining bố trí 7.1 Tổng quan Web Mining Yêu cầu SV chuẩn bị Ghi Học kỹ lý thuyết Nghiên cứu kỹ hướng gợi ý giải nhà Cài đặt thuật toán nhà Thực hành ngiêm túc Yêu cầu SV chuẩn bị - Đọc trước giảng Ghi 27 P2 Bài tập Một số khái niệm WebMining Các toán Web Mining Mơ hình biểu diễn liên kết web Sơ lược tình hình nghiên cứu ứng dụng Web Mining 7.2 Trích rút thơng tin từ URL 7.2.1 Biểu diễn liên kết web 7.2.2 Kỹ thuật trích rút tin từ URL 7.2.3 Bóc tách tin theo mẫu 7.3 Máy tìm kiếm 7.3.1 Giới thiệu chung 7.3.2 Cấu trúc chung máy tìm kiếm 7.3.3 Nguyên tắc thực Robot 7.3.4 Hệ thống lập mục phương pháp đánh mục, tính trọng số 7.3.5 Máy tìm kiếm User Interface Query Engine WebRank, PageRank Một số vấn đề nâng cao chất lượng tìm kiếm 7.4 Web Structure Mining 7.4.1 Ý nghĩa thực tế 7.4.2 Một số tiếp cận thực khai phá cấu trúc web 7.4.3 Giới thiệu số công cụ hỗ trợ 7.4.4 Đánh giá, kết luận 7.5 Web Usage Mining 7.5.1 Ý nghĩa thực tế 7.5.2 Một số tiếp cận thực khai phá log web 7.5.3 Giới thiệu số công cụ hỗ trợ 7.5.4 Đánh giá, kết luận nhà - Chú ý nghe giảng - Tích cực tham gia phát biểu ý kiến 28 Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Tự học, tự nghiên cứu Tuần 12 Hình thức tổ chức dạy học Lý thuyết Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Thời gian, địa điểm Nội dung Yêu cầu SV chuẩn bị 7.6 Bài tập xây dựng ứng dụng Web Mining 7.6.1 Xây dựng công cụ tự động thu thập tin từ URL theo mẫu tin định trước Định nghĩa, mô tả mẫu tin Cài đặt ứng dụng lọc tin Phân loại tin theo chủ đề Khử trùng lặp liệu 7.6.2 Xây dựng ứng dụng báo điện tử 7.6.3 Ứng dụng phân tích Web Usage Đánh giá xu hướng người dùng trang bán hàng, tin tức… Cảnh báo an ninh mạng Theo bố trí P2, phịng máy Học kỹ lý thuyết Nghiên cứu kỹ hướng gợi ý giải Ghi 29 nhà Cài đặt thuật toán nhà Thực hành ngiêm túc Tự học, tự nghiên cứu Tuần 13 Hình Thời thức tổ gian, chức địa dạy học điểm Lý thuyết Theo bố trí P2, Phịng máy Nội dung Chủ đề Multimedia Mining 8.1 Giới thiệu chung Multimedia Mining 8.1.1 Dữ liệu đa phương tiện 8.1.2 Các toán KPDL đa phương tiện 8.1.3 Những thách thức KPDL đa phương tiện 8.1.4 Sơ lược tình hình nghiên cứu ứng dụng Multimedia Mining 8.2 Tìm kiếm, phân loại ảnh theo ngữ nghĩa 8.2.1 Ý nghĩa tốn 8.2.2 Mơ hình tốn phân loại ảnh 8.2.3 Đặc trưng ảnh Đặc trưng màu sắc Đặc trưng kết cấu Đặc trưng hình dáng Đặc trưng bất biến 8.2.4 Xác định độ đo tương tự 8.2.5 Một số tiếp cận phát đối tượng ảnh 8.2.6 Một số hệ thống tìm kiếm, phân Yêu cầu SV chuẩn bị - Đọc trước giảng nhà - Chú ý nghe giảng - Tích cực tham gia phát biểu ý kiến Ghi 30 loại ảnh 8.3 Khai phá liệu CSDL video 8.3.1 Mơ hình liệu Video 8.3.2 Trích rút khung hình từ CSDL Video 8.3.3 Truy vấn liệu Video 8.3.4 Một số hệ thống khai phá liệu Video Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Tự học, tự nghiên cứu Tuần 14 Hình thức tổ chức dạy học Lý thuyết Bài tập Thảo luận Multimedia mining Thời gian, địa điểm Nội dung 8.4 Bài tập KPDL đa phương tiện 8.4.1 Phân loại ảnh dựa độ đo tương tự Cài đặt số thuật tốn xử lý ảnh Trích rút đặc trưng ảnh tạo vecto đặc trưng Phân loại ảnh 8.4.2 Phát xâm nhập video thu nhận từ camera Thu nhận video từ Webcam, Camera Sử dụng số phương pháp Yêu cầu SV chuẩn bị Ghi 31 phát hiện, cảnh báo có xâm nhập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Theo bố trí P2, Phịng máy Học kỹ lý thuyết Nghiên cứu kỹ hướng gợi ý giải nhà Cài đặt thuật toán nhà Thực hành ngiêm túc Tự học, tự nghiên cứu Tuần 15 Hình Thời Nội dung thức tổ gian, chức địa dạy học điểm Lý thuyết Theo 9.1 Hồi quy bố trí Mơ hình tốn hồi quy P2 Hồi quy tuyến tính Ứng dụng hồi quy 9.2 Chuỗi thời gian 9.2.1 Khái niệm chuỗi thời gian 9.2.2 Các thành phần chuỗi thời gian 9.2.3 Các phương pháp làm trơn 9.2.4 Mơ hình hóa việc dự báo giá trị đại lượng X 9.2.5 Dự báo 9.2.6 Mơ hình ARMA đánh giá 9.2.7 Một số vấn đề mở rộng khai Yêu cầu SV chuẩn bị - Đọc trước giảng nhà Chú ý nghe giảng Ghi 32 phá liệu chuỗi thời gian 9.3 Một số vấn đề xu hướng triển vọng KPDL Bài tập Thảo luận Thực hành, thí nghiệm, thực tập, rèn nghề… Tự học, tự nghiên cứu Thảo luận triển vọng KPDL Chính sách học phần yêu cầu khác giáo viên - Sinh viên lên lớp đầy đủ - Sinh viên thực chun đề mơn học theo nhóm, hình thức tiểu luận, thảo luận lớp Mỗi nhóm từ 2-4 sinh viên - Sinh viên hoàn thành tập môn học, sử dụng công cụ hỗ trợ KPDL tự xây dựng cơng cụ NNLT (khuyến khích), sinh viên / 01 tập môn học xây dựng ứng dụng KPDL - Sinh viên thi kết thúc mơn học hình thức thi vấn đáp với câu hỏi ơn tập Phƣơng pháp, hình thức kiểm tra - đánh giá kết học tập học phần 9.1 Điểm chuyên cần: 10% Mục đích: Nhằm hỗ trợ thúc đẩy việc học tập đầy đủ sinh viên, rèn luyện cho sinh viên ý thức học tập tốt Các kỹ thuật đánh giá: Điểm danh buổi lên lớp Gọi lên bảng làm tập buổi giảng 9.2 Điểm thường xuyên: 20% Mục đích: Nhằm hỗ trợ thúc đẩy việc học tập thường xuyên sinh viên, đồng thời qua có thông tin phản hồi giúp giảng viên, sinh viên điều chỉnh cách dạy, cách học, thay đổi phương pháp dạy, học cho phù hợp Các kỹ thuật đánh giá: Đọc phần tài liệu hướng dẫn theo phần; Bài tập theo nội dung môn học; Kiểm tra kỳ 33 9.3 Thi kết thúc học phần: 70% Chủ nhiệm Khoa (Ký ghi rõ họ tên) Chủ nhiệm Bộ môn (Ký ghi rõ họ tên) Giảng viên biên soạn (Ký ghi rõ họ tên)