1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG

25 594 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 490 KB

Nội dung

ĐỀ CƯƠNG NGHIÊN CỨU SINH NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Người thực hiện : ThS. Hà Văn Sang Người hướng dẫn : TS. Nguyễn Hà Nam ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ  1. Đặt vấn đề 2. Nội dung đề cương 3. Dự kiến kế hoạch triển khai 4. Tài liệu tham khảo  • Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. • Tuy nhiên, một kho (tập) dữ liệu lớn có thể chứa lượng dữ liệu lên đến terabytes • Sư gia tăng của các tập dữ liệu lớn trong nhiều lĩnh vực đặt ra thách thức cho Data mining • Không chỉ tập dữ liệu lớn mà còn các kiểu dữ liệu mới: – Data stream trên Web – Mạng xã hội – Hệ thống sinh học  • Năm 1997 một số lĩnh vực sử dụng hơn 40 thuộc tính đặc trưng • Năm 2003 hầu hết các bài báo cho thấy các lĩnh vực đã sử dụng 10 2 tới 10 4 biến (variable) • Các kĩ thuật học máy và khai phá dữ liệu có thể không hiệu quả với dữ liệu có số chiều lớn • Giảm chiều dữ liệu: – là việc làm giảm chiều của không gian tìm kiếm dữ liệu – giảm chi phí thu thập và lưu trữ dữ liệu – nâng cao hiệu quả của việc khai phá dữ liệu – làm đơn giản hóa các kết quả khai phá dữ liệu  ! "#$% Để giảm chiều: Lựa chọn đặc trưng (Feature Selection) Trích chọn đặc trưng (Feature Extraction) !!&' () • Trong nước: – Nghiên cứu chưa nhiều – Mới chỉ có một số bài báo và luận văn thạc sĩ nghiên cứu về trích chọn thuộc tính đặc trưng • Trên thế giới: – Bắt đầu nghiên cứ từ cuối những năm 1997 – Đến năm 2003 có các bài báo liên quan trong lĩnh vực học máy. Special issue on “Variable Selection”: Journal of Machine Learning Research, Vol. 3 Issue 7/8 (10/2003) – Những năm gần đây đã có nhiều tổ chức, hội thảo nghiên cứu về lĩnh vực này. *  • Số lượng thuộc tính lớn theo cấp số nhân làm cho: – Việc tính toán cũng như lưu trữ gặp khó khăn – Việc nghiên cứu trong nước về lĩnh vực giảm chiều và trích chọn đặc trưng chưa nhiều • Trong luận văn thạc sỹ với đề tài: “Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính” của mình, số liệu chứng khoán tăng lên hàng ngày làm cho hiệu suất học giảm, độ chính xác dự báo chưa cao • Từ những lí do như đã trình bày, tôi xin chọn đề tài: NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG +#$ 2.1 Mục tiêu nghiên cứu 2.2 Nội dung nghiên cứu 2.3 Phương pháp nghiên cứu 2.4 Ý nghĩa khoa học 2.5 Dự kiến kết quả nghiên cứu 2.6 Định hướng nghiên cứu 2.7 Những bước tiếp cận và đã làm được +,-.&&' • Tìm hiểu một vài kỹ thuật học máy như mạng nơ ron, SVM, RandomForest, CART • Tìm cách áp dụng kỹ thuật trích chọn đặc trưng để giảm số thuộc tính trong quá trình học • Tăng hiệu năng của các phương pháp học máy sử dụng phương pháp trích chọn thuộc tính trong khai phá tri thức từ phân tích khối lượng dữ liệu khổng lồ [...]... Nghiên cứu xây dựng thuật toán và áp dụng trong quá trình học máy: • Từ việc đánh giá điểm mạnh của các phương pháp trích chọn đang áp dụng, ta nghiên cứu xây dựng thuật toán bằng cách cải tiến và kết hợp các phương pháp đã có để tăng hiệu năng của các phương pháp học máy Tiến trình trích chọn đặc trưng Phân loại 2.3 Phương pháp nghiên cứu • Đề tài sẽ kết hợp phương pháp nghiên cứu lý thuyết với kết... for Multi-label Classification Hướng nghiên cứu trong tương lai • Sẽ tiếp tục là lĩnh vực nghiên cứu được nhiều người quan tâm • Một số hướng nghiên cứu trong tương lai: – Trích chọn đặc trưng cho dữ liệu có chiều cực lớn – Knowledge oriented sparse learning – Explanation-based feature selection (EBFS) 2.7 Những bước tiếp cận và đã làm được • Trong 3 năm học tập và nghiên cứu tại Đại học Công nghệ tôi... có những kiến thức căn bản và nâng cao về khai phá dữ liệu đặc biệt là trong lĩnh vực xử lí dữ liệu lớn • Kết quả là tôi đã bảo vệ thành công luận văn thạc sĩ trong lĩnh vực khái phá dữ liệu với tên đề tài là: “NGHIÊN CỨU VÀ ỨNG DỤNG MỘT SỐ MÔ HÌNH HỌC MÁY TRONG VIỆC HỖ TRỢ ĐÁNH GIÁ RỦI RO TÀI CHÍNH” 2.7 Những bước tiếp cận và đã làm được • Trải qua 6 năm giảng dạy và nghiên cứu, trong lĩnh vực hệ thống... dung nghiên cứu 1) Nghiên cứu khái niệm cơ bản về trích chọn thông tin: • Giới thiệu sơ lược về lý thuyết sử dụng cho trích chọn như information gain, heuristic search, ranking methods… 2) Nghiên cứu các thuật toán thuật toán trích chọn: • Tìm hiểu các phương pháp trích chọn đang được áp dụng hiện nay như filter, wrapper, embedded methods Đánh giá điểm mạnh, yếu của từng phương pháp 3) Nghiên cứu xây... lĩnh vực khai phá dữ liệu 2.5 Dự kiến kết quả nghiên cứu • Luận án sẽ tập hợp và trình bày đầy đủ phần tổng quan cũng như các giải pháp đề xuất để nâng cao hiệu quả của thuật toán • Dự kiến kết quả của đồ án bao gồm 2 đến 3 bài báo đăng ở tạp chí chuyên ngành hoặc hội nghị quốc tế • Ứng dụng thuật toán đề xuất và lĩnh vực khai phá dữ liệu tài chính 2.6 Các nghiên cứu liên quan • Lựa chọn đặc trưng là... quan tới vấn đề trích chọn đặc trưng • Tìm kiếm được dữ liệu và các thuật toán mới nhất 3 Dự kiến kế hoạch triển khai • Thời gian nghiên cứu dự kiến: 3 năm • Năm thứ nhất: – Tìm kiếm, thu thập những tài liệu, kết quả liên quan đến đề tài nghiên cứu – Viết phần tổng quan, bổ sung các kiến thức cơ sở về các nội dung nghiên cứu – Phân tích, đánh giá những ưu điểm và nhược điểm của các phương pháp đã có 3... kế hoạch triển khai • Năm thứ hai: – Đề xuất phương pháp thuật toán cũng như tiến hành các chứng minh, kiểm nghiệm nhỏ để đảm bảo tính đúng đắn của hướng nghiên cứu – Đề xuất phương pháp và thuật toán cải tiến – Viết báo cáo về các kết quả thu được đăng trên các hội nghị và tạp chí chuyên ngành • Năm thứ ba: – Xây dựng sơ đồ thực nghiệm và đánh giá kết quả – Viết và bảo vệ luận án Tài liệu tham khảo... kinh tế, tôi đã trực tiếp tham gia các phần việc như: • Nghiên cứu và giảng dạy các môn học liên quan đến kĩ thuật lập trình, tìm kiếm… • Nghiên cứu về khai phá dữ liệu trong lĩnh vực tài chính • Viết một số bài báo và kỉ yếu khoa học, tham gia hội nghị, hội thảo khoa học trong Ngành 2.7 Những bước tiếp cận và đã làm được • Trong thời gian gần đây tôi đã tích cực tìm kiếm các tài liệu, bài báo, sách... với kết quả thực nghiệm • Nghiên cứu tổng hợp các kết quả đã công bố trước đây để tìm ra các ưu nhược điểm • Từ đó đề xuất và áp dụng phương pháp mới, kiểm chứng bằng thực nghiệm và đánh giá so sánh • Áp dụng giải pháp đề xuất vào ứng dụng thực tế và đánh giá hiệu quả của cách tiếp cận đề nghị cho ứng dụng cụ thể 2.4 Ý nghĩa khoa học • Việc chọn lựa đặc trưng để giảm chìêu dữ liệu có ý nghĩa hết sức... và lĩnh vực khai phá dữ liệu tài chính 2.6 Các nghiên cứu liên quan • Lựa chọn đặc trưng là một chủ đề nghiên cứu với ý nghĩa thiết thực trong nhiều lĩnh vực: – như thống kê, nhận dạng mẫu, học máy – khai phá dữ liệu (bao gồm khai phá Web, khai phá văn bản, xử lý hình ảnh) • Một số hướng nghiên cứu trên thế giới: – – – – Semi-supervised Feature Selection via Spectral Analysis Sparse Linear Discriminant . ! "#$% Để giảm chiều: Lựa chọn đặc trưng (Feature Selection) Trích chọn đặc trưng (Feature Extraction) !!&' () • Trong nước: – Nghiên. cứu trên thế giới: – Semi-supervised Feature Selection via Spectral Analysis – Sparse Linear Discriminant Analysis – A Knowledge-Oriented Framework for Gene Selection – Linear Dimensionality Reduction. trưng cho dữ liệu có chiều cực lớn – Knowledge oriented sparse learning – Explanation-based feature selection (EBFS) 2.7 Những bước tiếp cận và đã làm được • Trong 3 năm học tập và nghiên cứu

Ngày đăng: 05/02/2015, 09:59

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN