1. Trang chủ
  2. » Thể loại khác

CÔNG NGHỆ THÔNG TIN Đề tài: CÁC THUẬT TOÁN HỌC MÁY PHỔ BIẾN VÀ ỨNG DỤNG.TS.Đặng minh Tuấn

8 4 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 199,01 KB

Nội dung

HỒ SƠ CÔNG NGHỆ Đề tài: Xây dựng đồ cơng nghệ lộ trình đổi cơng nghệ việc phát triển ứng dụng IoT Việt Nam Mã số: ĐM.40.DA/19 Thời gian thực hiện: 01/2019 - 12/2020 Cơ quan thực hiện: Cơng ty Cổ phần Tập đồn Công nghệ CMC Chủ nhiệm đề tài: TS Đặng Minh Tuấn Tên cơng nghệ Lớp cơng nghệ Các thuật tốn học máy phổ biến ứng dụng Phạm vi ứng dụng: Các dịch vụ tài Ngân hàng doanh nghiệp hoạt động lĩnh vực tài sử dụng cơng nghệ Machine Learning với mục đích chính: xác định insights liệu ngăn chặn lừa đảo Insights biết hội đầu tư thông báo đến nhà đầu tư thời điểm giao dịch hợp lý Data mining tìm khách hàng có hồ sơ rủi ro cao sử dụng giám sát mạng để rõ tín hiệu lừa đảo Chính phủ Các tổ chức phủ hoạt động an ninh cộng đồng tiện ích xã hội sở hữu nhiều nguồn liệu khai thác insights Ví dụ, phân tích liệu cảm biến, phủ tăng mức độ hiệu dịch vụ tiết kiệm chi phí Machine learning cịn hỗ trợ phát gian lận giảm thiểu khả trộm cắp danh tính Chăm sóc sức khỏe Machine learning xu hướng phát triển nhanh chóng ngành chăm sóc sức khỏe, nhờ vào đời thiết bị máy cảm ứng đeo sử dụng liệu để đánh giá tình hình sức khỏe bệnh nhân thời gian thực (real-time) Cơng nghệ Machine Learning cịn giúp chuyên gia y tế xác định xu hướng tín hiệu để cải thiện khả điều trị, chẩn đoán bệnh Marketing sales Dựa hành vi mua hàng trước đây, trang web sử dụng Machine Learning phân tích lịch sử mua hàng, từ giới thiệu vật dụng mà bạn quan tâm yêu thích Khả tiếp nhận liệu, phân tích sử dụng liệu để cá nhân hóa trải nghiệm mua sắm (hoặc thực chiến dịch Marketing) tương tai ngành bán lẻ Dầu khí Tìm kiếm nguồn ngun liệu Phân tích mỏ dầu đất Dự đốn tình trạng thất bại cảm biến lọc dầu Sắp xếp kênh phân phối để đạt hiệu tiết kiệm chi phí Có thể nói, số lượng trường hợp sử dụng Machine Learning ngành công nghiệp lớn ngày mở rộng Vận tải Phân tích liệu để xác định patterns & xu hướng trọng tâm ngành vận tải ngành phụ thuộc vào khả tận dụng hiệu tuyến đường dự đoán vấn đề tiềm tàng để gia tăng lợi nhuận Các chức phân tích liệu modeling Machine learning đóng vai trị quan trọng với doanh nghiệp vận chuyện, vận tải công cộng tổ chức vận chuyển khác Mô tả công nghệ: 2.1 Định nghĩa Học máy (machine learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác người việc phân tích liệu, hệ thống khác hướng đến việc tăng cộng tác người máy Không thể loại bỏ hồn tồn tác động người nhà thiết kế hệ thống phải định cách biểu diễn liệu chế dùng để tìm kiếm đặc tính liệu Học máy xem nỗ lực để tự động hóa số phần phương pháp khoa học Một số nhà nghiên cứu học máy tạo phương pháp bên khuôn khổ thống kê Bayes 2.2 Nguyên lý Các thuật toán học máy phân loại theo kết mong muốn thuật toán Các loại thuật toán thường dùng bao gồm: - Học có giám sát: kĩ thuật ngành học máy để xây dựng hàm (function) từ liệu huấn luyện Dữ liệu huấn luyện bao gồm cặp gồm đối tượng đầu vào (thường dạng vec-tơ), đầu mong muốn Đầu hàm giá trị liên tục (gọi hồi qui), dự đốn nhãn phân loại cho đối tượng đầu vào (gọi phân loại) Nhiệm vụ chương trình học có giám sát dự đoán giá trị hàm cho đối tượng đầu vào hợp lệ, sau xem xét số ví dụ huấn luyện (nghĩa là, cặp đầu vào đầu tương ứng) Để đạt điều này, chương trình học phải tổng quát hóa từ liệu sẵn có để dự đốn tình chưa gặp phải theo cách hợp lý - Học không giám sát: phương pháp ngành học máy nhằm tìm mơ hình mà phù hợp với quan sát Nó khác biệt với học có giám sát chỗ đầu tương ứng cho đầu vào khơng biết trước Trong học khơng có giám sát, tập liệu đầu vào thu thập Học khơng có giám sát thường đối xử với đối tượng đầu vào tập biến ngẫu nhiên Sau đó, mơ hình mật độ kết hợp xây dựng cho tập liệu - Học nửa giám sát: sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Học nửa giám sát đứng học không giám sát (khơng có liệu có nhãn nào) có giám sát (tồn liệu gán nhãn) Nhiều nhà nghiên cứu nhận thấy liệu không gán nhãn, sử dụng kết hợp với chút liệu có gán nhãn, cải thiện đáng kể độ xác Để gán nhãn liệu cho tốn học máy thường địi hỏi chuyên viên có kĩ để phân loại tay ví dụ huấn luyện Chi phí cho quy trình khiến tập liệu gán nhãn hồn tồn trở nên khơng khả thi, liệu khơng gán nhãn thường tương đối rẻ tiền Trong tình đó, học nửa giám sát có giá trị thực tiễn lớn lao - Học tăng cường: nghiên cứu cách thức agent môi trường nên chọn thực hành động để cực đại hóa khoản thưởng (reward) lâu dài Các thuật tốn học tăng cường cố gắng tìm chiến lược ánh xạ trạng thái giới tới hành động mà agent nên chọn trạng thái Khác với học có giám sát, học tăng cường khơng có cặp liệu vào/kết đúng, hành động gần tối ưu không đánh giá sai cách tường minh - Chuyển đổi: tương tự học có giám sát khơng xây dựng hàm cách rõ ràng Thay thế, cố gắng đoán kết dựa vào liệu huấn luyện, kết huấn luyện, liệu thử nghiệm có sẵn q trình huấn luyện - Học cách học: thuật tốn học thiên kiến quy nạp mình, dựa theo kinh nghiệm gặp 2.3 Vịng đời cơng nghệ/thế hệ cơng nghệ: - 1952 - Arthur Samuel viết chương trình học máy (computer learning) Chương trình trị chơi cờ đam, hãng máy tính IBM cải tiến trị chơi để tự học tổ chức nước để giành chiến thắng - 1990s – Học máy dịch chuyển từ cách tiếp cận hướng kiến thức (knowledge-driven) sang cách tiếp cận hướng liệu (datadriven) Các nhà khoa học bắt đầu tạo chương trình cho máy tính để phân tích lượng lớn liệu rút kết luận - - học từ kết 2006 - Geoffrey Hinton đưa thuật ngữ "deep learning" để giải thích thuật tốn cho phép máy tính "nhìn thấy" phân biệt đối tượng văn hình ảnh video 2012 - X Lab Google phát triển thuật tốn học máy có khả tự động duyệt qua video YouTube để xác định xem video có chứa mèo 2014 - Facebook phát triển DeepFace, phần mềm thuật tốn nhận dạng xác minh cá nhân dựa vào hình ảnh mức độ giống người 2015 - Microsoft tạo Distributed Machine Learning Toolkit, cho phép phân phối hiệu vấn đề machine learning nhiều máy tính 2016 - Thuật tốn trí tuệ nhân tạo Google đánh bại nhà vơ địch trị chơi Cờ Vây, cho trị chơi phức tạp giới (khó trị chơi cờ vua nhiều) Thuật toán AlphaGo phát triển Google DeepMind giành chiến thắng 4/5 trước nhà vô địch Cờ Vây Hiện trạng công nghệ Việt Nam 3.1 Năng lực nghiên cứu Năng lực nghiên cứu Việt Nam thuật toán phổ biến ứng dụng phát triển, thị trường Đánh giá chung sôi động, sở nghiên cứu lớn chủ yếu nằm tập đồn cơng nghệ, viện nghiên cứu trường đại học VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học Đơn vị nghiên cứu Bách Khoa Hồ Chí Minh - Cơng trình nghiên cứu - - Duong, C.N., Truong, T.D., Luu, K., Quach, K.G., Bui, H and Roy, K., 2020 Vec2Face: Unveil Human Faces from their Blackbox Features in Face Recognition In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp 6132-6141) Hung, P.D., Hanh, T.D and Diep, V.T., 2018, December Breast cancer prediction using spark MLlib and ML packages In Proceedings of the 2018 5th International Conference on Bioinformatics Research and Applications (pp 52-59) Veyseh, A.P.B., Dernoncourt, F., Dou, D and Nguyen, T.H., 2020, July Exploiting the Syntax- Model Consistency for Neural Relation Extraction In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp 8021-8032) - Shu, R., Nguyen, T., Chow, Y., Pham, T., Than, K., Ghavamzadeh, M., Ermon, S and Bui, H.H., 2020 Predictive Coding for Locally-Linear Control ICML 2020 arXiv preprint arXiv:2003.01086 - Pham, K., Le, K., Ho, N., Pham, T and Bui, H., 2020 On Unbalanced Optimal Transport: An Analysis of Sinkhorn Algorithm ICML 2020 - Dong, Z., Seybold, B.A., Murphy, K.P and Bui, H.H., 2020 Collapsed amortized variational inference for switching nonlinear dynamical systems ICML 2020 - Nguyen, D.Q and Nguyen, A.T., 2020 PhoBERT: Pre-trained language models for Vietnamese arXiv preprint arXiv:2003.00744 - Nguyen, D.Q., Billingsley, R., Du, L and Johnson, M., 2015 Improving topic models with latent feature word representations Transactions of the Association for Computational Linguistics, 3, pp.299-313 - Nguyen, D.Q., Nguyen, T.D., Nguyen, D.Q and Phung, D., 2017 A novel embedding model for knowledge base completion based on convolutional neural network arXiv preprint arXiv:1712.02121 Đánh giá so với giới Việt nam Thế giới Các thuật toán phổ biến Việt Nam trọng nghiên cứu phát triển Có nhiều nghiên cứu từ thuật toán học máy đến Nghiên cứu, phát triển tập trung vào lĩnh vực xử lý mạng nơ-ron sâu Các nghiên cứu thuật toán học máy thuật tốn học máy phổ ảnh, xử lý ngơn ngữ tự nhiên, âm giới đạt nhiều thành tự lĩnh vực từ biến ứng dụng định dạng media, liệu chuỗi xử lý ảnh, xử lý ngôn ngữ tự nhiên đến liệu dạng chuỗi thời gian Tuy sau giới không đồng dạng mặt liệu đạt thành tựu đáng kể Nghiên cứu lĩnh vực Nghiên cứu ứng dụng thực tế Nghiên cứu giới tập trung vào hiệu ứng dụng thực tế thuật toán học máy tập trung vào cải thuật toán tập liệu lớn tốc độ thuật toán thuật toán học máy phổ thiện hiệu suất thuật toán, tối ưu tài Các thuật toán học máy phổ biến áp dụng cho tất nguyên tốc độ chạy thuật toán lĩnh vực từ học thuật đến thực tế toán phức tạp liệu lớn lĩnh vực đời sống biến 3.2 Năng lực sản xuất Đánh giá chung Đơn vị sản xuất Đánh giá so với giới Khả xây dựng thuật toán học máy phổ biến ứng dụng 3.3 Một số đơn vị Việt Nam có xây dựng thuật toán học máy phổ biến ứng dụng VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học Bách Khoa Hồ Chí Minh Việt nam Thế giới Nghiên cứu thuật toán phổ biến Trên giới phát triển nghiên cứu thuật toán Việt Nam chủ yếu tối ưu hóa khía học máy phổ biến đầu ứng dụng cạnh thuật tốn tạo nghiên cứu thực tế thuật toán Khả ứng dụng Đánh giá chung Đơn vị phân phối / cung cấp giải pháp Đánh giá so với giới Sự đa dạng thuật toán học máy phổ biến Độ hoàn thiện sản phẩm thực tế Về mảng ứng dụng thuật toán học máy bản, Việt Nam có ứng dụng nghiên cứu với quy mô vừa nhỏ VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học Bách Khoa Hồ Chí Minh Việt nam Thế giới Các ứng dụng đa dạng lĩnh vực xử Các ứng dụng đa dạng ln có tiên phong lý ảnh, xử lý ngôn ngữ tự nhiên, âm lĩnh vực đầu lĩnh vực định dạng media, liệu chuỗi thời gian Các ứng dụng vào thực tiễn cụ thể Các ứng dụng giới phổ biến mạnh hệ thống chấm cơng áp dụng thuật tốn mẽ nhằm cải thiện hiệu thuật toán áp 3.4 STT nhận diện khuôn mặt, hệ thống nhận diện chữ dụng cho tất lĩnh vực từ học thuật đến thực tế viết tay, xử lý ngôn ngữ tiếng Việt Khảo sát phân nhóm đánh giá cơng nghệ Tiêu chí Mơ tả Kết đánh giá Nhóm Cơng nghệ can thiệp, tối ưu hoàn toàn Nếu nghiên cứu phát triển, can thiệp thay đổi hoàn toàn mang lại hiệu cao việc nâng cao chất lượng sản phẩm, tính cạnh tranh thị trường Phân nhóm cơng nghệ Mức độ phổ biến giới (Thang điểm 10) Tiềm phát triển (Thang điểm 10) Mức độ ứng dụng Việt Nam (Thang điểm 10) Mức độ làm chủ công nghệ Việt Nam (Thang điểm 10) Khả nghiên cứu Việt Nam (Thang điểm 10) Khả sản xuất Việt Nam (Thang điểm 10) Nhóm Cơng nghệ can thiệp, tối ưu phần Nếu nghiên cứu phát triển, can thiệp thay đổi phần mang lại hiệu cao việc nâng cao chất lượng sản phẩm, tính cạnh tranh thị trường Nhóm Công nghệ không can thiệp, sử dụng Công nghệ chuẩn hóa, ứng dụng Nếu nghiên cứu phát triển thêm không mang lại hiệu tốn chi phí khơng đủ lực để nghiên cứu phát triển Đánh giá mức độ phổ biến công nghệ sản phẩm, hệ thống, giải pháp IoT giới Đánh giá tiềm phát triển cơng nghệ dựa lợi ích đem lại, xu hướng phát triển, xu hướng ứng dụng tương lai Không đánh giá Đánh giá số lượng ứng dụng công nghệ Việt Nam mức độ khai thác công nghệ Mức độ làm chủ công nghệ Việt Nam so với giới Đánh giá khả nghiên cứu công nghệ đơn vị nghiên cứu, doanh nghiệp Việt Nam Đánh giá khả sản xuất phần cứng xây dựng phần mềm, công cụ/thư viện phần mềm Việt Nam Nhóm Khơng đánh giá Khơng đánh giá Xu hướng phát triển giới Trên giới phát triển nghiên cứu xử lý phân tích thuật tốn học máy phổ biến cho liệu lớn liệu phức tạp để nâng cao hiệu xử lý, tối ưu hóa tài nguyên đảm bảo tốc độ cho ứng dụng thực tế

Ngày đăng: 25/06/2022, 03:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w