Data science là một lĩnh vực liên ngành mà trong đó, những bộ dữ liệu được xử lý, sắp xếp và giải mã bằng các mô hình thống kê hay phương pháp toán học.. Đây là một phương thức tiếp cận
MACHINE LEARNING TRONG NGÀNH HỌCCó 2 định nghĩa khá rõ ràng về Machine Learning như sau:
- Theo Arthur Samuel (1959): May hoc la nganh hoc cung cap cho may tinh kha năng học hỏi mà không cần được lập trình một cách rõ ràng
- Theo Giao su Tom Mitchell — Carnegie Mellon University: Machine Learning la 1 chương trình máy tính được nói là học hỏi từ kinh nghiệm E từ các tác vụ T và với độ đo hiệu suất P Nếu hiệu suất của nó áp dụng trên tác vụ T và được đo lường bởi độ đo P tăng từ kinh nghiệm E
Vi du cho dinh nghia cba Tom Mitchell
Ví dụ 1: Giả sử như bạn muốn máy tính xác định một tin nhắn có phải là SPAM hay không
Tác vụ T: Xác định 1 tin nhắn có phải SPAM hay không?
Kinh nghiệm E: Xem lại những tin nhắn đánh dấu là SPAM xem có những đặc tính gì để có thê xác định nó là SPAM Độ đo P: Là phần trăm số tin nhắn SPAM được phân loại đúng
Ví dụ 2: Chương trình nhận dạng số (số từ 0 -> 9)
T: Là nhận dạng được ảnh chứa ký tự sỐ
E: Đặc trưng để phân loại ký tự số từ tập dữ liệu số cho trước
P: Độ chính xác của quá trình nhận dạng
Decision Association Clustering Similarity Bayesian Neural
Tree Rule and Metric Networks Networks
Inductive Support Spane Genetic Deep Manifold
Logic Vector Dictionary Algorithens Learning Learning Programming Machines Learning
Hình 2.2 Mỗi liên hệ giữa Trí Tuệ Nhân Tạo với các nhảnh học như Máy Học, Biểu Diễn Trị Thức và Suy Luận, Xử Lý Ngôn Ngữ Tự Nhiên, Thị Ciiác Máy Tỉnh
2./ Sự phát triển của Machine Learning Nhờ vào công nghệ điện toán, ngày nay Machine Learning không còn là máy tính “học” những chuyện trong quá khử nữa Machine Learnimng được sinh ra từ khả năng nhận diện pattern và từ lý thuyết các máy tính có thê “học” mà không cần phải lập trình để thực hiện các tasks cụ thể đó Về phía các nhà nghiên cửu quan tâm đến trí tuệ nhân tạo, họ lại muốn xem thử liệu máy tính có thé hoc đữ liệu như thế nào Yếu tố lặp trong Machine Learning rất quan trọng vì khi các models tiếp xúc với dữ liệu mới, Machine Learning có thể thích ứng được I cách độc lập Machime Learning sẽ “học” các computations trudc dé trả về các kết quả, các quyết định đáng tin cậy, lặp lại được
Từ lâu đã có nhiều thuật toán Machine Learning nôi tiếng nhưng khả năng tự động áp dụng các phép tính phức tạp vào Big Data — lặp di lap lại với tốc độ nhanh hơn — chỉ mới phát triển gần đây
Các ứng dụng của Machine Learning đã trở nên quá quen thuộc như:
- Xe tự lái, giảm thiểu tai nạn của Google? Chinh la ban chất của machine learning
- Cac uu dai recommendation online nhu cia Amazong & Netflix? Ung dụng của Machine Learning trong cuộc sống hằng ngày
- Muốn biết người dùng nói gì về bạn trên Twitter? Machine Learning kết hợp với sự sáng tạo của quy tắc ngôn ngữ
- _ Nhận diện lừa đảo? Một trong những nhu cầu sử dụng hiển nhiên ngày nay
TRÍ TUỆ NHÂN TẠOBắt kỳ kỹ thuật nào cho phép HỢG MAY máy tính bắt chước hành vị _ˆ tMAGHINE LEARNING -ML) của con người Kỹ thuật AI cung cắp cho máy tính khả năng học hỏi mà không cần được lập trình ro rang dé lam nhw vay
Hình 2.3 Sự phát triển cia Machine Learning Cùng với công nghệ máy tính ngày càng phát triển, Máy Học ngày nay không giống như Máy Học của quá khứ nữa Nó được sinh ra từ nhận dạng mau (pattern recognition) va ly thuyết rằng máy tính có thể học mà không cần được lập trình đề thực hiện các nhiệm vụ cụ thể; các nhà nghiên cứu quan tâm đến trí tuệ nhân tạo muốn xem liệu máy tính có thê học từ dữ liệu hay không Khía cạnh lặp đi lặp lại của Máy Học rất quan trọng vì khi các mô hình được tiếp xúc với dữ liệu mới, chúng có thê thích ứng một cách độc lập Chúng học hỏi từ các tính toán trước đó để đưa ra các quyết định và kết quả rất đáng tin cậy, có thê lặp lại Đây là một ngành khoa học không mới — nhưng lại là một ngành khoa học đã đạt được nhiều bước tiến lớn
3./ Thế nào đề có những hệ thông Machine Learning tốt?
- Khả năng chuẩn bị đữ liệu
- Thuật toán — căn bản & nâng cao
- Quy trình tự động và quy trình lặp lại - Kha nang scale
- Ensemble modeling 4./ Những đối tượng sử dụng Machine Learning Hầu hết mọi ngành công nghiệp đang làm việc với hàm lượng lớn dữ liệu đều nhận ra tầm quan trọng của công nghệ Machine Learning Những insights từ nguồn dữ liệu này — chủ yếu dạng realtime — sẽ giúp các tổ chức vận hành hiệu quả hơn hoặc tạo được lợi thé cạnh tranh so với các đối thủ Hầu hết mọi ngành công nghiệp đang làm việc với hàm lượng lớn dữ liệu đều nhận ra tầm quan trọng của công nghệ Machine Learning Những insights từ nguồn dữ liệu này — chủ yếu dạng realtime — sẽ giúp các tổ chức vận hành hiệu quả hơn hoặc tạo được lợi thế cạnh tranh so với các đối thủ.
MACHINELEARNINGCHƯƠNG 3./ KẾT LUẬN1./ Môi trường nào cần tới Khoa học Dữ Liệu Data science co thé duoc sử dung trong hầu hết các lĩnh vực của cuộc sống, chăng hạn như ngân hàng, công nghệ, chăm sóc sức khỏe, bán lẻ, thương mại điện tử, v.v; và tại bắt kỳ loại hình tổ chức nào, từ các công ty khởi nghiệp nhỏ đến các tập đoàn khống lô, tô chức phi lợi nhuận quốc tẾ, v.v
Với một số công ty bán các sản phâm hữu hình, khoa học dữ liệu đóng vai trò tư vấn, giúp các nhóm kinh doanh hiểu được đữ liệu của họ và tạo ra các mô hình để hỗ trợ các chiến lược kinh doanh
Trong môi trường đó, bạn có thê phải đề xuất và đánh giá các trường hợp có thể xảy ra, giải thích cách tiếp cận tốt nhất với từng phương án, cũng như xây dựng mô hình dữ liệu đề dự đoán tình hình tăng trưởng cho tương lai hoặc cho một sản phâm mới
Trong khi đó, tại một công ty công nghệ lớn, nhiều khả năng bạn sẽ tham gia một nhóm rất chuyên biệt, tập trung vào việc tôi ưu hóa một hoặc một vài phan cụ thể của mô hình dữ liệu cho một sản phâm hoặc tính năng công nghệ nào đó
Hình 3 Môi trường hoạt động của ngành Khoa học Dữ liệu
2./ Kiến thức rút ra từ ngành Khoa học Dữ liệu Khoa học dữ liệu (KHDL) là thuật ngữ có lẽ còn khá lạ lẫm đối với Việt Nam trong thời đại công nghiệp 4.0 Nhưng nó đang dần trở thành xu hướng của các doanh nghiệp hướng tới để đây mạnh hoạt động kinh doanh nhờ việc sử dụng những thông tin được phân tích do công nghệ này mang lại Khi Cách mạng Công nghệ 4.0 bùng nỗ, mọi quốc gia đều phải dựa nhiều hơn vào Khoa học Công nghệ, vào dữ liệu Trong cuộc chạy đua công nghệ số, người thắng cuộc chính là người làm chủ các nguồn dữ liệu lớn Đây cũng là lĩnh vực đang trở thành tâm điểm thu hút người học Nhà khoa học dữ liệu nổi lên như một nghề được săn lùng nhiều đến bất ngờ
Nhìn vào một khía cạnh nào đó, ta có thể xem đây như một thê mới của một tập hợp gồm các ngành khác nhau trong sự vận động phát triển không ngừng của khoa học máy tính, mô phỏng, thông kê, phân tích và toán học Trọng tâm của nó nằm ở việc áp dụng các phương pháp tự động hóa cho việc phân tích một lượng lớn dữ liệu và từ đó rút ra các kiến thức Điều này ta có thể quan sát ở hầu khắp nơi từ di truyền học đến vật lý cao năng lượng, khoa học đữ liệu giúp ta tim ra những nhánh mới của khoa học, tạo ra sự ảnh hưởng sâu rong đến toàn bộ nền khoa học tự nhiên, công nghệ kỹ thuật , cũng như khoa học xã hội và nhân văn
Hầu như tất cả các ngành kinh tế hiện nay đều có thê truy cập vào trung tâm dữ liệu Điều nay hon han những gì bạn có thể tưởng tượng cách đây chỉ mười năm Các doanh nghiệp hiện nay đang tích lũy những khối thông tin mới với một tốc độ vượt quá năng lực mà họ có thê rút chiết ra được giá trị Vậy nên câu hỏi chính mà tất các các tô chức đang đặt ra thu hút được sự quan tâm toàn bộ cộng đồng là làm thế nào để sử dụng được dữ liệu một cách hiệu quả, không chỉ là của riêng họ mà bao gồm cả mọi nguồn có liên quan
Trong những năm tới, xu hướng này dự kiến sẽ tăng mạnh với sự đang lên của những thiết bị thông minh và thế giới mạng thông tin Còn với nghiên cứu khoa học, chúng ta sẽ thấy một số lượng lớn các ngành mới được sinh ra đi kèm với từ "tính toán”(compuftational) hoặc "định lượng” (quantitafive) ở phía trước Trong công nghiệp, khoa học dữ liệu sẽ thay đổi tất cả các lĩnh vực từ y tế đến phương tiện truyền thông