.1 Mơ hình data mining

2.1.1. STATISTICS

Statistics (số liệu thống kê): nghiên cứu việc thu thập, phân tích, giải thích và trình bày Dữ liệu. Khai thác dữ liệu cĩ một kết nối cố hữu (vốn cĩ) với số liệu thống kê.

Mơ hình thống kê là một tập hợp các hàm tốn học mơ tả hành vi của các đối tượng trong một lớp mục tiêu theo các biến ngẫu nhiên và các phân phối xác suất liên quan của chúng. Mơ hình thống kê được sử dụng rộng rãi để lập mơ hình dữ liệu và các lớp dữ liệu.

Ví dụ: trong các tác vụ khai thác dữ liệu như mơ tả và phân loại dữ liệu, thống kê mơ hình của các lớp mục tiêu cĩ thể được xây dựng. Nĩi cách khác, các mơ hình thống kê như vậy cĩ thể là kết quả của một nhiệm vụ khai thác dữ liệu. Ngồi ra, các tác vụ khai thác dữ liệu cĩ thể được xây dựng dựa trên các mơ hình thống kê. Ví dụ: chúng tơi cĩ thể sử dụng số liệu thống kê để lập mơ hình nhiễu và dữ liệu bị thiếu các giá trị. Sau đĩ, khi khai thác các mẫu trong một tập dữ liệu lớn, quá trình khai thác dữ liệu cĩ thể sử dụng mơ hình để giúp xác định và xử lý các giá trị bị nhiễu hoặc bị thiếu trong dữ liệu.

Nghiên cứu thống kê phát triển các cơng cụ để dự đốn và dự báo bằng cách sử dụng dữ liệu và các mơ hình thống kê. Phương pháp thống kê cĩ thể được sử dụng để tĩm tắt hoặc mơ tả một tập hợp.

Dữ liệu. Các mơ tả thống kê cơ bản về dữ liệu được giới thiệu trong Chương 2. Thống kê là hữu ích cho việc khai thác các mẫu khác nhau từ dữ liệu cũng như để hiểu về cơ bản các cơ chế tạo ra và ảnh hưởng đến các mẫu. Thống kê suy luận (hoặc dự đốn thống kê) mơ hình hĩa dữ liệu theo cách giải thích cho sự ngẫu nhiên và khơng chắc chắn trong quan sát và được sử dụng để rút ra suy luận về quá trình hoặc dân số dưới cuộc điều tra.

2.1.2. MACHINE LEARNING

Machine learning (máy học): điều tra cách máy tính cĩ thể học (hoặc cải thiện

hiệu suất của chúng) dựa trên dữ liệu. Một lĩnh vực nghiên cứu chính là dành cho các chương trình máy tính tự động học cách nhận ra các mẫu phức tạp và đưa ra quyết định thơng minh dựa trên dữ liệu. Ví dụ, một vấn đề học máy điển hình là lập trình máy tính để nĩ cĩ thể tự động nhận dạng mã bưu điện viết tay trên thư sau khi học từ một tập hợp các ví dụ.

Học máy là một ngành học đang phát triển nhanh chĩng. Ở đây, chúng tơi minh họa các vấn đề cổ điển trong học máy cĩ liên quan nhiều đến khai thác dữ liệu:

 Supervised learning (Học tập cĩ giám sát): về cơ bản là một từ đồng nghĩa với

phân loại. Sự giám sát trong học tập đến từ các ví dụ được gắn nhãn trong tập dữ liệu đào tạo. Ví dụ: trong vấn đề nhận dạng mã bưu chính, một tập hợp các hình ảnh mã bưu chính viết tay và các bản dịch tương ứng cĩ thể đọc được bằng máy của chúng được sử dụng làm ví dụ đào tạo, trong đĩ giám sát việc học tập mơ hình phân loại.

 Unsupervised learning (Học tập khơng giám sát): về cơ bản là một từ đồng

nghĩa với phân cụm. Quá trình học tập khơng được giám sát vì các ví dụ đầu vào khơng được gắn nhãn lớp. Thơng thường, chúng tơi cĩ thể sử dụng phân cụm để khám phá các lớp trong dữ liệu. Ví dụ, học tập khơng cĩ giám sát phương thức cĩ thể lấy, làm đầu vào, một tập hợp các hình ảnh của các chữ số

viết tay. Giả sử rằng nĩ tìm thấy 10 cụm dữ liệu. Các cụm này cĩ thể tương ứng với 10 chữ số khác biệt của 0 đến 9, tương ứng. Tuy nhiên, vì dữ liệu đào tạo khơng được gắn nhãn, nên mơ hình đã học khơng thể cho chúng ta biết ý nghĩa ngữ nghĩa của các cụm được tìm thấy.

 Semi-supervised learning (Học tập bán giám sát): là một lớp kỹ thuật máy học

sử dụng của cả ví dụ được gắn nhãn và khơng được gắn nhãn khi học một mơ hình. Trong một cách tiếp cận, các ví dụ được gắn nhãn được sử dụng để tìm hiểu các mơ hình lớp và các ví dụ khơng được gắn nhãn được sử dụng để tinh chỉnh ranh giới giữa các lớp. Đối với bài tốn hai lớp, chúng ta cĩ thể nghĩ đến tập hợp những tấm gương thuộc về một lớp như những tấm gương tích cực và những tấm gương thuộc về cho lớp khác như các ví dụ phủ định. Trong Hình 1.12, nếu chúng ta khơng xem xét ví dụ khơng gắn nhãn, đường đứt nét là ranh giới quyết định phân vùng tốt nhất các ví dụ tích cực từ các ví dụ tiêu cực. Sử dụng các ví dụ khơng được gắn nhãn, chúng ta cĩ thể tinh chỉnh ranh giới quyết định thành đường liền nét. Hơn nữa, chúng tơi cĩ thể phát hiện ra rằng hai ví dụ tích cực ở gĩc trên cùng bên phải, mặc dù được gắn nhãn, nhưng cĩ thể là tiếng ồn hoặc những ngoại lệ.

 Active learning (Học tập tích cực): là một phương pháp học máy cho phép

người dùng đĩng một vai trị tích cực trong q trình học tập. Phương pháp học tập tích cực cĩ thể hỏi người dùng (ví dụ: miền chuyên gia) để gắn nhãn một ví dụ, cĩ thể từ một tập hợp các ví dụ khơng được gắn nhãn hoặc tổng hợp bởi chương trình học. Mục tiêu là tối ưu hĩa chất lượng mơ hình bằng cách tích cực thu thập kiến thức từ những người dùng con người, với một hạn chế về số lượng ví dụ họ cĩ thể được yêu cầu gắn nhãn.

.2 Bước đầu của việc tối ưu hố