.2 Bước đầu của việc tối ưu hố - XÂY DỰNG MÔ HÌNH- 123docz.net

Cĩ thể thấy cĩ nhiều điểm tương đồng giữa khai thác dữ liệu và học máy. Đối với các nhiệm vụ phân loại và phân cụm, nghiên cứu học máy thường tập trung vào độ chính xác của mơ hình. Ngồi độ chính xác, nghiên cứu khai thác dữ liệu cịn cĩ điểm mạnh nhấn mạnh vào hiệu quả và khả năng mở rộng của các phương pháp khai thác trên các tập dữ liệu lớn, cũng như các cách xử lý các loại dữ liệu phức tạp và khám phá các phương pháp thay thế mới.

2.1.3. DATABASE SYSTEMS AND DATA WAREHOUSES

Database systems research (Nghiên cứu hệ thống cơ sở dữ liệu): tập trung vào

việc tạo, duy trì và sử dụng cơ sở dữ liệu cho các tổ chức và người dùng cuối. Đặc biệt, các nhà nghiên cứu hệ thống cơ sở dữ liệu đã thiết lập các nguyên tắc được cơng nhận cao trong mơ hình dữ liệu, ngơn ngữ truy vấn, xử lý truy vấn và các phương pháp tối ưu hĩa, lưu trữ dữ liệu cũng như các phương pháp lập chỉ mục và truy cập. Cơ sở dữ liệu hệ thống thường được biết đến với khả năng mở rộng cao trong quá trình xử lý rất lớn, tương đối tập dữ liệu cĩ cấu trúc. Nhiều tác vụ khai thác dữ liệu cần xử lý các tập dữ liệu lớn hoặc thậm chí dữ liệu truyền trực tuyến nhanh, theo thời gian thực.

Do đĩ, khai thác dữ liệu cĩ thể tận dụng tốt các cơng nghệ cơ sở dữ liệu cĩ thể mở rộng để đạt được hiệu quả cao và khả năng mở rộng trên các tập dữ liệu lớn. Hơn nữa,

các tác vụ khai thác dữ liệu cĩ thể được sử dụng để mở rộng khả năng của các hệ thống cơ sở dữ liệu hiện cĩ nhằm đáp ứng những người dùng nâng cao yêu cầu phân tích dữ liệu phức tạp.

Các hệ thống cơ sở dữ liệu gần đây đã xây dựng khả năng phân tích dữ liệu cĩ hệ thống trên cơ sở dữ liệu dữ liệu sử dụng kho dữ liệu và các phương tiện khai thác dữ liệu. Một kho dữ liệu tích hợp dữ liệu cĩ nguồn gốc từ nhiều nguồn và nhiều khung thời gian khác nhau. Nĩ hợp nhất dữ liệu trong khơng gian đa chiều để tạo thành các khối dữ liệu được vật chất hĩa một phần. Khối dữ liệu mơ hình khơng chỉ tạo điều kiện cho OLAP trong cơ sở dữ liệu đa chiều mà cịn thúc đẩy khai thác dữ liệu đa chiều

2.1.4. INFORMATION RETRIEVA (Thơng tin truy xuất)

Information Retrieva: là khoa học tìm kiếm tài liệu hoặc thơng tin trong các tài

liệu. Tài liệu cĩ thể là văn bản hoặc đa phương tiện và cĩ thể nằm trên Web. Các sự khác biệt giữa truy xuất thơng tin truyền thống và hệ thống cơ sở dữ liệu là gấp đơi: Truy xuất thơng tin giả định rằng (1) dữ liệu đang tìm kiếm là khơng cĩ cấu trúc; và (2) các truy vấn được hình thành chủ yếu bởi các từ khĩa, khơng cĩ cấu trúc phức tạp (khơng giống như truy vấn SQL trong hệ thống cơ sở dữ liệu). Các phương pháp tiếp cận điển hình trong truy xuất thơng tin áp dụng các mơ hình xác suất. Ví dụ, một tài liệu văn bản cĩ thể được coi là một túi từ, tức là một tập hợp nhiều từ xuất hiện trong tài liệu. Mơ hình ngơn ngữ của tài liệu là mật độ xác suất chức năng tạo túi từ trong tài liệu. Sự giống nhau giữa hai tài liệu cĩ thể được đo lường bằng sự giống nhau giữa ngơn ngữ tương ứng của chúng các mơ hình. Hơn nữa, một chủ đề trong một tập hợp các tài liệu văn bản cĩ thể được mơ hình hĩa dưới dạng phân phối xác suất trên từ vựng, được gọi là mơ hình chủ đề. Một tài liệu văn bản, cĩ thể liên quan đến một hoặc nhiều chủ đề, cĩ thể được coi là sự pha trộn của nhiều mơ hình chủ đề. Bằng cách tích hợp các mơ hình truy xuất thơng tin và kỹ thuật khai thác dữ liệu.

2.1.5. DATA CLEANING

Data Cleaning (làm sạch dữ liệu): Dữ liệu trong thế giới thực cĩ xu hướng khơng

đầy đủ, lộn xộn và khơng nhất quán. Làm sạch dữ liệu, các thĩi quen cố gắng điền vào các giá trị bị thiếu, làm mịn nhiễu trong khi xác định các ngoại lệ và đúng sự khơng nhất

2.2. THUẬT TỐN K-MEAN

K-Means Clustering là một thuật tốn học khơng giám sát được sử dụng để giải quyết các vấn đề phân cụm trong học máy hoặc khoa học dữ liệu. Cùng với việc triển khai phân cụm k-mean trong Python.

Để nhĩm các tập dữ liệu khơng được gắn nhãn thành các cụm khác nhau. Ở đây K xác định số lượng cụm được xác định trước cần được tạo trong quá trình này, như nếu K = 2, sẽ cĩ hai cụm, và đối với K = 3, sẽ cĩ ba cụm, v.v.

Nĩ cho phép phân cụm dữ liệu thành các nhĩm khác nhau và một cách thuận tiện để tự khám phá các danh mục của nhĩm trong tập dữ liệu chưa được gắn nhãn mà khơng cần bất kỳ khĩa đào tạo nào.

Nĩ là một thuật tốn dựa trên centroid, trong đĩ mỗi cụm được liên kết với một centroid. Mục đích chính của thuật tốn này là giảm thiểu tổng khoảng cách giữa điểm dữ liệu và các cụm tương ứng của chúng.

Thuật tốn lấy tập dữ liệu khơng được gắn nhãn làm đầu vào, chia tập dữ liệu thành k-số cụm và lặp lại quá trình cho đến khi nĩ khơng tìm thấy cụm tốt nhất. Giá trị của k nên được xác định trước trong thuật tốn này.

Thuật tốn phân cụm k- mean chủ yếu thực hiện hai tác vụ:

 Xác định giá trị tốt nhất cho K tâm điểm hoặc trọng tâm bằng một quy trình lặp lại.

 Gán mỗi điểm dữ liệu cho trung tâm k gần nhất của nĩ. Những điểm dữ liệu gần trung tâm k cụ thể sẽ tạo ra một cụm.

Do đĩ mỗi cụm cĩ các điểm dữ liệu với một số điểm chung và nĩ nằm cách xa các cụm khác.