đồ án môn học khai phá dữ liệu ứng dụng rattle gui để thực hiện khai phá dữ liệu trong dữ liệu bán xe

TRÍCH YẾUKhai phá dữ liệu data mining “Data mining” chính là quá trình đi sâu vào bộ dữliệu để phân tích và tìm kiếm các chi tiết, giá trị ẩn bên trong từng dữ liệu, hay cụ thể là muốn x

CƠ SỞ LÝ THUYẾT

Giới thiệu về khai phá dữ liệu

Data mining – khai phá dữ liệu, là một tập hợp, một hệ thống các phương pháp tính toán, thuật toán được áp dụng cho các cơ sở dữ liệu lớn và phức tạp mục đích loại bỏ các chi tiết ngẫu nhiên, chi tiết ngoại lệ, khám phá các mẫu, mô hình, quy luật tiềm ẩn, các thông tin có giá trị trong bộ dữ liệu Data mining là thành quả công nghệ tiên tiến ngày nay, là quá trình khám phá các kiến thức vô giá bằng cách phân tích khối lượng lớn dữ liệu đồng thời lưu trữ chúng ở nhiều cơ sở dữ liệu khác nhau”

Khai thác dữ liệu chính là là trích xuất thông tin từ các bộ dữ liệu khổng lồ Nói cách khác, khai thác dữ liệu là quy trình khai thác, tiếp thu kiến thức từ dữ liệu Chính vì vậy Data mining được ứng dụng vào rất nhiều lĩnh vực khác nhau, bạn có thể sử dụng thông tin này để tăng doanh thu, cắt giảm chi phí, cải thiện mối quan hệ với khách hàng, giảm rủi ro và hơn thế nữa

Nguồn dữ liệu Big Data là nguồn lực quan trọng của mỗi tổ chức ngoài nguồn nhân lực và tài chính Nhưng để tận dụng hiệu quả dữ liệu để đạt được giá trị trong kinh doanh, trong sản xuất, thì Data mining là công cụ không thể thiếu, nó giúp chúng ta hiểu được các tập dữ liệu đang thể hiện cái gì, đang cung cấp các thông tin, kiến thức hữu ích nào.Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán Hơn nữa, Data Mining không chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.

Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo Một số tính năng chính của Data Mining:

 Dự đoán các mẫu dựa trên xu hướng trong dữ liệu.

 Tính toán dự đoán kết quả

 Tạo thông tin phản hồi để phân tích

 Tập trung vào cơ sở dữ liệu lớn hơn.

 Phân cụm dữ liệu trực quan

2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh

Ngày nay Đối với nhiều doanh nghiệp, quá trình này dần đóng vai trò chủ chốt trong sự thành bại của doanh nghiệp Bởi việc phân tích và thấu hiểu những dữ liệu sẵn có sẽ giúp doanh nghiệp hiểu được các sai lầm trong quá khứ và tìm ra phương hướng giải quyết, đồng thời khám phá ra những cơ hội mới để phát triển doanh nghiệp Và thay vì chỉ đưa ra quyết định dựa trên cảm tính hay kinh nghiệm phán đoán, doanh nghiệp sẽ có thêm cơ sở rất trực quan và khoa học để đưa ra các quyết định đúng đắn hơn

Khai phá dữ liệu được các công ty sử dụng để biến dữ liệu thô thành thông tin hữu ích Bằng cách sử dụng phần mềm để tìm kiếm các mẫu trong một loạt dữ liệu lớn, các doanh nghiệp có thể tìm hiểu thêm về khách hàng giúp doanh nghiệp có thể phân tích dữ liệu về nhân khẩu học (độ tuổi, giới tính, thu nhập…), về hành vi mua hàng, lịch sử giao dịch của mình để phát triển các chiến lược tiếp thị hiệu quả hơn, tăng doanh số bán hàng và giảm chi phí Nó rút ra thông tin từ các tập dữ liệu và so sánh nó để giúp doanh nghiệp đưa ra quyết định Khai phá dữ liệu phụ thuộc vào việc thu thập dữ liệu, lưu trữ và xử lý máy tính hiệu quả

Các doanh nghiệp sử dụng khai phá dữ liệu có thể có lợi thế cạnh tranh, hiểu rõ hơn về khách hàng của họ, dữ liệu có thể là hành vi của khách hàng tiềm năng bao gồm tương tác trên fanpage, feedback, tin nhắn, số lần ghé thăm website… Các kênh tiếp cận của khách hàng vô cùng đa dạng khiến quá trình thu thập và phân tích dữ liệu đòi hỏi sự bài bản, qua đó giúp doanh nghiệp nắm bắt xu hướng mới của thị trường, khám phá thị trường tiềm năng mới lý tưởng để xâm nhập.Các ngành khác nhau sẽ có những lợi ích khác nhau từ phân tích dữ liệu của họ Một số ngành đang tìm kiếm những cách tốt nhất để có được khách hàng mới, những ngành khác đang tìm kiếm các kỹ thuật tiếp thị mới và những ngành khác đang làm việc để cải thiện hệ thống của họ Quá trình khai thác dữ liệu là thứ mang lại cho các doanh nghiệp cơ hội và sự hiểu biết về cách đưa ra quyết định, phân tích thông tin của họ và tiến lên phía trước và phân tích dữ liệu giúp doanh nghiệp xây dựng được mối quan hệ bền vững vì phân tích dữ liệu giúp doanh nghiệp dự báo, ngăn chặn các vấn đề từ phía khách hàng trước khi chúng xảy ra, từ đó xây dựng mối quan hệ khách hàng bền vững Công cụ khai phá dữ liệu dự đoán xu hướng và hành vi tương lai, cho phép các doanh nghiệp tạo ra những quyết định sáng tạo, theo hướng tri thức Các phân tích tương lai được cung cấp bởi việc khai thác dữ liệu từ các sự kiện quá khứ được cung cấp bởi các công cụ cập nhật Công cụ khai thác dữ liệu có thể trả lời các câu hỏi kinh doanh tốn thời gian để giải quyết.

2.1.3 Quy trình khai phá dữ liệu

Trong quá trình này, các mục tiêu kinh doanh và khai phá dữ liệu được thiết lập.

 Thứ nhất, cần xác định rõ và hiểu kỹ càng về mục tiêu kinh doanh của mình là gì và khách hàng là những đối tượng nào khách hàng nào sẽ mua sản phẩm khách hàng naod tiềm năng sẽ mua sản phẩm Bạn cần xác định những gì khách hàng của bạn cần và muốn sử hữu và những mặt hàng nào họ sẽ sẵn sàng để mua.

 Xem xét kỹ lưỡng kịch bản cũng như quy trình khai phá dữ liệu hiện tại Các yếu tố nguồn lực, giả định, ràng buộc và các yếu tố quan trọng khác

 Xác định rõ và sử dụng mục tiêu kinh doanh và kịch bản của hiện tại một cách phù hợp chính xác và linh hoạt, xác định mục tiêu khai phá dữ liệu.

 Một kế hoạch khai phá dữ liệu được cho là tốt khi rất chi tiết rõ ràng dễ hiểu và cần được phát triển để hoàn thành cả mục tiêu kinh doanh và khai phá dữ liệu.

Trong quá trình này, kiểm tra bộ dữ liệu sẽ được thực hiện để kiểm tra xem dữ liệu đó có phù hợp với các mục tiêu khai phá dữ liệu hay không.

 Thứ nhất, dữ liệu được thu thập từ nhiều nguồn dữ liệu có sẵn trong tổ chức.

 Các nguồn dữ liệu này có thể bao gồm nhiều cơ sở dữ liệu, bộ lọc phẳng hoặc khối dữ liệu Có những vấn đề như đối sánh đối tượng và tích hợp lược đồ có thể phát sinh trong quá trình tích hợp dữ liệu Đây là một quá trình khá phức tạp và phức tạp vì dữ liệu từ nhiều nguồn khác nhau khó có thể khớp dễ dàng Nguồn dữ liệu Big Data là nguồn lực quan trọng của mỗi tổ chức ngoài nguồn nhân lực và tài chính Nhưng để tận dụng hiệu quả dữ liệu để đạt được giá trị trong kinh doanh, trong sản xuất, thì Data mining là công cụ không thể thiếu, nó giúp chúng ta hiểu được các tập dữ liệu đang thể hiện cái gì, đang cung cấp các thông tin, kiến thức hữu ích nào Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán Hơn nữa, Data Mining không chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.

 Tiếp theo, chúng ta tìm kiếm các thuộc tính của dữ liệu thu được Một cách tốt để khám phá dữ liệu là trả lời các câu hỏi khai phá dữ liệu (được quyết định trong giai đoạn kinh doanh) bằng cách sử dụng các công cụ truy vấn, báo cáo và trực quan hóa.

 Dựa trên kết quả của truy vấn, chất lượng dữ liệu phải được xác định chắc chắn Dữ liệu bị thiếu nếu có nên được lấy lại.

2.1.3.3 Chuẩn bị dữ liệu và tiền xử lý dữ liệu

Trong qui trình khai phá dữ liệu, quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng dữ liệu (quality of the data) và do đó, cải thiện chất lượng của kết quả khai phá có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể Tiền xử lý dữ liệu là một bước không thể thiếu trong khai phá dữ liệu vì như bạn đã biết, dữ liệu là một phần rất quan trọng, ảnh hưởng trực tiếp tới việc khai phá Do vậy, tiền xử lý dữ liệu trước khi đưa nó vào data mining model là rất quan trọng, giúp loại bỏ hoặc bù đắp những dữ liệu còn thiếu Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như: Chọn các thuộc tính phù hợp với mô hình, Lọc các mẫu (instances, patterns) dữ liệu cho mô hình Từ đó năng cao được chất lượng dữ liệu.

 Chất lượng dữ liệu (data quality)

 Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực

 Tính hiện hành (currency/timeliness): giá trị được ghi nhận không bị lỗi thời

 Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biến/thuộc tính đều được ghi nhận

 Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp.

Các kỹ thuật tiền xử lý dữ liệu :

 Làm sạch dữ liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise), hiệu chỉnh những phần dữ liệu không nhất quán (correct data inconsistencie):

 Tóm tắt hoá dữ liệu: nhận diện đặc điểm chung của dữ liệu và sự hiện diện của nhiễu hoặc các phần tử kì dị (outliers)

 Xử lý dữ liệu bị thiếu (missing data)

 Xử lý dữ liệu bị nhiễu (noisy data)

 Tích hợp dữ liệu (data integration): trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào một kho dữ liệu

 Tích hợp lược đồ (schema integration) và so trùng đối tượng (object matching)

 Vấn đề dư thừa (redundancy)

 Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and resolution of data value conflicts)

 Biến đổi dữ liệu (data transformation): chuẩn hoá dữ liệu (data normalization)

 Làm trơn dữ liệu (smoothing)

 Kết hợp dữ liệu (aggregation)

 Tổng quát hóa dữ liệu (generalization)

 Chuẩn hóa dữ liệu (normalization)

 Xây dựng thuộc tích (attribute/feature construction)

Kho dữ liệu

Kiến trúc luồng dữ liệu là cách dữ liệu được sắp xếp trong mỗi kho dữ liệu và cách lưu trữ dữ liệu được thiết kế để phản ánh các quy trình kinh doanh Hoạt động tạo ra kiến trúc dữ liệu được gọi là mô hình hóa dữ liệu.

 Các kho lưu trữ dữ liệu (data stores) là những thành phần quan trọng của kiến trúc luồng dữ liệu.

 Data store là một hoặc nhiều cơ sở dữ liệu hoặc tệp chứa dữ liệu của kho dữ liệu (data warehouse), được sắp xếp theo một định dạng cụ thể và tham gia vào các quy trình kho dữ liệu.

Dựa vào khả năng truy cập của người dùng, có thể phân loại data store thành ba loại:

 A user-facing data store: là data store có sẵn cho người dùng cuối và được truy vấn bởi người dùng cuối và ứng dụng người dùng cuối.

 An internal data store: là data stores được sử dụng nội bộ bởi các thành phần kho dữ liệu để tích hợp, làm sạch, khai thác, và chuẩn bị dữ liệu, và không mở cho truy vấn bởi người dùng cuối và các ứng dụng của người dùng cuối.

 A hybrid data store: được sử dụng cho cả cơ chế kho dữ liệu nội bộ và truy vấn bởi người dùng cuối và các ứng dụng người dùng cuối.

 Một data store chính là kho dữ liệu người dùng hoặc dữ liệu hỗn hợp có chứa một bộ dữ liệu hoàn chỉnh trong kho dữ liệu, bao gồm tất cả các phiên bản và tất cả dữ liệu lịch sử.

Trong kiến trúc luồng dữ liệu, toàn bộ hệ thống phần mềm được xem như một chuỗi các phép biến tập dữ liệu đầu vào liên tiếp, nơi dữ liệu và hoạt động độc lập với nhau Dữ liệu đi vào hệ thống và sau đó chảy qua các mô-đun tại một thời điểm cho đến khi chúng được gán cho một số đích cuối cùng (đầu ra hoặc kho dữ liệu).

Các kết nối giữa các thành phần hoặc mô-đun có thể được thực hiện dưới dạng luồng I / O, bộ đệm I / O, kiến trúc ống hoặc các loại kết nối khác Mục tiêu chính của phương pháp này là đạt khả năng tái sử dụng và sửa đổi Phù hợp cho các ứng dụng liên quan đến một loạt các phép tính hoặc biến đổi dữ liệu độc lập được xác định rõ trên đầu vào và đầu ra được xác định có trật tự như trình biên dịch và các ứng dụng xử lý dữ liệu kinh doanh Có ba loại trình tự thực thi giữa các mô-đun:

 Kiến trúc kiểm soát quy trình

 Kho dữ liệu có rất nhiều loại kiến trúc. o đơn giản nhất: chỉ gồm một kho dữ liệu đầu cuối o rất phức tạp: bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn

 Tuy nhiên, hầu hết các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau:

 Kiến trúc DDS đơn (single DDS)

Kiến trúc DDS đơn là một trong những dạng kiến trúc đơn giản nhất của kho dữ liệu Kiến trúc này có thành phần chính là một kho dữ liệu trung tâm Dữ liệu từ nhiều hệ thống nguồn được nạp vào vùng xử lí thông qua một gói ETL Gói ETL này sẽ rút trích dữ liệu từ nhiều nguồn khác nhau, thực hiện một số phép biến đổi dữ liệu đơn giản Dữ liệu sau đó được chứa trong vùng xử lí.

Hình 2-1: Kiến trúc DDS đơn

Dữ liệu trong vùng xử lí sau khi được xử lí sơ bộ sẽ được biến đổi thông qua một gói ETL khác để đưa vào kho dữ liệu đầu cuối Quá trình biến đổi này bao gồm nhiều công đoạn:

 Quản lí chất lượng và lịch sử thay đổi của dữ liệu

Kho dữ liệu đầu cuối chứa những dữ liệu đã được biến đổi, chuẩn hoá, và lưu trữ dưới dạng mô hình đa chiều, sẵn sàng phục vụ cho các ứng dụng đầu cuối. Ưu điểm:

 Ít công đoạn xử lí

 Thuận lợi khi xây dựng những kho dữ liệu nhỏ

 Không hỗ trợ việc tạo ra nhiều kho dữ liệu phục vụ cho nhiều mục đích khác nhau dựa trên dữ liệu sẵn có Nếu có nhu cầu chỉ cần sử dụng một phần của kho dữ liệu (data-mart) thì phải xây dựng một gói ETL khác phục vụ quá trình này

 Không tái sử dụng được gói ETL đã làm Mỗi một quy trình rút trích-biến đổi-nạp cho từng thành phần trong kho dữ liệu đầu cuối được thực hiện độc lập Việc này gây khó khăn cho việc xây dựng những kho dữ liệu lớn.

Hình 2-2: Kiến trúc NDS+DDS Đây là một kiến trúc khá phổ biến Kiến trúc này tương tự như kiến trúc DDS đơn, nhưng có thêm một vùng chứa dữ liệu trung gian là vùng chứa dữ liệu chuẩn hoá NDS

Dữ liệu sau khi được làm sạch, thay vì đưa thẳng vào kho dữ liệu đầu cuối, nó được lưu trong vùng chứa dữ liệu trung gian.

Vùng chứa dữ liệu trung gian đóng vai trò như là một cơ sở dữ liệu tập trung, đã được chuẩn hoá, bao gồm cả dữ liệu lịch sử

Việc nạp vào kho dữ liệu đầu cuối sẽ không cần qua công đoạn làm sạch và quản lí chất lượng dữ liệu nữa 2.2 Kiến trúc NDS+DDS 62 Ưu điểm:

 Lưu trữ dữ liệu tập trung đã được làm sạch.

 Chứa dữ liệu lịch sử

 Sẵn sàng cho việc nạp vào nhiều kho dữ liệu đầu cuối

 Tái sử dụng được các gói ETL

 Tốn thêm không gian lưu trữ

 Thời gian thực hiện một chu kì nạp dữ liệu lâu hơn so với kiến trúc DDS đơn

 Vùng chứa dữ liệu trung gian không được tận dụng vào mục đích khác.

Hình 2-3: Kiến trúc ODS+DDS

Kiến trúc này có nhiều điểm tương đồng với kiến trúc NDS+DDS Như trong hình vẽ, thay vì sử dụng một vùng dữ liệu chuẩn hoá làm vùng dữ liệu trung gian, người ta sử dụng một vùng dữ liệu hoạt động thay cho nó Vùng dữ liệu hoạt động này cũng là một cơ sở dữ liệu dạng chuẩn hoá cao Tuy nhiên, nó không lưu dữ liệu lịch sử Vùng dữ liệu hoạt động có cấu trúc nghiêng về dạng cơ sở dữ liệu phục vụ giao tác (OLTP) nhiều hơn Nó đóng vai trò như là một cơ sở dữ liệu tập trung mà ở đó, ứng dụng đầu cuối cho phép khai thác trên nó Ưu điểm:

 Lưu trữ dữ liệu tập trung đã được làm sạch

 Tận dụng làm cơ sở dữ liệu tập trung phục vụ giao tác cho ứng dụng đầu cuối

 Không chứa dữ liệu lịch sử

 Các gói ETL để đưa dữ liệu từ vùng dữ liệu hoạt động vào kho dữ liệu đầu cuối phức tạp hơn

 Vùng dữ liệu hoạt động có thể bị gián đoạn khi nạp kho dữ liệu

 Không tái sử dụng được các gói ETL.

2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI

Các phương pháp trong khai phá dữ liệu

Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luуện à những giá trị haу haу là nhãn ᴠ ủa lớp trong một thuộ tính phân lớp à ѕử dụng nó trong iệ phân lớp dữ liệu mới ᴄ ᴄ ᴠ ᴠ ᴄ

Phân lớp ũng là tiên đoán loại lớp ủa nhãn Bên ạnh kĩ thuật phân lớp ó một hình ᴄ ᴄ ᴄ ᴄ thứ tương tự là kĩ thuật tiên đoán , kĩ thuật tiên đoán khá ới phân lớp ở hỗ phân lớp ᴄ ᴄ ᴠ ᴄ hỉ liên quan đến tiên đoán loại lớp ủa nhãn òn kĩ thuật tiên đoán mô hình những hàm ᴄ ᴄ ᴄ đánh giá liên tụ Kĩ thuật phân lớp đượ tiến hành bao gồm 2 bướ : Xâу dựng mô hình ᴄ ᴄ ᴄ à ѕử dụng mô hình Xâу dựng mô hình : là mô tả một tập những lớp đượ định nghĩa ᴠ ᴄ trướ trong đó : mỗi bộ hoặ mẫu đượ gán thuộ ề một lớp đượ định nghĩa trướ như ᴄ ᴄ ᴄ ᴄ ᴠ ᴄ ᴄ là đượ хát định bởi thuộ tính nhãn lớp , tập hợp ủa những bộ đượ ѕử dụng trong iệ ᴄ ᴄ ᴄ ᴄ ᴠ ᴄ ѕử dụng mô hình đượ gọi là tập huấn luуện Mô hình đượ biểu diễn là những luật phân ᴄ ᴄ lớp , âу quуết định à những ông thứ toán họ Sử dụng mô hình : Việ ѕử dụng mô hình phụ ụ ho mụ đí h phân lớp dữ liệu trong tương lai hoặ phân lớp ho những đối ᴄ ᴠ ᴄ ᴄ ᴄ ᴄ ᴄ tượng hưa biết đến Trướ khi ѕử dụng mô hình người ta thường phải đánh giá tính hính ᴄ ᴄ ᴄ хát ủa mô hình trong đó : nhãn đượ biết ủa mẫu kiểm tra đượ ѕo ѕánh ới kết quả phânᴄ ᴄ ᴄ ᴄ ᴠ lớp ủa mô hình , độ hính хá là phần trăm ủa tập hợp mẫu kiểm tra mà phân loại đúng ᴄ ᴄ ᴄ ᴄ bởi mô hình , tập kiểm tra là độ lập ới tập huấn luуện Phân lớp là một hình thứ họ ᴄ ᴠ ᴄ ᴄ đượ giám ѕát tứ là : tập dữ liệu huấn luуện ( quan ѕát , thẩm định )ᴄ ᴄ đi đôi ới những ᴠ nhãn hỉ định lớp quan ѕát , những dữ liệu mới đượ phân lớp dựa trên tập huấn luуện ᴄ ᴄ Ngượ lại ới hình thứ họ đượ giám ѕát là hình thứ họ không đượ giám ѕát lú đó ᴄ ᴠ ᴄ ᴄ ᴄ ᴄ ᴄ ᴄ ᴄ nhãn lớp ủa tập dữ liệu huấn luуện là không đượ biết đến ᴄ ᴄ

 Các thuật toán khai phá dữ liệu để phân lớp:

Câу quуết định là một flo - hart giống ấu trú âу , nút bên trong biểu thị một ᴡ ᴄ ᴄ ᴄ ᴄ kiểm tra trên một thuộ tính , nhánh biểu diễn đầu ra ủa kiểm tra , nút lá biểu diễn nhãn ᴄ ᴄ lớp hoặ ѕự phân bố ủa lớp Việ tạo âу quуết định bao gồm 2 giai đoạn : Tạo âу à ᴄ ᴄ ᴄ ᴄ ᴄ ᴠ tỉa âу Để tạo âу ở thời điểm bắt đầu tất ả những í dụ huấn luуện là ở gố ѕau đó ᴄ ᴄ ᴄ ᴠ ᴄ phân hia í dụ huấn luуện theo á h đệ qui dựa trên thuộ tính đượ họn Việ tỉa âуᴄ ᴠ ᴄ ᴄ ᴄ ᴄ ᴄ ᴄ ᴄ là хát định à хóa những nhánh mà ó phần tử hỗn loạn hoặ những phần tử nằm ngoài ᴠ ᴄ ᴄ (những phần tử không thể phân ào một lớp nào đó) Việ ѕử dụng âу quуết định như ᴠ ᴄ ᴄ ѕau : Kiểm tra những giá trị thuộ tính ủa mẫu đối ới âу quуết địnhᴄ ᴄ ᴠ ᴄ

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (Series Of Rules) Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết (unseen data).

Cây quyết định được coi là thuật toán khai thác dữ liệu mới nhất Chúng giúp phân tích phần nào của cơ sở dữ liệu thực sự hữu ích hoặc phần nào chứa giải pháp cho vấn đề của bạn Nó là một công cụ hỗ trợ sử dụng biểu đồ hoặc mô hình quyết định và những hậu quả có thể xảy ra Điều đó bao gồm kết quả của các sự kiện may rủi, chi phí tài nguyên và tiện ích Từ góc độ quyết định, cây quyết định là số lượng câu hỏi ít nhất phải được thừa nhận để đánh giá khả năng đưa ra quyết định chính xác Bằng cách xem xét các yếu tố dự đoán hoặc giá trị cho mỗi lần phân tách trong cây, bạn có thể rút ra một số ý tưởng hoặc tìm câu trả lời cho các câu hỏi bạn đã đặt ra Cây quyết định cho phép bạn tiếp cận chướng ngại vật trong một hành vi có cấu trúc và có hệ thống. Đặc điểm của cây quyết định: là một cây có cấu trúc, trong đó:

 Root (Gốc): Là nút trên cùng của cây

 Node nội (trong): nút trung gian trên một thuộc tính đơn (hình Oval)

 Nhánh: Biểu diễn các kết quả của kiểm tra trên nút

 Node lá: Biểu diễn lớp hay sự phân phối lớp (hình vuông hoặc chữ nhật)

Hình 2-7:Đặc điểm của cây ra quyết định

Bộ phân lớp Bayes là một giải thuật thuộc lớp giải thuật thống kê, nó có thể dự đoán xác suất của một phần tử dữ liệu thuộc vào một lớp là bao nhiêu Phân lớp Bayes được dựa trên định lý Bayes (định lý được đặt theo tên tác giả của nó là Thomas Bayes)

Một số ví dụ thực tế về phân loại Naive Bayes là:

 Để lọc một email là thư rác hoặc không phải là thư rác

 Xếp hạng một bài báo về công nghệ, chính trị hoặc thể thao

 Được sử dụng cho phần mềm nhận dạng khuôn mặt Ví dụ

Phân các bệnh nhân thành 2 lớp ung thư và không ung thư Giả sử xác suất để một người bị ung thư là 0.008 tức là P(cancer) = 0.008; và P(nocancer) = 0.992 Xác suất để bệnh nhân ung thư có kết quả xét nghiệm dương tính là 0.98 và xác suất để bệnh nhân không ung thư có kết quả dương tính là 0.03 tức là P(+/cancer) = 0.98, P(+/nocancer) 0.03 Bây giờ giả sử một bệnh nhân có kết quả xét nghiệm dương tính Ta có:

P(+/canncer)P(cancer) = 0.98 * 0.008 = 0.0078 P(+/nocancer)P(nocancer) = 0.03 * 0.992 = 0.0298 Như vậy, P(+/nocancer)P(nocancer) >> P(+/cancer)P(cancer).

Do đó ta xét đoán rằng, bệnh nhân là không ung thư.

 Giả định độc lập: hoạt động tốt cho nhiều bài toán/miền sữ liệu và ứng dụng. Đơn giản nhưng đủ tốt để giải quyết nhiều bài toán như phân lớp văn bản, lọc spam,

 Cho phép kết hợp tri thức tiền nghiệm (prior knowledge) và dữ liệu quan sát được (obserweddata).

Tốt khi có sự chệnh lệch số lượng giữa các lớp phân loại.

 Huấn luyện mô hình (ước lượng tham số) dễ và nhanh.

 Giả định độc lập (ưu điểm cũng chính là nhược điểm) hầu hết các trường hợp thực tế trong đó có các thuộc tính trong các đối tượng thường phụ thuộc lẫn nhau.

 Vấn đề zero (đã nêu cách giải quyết ở phía trên)

 Mô hình không được huẩn luyện bằng phượng pháp tối ưu mạnh và chặt chẽ.

Tham số mủa mô hình là các ước lượng xác suất điều kiện đơn lẻ.

Không tính đến sự tương tác giữa các ước lượng này.

2.3.1.3 Phân lớp với K phần tử láng giềng gần nhất- K-Nearest Neighbors

Thuật toán K láng giềng gần nhất trong tiếng Anh là K-Nearest Neighbor, viết tắt là KNN.Thuật toán K láng giềng gần nhất là một kĩ thuật học có giám sát (supervised learning) dùng để phân loại quan sát mới bằng cách tìm điểm tương đồng giữa quan sát mới này với dữ liệu sẵn có.

 K là số nguyên dương được xác định trước khi thực hiện thuật toán

 Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng.

 Thuật toán K-NN được mô tả như sau:

Hình 2-8:Mô tả thuật toán K-Nearest Neighbors

 Xác định giá trị tham số K (số láng giềng gần nhất)

 Tính khoảng cách giữa đối tượng cần phân lớp training data (thường sử dụng khoảng các Euclidean)

 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với đối tượng phân lớp

 Lấy tất cả các lớp của K láng giềng gần nhất.

 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho Query Point

 Training Data được mô tả bởi dấu (+) và dấu (-)

 Đối tượng cần được xác định lớp cho nó (Query point) là hình tròn đỏ

=> Nhiệm vụ của chúng ta là ước lượng (hay dự đoán) lớp của Query point dựa vào việc lựa chọn số láng giềng gần nhất với nó Nói cách khác chúng ta muốn biết liệu Query Point sẽ được phân vào lớp (+) hay lớp (-).

2.3.1.4 Phân lớp dữ liệu với mạng Neural

Neural Network đọc tiếng việt là Mạng nơ-ron nhân tạo, đây là một chuỗi những thuật toán được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu Thông qua việc bắt bước cách thức hoạt động từ não bộ con người Nói cách khác, mạng nơ ron nhân tạo được xem là hệ thống của các tế bào thần kinh nhân tạo Đây thường có thể là hữu cơ hoặc nhân tạo về bản chất Neural Network có khả năng thích ứng được với mọi thay đổi từ đầu vào Do vậy, nó có thể đưa ra được mọi kết quả một cách tốt nhất có thể mà bạn không cần phải thiết kế lại những tiêu chí đầu ra Khái niệm này có nguồn gốc từ trí tuệ nhân tạo, đang nhanh chóng trở nên phổ biến hơn trong sự phát triển của những hệ thống giao dịch điện tử

Mạng Neural Network là sự kết hợp của những tầng perceptron hay còn gọi là perceptron đa tầng Và mỗi một mạng Neural Network thường bao gồm 3 kiểu tầng là:

 Tầng input layer (tầng vào): Tầng này nằm bên trái cùng của mạng, thể hiện cho các đầu vào của mạng

 Tầng output layer (tầng ra): Là tầng bên phải cùng và nó thể hiện cho những đầu ra của mạng.

 Tầng hidden layer (tầng ẩn): Tầng này nằm giữa tầng vào và tầng ra nó thể hiện cho quá trình suy luận logic của mạng

Hình 2-1:Kiến trúc mạng Neural network

2.3.2 Phương pháp phân/gom cụm

Phân tích cụm (hay phân nhóm, gom cụm, tiếng Anh: cluster analysis) là một tác vụ gom nhóm một tập các đối tượng theo cách các đối tượng cùng nhóm (gọi là cụm, cluster) sẽ có tính giống nhau (theo các đặc tính nào đó) hơn so với các đối tượng ngoài nhóm hoặc thuộc các nhóm khác Phân tích cụm là một tác vụ chính của khai phá dữ liệu, và là một kỹ thuật phổ biến trong thống kê phân tích dữ liệu, được dùng trong nhiều lĩnh vực, bao gồm nhận dạng mẫu, phân tích ảnh, truy hồi thông tin, tin sinh học, nén dữ liệu, đồ họa máy tính và học máy.

Mục đích của gom cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Các thuật toán gom cụm (Clustering Algorithms) đều sinh ra các cụm (Clusters) Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân tích gom cụm, điều này phụ thuộc vào mục đích của gom cụm như:

Giới thiệu về phần mềm Rattle

Khai thác dữ liệu kết hợp các khái niệm, công cụ và thuật toán nhịp điệu từ học máy và thống kê cho phân tích các tập dữ liệu rất lớn, để có được thông tin chi tiết, hiểu biết và kiến thức có thể hành động.

Các sản phẩm khai thác dữ liệu nguồn đóng có facili- kiểm tra việc sử dụng khai thác dữ liệu ở nhiều tổ chức-hàng tấn Các sản phẩm này cung cấp khả năng sử dụng dễ dàng điều đó khiến họ trở nên hấp dẫn với nhiều dữ liệu mới thợ mỏ trong một thị trường đang tuyệt vọng tìm kiếm các mức độ của kỹ năng phân tích.

R phù hợp một cách lý tưởng với nhiều nhiệm vụ khó khăn kết hợp với khai thác dữ liệu R cung cấp một bề rộng và chuyên sâu về tính toán thống kê ngoài những gì có sẵn- có thể trong các sản phẩm nguồn đóng thương mại Tuy nhiên, R lạichính, chủ yếu, một ngôn ngữ lập trình cho nhà thống kê có tay nghề cao và ngoài tầm với của nhiều.

Rattle (Công cụ phân tích R để học một cách dễ dàng) là một ứng dụng khai thác dữ liệu đồ họa được viết bằng và cung cấp một con đường vào R (Williams , 2009b ) Nó đã được phát triển đặc biệt để dễ dàng chuyển đổi từ khai thác dữ liệu cơ bản, nhưng nhất thiết phải được cung cấp bằng GUI, để phân tích dữ liệu phức tạp bằng cách sử dụng pow- ngôn ngữ thống kê thông minh Rattle là một giao diện phổ biến cho các dữ liệu khai thác sử dụng R Nó trình bày tóm tắt thống kê và trực quan dữ liệu, biến đỏi dữ liệu để có thể dễ dàng lập mô hình , xây dựng cả mô hình học máy không giám sát và có giám sát từ dữ liệu, trình bày hiệu suất của mô hình bằng đồ thị và cho điểm các bộ dữ liệu mới để triển khai.

Hình 2-15:Giao diện của Rattle Gui

Rattle gui có nhiều yếu tố khác biệt như khả năng hiển thị tốt, danh sách mô hình và kỹ thuật đánh giá phong phú

Phần mềm Rattle gui cho phép bạn:

 Hiển thị bảng dữ liệu và chọn các tính năng

 Trực quan hóa các phần tử dữ liệu

 Bạn có thể thực hiện các tác vụ khác nhau, từ hình ảnh cơ bản đến thao tác dữ liệu,chuyển đổi và khai thác dữ liệu.

 Rattle có thể chạy trên nhiều kiểu dữ liệu khác nhau.

 Phần tốt nhất và là điểm khác biệt của Rattle là nó có một số hình ảnh và đò họa Bạn có thể sử dụng nhiều loại biểu đò, hình ảnh đê thể hiện trực quan các dữ liệu

 Rattle là một nền tảng có thể được sử dụng cho hầu hết mọi loại phân tích nhưng quan trọng nhất thể hiện các hình ảnh và những đồ họa phong phú

Tuy Rattle có rất nhiều ưu điểm về tính năng và hình thức, song bên cạnh đó vẫn còn hạn chế như:

Cần cẩn thận nhiều trong khâu tiền xử lý dữ liệu vì nếu tiền xử lý dữ liệu không tốt dễ làm cho thuật toán không chạy được hoặc kết quả của thuật toán không được chính xác.

2.4.2 Cách sử dụng phần mềm Rattle

2.4.2.1.1 Cách cài đặt phần mềm

 Bước 1 : Truy cập vào link: https://cran.r-project.org/  nhấn vào Dowload R4.1.2 for Windows để dowload file cài đặt phần mềm

 Bước 2: Chạy file R-4.1.2-win.exe vừa tải xuống Thực hiện nhấn Next để tiếp tục tới các bước tiếp theo

 Bước 3: Click vào Agree để đồng ý với các điều khoản sử dụng phần mềm

 Bước 4: Có 2 chế độ lựa chọn cho người dùng: Dành cho cá nhân và dành cho bất kỳ người sử dụng nào Người dùng có thể chọn bất kỳ chế độ nào  Nhấn Next

 Bước 6: Chọn vị trí ổ đĩa cài đặt phần mềm  Nhấn Next

 Bước 7: Nhấn Install để cài đặt phần mềm  Next

 Bước 6: Nhấn Finish để hoàn thành cài đặt

* Cài dặt Rattle GuiSau khi cài đặt thành công phần mềm R , chúng ta tiến hành cài Rattle

 Bước 1: Trong giao diện chúng ta nhấn >intall.packages(“rattle”)

 Bước 2: Sau đó sẽ thiết lập tư viện RGtk2 bằng cách >intall.packages(“RGtk2”)

 Bước 3: Để hoàn tất các gói được đê suất thì sẽ cài thêm một câu lệnh là : o >install.packages(“rattle”,dependences=TRUE)

Chúng ta đã hoàn thành cài đặt và những lần truy cập sao cần bấm lệnh

>library(rattle) và rattle() để vào phần mềm rattlevà tiến hành các thao tác.

Rattle cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp ta bắt tay ngay vào phân tích dữ liệu gồm.

 Data: dùng để rút trích, biến đổi, và nạp dữ liệu

Hình 2-16: Đưa dữ liệu vào phân mềm

 Model: thực hiện cây ra quyết định

Hình 2-17: Giao diện thực hiện thuật toán cây quyết định

- Associate : thực hiện luật kết hợp

Hình 2-18: Giao diện thực hiện thuật toán luật kết hợp

- Cluster: Thực hiện luật gom cụm.

Hình 2-19: Giao diện thực hiện thuật toán phân cụm

ỨNG DỤNG PHẦN MỀM

Mô tả bài toán

 Dữ liệu được sử dụng là danh sách quản lý xe của một doanh nghiệp vào năm 2016 với 15467 dòng liệu và 19 cột như sau

Bảng 3-1: Thành phần trong dữ liệu gốc

STT Tên dữ liệu Nội dung Tập giá trị

1 ID Mã mặt hàng Numeric

2 Name Tên mặt hàng Text

3 ProductType Mã nhân viên Text

8 ID_Discount Mã khuyến mãi Categorical

11 ID_Customer Mã khách hàng Numeric

12 ID_Invoice Mã hóa đơn Numeric

13 Date Ngày sản xuất Categorical

14 ID_Department Mã bộ phận Numeric

15 Name_Branch Tên chi nhánh Text

16 ID_Branch Mã chi nhánh Numeric

Tiền xử lý dữ liệu

Đối với các dữ liệu có chứa các loại dấu như sau:

Hình 3-1: Dữ liệu ban đầu

Sẽ gây ảnh hưởng đến quá trình chạy các thuật toán trong Rattle GUI vì vậy cần loại bỏ các loại dấu bằng công cụ có sẵn trong Unikey nói cách khác là công cụ [CS+F6] bằng các bước sau đây:

- Bước 1: Cần chọn vùng chứa dữ liệu cần loại bỏ dấu (Nên chọn hết các cột dữ liệu để tránh các loại dấu như dấu nháy, phẩy, đối với dữ liệu có số dòng lớn) và copy dữ liệu đã chọn

Hình 3-2: Vùng dữ liệu được chọn

Bước 2: Chọn công cụ Unikey góc phải dưới màn hình và nhấn chuột phải

Hình 3-3: Giao diện tiện ích Unikey

- Bước 3: Chọn công cụ …[CS+F6] sẽ xuất hiện hộp thoại như bên dưới

Hình 3-4: Giao diện công cụ [CS+F6]

- Bước 4: Trong bảng mã chọn nguồn Unicode và đích Unicode, tích vào ô “Loại bỏ dấu” sau đó bấm chọn chuyển mã, khi đó dữ liệu được lưu vào khay nhớ chọn, paste dữ liệu vào vị trí bạn muốn.

Hình 3-5: Dữ liệu sau khi bỏ dấu

 Bên cạnh đó còn loại bỏ các ô trống không có chứ dữ liệu và các ô chứ dữ liệu không liên quan đến việc thực hiện khai phá dữ liệu trên Rattle GUI

Bảng dữ liệu còn 7 cột với 4675 dòng dữ liệu

Bảng 3-2: Dữ liệu sau khi loại bỏ cột

STT Tên dữ liệu Nội dung Tập giá trị

1 ID Mã mặt hàng Numeric

2 Name Tên mặt hàng Text

3 ProductType Mã nhân viên Text

4 Total Tổng giá trị Numeric

5 ID_Emp Mã nhân viên Numeric

6 ID_Invoice Mã hóa đơn Text

7 Date Ngày sản xuất Categorical

Dữ liệu sau khi đã xóa bỏ một số cột không liên quan đến khai phá dữ liệu

Hình 3-6: Dữ liệu liên quan đến khai phá

- Sau khi thêm được CSDL vào chương trình thì ta thực hiện các thuật toán có trong phần mềm:

Quá trình chạy thuật toán

Bước 1: Khởi động phần mềm RGUI Nhập các câu lệnh lần lượt theo thứ tự

Hình 3- 7: Khởi động phần mềm Bước 2: Giao diện phần mềm Rattle xuất hiện và tiến hành kết nối dữ liệu vào

- Chọn dữ liệu khai phá đã được tiền xử lý ở ô “File Name” và chọn định dạng file dữ liệu ở “Source” để phù hợp với liệu khai phá Sau đó nhấn chọn “Excute”.

Hình 3-9: Hộp thoại thêm dữ liệu

- Sau đó định dạng các loại dữ liệu và chọn target phù hợp với dữ liệu, sau đó bấm chọn “Excute” để ghi nhận lại những thay đổi định dạng so với ban đầu.

Hình 3-10: Hoàn thiện cơ sở dữ liệu

- Sau khi thêm được CSDL vào chương trình thì ta thực hiện các thuật toán có trong phần mềm:

3.3.1 Thuật toán Cây ra quyết định (Tree) Đối với thuật toán cây quyết định dữ liệu cần được tiền xử lý trướcTạo bảng dữ liệu có chứa các thuộc tính dữ liệu chính ProductType, Warranty, Acccessories, Import, Age, Class, theo hàng ngang, với mỗi trường thuộc tính là mỗi nội dung khác nhau, ví dụ như thuộc tính “ProductType” là tên các loại xe, thuộc tính

“Warranty” là chính sách bảo hàng đối với các loại xe, sản phẩm nào được bảo hành đổi trả thì được thể hiện bằng “Yes”, ngược lại là “No”, thuộc tính “Accessories” thể hiện trang bị tặng kèm khi mua xe được thể hiện bằng “Yes” và “No”, thuộc tính “Import” thể hiện xe được lắp ráp trong nước hoặc nhập khẩu nguyên chiếc ngoài nước, nếu được nhập khẩu nguyên chiếc ở nước ngoài thì hiển thị là “Yes”, ngược lại là “No”, thuộc tính “Age” thể hiện độ tuổi của khách hàng dao động từ 20-29 tuổi, 30-39 tuổi, 40-49 tuổi, 50-59 tuổi, 60-69 tuổi, 70-79 tuổi Kết quả sau khi thực hiện tiền xử ký như gồm 450 dòng.

Bảng 3-3: Dữ liệu thực hiện thuật toán cây quyết định

Sau đó, kết nối dữ liệu vừa được xử lý vào file data của phần mềm và tiến hành thực hiện thuật toán Cây ra quyết định. Để có được mô hình cây ra quyết định thì nhập dữ liệu vào hệ thống và chọn mục tiêu (target)

Hình 3-11: Thao tác thực hiện cây quyết định

- Mô hình thuật toán cây quyết định được thể hiện bên dưới

Hình 3-12: Mô hình thuật toán cây quyết định

Nhận xét: Từ mô hình trên ta có thể thấy theo tỷ lệ mua hàng của khách hàng phụ thuộc vào các yếu như độ tuổi, các loại xe có xua hướng nổi bật, chính sách bảo hành

Theo đó độ tuổi khách hàng

 Kết luận của thuật toán:

Từ mô hình được tạo ra từ thuật toán Cây ra quyết định ta có thể thấy được xu hướng cũng như thói quen mua hàng của khách hàng, ví dụ như tỷ lệ mua hàng vì chính sách mua bảo hành với chính sách bảo hành không phù hợp làm ảnh hưởng tới tỷ lệ mua hàng, làm giảm doanh số qua đó doanh nghiệp có thể điều chỉnh lại chính sách cho phù hợp.

3.3.2 Thuật toán Phân cụm (Cluster) Để thực hiện thuật toán phân cụm chọn dữ liệu và mục tiêu (target):

Hình 3-13: Mục tiêu (target) của thuật toán phân cụm

Mô hình thuật toán phân cụm được thể hiện như hình dưới đây

Hình 3-14: Mô hình thuật toán phân cụm

Nhận xét : Qua biểu đồ từ thuật toán trên, người chủ doanh nghiệp có thể nhìn thấy được Nhân viên của mình bán bao nhiêu xe dựa vào mã hóa đơn, nhân viên nào có doanh số bán hàng nhiều nhất, nhân viên nào có khả năng bán loại xe có tổng giá trị hóa đơn cao, nhân viên nào bán loại xe có tổng giá trị hóa đơn thấp nhất,v.v…

Từ các nội dung từ thuật toán trên thể hiện được, ta có thể nhận thấy thuật toán phân cụm của phần mềm giúp chủ doanh nghiệp, chủ cửa hàng có cái nhìn tổng quan về doanh thu cũng như tình hình bán hàng của doanh nghiệp một cách cụ thể, thống kê được doanh thu hàng bán được chính sách thu hút khách hàng về của hàng vào các ngày còn lại tốt hơn giúp lượng hàng hóa bán ra được ổn định đem lại lợi nhuận tối ưu cho chủ doanh nghiệp.

3.3.3 Thuật toán kết hợp (Associate)

Tiền xử lý: Đối với thuật toán này cần phải xử lý tiền dữ liệu một lần nữa để chọn thuật toán luật kế hợp Xử lý dữ liệu như sau:

- Chỉ sử dụng dữ liệu 2 cột : ID_Invoice (Mã hóa đơn) và tên phụ kiện

- Tạo bảng dữ liệu có chứa 2 trường dữ liệu chính ID_Invoice (Mã hóa đơn) và Tên phụ kiện theo hàng ngang và hàng dọc, mỗi mã hóa đơn có tên phụ kiện nào thì cột tên phụ kiện sẽ được đánh dấu là “Yes” trong hàng chứa cột tên phụ kiện tương ứng.

Kết quả thực hiện khi tiền xử lý như sau gồm 199 mã hóa đơn và 19 tên phụ kiện:

Hình 3-15: Dữ liệu tiền xử lý thuật toán kết hợp

 Để thực hiện thuật toán luật kết hợp cần đưa dữ liệu vào R thực hiện chọn mục tiêu (target) phù hợp với dữ liệu như hình

Hình 3-16: Chọn mục tiêu trong dữ liệu

 Tiến hành chạy thuật toán luật kết hợp theo các bước như hình

Hình 3-17: Tiến hành chạy thuật toán

 Để được những luật kế hợp giữa các phụ kiện tùy theo nhu cầu cần xem xét bao nhiêu phụ kiến và muốn tìm kết quả thuật toán luật kết hợp giữa các phụ kiện đó với 1 hoặc nhiều phụ kiện khác thì có điều chỉnh thông số cụ thể như sau theo hình bên dưới để tìm ra được thuật kết hợp phù hợp với mong muốn:

Hình 3-18: Chỉnh sửa thông số

 Support: Là độ hỗ trợ tối thiểu của dữ liệu, chỉ lấy luật kết hợp có độ hỗ trợ lớn hơn chỉ số tối thiểu này.

 Confidence: Là độ tin cậy tối thiểu của dữ liệu, chỉ lấy luật kết hợp có độ hỗ trợ lớn hơn chỉ số tối thiểu này.

 Min Length: Là độ dài kết hợp tối thiểu của dữ liệu, chỉ lấy luật kết hợp có độ dài kết hợp tối thiểu lớn hơn chỉ số này.

Sau khi điều chỉnh hết tất cả thông số, ta tiến hành chạy thuật toán và kết quả luật kết hợp được mô tả như bên dưới:

Hình 3- 19: Mô hình thuật toán kết hợp

Nhận xét 1 : Qua biểu đồ trên, ta có thể thấy độ kết hợp giữa các phụ kiện của hóa đơn , ví dụ như ở dòng thứ nhất, sau khi khai phá dữ liệu từ phụ kiện bằng thuật toán kết hợp thì chủ doanh nghiệp có thể thấy trường hợp khách hàng mua thêm 2 phụ kiện đi kèm xe ô tô như: Cảm biến áp suất và Máy khuếch tán (máy khuếch tán tinh dầu) thì xua hướng khách hàng sẽ mua kết hợp với phụ kiện gương cầu (gương cầu 360 xóa điểm mù) với độ tin cậy là 80%, độ hỗ trợ là 40% và độ dài kết hợp tối thiểu là 3.

Hình 3- 20: Mô hình thuật toán kết hợp

Nhận xét 2: Qua biểu đồ trên, ta có thể thấy độ kết hợp giữa các phụ kiện của hóa đơn, ví dụ như dòng thứ nhất, sau khi khai phá dữ liệu từ phụ kiện bằng thuật toán kết hợp thì chủ doanh nghiệp có thể thấy trường hợp khách hàng mua thêm 3 phụ kiện đi kèm xe ô tô như: Thảm lót cóp, Cảm biến áp suất, Máy khuếch tán thì có xua hướng khách hàng sẽ mua kết hợp với phụ kiện gương cầu với độ tin cậy 80%, độ hỗ trợ 40% và độ dài kết hợp tối thiểu là 4.

Từ các nội dung từ thuật toán trên thể hiện được, thì chủ doanh nghiệp có thể nhìn thấy các luật kết hợp khi khách hàng mua phụ kiện đi kèm theo xe giúp doanh nghiệp dễ dàng nắm bắt được tâm lý nhu cầu mua hàng của khách hàng từ đó đưa ra các chính sách hỗ trợ, giảm giá, tặng kèm, từ đó cải thiện chức năng bán hàng, nâng cao hệ thống và hạn chế những chính sách cũ không đổi mới.

Tiêu đề	Ứng dụng Rattle Gui để thực hiện khai phá dữ liệu trong dữ liệu bán xe
Tác giả	Nguyễn Thị Thanh Tâm, Trần Phạm Quế Anh
Người hướng dẫn	Th.S Nguyễn Thị Trần Lộc
Trường học	Trường Đại học Tài chính-Marketing
Chuyên ngành	Khai phá dữ liệu
Thể loại	Đồ án môn học
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	84
Dung lượng	5,25 MB