Phát biểu bài tốn

Một phần của tài liệu Luận án tốt nghiệp phát hiện tri thức trong tập dữ liệu lớn (Trang 86 - 91)

8. CẤU TRÚC ĐỀ TÀỊ

3.1.Phát biểu bài tốn

Trường Đại học Cơng nghiệp Hà Nội là một ngơi trường với truyền thống trăm năm tuổi, mới được nâng cấp và phát triển trên quy mơ rộng lớn, số lượng

Phát hiện tri thức trong tập dữ liệu lớn

và cả cơng nhân (một số ngành).

Mỗi một khoa ban tính trung bình quản lý khoảng 40 đến 50 loại thiết bị khác nhau, riêng đối với khoa cơ khí, điện tử và khoa ơ tơ thì số chủng loại thiết bị cĩ trên vài trăm loạị

Để quản lý được tồn bộ các trang thiết bị trong các khoa ban bằng sổ sách thì quả là một cơng việc hết sức nặng nhọc, một số việc thường xuyên phải làm như: quản lý số lượng các thiết bị, quản lý việc sửa chữa, thay thế hay mua mớị..

Từ những khĩ khăn đĩ thiết nghĩ phải cĩ một phần mềm để quản lý trang thiết bị, hỗ trợ cho người quản lý trong việc lựa chọn thiết bị cần mua: mua những thiết bị gì liên quan, số lượng bao nhiêủ khi cần thay thế thì cĩ những nhĩm thiết bị gì? diện tích phịng là thực hành máy tính là 70m2 cần cĩ thiết bị gì?.. tất cả các câu hỏi đĩ ta cĩ thể biết được nhờ vào việc khai thác luật kết hợp trong cơ sở dữ liệu trang thiết bị của nhà trường.

Luật kết hợp cho ta biết được một phịng thực hành diện tích 70m2 thì cĩ khoảng 40 đến 60 máy tính, cĩ 8 đến 12 đèn tuýp, cĩ 2 điều hồ, cĩ 8 đến 12 quạt trần...

Việc ứng dụng khai thác luật kết hợp trong quản lý trang thiết bị giúp người quản lý nắm bắt được đặc thù trang thiết bị của từng loại phịng, danh sách các thiết bị hay liên quan tới nhau, từ đĩ khi cần mua sắm hay sửa chữa thay thế người quản lý sẽ cĩ được cơng cụ hỗ trợ đắc lực giúp đưa ra nhanh quyết định.

Chương trình này được cài đặt bằng thuật tốn Apriori nhị phân và thuật tốn dựa trên cấu trúc cây FP Treẹ Như đã trình bày ở trên:

Phát hiện tri thức trong tập dữ liệu lớn

tập hợp con nào của tập xuất hiện σ-thường xuyên cũng là tập xuất hiện σ- thường xuyên. Do đĩ, trong quá trình đi tìm các tập ứng viên, nĩ chỉ cần dùng đến các tập ứng viên vừa xuất hiện ở bước ngay trước đĩ, chứ khơng cần tất cả các tập ứng viên (cho đến thời điểm đĩ). Nhờ vậy, bộ nhớ được giải phĩng đáng kể.

Thuật tốn FP_growth hiệu quả ở chỗ là chỉ duyệt qua cơ sở dữ liệu hai lần để xác định các mục thường xuyên và tạo cây FP_treẹ Nhờ sử dụng cấu trúc FP_Tree mà trong quá trình khai thác các mẫu thường xuyên khơng cần phải duyệt lại cơ sở dữ liệu mà chỉ cần xuất phát từ các mục ai trong bảng tiêu đề, sinh ra những cơ sở mẫu phụ thuộc, những ai đã được xử lý thì sẽ khơng xem xét trong xử lý các ai sau đĩ. Phân hoạch khơng gian tìm kiếm để thu nhỏ khơng gian tìm kiếm, dùng phương pháp chia để trị để phân rã ra thành những nhiệm vụ nhỏ tạo nên hiệu quả. Sắp xếp các mục giảm dần theo tần suất xuất hiện của các mục dẫn đến các mục thường xuyên hơn thì được chia sẻ nhiều hơn. Thuật tốn phù hợp với cả dữ liệu thưa, dày và mẫu dàị Đồng thời thuật tốn cũng loại bỏ ngay những mục khơng thường xuyên ngay từ đầụ

3.2. Cơ sở dữ liệu

Phát hiện tri thức trong tập dữ liệu lớn

Cấu trúc và ví dụ dữ liệu của bảng như sau :

+ Maphong: ghi mã phịng

+ LoaiPhong: ghi loại phịng là hành chính, phịng học hay phịng thực hành …

+ TenPhong: ghi tên cụ thể của phịng + Nha: ghi tên dãy nhà của phịng + Tang: ghi tên tầng

Phát hiện tri thức trong tập dữ liệu lớn

+ Các trường cịn lại là tên của các thiết bị cần quản lý như: Attomat, Ampli, Banhs( bàn học sinh), DieuHoăđiều hồ),. và dữ liệu ghi số lượng của thiết bị đĩ.

Phát hiện tri thức trong tập dữ liệu lớn

Một phần của tài liệu Luận án tốt nghiệp phát hiện tri thức trong tập dữ liệu lớn (Trang 86 - 91)