Bước kế tiếp là quyết định nơi sẽ thực hiện thu thập dữ liệu, điều này cho phép ta xác định được các ước lượng thực tế về những khó khăn và phí tổn cho việc thu thập dữ liệu. Đối với bài toán ước lượng chi phí phát triển phần mềm tại công ty Honda Vietnam thì nguồn dữ liệu là các dự án do phòng Hệ thống tiếp nhận, triển khai từ năm 2006 đến nay.
5.2.1.2. Phân tích và xử lý dữ liệu
Kiểm tra tính hợp lệ của dữ liệu
Việc kiểm tra tính hợp lệ sẽ phát hiện ra các dự liệu không chính xác mà nếu sử dụng chúng thì sẽ cho các kết quả không tốt. Ví dụ, ta có thể kiểm tra khoảng hợp lệ của số lượng người tham gia phát triển dự án. Ta mong muốn các giá trị trong khoảng từ 2 đến 20 người, do đó các giá trị nằm ngoài khoảng này rõ ràng là không hợp lệ. Mục tiêu đặt ra là giảm thiểu sai sót tính toán bằng cách kiểm soát độ chính xác của các yếu tố đầu vào nhằm đảm bảo kết quả tính toán của hệ thống là đáng tin cậy hoặc ở mức sai số chấp nhận được.
Chuyển đổi dữ liệu về khuân dạng phù hợp
Hệ thống PC-PACK-CES sử dụng các phương pháp tính khoảng cách Euclidean và phương pháp tính độ tương tự của các thuộc tính để tính độ tương tự giữa dự án mới và các dự án đã thực hiện thành công trước đó. Dữ liệu đầu vào của hai phương pháp này là các giá trị số nên cần thực hiện chuyển đổi giá trị các thuộc tính của dự án có giá trị không phải là số như: loại dự án (xây dựng mới: 0, sửa đổi chức năng: 1), khả năng lập trình của đội phát triển dự án (rất thấp: 0, thấp: 1, trung bình: 2, cao:3, rất cao: 4). Điểm không tốt của phương pháp này là nó tạo ra một trật tự nhân tạo trên dữ liệu mà trong thực tế thứ tự này không có. Tuy nhiên, với các biến có một số lượng lớn các phân loại thì phương pháp này có thể giảm đi rất nhiều đơn vị đầu vào.
Lựa chọn các dữ liệu tiêu biểu
Việc lựa chọn này có thể bao gồm các thao tác đơn giản như lọc hay lấy tổ hợp của các đầu vào để tối ưu hóa nội dung của dữ liệu. Điều này đặc biệt quan trọng khi mà dữ liệu có nhiễu hoặc chứa các thông tin thừa. Việc lựa chọn cẩn thận các dữ liệu phù hợp sẽ giúp hạn chế các dữ liệu không chính xác, đảm bảo chỉ những thông tin hữu ích được lưu trong CSDL phục vụ cho quá trình lập luận của hệ thống.
Qua những phân tích trên và dựa trên kết quả khảo sát thực tế, tác giả đã lựa chọn 10 dự án tiêu biểu được triển khai cho các phòng ban (phòng Bán hàng, phòng Dịch vụ xe máy, phòng Kế toán,…) từ năm 2006 đến nay để đưa vào tập dữ liệu lịch sử dùng trong quá trình lập luận của hệ thống. Trong thời gian tới, số lượng các dự án trong CSDL sẽ tiếp tục được bổ sung nhằm tăng độ chính xác của kết quả ước lượng.
STT Tên dự án Phòng ban Loại dự án
1 Thiết kế chức năng tự động sinh báo cáo
cho phòng Sale
Phòng Bán hàng Xây dựng mới
3 Xây dựng hệ thống tạo kế hoạch giao hàng tự động MDP (Phrase 2)
Phòng Bán hàng Xây dựng mới
4 Xây dựng hệ thống khiếu nại, bảo hành
cho DCS và PC-PACK
Phòng Dịch vụ xe máy
Xây dựng mới
5 Hệ thống quản lý nghiệp vụ kinh doanh
phụ tùng (Part - HVN) Phòng Phụ tùng Xây dựng mới
6 Xây dựng phần mềm sử dụng tại trạm
cân HVN
Phòng quản lý năng lượng
Sửa đổi chức năng
7 Hệ thống quản lý tài sản và khấu hao sản
xuất BRM Phòng Kế toán Xây dựng mới
8 Nâng cấp hệ thống quản lý vật tư, trang
thiết bị của các phòng ban
Phòng Cung ứng Sửa đổi chức năng
9 Hệ thống in tem phụ tùng 105SL Phòng Phụ tùng Sửa đổi chức năng
10 Tích hợp chức năng in tem CNCLXX
vào PC-PACK
Phòng quản lý chất lượng
Xây dựng mới