Vì sao một dataset đã đúng, đủ nhưng không phải là tập đại diện?
Ví dụ 1: Nhận diện khuôn mặt
Dataset:
- 100,000 ảnh khuôn mặt
- Không có ảnh lỗi (“đúng”)
- Không thiếu dữ liệu: đủ Âu, Á, Phi . . . ( “đủ”)
Nhưng:
- 90% là người châu Âu
- Rất ít người châu Á, châu Phi
Kết quả:
- Model nhận diện tốt người da trắng
- Nhận diện kém người da màu
Kết luận:
- Dataset đúng + đủ
- Nhưng không đại diện cho dân số thực
Ví dụ 2: Dự đoán bệnh
Dataset:
- 50,000 hồ sơ bệnh án
- Đầy đủ: tuổi, giới tính, xét nghiệm
- Dữ liệu sạch, chuẩn bệnh viện
Nhưng: Toàn bộ lấy từ bệnh viện tuyến trung ương
Vấn đề:
- Bệnh nặng nhiều hơn bình thường
- Không có dữ liệu bệnh nhẹ / cộng đồng
Kết quả: Model “nghĩ rằng ai cũng bệnh nặng”
Đây là lỗi: Mẫu bị thiên lệch
Ví dụ 3: Dự đoán thu nhập
Dataset:
- 10,000 người
- Feature đầy đủ: nghề, học vấn, kinh nghiệm
Nhưng: Chỉ lấy từ thành phố lớn (HCM, Hà Nội)
Thiếu:
- Nông thôn
- Lao động phổ thông
Kết quả: Model dự đoán sai cho phần lớn dân số
Ví dụ 4: Tìm Spam
Dataset:
- 1 triệu email
- Label chính xác
- Không thiếu
Nhưng: Toàn bộ email lấy từ năm 2010-2024.
Vấn đề: Spam email năm 2025 khác hoàn toàn
Kết quả: Model “học lịch sử”, không học hiện tại. Đây là: Temporal bias (lệch thời gian)
Ví dụ 5 : Lái xe
Dataset:
- 1 triệu ảnh đường phố
- Label chuẩn
- Đầy đủ tình huống: ngày lễ, ngày thường ....
Nhưng:
- 95% chụp ban ngày
- 5% là: Ban đêm; Mưa lớn; Sương mù
Kết quả:
- Xe chạy tốt ban ngày
- Ban đêm, sương mù, mưa: xe chạy không tốt, nguy hiểm
Chú ý quan trọng
Một dataset có thể:
- Đúng (clean)
- Đủ (no missing)
- Nhưng vẫn sai (vì không đủ đại diện)
Công thức tạm để nhớ nhanh
Dataset tốt = Đúng × Đủ × Đại diện
Chỉ cần 1 yếu tố = 0; thì phép tích =0 (toàn bộ hệ thống coi như hỏng)
