NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Vì sao một dataset đã đúng, đủ nhưng không phải là tập đại diện?

on .

Ví dụ 1: Nhận diện khuôn mặt

Dataset:

  • 100,000 ảnh khuôn mặt 
  • Không có ảnh lỗi (“đúng”) 
  • Không thiếu dữ liệu: đủ Âu, Á, Phi . . . ( “đủ”) 

Nhưng:

  • 90% là người châu Âu 
  • Rất ít người châu Á, châu Phi 

 Kết quả:

  • Model nhận diện tốt người da trắng 
  • Nhận diện kém người da màu 

Kết luận:

  • Dataset đúng + đủ
  • Nhưng không đại diện cho dân số thực

Ví dụ 2: Dự đoán bệnh

Dataset:

  • 50,000 hồ sơ bệnh án 
  • Đầy đủ: tuổi, giới tính, xét nghiệm
  • Dữ liệu sạch, chuẩn bệnh viện 

Nhưng: Toàn bộ lấy từ bệnh viện tuyến trung ương

Vấn đề:

  • Bệnh nặng nhiều hơn bình thường
  • Không có dữ liệu bệnh nhẹ / cộng đồng 
  •  

 Kết quả: Model “nghĩ rằng ai cũng bệnh nặng” 

Đây là lỗi: Mẫu bị thiên lệch

Ví dụ 3: Dự đoán thu nhập

Dataset:

  • 10,000 người 
  • Feature đầy đủ: nghề, học vấn, kinh nghiệm 

Nhưng: Chỉ lấy từ thành phố lớn (HCM, Hà Nội)

Thiếu:

  • Nông thôn 
  • Lao động phổ thông 

Kết quả: Model dự đoán sai cho phần lớn dân số 

Ví dụ 4: Tìm  Spam 

Dataset:

  • 1 triệu email 
  • Label chính xác 
  • Không thiếu 

Nhưng: Toàn bộ email lấy từ năm 2010-2024. 

Vấn đề: Spam email năm 2025 khác hoàn toàn 

 Kết quả: Model “học lịch sử”, không học hiện tại. Đây là: Temporal bias (lệch thời gian)

Ví dụ 5 : Lái xe

Dataset:

  • 1 triệu ảnh đường phố 
  • Label chuẩn 
  • Đầy đủ tình huống: ngày lễ, ngày thường ....

Nhưng:

  • 95% chụp ban ngày 
  • 5% là: Ban đêm; Mưa lớn; Sương mù 

Kết quả:

  • Xe chạy tốt ban ngày 
  • Ban đêm, sương mù, mưa: xe chạy không tốt, nguy hiểm 

Chú ý quan trọng

Một dataset có thể:

  •  Đúng (clean) 
  •  Đủ (no missing) 
  •  Nhưng vẫn sai (vì không đủ đại diện) 

Công thức tạm để nhớ nhanh

Dataset tốt = Đúng × Đủ × Đại diện

Chỉ cần 1 yếu tố = 0; thì phép tích =0 (toàn bộ hệ thống coi như hỏng)