NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Góc học tập

Xây dựng ứng dụng dự báo chất lượng nước dưới đất dựa vào công nghệ trí tuệ nhân tạo

on .

Xây dựng ứng dụng dự báo chất lượng nước dưới đất dựa vào công nghệ trí tuệ nhân tạo

Phan Thanh Tuấn - CH20020023

Chất lượng asen trong nước tại các vùng đồi núi có thể khác nhau tùy thuộc vào điều kiện địa chất và địa hình của khu vực đó. Các vùng đồi núi thường có nước dưới đất được cung cấp từ các suối, sông và rừng núi. Tuy nhiên, nước dưới đất ở các vùng đồi núi có thể bị ô nhiễm bởi các nguồn gốc tự nhiên như khoáng chất có chứa asen trong đất và đá, hoặc do các hoạt động con người như khai thác mỏ, sử dụng phân bón hóa học, và xả thải từ công nghiệp, gia đình và chăn nuôi.

Các nghiên cứu về chất lượng nước dưới đất tại các vùng đồi núi ở Việt Nam đã chỉ ra sự hiện diện của asen trong nước dưới đất ở mức độ khác nhau. Nhiều vùng đồi núi ở Việt Nam, bao gồm các tỉnh Đắk Nông, Gia Lai, Kon Tum, Lào Cai, Yên Bái, và Hà Giang, đã được phát hiện có nước dưới đất chứa nồng độ asen vượt quá giới hạn cho phép của Tổ chức Y tế Thế giới (WHO) và Bộ Y tế Việt Nam. Tình trạng ô nhiễm asen trong nước dưới đất đã gây ra tác động nghiêm trọng đến sức khỏe của người dân và kinh tế xã hội của khu vực đó.

Do đó, việc đánh giá chất lượng nước dưới đất ở các vùng đồi núi là rất quan trọng để đảm bảo an toàn sức khỏe cho cộng đồng và bảo vệ tài nguyên nước. Các chuyên gia địa chất và môi trường cần thực hiện các nghiên cứu về chất lượng nước dưới đất tại các vùng đồi núi và đưa ra các giải pháp phù hợp để giảm thiểu ô nhiễm asen trong nước.

Kết quả đạt được:

  • Bộ dữ liệu chuẩn với 6 chất Fe, Mn, pH, Hardness, Coliforms EC, gồm 569 bản ghi tương ứng với mỗi chất (trong đó có 398 bản ghi làm dữ liệu huấn luyện và 171 bản ghi làm dữ liệu kiểm chứng).
  • Trong quá trình thực hiện, việc sử dụng các thuật toán máy học đã mang lại khả năng dự báo chất lượng nước dưới đất với độ chính xác cao. Kết quả thử nghiệm cho thấy mô hình SVM đã đạt được hiệu quả tốt nhất trong việc dự báo nồng độ asen trong nước dưới đất, với độ chính xác đạt 90%. Điều này làm rõ tính ứng dụng cao của phương pháp máy học trong việc dự báo chất lượng nước dưới đất.
  • Để mở rộng các nghiên cứu liên quan đến đánh giá và dự báo chất lượng nước dưới đất, có thể khám phá các phương pháp máy học khác như Decision Tree, Random Forest, Neural Networks, và nhiều phương pháp khác. Đồng thời, việc thu thập dữ liệu từ các khu vực khác nhau cũng sẽ đóng góp quan trọng để cải thiện chất lượng dự báo và đánh giá chính xác hơn về tình trạng ô nhiễm asen trong nước dưới đất tại Đắk Nông cũng như các vùng khác.
  • Phân tích và đánh giá bộ dữ liệu các chất trong không khí, tìm hiểu và một số thuật toán máy học dự báo phù hợp với bộ dữ liệu.
  • Hệ thống lưu trữ dữ liệu dự báo asen trong nước dưới đất được xây dựng dưới dạng cơ sở dữ liệu (database) và hệ thống lưu trữ trực tuyến (online storage system). Các thông tin liên quan đến vị trí, độ sâu, nguồn nước và chất lượng nước dưới đất được thu thập và lưu trữ theo thời gian để hỗ trợ việc đánh giá và dự báo chất lượng nước dưới đất trong tương lai.
  • Hệ thống lưu trữ dữ liệu này cần được đảm bảo bảo mật và tính toàn vẹn của dữ liệu. Đồng thời, cần thiết kế hệ thống sao cho có khả năng truy xuất nhanh chóng và dễ dàng dữ liệu, cung cấp các công cụ hỗ trợ phân tích và dự báo dữ liệu cho người dùng.
  • Một số công nghệ lưu trữ dữ liệu phổ biến được sử dụng hiện nay bao gồm cơ sở dữ liệu quan hệ (relational database), NoSQL database, lưu trữ đám mây (cloud storage), hệ thống lưu trữ tập tin (file storage system) và hệ thống lưu trữ đa phương tiện (multimedia storage system). Tuy nhiên, sự lựa chọn phù hợp phụ thuộc vào nhu cầu và yêu cầu của hệ thống dự báo asen trong nước dưới đất.

Trân trọng.

Sinh viên CNTT cần thay đổi những gì khi AI ngày càng mạnh?

on .

Câu hỏi này rất HOT. Với bối cảnh AI ngày càng mạnh (đặc biệt là các mô hình như OpenAI phát triển), sinh viên CNTT không cần hoảng sợ — nhưng phải thay đổi cách học và cách nghĩ.

Dưới đây là những thay đổi quan trọng nhất:


Từ “người viết code” → “người thiết kế hệ thống”

AI có thể:

  • Viết hàm CRUD (Create – Read – Update – Delete)

  • Sinh API ( Application Programming Interface)

  • Debug lỗi phổ biến

  • Thậm chí sinh cả frontend

Nhưng AI không tự chịu trách nhiệm kiến trúc hệ thống.

Vậy Sinh viên cần:

  • Học sâu system design

  • Hiểu trade-off: scalability, consistency, latency

  • Hiểu kiến trúc: monolith vs microservices

  • Biết đọc và phản biện thiết kế

AI viết code nhanh.
Nhưng kiến trúc sai → hệ thống sập.


Từ “biết làm” → “biết vì sao”

AI có thể cho bạn câu trả lời đúng.
Nhưng nếu bạn không hiểu bản chất, bạn sẽ:

  • Không phát hiện data leakage

  • Không biết khi nào DL sai

  • Không hiểu bias trong dữ liệu

  • Không phân biệt correlation (tương quan) và causation (nhân quả)

(Chủ đề bạn từng hỏi về nhân quả vs tương quan chính là ví dụ điển hình.)

SV Cần học:

  • Xác suất – thống kê nền tảng

  • Optimization

  • Nguyên lý học máy (không chỉ dùng thư viện)


Từ “học framework” → “học nguyên lý”

Framework chết rất nhanh.
Nguyên lý thì sống rất lâu.

Ví dụ:

  • React có thể thay đổi

  • Nhưng nguyên lý state management không đổi ( Nghệ thuật kiểm soát sự thay đổi của dữ liệu trong hệ thống phức tạp)

  • PyTorch có thể thay

  • Nhưng gradient descent vẫn vậy ( Thuật toán đi tìm điểm thấp nhất của hàm bằng cách đi từng bước nhỏ theo hướng dốc nhất xuống)

=> Tập trung vào:

  • Data structures & algorithms

  • Operating systems

  • Distributed systems

  • Database internals


Biết dùng AI như một “đồng đội”, không phải “cái nạng”

Sinh viên yếu sẽ:

Copy AI; nộp cho GV; và SV không hoặc ít hiểu gì

Sinh viên giỏi sẽ:

  • Yêu cầu AI giải thích từng bước

  • So sánh 2 cách giải

  • Hỏi ưu nhược

  • Dùng AI để cấu trúc lại não bộ

AI giúp bạn tăng tốc, nhưng tư duy phản biện mới quyết định đẳng cấp.


Chuyển từ “coder” → “problem solver

AI thay thế người:

  • Viết code lặp lại

  • Làm ticket nhỏ

  • Làm việc theo mô tả sẵn

AI không thay thế người:

  • Xác định vấn đề đúng

  • Thiết kế giải pháp trong bối cảnh kinh doanh

  • Ra quyết định khi dữ liệu không đầy đủ

SV Cần học:

  • Hiểu business

  • Giao tiếp người- người

  • Viết tài liệu kỹ thuật rõ ràng, mọi người hiểu giống nhau.


Học cách “đáng tin”

Chúng ta từng hỏi rằng, vì sao:

Vì sao Deep Learning mạnh nhưng khó tin?

Trong thời đại AI, trust là tài sản lớn nhất.

Sinh viên cần:

  • Hiểu model evaluation

  • Biết validation khác test thế nào

  • Hiểu overfitting

  • Hiểu interpretability

Người hiểu sâu sẽ đáng được tin cậy. Người chỉ prompt giỏi sẽ bị thay.


 

Tóm lại:

Nếu nhìn xa hơn:

  • AI không làm giảm giá trị sinh viên giỏi.
  • AI làm lộ rõ sự khác biệt giữa người hiểu sâu và người chỉ biết thao tác.

Mô tả chi tiết và các tiêu chí của dataset

on .

 Dataset

Các tính chất của 1 dataset là những đặc điểm mô tả tập dữ liệu đó, giúp ta hiểu rõ hơn về bản chất và cấu trúc của nó. 

Dưới đây là một số tính chất quan trọng của một tập dữ liệu:

1. Kích thước:
  • Số lượng bản ghi (samples): Bao nhiêu điểm dữ liệu riêng biệt tồn tại trong tập dữ liệu?
  • Số lượng biến (features): Bao nhiêu thuộc tính hoặc đặc điểm được đo lường cho mỗi bản ghi?
  • Kích thước tập tin: Tập dữ liệu chiếm bao nhiêu dung lượng lưu trữ?

2. Loại dữ liệu:

  • Dữ liệu định lượng: Dữ liệu có thể được biểu diễn dưới dạng số, ví dụ như chiều cao, cân nặng, tuổi tác,...
  • Dữ liệu định tính: Dữ liệu phi số, thường được biểu diễn dưới dạng danh mục, ví dụ như giới tính, màu sắc, loại sản phẩm,...

3. Phân bố dữ liệu:

  • Phân bố đều: Các giá trị dữ liệu xuất hiện với tần suất tương đối bằng nhau.
  • Phân bố lệch: Một số giá trị dữ liệu xuất hiện thường xuyên hơn những giá trị khác.

4. Chất lượng dữ liệu:

  • Tính đầy đủ: Liệu có giá trị nào bị thiếu trong tập dữ liệu hay không? (chú ý, HV thường hay SAI).
  • Tính chính xác: Liệu các giá trị dữ liệu có chính xác và phản ánh thực tế hay không?
  • Tính nhất quán: Liệu các giá trị dữ liệu có được ghi chép theo cùng một định dạng và đơn vị hay không?
  • Tính trùng lặp: Liệu có bản ghi hoặc giá trị nào bị trùng lặp trong tập dữ liệu hay không?
  • Tính đa dạng: vét cạn các trường hợp khả dĩ của các mẫu dữ liệu (chú ý, HV thường hay SAI).
  • Tính tin cậy: nguồn dữ liệu lấy là uy tín.

5. Mối quan hệ dữ liệu:

  • Dữ liệu độc lập: Các bản ghi trong tập dữ liệu không liên quan đến nhau.
  • Dữ liệu có liên quan: Các bản ghi trong tập dữ liệu có mối liên hệ với nhau theo một số cách.

Ngoài ra, một số tính chất khác của tập dữ liệu có thể bao gồm:

  • Nguồn gốc dữ liệu: Tập dữ liệu được thu thập từ đâu?
  • Phương pháp thu thập dữ liệu: Dữ liệu được thu thập như thế nào?
  • Mục đích sử dụng dữ liệu: Dữ liệu được sử dụng cho mục đích gì?
  • Tính bảo mật dữ liệu: Dữ liệu được bảo vệ như thế nào?

Hiểu rõ các tính chất của tập dữ liệu là rất quan trọng để có thể sử dụng nó một cách hiệu quả. Việc phân tích các tính chất này có thể giúp ta xác định các vấn đề tiềm ẩn trong dữ liệu, lựa chọn phương pháp phân tích phù hợp và đưa ra kết luận chính xác từ dữ liệu.

Attachments:
Download this file (Dataset.png)Dataset.png[Dataset]230 kB

Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh

on .

Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh

Nguyễn Thị Thu Vân – CH1902027

Trong tiến trình chuyển đổi số, Ngành Lao động, Thương binh và Xã hội (LĐTBXH) cần ứng dụng công nghệ thông tin (CNTT) một cách tổng thể và toàn diện, trong đó đặc biệt chú trọng tới xây dựng một cơ sở dữ liệu (CSDL) tập trung và hệ thống quản lý chặt chẽ, thống nhất các nghiệp vụ, quy trình trong tất cả các lĩnh vực, góp phần thúc đẩy triển khai các hoạt động An sinh xã hội (ASXH) đối với mọi người lao động, toàn dân của Ngành LĐTBXH.

Hiện tại, các hệ thống thông tin/phần mềm của ngành LĐTBXH đang hoạt động độc lập, không đồng nhất và thiếu sự kết hợp. Cơ sở dữ liệu phân tán không có khả năng liên kết và kế thừa dữ liệu giữa các phân hệ. Đáng chú ý là nhiều đối tượng hưởng trợ cấp không đúng/ đủ (một đối tượng hưởng cùng lúc nhiều chính sách, hoặc không được hưởng trợ cấp nào).

Căn cứ hiện trạng như trên, đề xuất triển khai giải pháp “Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh” bao gồm các phân hệ chính như sau:

  • Phân hệ Quản lý Trẻ em – Bình đẳng giới
  • Phân hệ Quản lý Bảo trợ xã hội – Hộ nghèo
  • Phân hệ Quản lý Hồ sơ Người có công
  • Phân hệ báo cáo và phân tích số liệu ASXH

Kết quả đạt được:

  • Phân tích được bài toán cụ thể: Số hóa một số chức năng ASXH cho một/ nhiều Phường xã có nhu cầu. Hệ thống được xây dựng cho một Phường thực tế là Phường Tân Hưng Thuận – Quận 12 – TP. Hồ Chí Minh, có thể mở rộng triển khai cho 11, Phường trên địa bàn Quận 12.
  • Phân tích và thiết kế hệ thống quản lý dữ liệu về Nhân khẩu/ Hộ gia đình/ HN-HCN/Diện chính sách - NCC, mô tả chi tiết các chức năng chính của Hệ thống.
  • Dữ liệu được tổ chức đầu vào, xây dựng được nhiều biểu đồ thống kê để phân tích số liệu về nhân khẩu/ hộ gia đình, biến động HN-HCN, các chỉ số ảnh hưởng đến biến động HN-HCN, cơ cấu của diện chính sách/ NCC,...

Trân trọng.

TẢN MẠN VỚI NGƯỜI THẦY GIÀ 2

on .

Không có nghề nào là cao quý, chỉ có con người làm cho nghề và chính con người đó trở nên cao quý.
 
Kỹ năng mềm quan trọng hơn chuyên môn, còn con tim phụng sự, chân thật thì lung linh hơn cả kỹ năng mềm.
 
Thích nghi đầu tiên là để sinh tồn, còn để tiến hóa cần trải qua vài thế hệ.
 
Kỹ thuật (TECHNIQUE) giúp bạn làm được, tốt. Còn nghệ thuật (ART) giúp bạn làm xuất sắc, đáng nhớ và quan trọng hơn là nó làm bạn trở nên không phụ thuộc kỹ thuật.
 
Nghệ thuật (ART) giúp bạn làm xuất sắc, đáng nhớ. Còn đạo (DO) giúp bạn trở thành người dẫn đường dựa trên nền tảng tâm và đức.
 
Tình yêu là khái niệm dễ bị nhầm lẫn. Một tình yêu đích thực là sẵn sàng chủ động hy sinh cho người mình yêu.
 
Biết quan sát, biết đặt câu hỏi về thế giới thì quan trọng hơn biết đọc sách.
 
Đọc nhầm sách, sai tư tưởng. Học sai thầy, lệch cuộc đời. Việc chọn nguồn tri thức cho bản thân là rất quan trọng.
 
Tài năng thì chưa chắc tinh hoa. Nhưng tinh hoa thì bao gồm và vượt xa tài năng.
 
 
KHDL2023.