Cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơron đồ thị (GNN)

on .

Cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơron đồ thị (GNN)

Tạ Vũ Hoài Thương - CH1802064

Trong nhiều năm qua, phân tích không gian trong đó phân cụm dữ liệu dựa trên GIS [1] [2] [3] [4] đã trở thành một chủ đề nóng thu hút các nhà nghiên cứu do chủ đề có khả năng áp dụng rộng rãi trong nhiều lĩnh vực. Mô hình phân cụm dựa trên GIS được thiết kế theo cách tiếp cận không giám sát cho phép trích xuất thông tin cụm từ dữ liệu địa lý đã có (ví dụ: tọa độ, nhiệt độ, v.v.) cho các mục đích khác nhau, chẳng hạn như: Phân tích mật độ dân số, phân tích sử dụng đất, phân tích điểm nóng tội phạm, phân tích điểm nóng COVID-19, v.v. Tóm lại, tương tự như mô hình phân cụm không giám sát truyền thống, các kỹ thuật phân cụm được sử dụng để gom các điểm dữ liệu thành các cụm khác nhau dựa trên sự tương đồng của chúng.

Đối với vấn đề phân cụm dựa trên vị trí trong GIS, các phương pháp phân cụm dựa trên mật độ hiện đang gặp phải những khó khăn về chất lượng thấp và nhiễu của thông tin địa lý như tọa độ dẫn đến giảm hiệu suất tổng thể của nhiệm vụ phân cụm dựa trên vị trí.

Ví dụ trong một tình huống có tập dữ liệu không gian địa lý thưa thớt (ví dụ: vị trí của các trường hợp COVID-19 đã được xác nhận hoặc tai nạn, kẹt xe ở các khu vực đô thị, v.v.) mà không có bất kỳ thông tin nào về hình dạng cụm, thông tin địa lý liên quan, ngưỡng khoảng cách, v.v ..., nên khó xác định thông tin cụm từ các tập dữ liệu dựa trên GIS này, cũng như tạo ra các cụm có ý nghĩa cho các nhiệm vụ phân tích tiếp theo.

Nhiều ứng dụng thực tế có thể dùng kết quả này, chẳng hạn như xác định các trường hợp COVID-19 đã được xác nhận hay các điểm nóng trong khu vực cách ly, mật độ tội phạm ở các khu vực cụ thể, mật độ giao thông tại các vị trí cụ thể tại các mốc thời gian khác nhau, v.v.

Thách thức chính của vấn đề phân cụm dựa trên vị trí là tính đại diện thấp của dữ liệu không gian địa lý sẵn có như các tọa độ được dùng để xác định các vị trí địa lý khác nhau, trong đó chỉ cung cấp các giá trị kinh độ và vĩ độ. Vì vậy, thông tin bổ sung là không thể thiếu để cải thiện chất lượng của các biểu diễn dữ liệu dựa trên vị trí. Các biểu diễn này sau đó được sử dụng trực tiếp để tạo điều kiện thuận lợi cho việc triển khai các mô hình phân cụm cũng như tạo ra các cụm có ý nghĩa cho nhiệm vụ phân tích tiếp theo.

Kết quả đạt được:

  • Luận văn đã đề xuất một phương pháp gom cụm dữ liệu vị trí địa lý thông qua hướng tiếp cận khám phá cộng đồng và học máy, mô hình được gọi là CP2Vec.
  • Mô hình CP2Vec được đề xuất nhằm hỗ trợ phân tích và đánh giá mức độ tương đồng giữa các địa điểm. Để làm điều này, luận văn đề xuất một phương pháp xây dựng đồ thị các địa điểm dựa trên mức độ gần nhau của chúng trên không gian địa lý đã được áp dụng.
  • Sau đó, luận văn áp dụng kỹ thuật phát hiện cộng đồng để trích xuất thông tin về các cụm điểm được phân bố gần nhau.
  • Cuối cùng, một kiến trúc mạng nơ-ron đồ thị được áp dụng để học mô hình biểu diễn của các điểm và chuyển đổi thành các vector có số chiều cố định (d). Sau đó các vector biểu diễn các địa điểm được đưa vào các mô hình gom cụm DBSCAN hay HDBSCAN sẵn có để tiến hành gom cụm các địa điểm này.
  • Để chứng minh tính hiệu quả của mô hình được đề xuất cho bài toán gom cụm các địa điểm trong không gian địa lý, luận văn tiến hành thực nghiệm trên các tập dữ liệu thực tế bao gồm hai tập dữ liệu chính.
  • Đầu tiên là tập dữ liệu các địa điểm ca nhiễm COVID-19 được phân bố trong 13 quận của TP. Hồ Chí Minh.
  • Thứ hai là tập dữ liệu về vị trí các vụ án hình sự đã được xảy ra và được báo cáo tại thành phố Hartford, Hoa Kỳ cho nhiệm vụ phân cụm dựa trên vị trí.
  • Kết quả thực nghiệm trong các bộ dữ liệu thực tế này đã chứng minh tính hiệu quả của mô hình CP2Vec được đề xuất của luận văn trong việc nâng cao hiệu suất gom cụm cho các mô hình sẵn có như DBSCAN và HDBSCAN.

Trân trọng.

Xây dựng ứng dụng dự báo chất lượng nước dưới đất dựa vào công nghệ trí tuệ nhân tạo

on .

Xây dựng ứng dụng dự báo chất lượng nước dưới đất dựa vào công nghệ trí tuệ nhân tạo

Phan Thanh Tuấn - CH20020023

Chất lượng asen trong nước tại các vùng đồi núi có thể khác nhau tùy thuộc vào điều kiện địa chất và địa hình của khu vực đó. Các vùng đồi núi thường có nước dưới đất được cung cấp từ các suối, sông và rừng núi. Tuy nhiên, nước dưới đất ở các vùng đồi núi có thể bị ô nhiễm bởi các nguồn gốc tự nhiên như khoáng chất có chứa asen trong đất và đá, hoặc do các hoạt động con người như khai thác mỏ, sử dụng phân bón hóa học, và xả thải từ công nghiệp, gia đình và chăn nuôi.

Các nghiên cứu về chất lượng nước dưới đất tại các vùng đồi núi ở Việt Nam đã chỉ ra sự hiện diện của asen trong nước dưới đất ở mức độ khác nhau. Nhiều vùng đồi núi ở Việt Nam, bao gồm các tỉnh Đắk Nông, Gia Lai, Kon Tum, Lào Cai, Yên Bái, và Hà Giang, đã được phát hiện có nước dưới đất chứa nồng độ asen vượt quá giới hạn cho phép của Tổ chức Y tế Thế giới (WHO) và Bộ Y tế Việt Nam. Tình trạng ô nhiễm asen trong nước dưới đất đã gây ra tác động nghiêm trọng đến sức khỏe của người dân và kinh tế xã hội của khu vực đó.

Do đó, việc đánh giá chất lượng nước dưới đất ở các vùng đồi núi là rất quan trọng để đảm bảo an toàn sức khỏe cho cộng đồng và bảo vệ tài nguyên nước. Các chuyên gia địa chất và môi trường cần thực hiện các nghiên cứu về chất lượng nước dưới đất tại các vùng đồi núi và đưa ra các giải pháp phù hợp để giảm thiểu ô nhiễm asen trong nước.

Kết quả đạt được:

  • Bộ dữ liệu chuẩn với 6 chất Fe, Mn, pH, Hardness, Coliforms EC, gồm 569 bản ghi tương ứng với mỗi chất (trong đó có 398 bản ghi làm dữ liệu huấn luyện và 171 bản ghi làm dữ liệu kiểm chứng).
  • Trong quá trình thực hiện, việc sử dụng các thuật toán máy học đã mang lại khả năng dự báo chất lượng nước dưới đất với độ chính xác cao. Kết quả thử nghiệm cho thấy mô hình SVM đã đạt được hiệu quả tốt nhất trong việc dự báo nồng độ asen trong nước dưới đất, với độ chính xác đạt 90%. Điều này làm rõ tính ứng dụng cao của phương pháp máy học trong việc dự báo chất lượng nước dưới đất.
  • Để mở rộng các nghiên cứu liên quan đến đánh giá và dự báo chất lượng nước dưới đất, có thể khám phá các phương pháp máy học khác như Decision Tree, Random Forest, Neural Networks, và nhiều phương pháp khác. Đồng thời, việc thu thập dữ liệu từ các khu vực khác nhau cũng sẽ đóng góp quan trọng để cải thiện chất lượng dự báo và đánh giá chính xác hơn về tình trạng ô nhiễm asen trong nước dưới đất tại Đắk Nông cũng như các vùng khác.
  • Phân tích và đánh giá bộ dữ liệu các chất trong không khí, tìm hiểu và một số thuật toán máy học dự báo phù hợp với bộ dữ liệu.
  • Hệ thống lưu trữ dữ liệu dự báo asen trong nước dưới đất được xây dựng dưới dạng cơ sở dữ liệu (database) và hệ thống lưu trữ trực tuyến (online storage system). Các thông tin liên quan đến vị trí, độ sâu, nguồn nước và chất lượng nước dưới đất được thu thập và lưu trữ theo thời gian để hỗ trợ việc đánh giá và dự báo chất lượng nước dưới đất trong tương lai.
  • Hệ thống lưu trữ dữ liệu này cần được đảm bảo bảo mật và tính toàn vẹn của dữ liệu. Đồng thời, cần thiết kế hệ thống sao cho có khả năng truy xuất nhanh chóng và dễ dàng dữ liệu, cung cấp các công cụ hỗ trợ phân tích và dự báo dữ liệu cho người dùng.
  • Một số công nghệ lưu trữ dữ liệu phổ biến được sử dụng hiện nay bao gồm cơ sở dữ liệu quan hệ (relational database), NoSQL database, lưu trữ đám mây (cloud storage), hệ thống lưu trữ tập tin (file storage system) và hệ thống lưu trữ đa phương tiện (multimedia storage system). Tuy nhiên, sự lựa chọn phù hợp phụ thuộc vào nhu cầu và yêu cầu của hệ thống dự báo asen trong nước dưới đất.

Trân trọng.

Nâng cao hiệu quả hoạt động của Bộ mã hóa tự động kết hợp điều chế OFDM trong mạng di động 5G

on .

Nâng cao hiệu quả hoạt động của Bộ mã hóa tự động kết hợp điều chế OFDM trong mạng di động 5G

Nguyễn Tiến Thành - CH1802059

Trong thời gian gần đây, sự phát triển vượt bậc của mạng truyền thông không dây và di động đã tạo ra nhu cầu cấp thiết về tốc độ và độ tin cậy trong truyền dữ liệu, cũng như việc tối ưu hóa năng lượng và hiệu suất phổ [1]. Các hệ thống truyền thông nói chung và mạng di động 5G nói riêng phải đáp ứng và đạt được một loạt các mục tiêu cho việc phát triển mạng không dây trong tương lai. Điều này bao gồm việc đặt người dùng vào tâm điểm, hỗ trợ truyền dẫn toàn dải, đảm bảo mức độ bảo mật mạnh mẽ và xây dựng hệ thống thông minh. Trong quá trình phát triển mạng di động 5G, đặc biệt là trong lĩnh vực truyền thông không dây, có một vai trò quan trọng trong các ngành công nghiệp như nhà máy thông minh, giao thông và năng lượng, cũng như các lĩnh vực công cộng như y tế, tự động hóa, công nghệ phương tiện và giáo dục. Do đó, một trong những thách thức quan trọng trong thời đại công nghệ hiện nay là tăng cường hiệu suất và tốc độ truyền dữ liệu trong mạng không dây nói chung và mạng di động 5G nói riêng.

Nhằm giải quyết vấn đề trên, các nhà nghiên cứu đã đề xuất các phương pháp giải quyết sau đây: một là, sử dụng các loại mã hóa kênh truyền như Hamming, Turbo, Polar hay LDPC; hai là, sử dụng các loại điều chế đa sóng mang như OFDM (Orthogonal Frequency Division Multiplexing), FBMC (Filter-bank Multi-carrier), GFDM (Generalized Frequency Division Multiplexing) , …; và một hướng đi mới cũng đem lại rất nhiều triển vọng đó là ứng dụng lĩnh vực học sâu vào trong các hệ thống mạng không dây. Cả ba phương pháp trên đều có những ưu và nhược điểm, tuy nhiên, việc sử dụng lĩnh vực học sâu đang được kì vọng hơn cả không chỉ bởi tính đơn giản trong việc thiết kế mà các tiếp cận này còn được kì vọng sẽ phá vỡ các hạn chế phổ biến trong các hệ thống thông tin liên lạc như giới hạn Shannon.

Gần đây, cùng với sự phát triển trong lĩnh vực học sâu, nhiều nghiên cứu đã đề xuất sử dụng học sâu để tối ưu toàn bộ (học toàn bộ – end-to-end learning) cho các hệ thống truyền thông. Nổi bật trong đó là bộ mã hóa tự động (autoencoder) [1, 2, 3]. Trái ngược với các hệ thống thông tin liên lạc truyền thống, bộ mã hóa tự động cho phép tối ưu hóa chung máy phát và máy thu cho bất kì mô hình kênh nào mà không bị giới hạn bởi việc tối ưu hóa các khối riêng biệt như mã hóa kênh truyền, điều chế, cân bằng kênh, v.v. Cách tiếp cận này được kì vọng phá vỡ các hạn chế phổ biến trong các hệ thống thông tin liên lạc truyền thống bằng cách chuyển từ các khối con được tối ưu độc lập sang các mạng nơ-ron nhân tạo (Neural Network) thích ứng và linh hoạt.

Nhược điểm chung của việc ứng dụng lĩnh vực học sâu nói chung và bộ mã hóa tự động nói riêng đó là hiệu suất của hệ thống phụ thuộc vào dữ liệu học của kênh truyền phải nhiều và dữ liệu học phải đủ lớn. Tuy nhiên, ưu thế của việc ứng dụng bộ mã hóa tự động vào trong hệ thống mạng không dây đó là độ phức tạp của máy phát và máy thu tín hiệu thấp, điều này khiến cho độ khả thi trong việc áp dụng vào trong thực tiễn cũng trở nên triển vọng hơn.

Đề tài đặt mục tiêu là Nghiên cứu các giải pháp nhằm nâng cao hiệu quả hoạt động của bộ mã hóa tự động kết hợp điều chế OFDM trong kênh truyền dẫn đa đường đối với hệ thống 5G NR.

Trong khuôn khổ luận văn đã đề cập và trình bày chi tiết sơ đồ ứng dụng bộ mã hóa tự động (Autoencoder) trong hệ thống truyền thông tin đơn và đa sóng mang (OFDM). Từ cơ sở lý thuyết cũng như kết quả mô phỏng đưa ra những kết luận sau:

  • Trong trường hợp không sử dụng mã hóa kênh truyền, các hệ thống truyền thông sử dụng bộ mã hóa tự động cũng như là các hệ thống truyền thông sử dụng các phương pháp điều chế tín hiệu truyền thống đem lại hiệu năng tương đương nhau theo thông số BLER.
  • Khi so sánh hệ thống truyền thông sử dụng bộ mã hóa tự động với hệ thống sử dụng mã hóa kênh truyền LDPC với tốc độ mã hóa tương ứng, đối với điều chế bậc thấp như QPSK hay 16-QAM (PSK) các hệ thống truyền thông truyền thống vẫn đem lại hiệu quả tốt hơn hoặc tương đương với các hệ thống sử dụng bộ mã hóa tự động. Tuy nhiên đối với trường hợp các loại điều chế bậc cao như 64-QAM hay 256-QAM, hệ thống truyền thông sử dụng bộ mã hóa tự động lại đem lại hiệu năng vượt trội so với hệ thống truyền thông sử dụng mã hóa kênh truyền LDPC tại vùng có tỉ lệ năng lượng tín hiệu/nhiễu thấp. Ngoài ra độ phức tạp trong việc ứng dụng bộ mã hóa tự động trong hệ thống truyền thông cũng thấp hơn so với việc thiết kế bộ mã hóa và giải mã hóa LDPC. Từ đó, trong các hệ thống truyền thông trong tương lai, các hệ thống sử dụng bộ mã hóa tự động nói riêng và ứng dụng lý thuyết học sâu nói chung sẽ được đề xuất nhằm nâng cao hiệu năng của các hệ thống đó.

Trân trọng.

Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh

on .

Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh

Nguyễn Thị Thu Vân – CH1902027

Trong tiến trình chuyển đổi số, Ngành Lao động, Thương binh và Xã hội (LĐTBXH) cần ứng dụng công nghệ thông tin (CNTT) một cách tổng thể và toàn diện, trong đó đặc biệt chú trọng tới xây dựng một cơ sở dữ liệu (CSDL) tập trung và hệ thống quản lý chặt chẽ, thống nhất các nghiệp vụ, quy trình trong tất cả các lĩnh vực, góp phần thúc đẩy triển khai các hoạt động An sinh xã hội (ASXH) đối với mọi người lao động, toàn dân của Ngành LĐTBXH.

Hiện tại, các hệ thống thông tin/phần mềm của ngành LĐTBXH đang hoạt động độc lập, không đồng nhất và thiếu sự kết hợp. Cơ sở dữ liệu phân tán không có khả năng liên kết và kế thừa dữ liệu giữa các phân hệ. Đáng chú ý là nhiều đối tượng hưởng trợ cấp không đúng/ đủ (một đối tượng hưởng cùng lúc nhiều chính sách, hoặc không được hưởng trợ cấp nào).

Căn cứ hiện trạng như trên, đề xuất triển khai giải pháp “Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh” bao gồm các phân hệ chính như sau:

  • Phân hệ Quản lý Trẻ em – Bình đẳng giới
  • Phân hệ Quản lý Bảo trợ xã hội – Hộ nghèo
  • Phân hệ Quản lý Hồ sơ Người có công
  • Phân hệ báo cáo và phân tích số liệu ASXH

Kết quả đạt được:

  • Phân tích được bài toán cụ thể: Số hóa một số chức năng ASXH cho một/ nhiều Phường xã có nhu cầu. Hệ thống được xây dựng cho một Phường thực tế là Phường Tân Hưng Thuận – Quận 12 – TP. Hồ Chí Minh, có thể mở rộng triển khai cho 11, Phường trên địa bàn Quận 12.
  • Phân tích và thiết kế hệ thống quản lý dữ liệu về Nhân khẩu/ Hộ gia đình/ HN-HCN/Diện chính sách - NCC, mô tả chi tiết các chức năng chính của Hệ thống.
  • Dữ liệu được tổ chức đầu vào, xây dựng được nhiều biểu đồ thống kê để phân tích số liệu về nhân khẩu/ hộ gia đình, biến động HN-HCN, các chỉ số ảnh hưởng đến biến động HN-HCN, cơ cấu của diện chính sách/ NCC,...

Trân trọng.

Phân tích các yếu tố ảnh hưởng đến tiến độ và tỉ lệ nộp chứng chỉ tiếng Anh của sinh viên Trường Đại học Công nghệ Thông tin

on .

Phân tích các yếu tố ảnh hưởng đến tiến độ và tỉ lệ nộp chứng chỉ tiếng Anh của sinh viên Trường Đại học Công nghệ Thông tin

Nguyễn Thị Hoài - CH1802042

Theo thống kê, tỷ lệ sinh viên theo học chương trình đào tạo của Trường Đại học Công nghệ Thông tin – Đại học Quốc gia Thành phố Hồ Chí Minh và tốt nghiệp đúng hạn là chưa cao (khoảng 30-40%). Một trong nhiều nguyên nhân là do thiếu chứng chỉ tiếng Anh, ảnh hưởng trực tiếp đến việc xét tốt nghiệp của sinh viên [1,2]. Trong đề tài này, tác giả tìm hiểu và phân tích các yếu tố ảnh hưởng đến tiến độ và tỷ lệ nộp chứng chỉ tiếng Anh của sinh viên, và đề xuất một số giải pháp nhằm động viên và khuyến khích sinh viên nộp chứng chỉ tiếng Anh đúng hạn.

Thông thường, tiến độ và tỉ lệ nộp chứng chỉ tiếng Anh bị ảnh hưởng bởi nhiều yếu tố: bao gồm bản thân sinh viên (tuổi, giới tính, nơi học phổ thông, trình độ tiếng Anh đầu vào, kết quả học tập tiếng Anh tại trường đại học...), các quy định của Trường (như quy định về đăng ký các khóa tiếng Anh tự chọn hay bắt buộc, quy định về các văn bằng tiếng Anh thay thế...). Tất cả các nghiên cứu hiện tại đều không tiến hành phân tích sâu tầm ảnh hưởng của yếu tố kể trên cho tiến độ và tỷ lệ nộp chứng chỉ tiếng Anh.

Xuất phát từ những hạn chế nêu trên và yêu cầu thực tiễn, nghiên cứu này đặt ra 2 mục tiêu chính: (A) Phân tích ảnh hưởng của biến độc lập lên 2 biến phụ thuộc: (1) tiến độ nộp chứng chỉ tiếng Anh và (2) tỷ lệ nộp chứng chỉ tiếng Anh, và (B) Đánh giá hiệu quả các nhóm môn tiếng Anh sinh viên đăng ký theo học đến tiến độ và tỉ lệ nộp chứng chỉ tiếng Anh.

Kết quả đạt được:

  • Phân tích được ảnh hưởng các yếu tố chủ quan từ bản thân sinh viên như: trình độ tiếng Anh đầu vào, hệ đào tạo, khoa, giới tính, kết quả học tập, điểm rèn luyện. Từ đó, rút ra được các kết quả về sự ảnh hưởng của các yếu tố trên đối với tiến độ và tỉ lệ nộp chứng chỉ tiếng Anh.
  • Phân tích được ảnh hưởng của các yếu tố khách quan từ các chính sách về đào tạo tiếng Anh của Trường như chính sách tiếng Anh quá trình, miễn giảm tiếng Anh quá trình, và chuẩn đầu ra tiếng Anh. Từ đó có thể thấy được tác động tích cực của việc thực hiện trong vai trò thúc đẩy việc học tập tiếng Anh.

Trân trọng.