Trí tuệ nhân tạo của Google tưởng tượng ra những "giấc mơ" như thế nào?
Một hình ảnh do hệ thống AI của Google tưởng tượng ra dựa vào những bài học mà các lập trình viên dạy.
Google đã phát triển hệ thống mạng nơ ron nhân tạo nhằm phục vụ quá trình xử lý, nhận dạng hình ảnh và giọng nói. Các lập trình viên đã dùng hàng triệu hình ảnh thật để "dạy" cho AI và trong quá trình học, họ nhận thấy rằng AI còn có thể "tưởng tượng ra những giấc mơ dựa vào những gì đã học"? Họ đã làm điều đó như thế nào? Dưới đây là những lý giải của 2 kỹ sư phần mềm của Google được đăng tải mới đây trên trang blog của hãng.
Hệ thống mạng nơ ron nhân tạo của Google ( ANN ) được tổ chức theo kiểu xếp chồng từng nơ ron lại với nhau (chạy trên máy tính) và được sử dụng để xử lý hình ảnh. Để hiểu được làm thế nào máy tính có thể tưởng tượng, chúng ta cần phải hiểu cách chúng học tập như thế nào. Về cơ bản, các lập trình viên của Google sẽ dạy ANN hiểu về 1 cái nĩa chẳng hạn, bằng cách cung cấp cho nó hàng triệu bức ảnh về cái nĩa và chỉ định cho ANN biết rằng mỗi cái đều là nĩa.
Mỗi nhóm 10-30 lớp nơ ron sẽ dần trích xuất nhiều thông tin khác với độ phức tạp cao hơn từ bức ảnh (về các góc cạnh cho tới hình dạng chung,…) để cuối cùng, nó sẽ hiểu rằng "nĩa" là đồ vật bao gồm 1 cáng và 2-4 răng cưa. Nếu ANN không hiểu được như vậy, nghĩa là có lỗi xuất hiện, các kỹ sư sẽ tìm hiểu các sai sót và sửa lại. Đồng thời, các kỹ sư phát hiện ra rằng quá trình dạy ANN phân biệt hình ảnh có thể được dùng để tạo ra hình ảnh khác. Logic ở đây là nếu bạn biết cái nĩa như thế nào, thì bạn có thể vẽ lại nó.
Đây là hình ảnh những vật thể theo cách hiểu của ANN
Trên đây là những gì mà máy tính tưởng tượng ra được. Chúng ta có thể thấy, mặc dù đã được học từ hàng triệu bức ảnh, máy tính vẫn không thể tưởng tượng được hình ảnh hoàn hảo của 1 đối tượng. Điển hình như khi được yêu cầu tạo ra một quả tạ, máy tính sẽ cho ra những hình ảnh những cánh tay dài, co dãn để nâng quả tạ lên. Trong số các kết quả mà máy tính tạo ra, hầu hết đều có cánh tay, điều đó có nghĩa rằng nó hiểu cánh tay như 1 phần của quả tạ.
Đôi khi nó hiểu rằng cánh tay cũng là 1 phần của quả tạ
Đây có thể được cho là lỗi và nó giúp các kỹ sư của Google hoàn thiện khả năng xử lý hình ảnh. Đồng thời, họ phát triển thêm những khả năng khác của ANN. Goolge sử dụng ANN để mở rộng những hình ảnh mà nó thấy trong bức ảnh. Mỗi lớp nơ ron nhân tạo sẽ hoạt động với các mức độ suy nghĩ trừu tượng khác nhau: một số thu thập rìa của vật thể dựa vào sự sai khác dù là nhỏ nhất của độ tương phản, một số khác thì đi tìm hình dạng và màu sắc của vật thể.
Khi đám mây có hình dạng giống như chim, ANN sẽ hiểu đó là chim và nó cứ lập lại logic này, sau đó sẽ tự tổng hợp những hình ảnh đó dựa vào suy nghĩ ban đầu. Tương tự như vậy chúng ta có Chó-Cá, Heo-Ốc,...
Toàn bộ quá trình nhằm làm nổi bật màu sắc và hình dạng của vật thể, sau đó các kỹ sư sẽ bắt máy tính gom tất cả những gì mà nó nhận ra vào sản phẩm cuối cùng. Do đó nếu như một đám mây có hình con chim, máy tinh sẽ luôn giữ lập trường rằng đó là một con chim và sẽ lặp đi lặp lại rất nhiều lần suy nghĩ đó.
Người ta phát hiện rằng ANN thường nghĩ cây cối là nhà cửa, lá cây là chim chóc, côn trùng
Chưa dừng lại ở đó, trong quá trình hoạt động thì các kỹ sư còn phát hiện rằng đá và cây cối là những vật thể mà ANN thường nghĩ là tòa nhà. Trong khi đó, lá cây sẽ được hiểu là côn trùng. Sử dụng những hình ảnh mà ANN tạo ra dựa trên lối suy nghĩ đó, các kỹ sư bắt nó gom các bức ảnh lại với nhau, tiếp tục xử lý, tạo thành một hình ảnh mới rồi lặp lại nhiều lần quá trình này. Họ gọi quy trình này là "dòng suối bất tận của những ấn tượng mới" và bức hình được tạo thành được gọi là "giấc mơ". Nó hoàn toàn đại diện cho trí tưởng tượng của máy tính với nguồn gốc từ thế giới thực.
Google cho biết rằng họ sẽ tiếp tục sử dụng kỹ thuật này nhằm tìm hiểu sâu hơn về quá trình học tập của máy tính, từ đó hoàn thiện phương pháp giúp nó hiểu được nội dung của hình ảnh kỹ thuật số. Mặt khác, họ hy vọng rằng những giấc mơ này sẽ là "cội rễ sự sáng tạo" của máy tính, giúp nó có thể tự suy nghĩ từ những điều thực tế. Dưới đây là một vài hình ảnh được hệ thống ANN tạo ra (hoặc xem thêm tại trang chỉa sẻ hình ảnh của nhóm kỹ sư tại Google )
Những ngôi chùa trong trí tưởng tượng của ANN
Google tưởng tượng gì đây? Một công trình chăng?
Bên trái là bức tranh của họa sĩ Georges Seurat và bên phải là những hình ảnh do AI xử lý ra
Bức ảnh bên trái chụp bởi nhiếp ảnh gia Zachi Evenor và bên phải là phiên bản mà AI hiểu được ghép từ rất nhiều mảnh ghép nhỏ lại với nhau