Tin Tức

Facebook chi tiết AI chuyển đổi các đối tượng 2D thành hình dạng 3D

Pinterest LinkedIn Tumblr

Các thuật toán học máy hiện đại có thể trích xuất các vật thể hai chiều từ các bức ảnh và chuyển đổi chúng thành ba chiều. Nó là một kỹ thuật áp dụng cho các ứng dụng thực tế và robot cũng như điều hướng tăng cường, đó là lý do tại sao nó lại là một lĩnh vực nghiên cứu cấp thiết cho Facebook.

Trong một bài đăng trên blog hôm nay trước Hội nghị Quốc tế về Tầm nhìn Máy tính (ICCV) tại Seoul, Facebook đã nhấn mạnh những tiến bộ mới nhất của mình liên quan đến việc hiểu nội dung thông minh. Nó nói rằng cùng nhau, các hệ thống của nó có thể được sử dụng để phát hiện các vật thể nền trước và nền phức tạp, như chân ghế hoặc đồ đạc chồng chéo.

Nghiên cứu (của chúng tôi) dựa trên những tiến bộ gần đây trong việc sử dụng phương pháp học sâu để dự đoán và bản địa hóa các vật thể trong hình ảnh, cũng như các công cụ và kiến trúc mới để hiểu hình dạng 3D, như voxels, đám mây điểm và mắt lưới, nhà nghiên cứu của Facebook đã viết Georgia Gkioxari, Shubham Tulsiani và David Novotny trong một bài đăng trên blog. Hiểu biết ba chiều sẽ đóng vai trò trung tâm trong việc thúc đẩy khả năng của các hệ thống AI để hiểu, diễn giải và vận hành chặt chẽ hơn trong thế giới thực.

Một trong những tác phẩm được chú ý là Lưới R-CNN, một phương pháp mà Làn có thể dự đoán hình dạng ba chiều từ hình ảnh của các vật thể lộn xộn và bị che khuất.

Nghiên cứu AI của Facebook

Các nhà nghiên cứu của Facebook cho biết họ đã tăng cường hệ thống phân đoạn đối tượng hai chiều của Mặt nạ nguồn mở R-CNN với một nhánh dự đoán dạng lưới, mà họ tiếp tục củng cố với một thư viện – Torch3d – chứa các toán tử ba chiều được tối ưu hóa cao. Lưới R-CNN sử dụng hiệu quả việc sử dụng Mặt nạ R-CNN để phát hiện và phân loại các đối tượng khác nhau trong một hình ảnh, sau đó, nó tạo ra các hình dạng ba chiều với bộ dự đoán đã nói ở trên.

Facebook cho biết, được đánh giá trên kho dữ liệu Pix3D có sẵn công khai, Mesh R-CNN phát hiện thành công các đối tượng thuộc tất cả các danh mục và ước tính hình dạng ba chiều đầy đủ của chúng trên các cảnh của đồ nội thất. Trên một tập dữ liệu riêng – ShapeNet – Lưới R-CNN vượt trội so với công việc trước đó với tỷ lệ tương đối 7%.

Một hệ thống khác do Facebook phát triển – Canonical 3D Pose Networks, được rút ngắn một cách khéo léo thành C3DPO – giải quyết các tình huống trong đó các mắt lưới và hình ảnh tương ứng có sẵn để đào tạo. Nó xây dựng các cấu trúc lại của các mô hình điểm chính ba chiều, đạt được kết quả tái cấu trúc hiện đại bằng cách sử dụng giám sát điểm chính hai chiều. (Các điểm chính trong ngữ cảnh này đề cập đến các phần được theo dõi của các đối tượng cung cấp một bộ manh mối xung quanh hình học và thay đổi quan điểm của nó.)

C3DPO khai thác một mô hình tái cấu trúc dự đoán các tham số của quan điểm camera tương ứng và các vị trí điểm chính ba chiều. Một thành phần phụ trợ học cùng với mô hình để giải quyết sự mơ hồ được giới thiệu trong việc nhân tố hóa các quan điểm và hình dạng ba chiều.

Nghiên cứu AI của Facebook

Hình trên: Hình dạng được hiển thị bởi C3DPO.

Facebook lưu ý rằng việc tái tạo như vậy trước đây có thể đạt được một phần do hạn chế về bộ nhớ. Kiến trúc của C3DPO cho phép tái tạo ba chiều trong đó phần cứng để thu thập không khả thi, giống như với các đối tượng quy mô lớn.

Tầm nhìn máy tính (ba chiều) có nhiều câu hỏi nghiên cứu mở và chúng tôi đang thử nghiệm nhiều tuyên bố vấn đề, kỹ thuật và phương pháp giám sát khi chúng tôi khám phá cách tốt nhất để thúc đẩy lĩnh vực tiến lên như chúng tôi đã hiểu đã viết Gkioxari, Tulsiani và Novotny. Khi thế giới kỹ thuật số thích nghi và chuyển sang sử dụng các sản phẩm như Ảnh 3D và trải nghiệm AR và VR, chúng ta cần tiếp tục đẩy các hệ thống tinh vi để hiểu và tương tác chính xác hơn với các đối tượng trong một cảnh trực quan.

Source link

Write A Comment