Facebook công khai chia sẻ nguồn mở A.I – Segmentation Object trong hình ảnh

29

Tin vui cho các lập trình viên!

Vào ngày 26/08 vừa qua, Facebook vừa công bố đến cộng đồng một vài phần mềm nguồn mở trí về trí tuệ nhân tạo (A.I) giúp phân loại đối tượng trong hình ảnh (Segmenting objects within images). Những công cụ như The DeepMask, SharpMask, và MultiPathNet hiện đã có mặt trên GitHub.

Đây không phải là lần đầu tiên Facebook cho mở các chương trình này cho cộng đồng. Hiện nay, toàn bộ công trình nghiên cứu về trí thông minh nhân tạo (Artificial Intelligence Research – FAIR) đang mở ra cho cộng đồng làm phần mềm có thể trải nghiệm và xây dựng trực tiếp trên nó.

Image segmentation đã “tiến hoá” lên một nấc nữa, nó có thể diện con người, nơi chốn, hay vật thể trong một hình ảnh, thậm chí nó còn có thể xác nhận địa điểm thông qua dữ liệu trên hình ảnh. Để làm được việc đó, Facebook đang dùng một công nghệ A.I gọi là deep learning, một công nghệ cho phép “huấn luyện” trí thông minh thông qua rất nhiều network dữ liệu rồi từ đó giúp chúng có thể tư duy từ những nguồn dữ liệu mới.

Nói sơ về những công cụ này, DeepMask sẽ tạo ra các initial object masks, SharpMask làm rõ lại các mask này, và cuối cùng MultiPathNet tiến hành nhận diện các chủ thể được thiết lập từ các mask,” nhà khoa học của FAIR research, Piotr Dollar đã cho biết trên blog của mình.

Đây không phải lần đầu tiên hệ thống A.I của Facebook cho ra mắt. Trước đó họ cũng đã cho Torchnet chào sân vào tháng 6 vừa rồi.

Những nhà khổng lồ khác như Apple, Baidu, Google, và Microsoft, Cũng đang đổ rất nhiều tiền cho việc nghiên cứu và phát triển công nghệ deep learning này.

Các phòng nghiên cứu của những công ty này cạnh tranh mạnh mẽ ở phân khúc này, có thể đến cái tên như COCO. Những nghiên cứu tốt sẽ cho ra những sản phẩm ứng dụng tốt, từ đó có thể thu hút nhiều người dùng cũng như thu thập thêm dữ liệu.

Facebook cũng rất biết cách cải thiện các ứng dụng của họ bằng những công cụ này. Dollar cho biết:

Việc để máy có thể tự nhận dạng vật thể trên các bức ảnh, nó sẽ giúp người dùng có thể tìm kiếm những bức hình cụ thể một cách dễ dàng hơn. Công cụ này cũng sẽ giúp những người bị khiếm thị có thể hiểu được nội dung những bức ảnh mà bạn bè mình đang chia sẻ, hệ thống sẽ có thể giúp họ làm được điều ấy một cách dễ dàng.

Hơn nữa, đây cũng là một định hướng giúp cải thiện trải nghiệm người dùng hơn nữa. Thách thức tiếp theo của chúng tôi là ứng dụng công nghệ này vào video, nơi mà các vật thể di chuyển liên tục, tương tác, và thay đổi theo thời gian. Hiện chúng tôi cũng đã đang có một số hướng đi nhất định với computer vision techniques giúp tương tác trên video theo thời gian thực, hiểu và phân loại được vật thể ví dụ như con mèo hay đồ ăn. Và đặc biệt, công nghệ classification này sẽ giúp tăng độ tương tác trên các Live videos.

Nguồn: Techtalk via Venturebeat