Biểu tượng dự án Ego4D của Facebook. (Ảnh chụp màn hình youtube)

Facebook phát triển AI theo dõi toàn bộ cuộc sống người dùng

Giúp NTDVN sửa lỗi

Ngày 14/10 vừa qua, Facebook đã đưa ra thông báo cho biết công ty đang tập trung nghiên cứu các công cụ trí tuệ nhân tạo (AI) có thể nghe, nhìn, ghi nhớ và phân tích mọi thứ người dùng làm qua video góc nhìn thứ nhất trên kính thông minh để gợi ý cho họ các thao tác sẽ làm.

Dự án của Facebook có tên gọi là Ego4D sẽ ghi lại hình ảnh, âm thanh và hoạt động của người dùng nhằm giúp họ phát triển một số kỹ năng, như "trí nhớ theo giai đoạn" (gợi ý lại thông tin), "ghi lại âm thanh, hình ảnh" (mở lại video, ảnh đã lưu) hay "tương tác xã hội" (giúp nghe rõ cuộc nói chuyện của người đối diện).

Vào tháng 9, gã khổng lồ truyền thông xã hội đã tung ra một dòng “kính thông minh” được gọi là Ray-Ban Stories, mang một máy ảnh kỹ thuật số và các tính năng khác. Giống như dự án Google Glass, đã gặp nhiều đánh giá trái chiều vào năm 2013, dự án này đã dẫn đến những lời phàn nàn về việc xâm phạm quyền riêng tư.

Dự án Ego4D nhằm mục đích phát triển phần mềm giúp kính thông minh trở nên hữu ích hơn nhiều, nhưng trong quá trình này có thể cho phép các vi phạm quyền riêng tư lớn hơn nhiều.

Dự án Ego4D là gì?

Facebook mô tả trung tâm của dự án là: Một bộ dữ liệu trung tâm quy mô lớn, và bộ tiêu chuẩn được thu thập trên 74 địa điểm trên toàn thế giới và 9 quốc gia, với hơn 3.025 giờ video về hoạt động cuộc sống hàng ngày.

Ego4D có hai thành phần: một tập dữ liệu lớn về ảnh và video ở góc nhìn thứ nhất và “bộ điểm chuẩn” bao gồm năm tác vụ đầy thử thách có thể được sử dụng để so sánh các mô hình hoặc thuật toán AI khác nhau. Các điểm chuẩn này liên quan đến việc phân tích video ở góc nhìn thứ nhất để ghi nhớ các sự kiện trong quá khứ, tạo các mục nhật ký, hiểu tương tác với các đối tượng và con người cũng như dự báo các sự kiện trong tương lai.

Nội dung của tập dữ liệu là gì?

Mặc dù đây không phải là tập dữ liệu video đầu tiên được giới thiệu với cộng đồng nghiên cứu, nhưng nó lớn hơn 20 lần so với các tập dữ liệu có sẵn công khai. Nó bao gồm video, âm thanh, quét lưới 3D về môi trường, ánh mắt, âm thanh nổi và chế độ xem nhiều camera được đồng bộ hóa của cùng một sự kiện.

Ego4D is a massive-scale egocentric video dataset and benchmark suite.

It offers 3,025 hours of daily life activity video spanning hundreds of scenarios captured by 855 unique camera wearers from 74 worldwide locations and 9 different countries.https://t.co/oJHBTdQp3b pic.twitter.com/K90k9MQHyQ

— Papers with Datasets (@paperswithdata) October 14, 2021

Hầu hết các cảnh quay được ghi lại là không chuẩn bị trước và hoàn toàn "trong tự nhiên". Dữ liệu cũng khá đa dạng vì nó được thu thập từ 74 địa điểm trên chín quốc gia và những người thu thập dữ liệu có nguồn gốc, độ tuổi và giới tính khác nhau.

Chúng ta có thể làm gì với AI?

Thông thường, các mô hình thị giác máy tính được đào tạo và thử nghiệm trên các hình ảnh và video có chú thích cho một nhiệm vụ cụ thể. Facebook lập luận rằng các bộ dữ liệu và mô hình AI hiện tại đại diện cho góc nhìn của người thứ ba hoặc "khán giả", dẫn đến nhận thức thị giác bị hạn chế. Hiểu được video góc nhìn thứ nhất sẽ giúp thiết kế robot tương tác tốt hơn với môi trường xung quanh.

: Các nhân viên robot trong tương lai sẽ hiểu rõ hơn về môi trường của họ. (Ảnh: Wikimedia)

Hơn nữa, Facebook lập luận rằng tầm nhìn tập trung có khả năng biến đổi cách chúng ta sử dụng các thiết bị thực tế ảo và thực tế tăng cường như kính và tai nghe. Nếu chúng ta có thể phát triển các mô hình AI hiểu thế giới từ góc nhìn thứ nhất, giống như con người, các thiết bị VR và AR có thể trở nên có giá trị như điện thoại thông minh của chúng ta.

AI có thể làm cho cuộc sống của chúng ta tốt hơn không?

Facebook cũng đã phát triển năm nhiệm vụ điểm chuẩn như một phần của dự án Ego4D. Các nhiệm vụ nhằm mục đích xây dựng sự hiểu biết tốt hơn về các sản phẩm video để phát triển AI hữu ích. Các điểm chuẩn tập trung vào việc hiểu nhận thức đầu tiên của người dùng. Năm nhiệm vụ điểm chuẩn bao gồm các nội dung như sau:

Bộ nhớ theo giai đoạn (điều gì đã xảy ra, khi nào?): Ví dụ: tìm ra từ video góc nhìn thứ nhất nơi người dùng để lại chìa khóa của mình
Thao tác bằng tay (người dùng đang làm gì và như thế nào?): Điều này nhằm mục đích hiểu rõ hơn về người dùng
Cuộc trò chuyện bằng âm thanh-hình ảnh (ai đã nói gì và khi nào?): Điều này bao gồm theo dõi và tóm tắt các cuộc hội thoại, cuộc họp hoặc hội nghị, thảo luận
Tương tác xã hội (ai đang tương tác với ai?): Đây là về việc xác định mọi người và hành động của họ, với mục tiêu làm những việc như giúp người dùng nghe tốt hơn về bất cứ điều gì
Dự báo các hành động tiếp theo (người dùng có khả năng làm gì tiếp theo?): Điều này nhằm dự đoán ý định của người dùng và đưa ra lời khuyên để người dùng có thể tùy chọn

Quyền riêng tư của người dùng ở đâu?

Rõ ràng là có những mối quan tâm đáng kể liên quan đến quyền riêng tư của người dùng. Nếu công nghệ này được kết hợp với kính thông minh liên tục ghi lại và phân tích môi trường, kết quả có thể là theo dõi và ghi nhật ký liên tục (thông qua

nhận dạng khuôn mặt) của những người dùng và những người xung quanh nơi công cộng.

Mặc dù điều trên nghe có vẻ kịch tính, nhưng công nghệ tương tự đã được thử nghiệm ở Trung Quốc và những nguy cơ tiềm ẩn đã được các nhà báo khám phá.

Facebook cho biết họ sẽ duy trì các tiêu chuẩn đạo đức và quyền riêng tư cao đối với dữ liệu thu thập được cho dự án, bao gồm sự đồng ý của những người tham gia, đánh giá độc lập và dữ liệu xác định danh tính nếu có thể.

Do đó, Facebook cho biết dữ liệu được thu thập trong “môi trường được kiểm soát với sự đồng ý rõ ràng” và trong không gian công cộng “khuôn mặt và các thông tin nhận dạng cá nhân khác sẽ bị làm mờ”.

Nhưng bất chấp những cam đoan này (đây chỉ là một thử nghiệm), vẫn có những lo ngại về tương lai của công nghệ kính thông minh cùng với sức mạnh của một gã khổng lồ truyền thông xã hội có ý định không phải lúc nào cũng phù hợp với người dùng của họ.

Theo The Conversation

Xem thêm: