Thách thức 1 triệu hình ảnh

TTCT - Nghiên cứu mới cho thấy các thuật toán, trí tuệ nhân tạo và máy móc được thiết kế để nhận diện mặt người vẫn còn gặp nhiều khó khăn làm chính xác việc đó khi quy mô của thử nghiệm tăng lên.

Sẽ tới ngày máy tính có thể nhận diện một khuôn mặt trong số hàng triệu triệu khuôn mặt khác nhau -idfblog.com

Giới hạn của máy móc

Trí nhớ con người được cho là rất thiếu độ tin cậy. Rất khó định lượng chính xác một người có thể nhớ tốt tới mức độ nào. Lấy ví dụ, không ai biết chắc một người bình thường có thể ghi nhớ được bao nhiêu khuôn mặt và các ước đoán khác nhau, vào khoảng vài nghìn, dựa trên số những người quen biết mà một người có thể có.

Máy móc thì không bị hạn chế như thế. Trao cho một máy tính bộ dữ liệu các khuôn mặt khổng lồ và nó có thể xử lý được các dữ liệu rồi nhận ra khuôn mặt nó cần tìm, với tốc độ và sự chính xác đáng nể. Kỹ năng này là một yếu tố then chốt với rất nhiều ứng dụng quan trọng của thời đại kỹ thuật số và Internet thế kỷ 21.

Tuy nhiên, ngay cả máy móc cũng có những giới hạn của chúng khi nhận diện mặt người. Và các nhà khoa học chỉ mới bắt đầu tìm hiểu xem những hạn chế đó là gì. Để xác định khó khăn của máy tính nằm ở đâu, các nhà nghiên cứu tại Đại học Washington đã tạo ra một bộ dữ liệu khổng lồ có tên MegaFace và thử nghiệm bộ dữ liệu đó với nhiều thuật toán nhận dạng khuôn mặt.

Ý tưởng là đạt tới mức độ dữ liệu 1 triệu hình ảnh của 700.000 người khác nhau, chứ không chỉ là một bộ dữ liệu nhỏ với ít khuôn mặt được phân biệt rõ ràng như trong quá khứ.

Khi bộ dữ liệu tăng lên, sự chính xác của máy móc bắt đầu giảm đi. Lấy ví dụ, các thuật toán xác định đúng khuôn mặt 95% với bộ dữ liệu 13.000 hình ảnh, chỉ còn đúng 70% khi số hình ảnh tăng lên 1 triệu. Nhưng con số đó vẫn là khá ấn tượng, theo lời nhà nghiên cứu Ira Kemelmacher-Shlizerman.

“Tốt hơn nhiều so với sự trông đợi của chúng tôi” - bà nói với tạp chí The Atlantic. Nhưng bà và các đồng nghiệp tin rằng độ chính xác còn giảm nữa khi kích thước của bộ dữ liệu tăng lên, một vấn đề thật sự với những ứng dụng mà giới công nghệ hiện chờ đợi từ các phần mềm nhận diện khuôn mặt.

“Nhiều ứng dụng đòi hỏi sự chính xác khi bộ dữ liệu đã lên tới hàng tỉ người - các nhà nghiên cứu viết trên trang của dự án thuộc Đại học Washington: megaface.cs.washington.edu - Đúng nghĩa là mò kim đáy biển”.

Máy móc cũng gặp khó khăn trước các khuôn mặt người na ná nhau, cả những trường hợp người giống người lẫn những trường hợp cùng một người xuất hiện trong những bức ảnh khác nhau, với ánh sáng và tuổi tác khác nhau, ảnh khuôn mặt trẻ em cũng là một bài toán hóc búa.

“Khi tăng quy mô lên, các thuật toán phải rất nhạy cảm trong việc xác định những thay đổi nhỏ nhặt về nhân dạng, đồng thời phải nhận biết cả về ánh sáng, tư thế, tuổi tác” - bà Kemelmacher-Shlizerman phân tích. Một khó khăn với các nhà nghiên cứu là hiện khó thể có bộ dữ liệu đủ lớn để cho máy làm việc, ít ra là với mục đích nghiên cứu.

Những tập đoàn như Google và Facebook sở hữu những kho ảnh khổng lồ nhưng là tư nhân và vì lợi nhuận, muốn tiếp cận phải trả tiền. Hiện không có bộ dữ liệu hình ảnh khuôn mặt nào lên tới số hàng triệu, theo dự án MegaFace.

“Một thuật toán nhận diện khuôn mặt thật sự là cực mạnh phải nhận được mặt trong hàng tỉ người” - các nhà nghiên cứu viết. Trong thử nghiệm của họ, thuật toán FaceNet của Google làm được tốt nhất, với tỉ lệ chính xác 75% khi nhận diện một gương mặt trong 1 triệu bức ảnh. Hầu hết các thuật toán khác đều ở dưới mức 60%, một số chỉ ở mức 35%.

Ứng dụng vô bờ bến

Những ứng dụng của thuật toán nhận diện khuôn mặt trong tương lai kỹ thuật số là vô bờ bến. Hiện ngày càng nhiều người sử dụng các phần mềm đó để bảo mật cho điện thoại: chỉ khi nhận ra đó là khuôn mặt chủ nhân thì điện thoại mới mở khóa.

Nhiều văn phòng hiện đại cũng đã chuyển từ các loại thẻ đeo rườm rà sang việc nhận diện khuôn mặt để kiểm soát ra vào. Cảnh sát thì có thể dựa vào các thuật toán này để tìm đúng nghi phạm bị truy nã trong hàng trăm nghìn khuôn mặt xuất hiện trên các máy quay an ninh.

Trước thí nghiệm MegaFace, thí nghiệm lớn nhất là Labeled Faces in the Wild (LFW) được thực hiện năm 2007, khi đó mới có 13.000 hình ảnh của 5.000 người. “Khi đó, tỉ lệ nhận diện chính xác của hầu hết các thuật toán là trên 95% - bà Kemelmacher-Shlizerman giải thích - Điều này gây ra ấn tượng là công nghệ này đã được hoàn chỉnh”. Nhưng thí nghiệm của Đại học Washington đã khẳng định điều ngược lại.

Bí quyết hiện giờ có thể không nằm ở các nhà nghiên cứu đại học mà ở những công ty tư nhân như Google (thử nghiệm thuật toán của họ dựa vào kho dữ liệu 500 triệu bức ảnh của 10 triệu người).

Và không chỉ Mỹ quyết liệt trong công nghệ này, thuật toán FaceN của công ty Nga N-TechLab không thua kém FaceNet là bao, dù bộ dữ liệu của họ “chỉ” là 18 triệu bức ảnh của 200.000 người. Thuật toán SIAT MMLab của một công ty Trung Quốc dưới quyền chỉ đạo của giáo sư Yu Qiao (Kiều Vũ) thuộc Viện công nghệ tiên tiến Thâm Quyến cũng cho kết quả tốt. ■