Nuôi AI bằng dữ liệu người dùng

TTCT - Khi dữ liệu huấn luyện AI đã cạn, những nội dung công cộng trên mạng sẽ là nguồn tài nguyên quý giá tiếp theo bị nhòm ngó.

Cũng như với kho dữ liệu đa phần "xài chùa" trước đó, các hãng công nghệ cũng không muốn chi xu nào để khai thác mỏ vàng sẵn có trước mắt: thành quả của những "công nhân dữ liệu" bất đắc dĩ cho cỗ máy AI - không ai khác là chính chúng ta.

Kho dữ liệu bất đắc dĩ

Trong vài tháng trở lại đây, hàng loạt công ty như X (Twitter), Microsoft, Meta và Zoom đã gấp rút cập nhật điều khoản dịch vụ và chính sách về quyền riêng tư, cho phép các nền tảng của mình thu thập thông tin và nội dung từ người dùng để làm dữ liệu huấn luyện các mô hình AI tạo sinh do họ phát triển.

Một khi AI vẫn tiếp tục phát triển về quy mô và độ phức tạp, nhu cầu về dữ liệu đào tạo sẽ ngày càng tăng cao và được đánh đổi bằng quyền của chúng ta trên chính những gì mình đưa lên mạng. Mỗi khi ta đăng bài viết lên mạng xã hội, sử dụng công cụ tìm kiếm web hay mua hàng trên các nền tảng thương mại điện tử sắp tới đây đều sẽ là cơ hội để các công ty đứng sau những nền tảng đó hoàn thiện công cụ AI của riêng mình.

"Chúng tôi có thể sử dụng thông tin mà chúng tôi thu thập và các thông tin công khai có sẵn để giúp đào tạo các mô hình học máy hoặc AI cho các mục đích được nêu trong chính sách này" - chính sách riêng tư của mạng xã hội X ở thời điểm truy cập ngày 18-9 nêu rõ.

Ông chủ của X là tỉ phú Elon Musk vốn dĩ có tham vọng tham gia thị trường AI, bằng chứng là việc thành lập công ty xAI vào tháng 3-2023. Nhiều khả năng Musk muốn sử dụng mạng xã hội hơn 350 triệu người dùng này làm nguồn dữ liệu vô giá phục vụ cho giấc mơ AI của mình.

Meta cũng đã cập nhật chính sách riêng từ tháng 6 với nội dung "hoạt động và thông tin mà bạn cung cấp trên các sản phẩm và dịch vụ của chúng tôi" sẽ được sử dụng để huấn luyện các mô hình AI tạo sinh.

Nói cách khác, tất cả mọi thứ người dùng thực hiện từ cập nhật trạng thái Facebook cho đến đăng ảnh lên Instagram đều có thể trở thành một phần của bộ dữ liệu mà Meta dùng để huấn luyện các công cụ AI của mình.

Cuối tháng 8, Meta cung cấp thêm một mẫu đơn cho phép người dùng yêu cầu công ty không sử dụng dữ liệu của họ theo cách này, nhưng không nói rõ liệu công ty có nghĩa vụ phải làm theo yêu cầu đó hay không.

Thỏa thuận dịch vụ mới của Microsoft, hiệu lực từ ngày 30-9, cũng dành riêng một đề mục cho AI trong đó có nội dung "trong quá trình cung cấp các dịch vụ AI, Microsoft sẽ xử lý và lưu trữ dữ liệu bạn cung cấp cho dịch vụ cũng như dữ liệu do dịch vụ cung cấp".

Nền tảng họp trực tuyến Zoom trong lần cập nhật điều khoản dịch vụ có hiệu lực từ ngày 27-7 đã cài cắm thêm nội dung cho phép Zoom sử dụng một số thành tố của dữ liệu người dùng "được tạo ra bởi dịch vụ" để huấn luyện và tinh chỉnh AI của mình.

Sau khi gặp phản ứng gay gắt, Zoom sau đó đã phải sửa câu chữ của điều khoản để làm rõ nền tảng này "không sử dụng bất kỳ âm thanh, video, trò chuyện, chia sẻ màn hình, tệp đính kèm hoặc các thông tin liên lạc khác… để đào tạo các mô hình AI của Zoom hoặc bên thứ ba".

Phiên bản chính sách riêng tư của Google có hiệu lực từ ngày 1-7 cũng có sửa đổi một số câu chữ quan trọng liên quan đến việc sử dụng "thông tin trực tuyến công khai có sẵn" của người dùng. Chẳng hạn, Google giờ đây nêu rõ dữ liệu này có thể được khai thác để giúp đào tạo "các mô hình AI". Công cụ AI Google Bard cũng được nêu đích danh là một trong những dịch vụ hưởng lợi từ những thông tin được thu thập.

Cũng cần phải nhắc một thực tế: không mấy người đọc điều khoản dịch vụ hay theo dõi tin tức để biết về những thay đổi nói trên.

Giới truyền thông phản kháng

Cào dữ liệu (data scraping) là một kỹ thuật thu thập dữ liệu bằng cách sử dụng một chương trình máy tính tự động quét qua nội dung các trang web và lưu lại dữ liệu dưới dạng có cấu trúc rõ ràng. Dữ liệu này sau đó có thể được dùng để nạp vào mô hình AI phục vụ việc huấn luyện.

Kỹ thuật này không mới nhưng gần đây trở nên ngày càng phổ biến đặc biệt là khi nhu cầu dữ liệu dành cho AI tăng cao. Thực tế này vô tình biến mọi nhà sản xuất nội dung trên mạng thành những người "công nhân dữ liệu" bất đắc dĩ cho cỗ máy AI đã vào guồng, TS Hanlin Li viết cho Tech Policy.

"Việc thiếu sự đồng thuận, bảo vệ bản quyền và cân nhắc về quyền riêng tư đang tạo ra tranh cãi lớn đứng từ góc nhìn của người dùng và các nhà sáng tạo nội dung" - Li chỉ ra. Người dùng đứng giữa hai lựa chọn: ngừng chia sẻ nội dung công khai trên mạng hoặc phó mặc cho các công ty muốn làm gì tùy thích với nguồn tài nguyên quý giá này.

Không chỉ người dùng cá nhân mà các đơn vị sản xuất nội dung chuyên nghiệp như cơ quan báo chí cũng đang phản ứng gay gắt trước việc nội dung họ tạo ra bằng chất xám và tiền bạc bị tận dụng "miễn phí" để huấn luyện ra những mô hình AI mà rất có thể một ngày nào đó sẽ hất đổ chén cơm của chính mình.

Tập đoàn truyền thông News Corp - đơn vị đứng sau một số tờ báo lớn như Wall Street Journal và Sunday Times - đang tham gia "nhiều cuộc thương thảo" với các công ty AI để đạt thỏa thuận về việc sử dụng nội dung của họ, Reuters dẫn phát biểu của CEO Robert Thompson hôm 7-9.

Các hãng thông tấn AFP của Pháp, AP của Mỹ cùng 7 đơn vị truyền thông lớn khác thì phát đi một bức "tâm thư" ngày 9-8 chỉ trích việc sử dụng không xin phép dữ liệu có bản quyền của các đơn vị truyền thông cho huấn luyện AI.

"Những hoạt động như vậy làm suy yếu các mô hình kinh doanh cốt lõi của ngành truyền thông, vốn dựa trên lượng độc giả và người xem (chẳng hạn thông qua gói đăng ký), việc cấp phép nội dung và quảng cáo" - lá thư nêu rõ. Ngoài việc vi phạm luật bản quyền, hành động này còn gián tiếp "làm giảm khả năng tiếp cận của công chúng với thông tin chất lượng cao và đáng tin cậy", các cơ quan này cáo buộc.

Một tờ báo lớn của Mỹ là The New York Times thì đã có nước đi phủ đầu nhằm ngăn chặn nội dung của họ bị sử dụng để đào tạo các mô hình AI. Theo bài viết đăng trên Adweek, NYT đã cập nhật điều khoản dịch vụ của mình vào ngày 3-8 để cấm nội dung của tờ báo - bao gồm văn bản, hình ảnh, đoạn âm thanh/video, giao diện, siêu dữ liệu (metadata) hoặc tổng hợp những yếu tố này - được sử dụng trong quá trình phát triển của "bất kỳ chương trình phần mềm nào, bao gồm nhưng không giới hạn ở việc đào tạo hệ thống học máy hoặc AI".

Các điều khoản cập nhật hiện cũng nêu rõ không được sử dụng các công cụ tự động như chương trình cào dữ liệu web để sử dụng, truy cập hoặc thu thập nội dung của báo mà không có sự cho phép bằng văn bản. Cơ quan này cũng được cho là đã rút khỏi một liên minh truyền thông đang nỗ lực đàm phán với các công ty công nghệ về việc sử dụng dữ liệu để huấn luyện AI, theo Semafor.

Với những người dùng cá nhân yếm thế hơn, sự phản kháng chỉ có thể đến dưới hình thức yêu cầu các nền tảng không sử dụng dữ liệu của mình để phát triển công cụ AI - một yêu cầu mà các công ty có thể chấp thuận hoặc không một khi mà pháp luật chưa cung cấp sự bảo vệ chặt chẽ.

"Các nhà hoạch định chính sách và nhà nghiên cứu phải tăng gấp đôi nỗ lực thiết lập quyền quản lý dữ liệu để tương lai của AI được xây dựng dựa trên sự đồng thuận, công bằng và chặt chẽ. Trong khi ta khen ngợi các hệ thống AI, thì những người sản xuất dữ liệu đã giúp tạo nên những hệ thống đó nên có tiếng nói trong vấn đề này" - TS Li viết.