Dữ liệu huấn luyện AI: Sao phải mua khi có thể "xài chùa"

TTCT - Trong khi giới biên kịch lo ngại khả năng bị AI thay thế hay làm giảm thù lao, các nhà văn bất bình vì thành quả lao động trí tuệ của họ bị "xài chùa" một cách công khai.

"Các nhà văn nên được đền bù xứng đáng cho công việc của họ. Trả công công bằng có nghĩa là công việc của một người được coi trọng, rõ ràng và đơn giản vậy thôi" - nhà văn George Saunders nói trong một thông cáo do Hiệp hội Nhà văn Mỹ (AG) phát ngày 20-9.

Saunders là một trong 17 nhà văn cùng đứng đơn kiện OpenAI, cáo buộc công ty này sao chép bất hợp pháp các tác phẩm có bản quyền của họ để đào tạo ChatGPT.

Vụ việc cho thấy những vấn đề nhức nhối giữa cơn sốt phát triển của các AI tạo sinh: cần nguồn dữ liệu khổng lồ để "dạy" chúng, nhất là dữ liệu "chất lượng cao" hơn các nội dung trôi nổi và tràn ngập Internet và các hãng công nghệ không muốn bỏ tiền ra sở hữu quyền sử dụng dữ liệu một cách hợp pháp.

Nhà văn lên tiếng

Đơn kiện của AG đệ lên một tòa án ở New York ngày 19-9, yêu cầu cấm OpenAI tiếp tục sử dụng tác phẩm của các tác giả để đào tạo ChatGPT, và đòi bồi thường - gồm một khoản chưa xác định cho thiệt hại vật chất và khoản bồi thường pháp định 150.000 USD trên mỗi tác phẩm bị xâm phạm.

"Vụ kiện này chỉ là sự khởi đầu trong cuộc chiến của chúng tôi nhằm bảo vệ các tác giả khỏi hành vi trộm cắp của OpenAI và các AI khác" - Maya Shanbhag Lang, chủ tịch AG, nói trong thông cáo. Ngoài Saunders (tác giả Ngày mười tháng mười hai và Lincoln ở cõi trung ấm), trong số các nhà văn đứng tên kiện tập thể còn có George

R. R. Martin - tác giả loạt truyện A Song of Ice and Fire được chuyển thể thành series phim Game of thrones (Trò chơi vương quyền), và John Grisham - nổi tiếng với dòng sách trinh thám pháp đình (Hãng luật, Bồi thẩm cuối cùng).

Theo đơn kiện của AG, "những cuốn sách được biên soạn và xuất bản một cách chuyên nghiệp" của các tác giả thuộc hiệp hội đã trở thành "một nguồn đặc biệt quan trọng" của dữ liệu dùng để đào tạo các mô hình ngôn ngữ lớn (LLM).

Cụ thể, những cuốn sách mà OpenAI sử dụng để đào tạo ChatGPT "được tải xuống từ kho sách điện tử lậu và sau đó được sao chép vào cấu trúc của GPT 3.5 và GPT 4 - [các mô hình được dùng trong] ChatGPT cũng như hàng ngàn ứng dụng và mục đích kinh doanh khác, vốn có thể giúp OpenAI thu nhiều tỉ đô la".

Trước đó hai tháng, ba tác giả khác cũng khởi kiện OpenAI và Meta (công ty mẹ Facebook) vì sử dụng trái phép các tác phẩm có bản quyền để đào tạo hệ thống AI của họ. Những vụ kiện này không phải vô cớ.

Có bằng chứng cho thấy các tác phẩm có bản quyền của hàng ngàn nhà văn đã và đang được dùng để huấn luyện AI, để chúng có thể trả lời các câu hỏi liên quan đến văn học, từ tóm tắt nội dung đến viết bài luận phân tích, thậm chí sao chép phong cách của nhà văn.

Sách lậu đến từ đâu?

Trong một bài viết ngày 20-8, tạp chí The Atlantic tiết lộ cách OpenAI, Meta và các công ty công nghệ khác sử dụng sách lậu từ các "thư viện ngầm" (shadow library) để làm dữ liệu dạy AI, thay vì phải mất tiền mua nội dung đào tạo.

Theo điều tra và phân tích của The Atlantic, khoảng 15% tập dữ liệu huấn luyện cho GPT-3 đến từ hai kho sách lấy từ Internet là Books1 và Books2. Trong đó, Books1 được đoán là sản phẩm hoàn chỉnh của Project Gutenberg, một kho trực tuyến gồm khoảng 70.000 cuốn sách đã hết hạn bản quyền hoặc được phép phân phối phi thương mại; nội dung của Books2 bí ẩn hơn, song nhiều người nghi ngờ nó là tập hợp những cuốn sách lậu từ các thư viện ngầm như Library Genesis (LibGen), Z-Library, Sci-Hub và Bibliotik.

Ngoài ra còn có kho dữ liệu Books3, hoàn toàn sử dụng sách lậu từ trang chia sẻ sách trên nền torrent Bibliotik, theo chính tuyên bố của người tạo ra nó - Shawn Presser, một lập trình viên tự do.

Theo The Atlantic, Meta cũng sử dụng một tập dữ liệu gồm hơn 170.000 cuốn sách, hầu hết được xuất bản trong hai thập niên qua để đào tạo mô hình ngôn ngữ lớn LLaMA; một phần trong số này đến từ Books3. Books3 cũng được sử dụng để đào tạo BloombergGPT của Hãng tin Bloomberg, GPT-J của EleutherAI và có thể cả những chương trình AI tạo sinh khác hiện được nhúng vào các trang web khắp Internet.

Theo tác giả bài viết Alex Reisner, Meta từ chối bình luận về việc sử dụng Books3; Bloomberg xác nhận đã từng dùng và sẽ không đưa tập dữ liệu này vào việc đào tạo các phiên bản BloombergGPT trong tương lai; còn lãnh đạo EleutherAI không phủ nhận việc dùng Books3 trong dữ liệu đào tạo của GPT-J.

"Sách lậu đang được sử dụng làm đầu vào cho các chương trình máy tính đang thay đổi cách chúng ta đọc, học và giao tiếp. Tương lai mà AI hứa hẹn được viết bằng những từ ngữ bị đánh cắp" - Reisner bình luận.

Mà không chỉ trong lĩnh vực sách. AI tạo hình ảnh cần được nạp dữ liệu tranh vẽ, tác phẩm của các họa sĩ từ xưa đến nay, AI viết nhạc cần học bài hát, AI lập trình cần "nhồi" các đoạn code… Các AI tạo hình ảnh như Stability AI, Midjourney và DeviantArt, ứng dụng hỗ trợ viết code GitHub Copilot của GitHub (thuộc sở hữu của Microsoft) đều đã bị kiện vì vi phạm bản quyền khi sử dụng dữ liệu để đào tạo AI.

Giải pháp là gì?

Shawn Presser, người tạo ra Books3, trần tình rằng ông thông cảm cho nỗi lo của các nhà văn, nhưng thứ nguy hiểm hơn chính là nguy cơ việc phát triển AI tạo sinh chỉ nằm trong tay của một nhóm "các tập đoàn lắm tiền, có khả năng kiểm soát hoàn toàn công nghệ có thể định hình lại văn hóa của chúng ta".

Books3 được tạo ra và cung cấp miễn phí để ai cũng có thể nhảy vào phát triển các công cụ AI tạo sinh. "Sẽ tốt hơn nếu không cần phải có những thứ như Books3, nhưng thực tế là nếu không có Books3, sẽ chỉ có mỗi OpenAI đủ khả năng làm điều họ đang làm" - Presser nói với Reisner.

Với hàng loạt vụ kiện chưa kết thúc, vẫn còn phải chờ xem giải pháp để tương lai AI không phải xây trên những thứ bị ăn cắp sẽ là gì. Trước mắt, Pau Garcia người sáng lập Domestic Data Streamers, một công ty tư vấn nghệ thuật - gợi ý các công ty AI nên thay đổi mô hình huấn luyện, chỉ dùng dữ liệu thuộc miền công cộng (public domain) hoặc loại bỏ hoàn toàn tác phẩm của các nghệ sĩ. Garcia cho biết thêm các công ty có thể trả tiền cho các nghệ sĩ để lấy tác phẩm của họ làm dữ liệu đào tạo.

Các công ty cũng đang cân nhắc việc cho phép các nghệ sĩ có tiếng nói về nội dung có thể được nạp cho các mô hình AI. Hồi tháng 5, nền tảng phát nhạc trực tuyến Audius đã ra mắt một tính năng mới cho phép các nghệ sĩ tạo một trang, gồm riêng các tác phẩm mà ai cũng có thể dùng cho các công cụ AI viết nhạc.

Tóm lại, dữ liệu phải được sở hữu chính thức chứ không phải lén lút "xài chùa".

"Con thú phàm ăn"

"AI là một con thú phàm ăn và đói dữ liệu. Thật không may, các vấn đề của dữ liệu - chất lượng, số lượng, tốc độ, tính sẵn có và khả năng tích hợp chúng với hệ thống sản xuất - tiếp tục tồn tại như một trở ngại lớn đến quyết định thành bại của doanh nghiệp trong việc triển khai công nghệ này" - trang VentureBeat nhận định.

Yêu cầu về dữ liệu của AI rất dễ hiểu nhưng vô cùng khó thực hiện: cung cấp đầu vào chất lượng cao và hữu dụng đến đúng nơi theo cách đáng tin cậy, an toàn và kịp thời. Đây là thách thức đã được nhận diện từ chục năm trước nhưng đến nay chưa thể giải quyết triệt để, tạo ra những nút thắt cổ chai kìm hãm tốc độ phát triển AI.

Một khảo sát năm 2022 của Gartner cho thấy chỉ khoảng 54% mô hình AI do các doanh nghiệp phát triển có thể đi từ ý tưởng sơ khai cho đến khi tung sản phẩm hoàn chỉnh ra thị trường. Một nghiên cứu khác của Deloitte năm ngoái chỉ ra 44% công ty toàn cầu được khảo sát phải đối mặt với những thách thức lớn cả trong việc thu thập dữ liệu đầu vào cho đào tạo mô hình AI cũng như tích hợp AI với hệ thống công nghệ thông tin của tổ chức.

"Dữ liệu vừa là nhiên liệu thô (đầu vào) vừa là thành phẩm tinh chế (đầu ra) của AI. Để thành công và trở nên hữu ích, AI cần một nguồn dữ liệu chất lượng cao, đáng tin cậy và sẵn có" - VentureBeat nhận xét. Một mô hình AI tốt đến đâu phụ thuộc phần lớn vào dữ liệu đầu vào được dùng để huấn luyện nó.

Gartner ước tính trong năm 2021 dữ liệu kém chất lượng đã làm tiêu tốn một doanh nghiệp trung bình 12,9 triệu USD mỗi năm. Khả năng nắm bắt về chất lượng của dữ liệu cũng là một bài toán lớn khi mà các mô hình AI ngày càng lớn và phức tạp hơn, có thể được cung cấp bởi hàng trăm nguồn dữ liệu gồm nhiều lớp và thông qua nhiều kênh khác nhau.

Theo báo cáo "Big Ideas 2023" của ARK Invest, mô hình GPT-3 của OpenAI tốn khoảng 4,6 triệu USD để huấn luyện với 175 tỉ tham số - mô hình càng có nhiều tham số thì càng phức tạp và chính xác hơn.

ARK Invest dự báo đến năm 2030 những tiến bộ trong dữ liệu có thể giúp huấn luyện một mô hình AI với số lượng tham số cao gấp 57 lần với chi phí thấp hơn nhiều: chỉ 600.000 USD so với 17 tỉ USD để cho ra đời một mô hình có năng lực tương đương ở thời điểm hiện tại.

Để so sánh, tổng số lượng từ của tất cả các bài viết trên bách khoa toàn thư mã nguồn mở Wikipedia hiện nay rơi vào khoảng 4,2 tỉ, trong khi một mô hình AI năm 2030 dự kiến cần phải được huấn luyện bởi đầu vào gồm 162.000 tỉ từ - một con số khổng lồ mà tất yếu sẽ dẫn đến nhu cầu dữ liệu huấn luyện chất lượng cao cực kỳ khủng khiếp, theo trang United.ai.

"Khi mà chi phí tính toán ngày càng giảm, dữ liệu sẽ trở thành hạn chế chính cho việc phát triển AI… Các công ty và tổ chức có khả năng cung cấp và quản lý các bộ dữ liệu khổng lồ này sẽ dẫn đầu các tiến bộ về AI trong tương lai" - trang này nhận xét.

Hoa Kim