Giỏ hàng

Cuộc săn tìm dữ liệu của các gã khổng lồ công nghệ

Sau khi OpenAI phát hành ChatGPT, các nhà nghiên cứu và kỹ sư của Google đã thảo luận về việc khai thác dữ liệu người dùng khác để phát triển các sản phẩm trí tuệ nhân tạo, theo những người am hiểu về các cuộc thảo luận cho biết. Ảnh: Jason Henry 

Khi AI phát triển nhanh hơn luật pháp, chuẩn mực bị bào mòn từng chút một
 
Cuối năm 2021, OpenAI gặp một vấn đề tưởng như không thể xảy ra với một công ty công nghệ hàng đầu: cạn dữ liệu.
 
Phòng thí nghiệm AI này đã khai thác gần như toàn bộ kho văn bản tiếng Anh chất lượng cao, công khai trên internet để huấn luyện thế hệ mô hình tiếp theo. Wikipedia, Reddit, blog, diễn đàn, tài liệu kỹ thuật, kho mã nguồn – tất cả đã được thu gom, làm sạch và “tiêu thụ”. Nhưng để AI tiếp tục thông minh hơn, họ cần nhiều dữ liệu hơn nữa. Rất nhiều.
 
Giải pháp được đưa ra không phải là một thương vụ mua bán đình đám hay một thỏa thuận bản quyền công phu. Thay vào đó, các nhà nghiên cứu OpenAI xây dựng một công cụ nhận dạng giọng nói mang tên Whisper. Công cụ này có thể chuyển đổi âm thanh trong video YouTube thành văn bản – thứ “nhiên liệu” hoàn hảo cho các mô hình ngôn ngữ lớn.
 
Một số nhân viên OpenAI đã thảo luận nội bộ về việc này có thể vi phạm quy định của YouTube – nền tảng thuộc sở hữu của Google – vốn cấm sử dụng video cho các ứng dụng “độc lập” với hệ sinh thái YouTube. Nhưng cuối cùng, OpenAI vẫn tiến hành.
 
Theo những người am hiểu nội tình, hơn 1 triệu giờ video YouTube đã được chuyển thành văn bản và đưa vào huấn luyện GPT-4 – mô hình được xem là một trong những hệ thống AI mạnh nhất thế giới, nền tảng của Chat GPT phiên bản mới.
 
Trong nhóm thực hiện có Greg Brockman, Chủ tịch OpenAI, người trực tiếp tham gia thu thập video và được ghi tên là đồng tác giả của Whisper.
 
Câu chuyện này không phải ngoại lệ. Đây là biểu hiện điển hình của cuộc chạy đua khốc liệt, nơi dữ liệu trở thành tài nguyên chiến lược, và các công ty công nghệ lớn sẵn sàng bẻ cong quy tắc để giành lợi thế.
 
Dữ liệu – Huyết mạch của AI
 
AI hiện đại không vận hành bằng phép màu mà bằng dữ liệu: tin tức, sách, tiểu thuyết, bài luận, bài đăng mạng xã hội, mã lập trình, ảnh, video, podcast, phim ảnh.
 
Các chatbot hàng đầu ngày nay được huấn luyện trên tập dữ liệu lên tới 3 nghìn tỷ từ – gấp khoảng hai lần tổng số từ trong thư viện Bodleian của Đại học Oxford, nơi lưu trữ bản thảo từ năm 1602.
 
Quan trọng hơn số lượng là chất lượng. Dữ liệu được biên tập chuyên nghiệp – sách xuất bản, bài báo, bài nghiên cứu – có giá trị vượt trội so với văn bản thô trên mạng.
 
Trong nhiều năm, internet tưởng như là mỏ dữ liệu vô tận. Nhưng theo Epoch, viện nghiên cứu AI, nguồn dữ liệu chất lượng cao trên internet có thể cạn kiệt sớm nhất vào năm 2026. Các công ty đang tiêu thụ dữ liệu nhanh hơn tốc độ con người tạo ra nó.
 
Sy Damle, luật sư đại diện cho Andreessen Horowitz, từng nói: “Cách duy nhất để các mô hình này tồn tại là được huấn luyện trên khối lượng dữ liệu khổng lồ mà không cần phải xin phép từng bản quyền. Quy mô dữ liệu lớn đến mức ngay cả cấp phép tập thể cũng không khả thi.”
 
Nói cách khác: luật pháp hiện tại không được thiết kế cho tham vọng của AI.
 
“Quy mô là tất cả những gì bạn cần”
 
Năm 2020, Jared Kaplan – khi đó là nhà vật lý lý thuyết tại Johns Hopkins, cộng tác với OpenAI – công bố một bài báo mang tính bước ngoặt. Kết luận của ông đơn giản đến tàn nhẫn: càng nhiều dữ liệu, AI càng tốt.
 
Các “định luật mở rộng” (scaling laws) cho thấy hiệu năng của mô hình tăng lên gần như tuyến tính với quy mô dữ liệu và năng lực tính toán – độ chính xác khiến giới nghiên cứu ngạc nhiên, tương đương các định luật trong vật lý thiên văn.
 
Từ đó, khẩu hiệu ngầm của ngành AI ra đời: Scale is all you need (Quy mô là tất cả những gì bạn cần).
 
Khi OpenAI ra mắt GPT-3 năm 2020, nó được huấn luyện trên 300 tỷ token. Hai năm sau, DeepMind giới thiệu Chinchilla với 1,4 nghìn tỷ token. Năm 2023, mô hình Skywork của Trung Quốc đạt 3,2 nghìn tỷ token, và Google công bố PaLM 2 với 3,6 nghìn tỷ token.
 
Trong bối cảnh này, dữ liệu không còn là đầu vào kỹ thuật mà là vũ khí cạnh tranh.
 
Google, Meta và những đường biên mờ dần
 
OpenAI không đơn độc.
 
Theo nhiều nguồn tin, Google cũng đã sử dụng bản ghi từ video YouTube để huấn luyện mô hình AI của mình – dù bản quyền thuộc về người sáng tạo nội dung. Google không phản đối OpenAI mạnh mẽ, một phần vì chính họ cũng đang đứng trên vùng xám pháp lý tương tự.
 
Năm ngoái, Google âm thầm mở rộng điều khoản dịch vụ, cho phép công ty khai thác nhiều nội dung công khai hơn từ Google Docs, Google Maps và các nền tảng khác cho các sản phẩm AI. Thời điểm công bố được chọn là cuối tuần Quốc khánh Mỹ (4/7) – khi sự chú ý của công chúng ở mức thấp nhất.
 
Tại Meta, câu chuyện thậm chí còn trực diện hơn.
 
Sau khi Chat GPT ra mắt cuối năm 2022, Mark Zuckerberg coi đó là lời cảnh báo chiến lược. Ông thúc ép đội ngũ AI làm việc ngày đêm để bắt kịp. Nhưng đến đầu năm 2023, Meta cũng đụng trần dữ liệu.
 
Trong các cuộc họp nội bộ, lãnh đạo Meta thừa nhận họ đã sử dụng gần như mọi sách, bài luận, thơ ca, bài báo tiếng Anh có thể tìm được. Một số lãnh đạo thậm chí đề xuất mua lại nhà xuất bản Simon & Schuster để tiếp cận kho sách bản quyền.
 
Các luật sư và kỹ sư thảo luận khả năng thu thập nội dung có bản quyền dù có thể bị kiện, vì đàm phán cấp phép sẽ quá chậm. Một luật sư cảnh báo về vấn đề đạo đức và bị… im lặng đáp lại.
 
Một lãnh đạo Meta nói thẳng: “Thứ duy nhất ngăn chúng ta ngang Chat GPT chỉ là khối lượng dữ liệu.”
 
Meta viện dẫn tiền lệ pháp lý năm 2015 trong vụ Authors Guild với Google, nơi tòa cho phép Google số hóa sách vì chỉ hiển thị trích đoạn và mang tính “chuyển đổi”. Các luật sư Meta cho rằng huấn luyện AI cũng là fair use.
 
Không phải ai trong nội bộ cũng đồng tình. Ít nhất hai nhân viên đặt câu hỏi về việc lấy chất xám của tác giả mà không trả tiền. Nhưng trong cuộc đua này, lương tâm là một biến số yếu.
 
Lối thoát: Dữ liệu tổng hợp
 
Sam Altman nhìn thấy bức tường phía trước. Giải pháp ông đề xuất: dữ liệu tổng hợp – AI học từ chính nội dung do AI tạo ra.
 
Ông nói: “Nếu vượt qua được ‘chân trời dữ liệu tổng hợp’, mọi thứ sẽ ổn.”
 
Ý tưởng không mới, nhưng rủi ro thì rõ ràng. AI học từ chính mình có thể khuếch đại sai lệch, củng cố lỗi, và dần “lạc trong rừng”.
 
Jeff Clune, cựu nhà nghiên cứu OpenAI, nói: “Dữ liệu giống như lối mòn trong rừng rậm. Chỉ dùng dữ liệu tổng hợp, AI có thể đi lạc.”
 
Giới nghiên cứu đang thử nghiệm mô hình đôi: một AI tạo dữ liệu, AI khác đánh giá. Liệu điều đó có đủ để thay thế tri thức con người tích lũy hàng thế kỷ? Câu trả lời vẫn bỏ ngỏ.
 
shared via nytimes,
 

Bình luận

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Bình luận của bạn sẽ được duyệt trước khi đăng lên