Cloudflare chính thức chặn mặc định các bot thu thập dữ liệu cho AI
03/07/25
Trong bối cảnh cuộc đua huấn luyện trí tuệ nhân tạo (AI) đang nóng hơn bao giờ hết, Cloudflare – công ty công nghệ chuyên bảo mật và quản lý lưu lượng Internet vừa khiến cả ngành phải chú ý khi tung ra một biện pháp mạnh mẽ: chặn mặc định các bot thu thập dữ liệu (data scraper) phục vụ AI, trừ khi được cấp phép rõ ràng.
Động thái này đánh dấu một bước ngoặt trong cách các công ty công nghệ bảo vệ nội dung gốc trên Internet và là một đòn giáng mạnh vào các "ông lớn AI" đang khát dữ liệu.
Thay đổi mặc định - Lật ngược cuộc chơi
Thông qua cài đặt mới, các website sử dụng dịch vụ Cloudflare sẽ tự động chặn các bot AI, và chỉ cấp quyền truy cập nếu được chủ trang web cho phép. Trước đây, nếu bot không bị Cloudflare liệt vào dạng độc hại hay hacker, chúng có thể dễ dàng truy cập và thu thập nội dung trang web. “Chúng tôi đang thay đổi luật chơi trên Internet,” Matthew Prince – CEO Cloudflare tuyên bố. “Nếu bạn là một robot, từ nay bạn phải ‘trả phí’ để truy cập nội dung của các nhà xuất bản số.”
Cloudflare cho biết họ thực hiện động thái này nhằm bảo vệ nội dung gốc – tài nguyên sống còn của các nhà xuất bản, tác giả và nhà sáng tạo nội dung. Trong khi đó, AI đang ngày càng ăn mòn mô hình kinh doanh truyền thống, nơi người dùng truy cập trang web trực tiếp để tạo ra doanh thu quảng cáo hoặc trả phí.
Tại sao Cloudflare làm vậy?
Cloudflare – công ty quản lý khoảng 20% lưu lượng Internet toàn cầu đã ghi nhận sự gia tăng đột biến của các crawler AI trên nền web trong 18 tháng qua. Khi những hệ thống như ChatGPT, Claude (Anthropic) hay Gemini (Google) trở nên phổ biến, lượng dữ liệu họ cần để huấn luyện AI cũng tăng phi mã. “Tôi thật sự lo ngại rằng, các động lực để tạo nội dung đang chết dần,” ông Prince cảnh báo. “Nếu không có lợi ích khi tạo nội dung, thì Internet sẽ trở thành một cái giếng khô.”
Vấn đề nằm ở chỗ: các mô hình AI cần dữ liệu chất lượng cao để huấn luyện – dữ liệu từ báo chí, sách, blog, wiki, v.v. – nhưng nhiều trong số đó được lấy mà không xin phép hoặc trả tiền.
Các vụ kiện đình đám
Các công ty AI như OpenAI, Google và Anthropic đang đối mặt với làn sóng chỉ trích và kiện tụng ngày càng gay gắt:
- Reddit kiện Anthropic vì đã sử dụng dữ liệu của hơn 100 triệu người dùng hàng ngày để huấn luyện AI mà không xin phép.
- Năm 2023, The New York Times kiện OpenAI và đối tác Microsoft với cáo buộc xâm phạm bản quyền nội dung báo chí.
OpenAI và Microsoft đều phủ nhận những cáo buộc này.
Một số đã chọn hợp tác thay vì đối đầu
Không phải ai cũng chọn đối đầu. Một số nhà xuất bản lớn đã ký thỏa thuận cấp phép nội dung với các công ty AI để nhận về lợi ích kinh tế:
- The New York Times đồng ý cấp quyền sử dụng nội dung cho Amazon hồi tháng 5.
- Các tập đoàn báo chí như Axel Springer, Condé Nast và News Corp cũng đã đạt được thỏa thuận tương tự.
Dù vậy, nhiều tổ chức vẫn phản đối kịch liệt việc AI lấy dữ liệu mà không trả tiền.
Mark Howard – COO của Time – ủng hộ động thái của Cloudflare, gọi đó là bước khởi đầu cần thiết: “Bất kỳ ai tạo nội dung cũng đều bị đe dọa bởi nạn thu thập dữ liệu AI. Các nhà xuất bản như Time xứng đáng được trả công xứng đáng.”
Bảo vệ nội dung để cứu Internet?
Việc Cloudflare mặc định chặn bot AI không chỉ mang ý nghĩa kỹ thuật. Đây là một tuyên bố chính trị và văn hóa số: Internet không thể bị hút cạn nội dung mà không có sự đồng thuận và bù đắp cho người tạo ra nó.
Cloudflare lần đầu thử nghiệm tính năng chặn bot AI vào tháng 7 năm ngoái dưới dạng tùy chọn. Và giờ đây, họ chuyển nó thành mặc định, một bước đi được ví như “đóng cửa trước khi bị đánh cắp tài nguyên.”
“Tôi tin chắc rằng chúng tôi có thể ngăn AI truy cập nội dung,” ông Prince nói. “Và nếu chúng không truy cập được, thì sản phẩm của chúng sẽ tệ đi.”
shared via nytimes,



