OpenAI cũng phải vật lộn với dữ liệu! Công ty thừa nhận rằng việc sử dụng trình thu thập thông tin để giới hạn bản thân rất khó để xua tan sự nghi ngờ của công chúng

2023-08-10 01:57:17

Nguồn: "Ban Sáng tạo Khoa học và Công nghệ Hàng ngày"

Sửa Tống Tử Kiều

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Dữ liệu, sức mạnh tính toán và thuật toán được coi là ba yếu tố cốt lõi của AI tổng quát và rất khó để nói yếu tố nào quan trọng hơn.

Tuy nhiên, đối với các công ty ngôi sao như OpenAI, sức mạnh tính toán về cơ bản là vấn đề kinh tế, các công ty lớn tích trữ một lượng lớn phần cứng đắt tiền nhờ “khả năng kiếm tiền” và vấn đề khan hiếm dữ liệu lại càng đau đầu hơn. họ trong một cuộc khủng hoảng đạo đức.

Lấy OpenAI làm ví dụ, hành vi thu thập dữ liệu công khai của nó để đào tạo các mô hình AI từ lâu đã gây tranh cãi. **Theo báo cáo mới nhất từ phương tiện truyền thông công nghệ nước ngoài Insider, OpenAI gần đây đã thừa nhận rằng họ đã tung ra một robot thu thập dữ liệu web có tên GPTBot, được sử dụng để thu thập dữ liệu và thu thập dữ liệu để đào tạo mô hình quy mô lớn. **

OpenAI bị nghi ngờ là "kẻ trộm dữ liệu"

Trình thu thập dữ liệu web là một chương trình máy tính mô phỏng hành vi của con người (người dùng mạng) và tự động duyệt và thu thập thông tin mạng. Trình thu thập dữ liệu web có thể lưu dữ liệu mà nó truy cập và trình thu thập dữ liệu sẽ phân tích và sử dụng lại dữ liệu, phỏng đoán sở thích của người dùng Internet, sau đó đẩy họ đến các nhóm người dùng phù hợp.

**Không rõ các bot trình thu thập thông tin của OpenAI đã ẩn nấp trực tuyến trong bao lâu và một số người nghi ngờ OpenAI đã bí mật thu thập dữ liệu trực tuyến của mọi người trong nhiều tháng hoặc nhiều năm. **

Đối mặt với những "lời buộc tội" như vậy, OpenAI đã tích cực bảo vệ mình. Công ty tuyên bố rằng GPTBot sẽ tuân thủ nghiêm ngặt các quy tắc của bất kỳ tường phí nào, sẽ không nắm bắt thông tin yêu cầu thanh toán và sẽ không thu thập dữ liệu có thể truy tìm nguồn gốc của những người có thể nhận dạng cá nhân.

Ngoài ra, OpenAI đã đưa ra phương pháp chặn GPTbot, người dùng có thể sửa đổi tệp robots.txt hoặc chặn địa chỉ IP của họ để từ chối truy cập bởi trình thu thập thông tin. Công ty gần đây cũng đã công bố một thỏa thuận với Associated Press, trong đó OpenAI sẽ trả tiền cho nội dung AP cần thiết cho dữ liệu đào tạo của AI.

Niềm tin đã mất

Là một phương tiện thu thập dữ liệu, bản thân công nghệ trình thu thập thông tin không có sự phân biệt giữa hợp pháp và bất hợp pháp. **Tuy nhiên, sáng kiến đặt giới hạn cho các công cụ thu thập thông tin của OpenAI dường như không thể khôi phục lòng tin của công chúng đối với công ty mô hình lớn này. **

Neil Clarke, tổng biên tập tạp chí khoa học viễn tưởng kỳ cựu "Clarkworld" và là người đoạt giải Hugo, cho biết: "OpenAI và các công ty mô hình quy mô lớn khác đã nhiều lần chứng minh rằng họ không tôn trọng quyền của các tác giả, nghệ sĩ. và những người sáng tạo khác. phần lớn dựa trên tác phẩm có bản quyền của những người khác."

Ông cũng đưa ra ví dụ, CCBot là một robot thu thập thông tin khác do tổ chức Common Crawl vận hành. Common Crawl hiện là nhà cung cấp dữ liệu đào tạo chính cho các mô hình trí tuệ nhân tạo. ", Clark nói. "Tôi đã thử và không nhận được phản hồi."

Mặt khác, khi phải chống lại các tập đoàn lớn, những người bình thường hầu hết đều gặp bất lợi. Như Clark đã nói, vì OpenAI sẵn sàng trả tiền cho dữ liệu của các công ty lớn như (Associated Press), tại sao nó không trả tiền cho thông tin của người khác? "Tôi đã hỏi OpenAI về điều này, nhưng không nhận được phản hồi."

Tuy nhiên, bản thân Clark lại đứng ở phía đối lập với OpenAI, "Clark World" do anh sáng lập đang phải đối mặt với cơn lũ nội dung do AI tạo ra. Clark đã chỉ ra rằng sau khi ChatGPT mở cửa vào cuối năm ngoái, số lượng gửi thư rác do AI tạo ra đã tăng lên và chi phí phát hiện những tác phẩm như vậy rất cao, và tạp chí đã tạm thời đình chỉ việc kêu gọi bản thảo.

Phần kết luận

Trước đây, OpenAI đã bị nhiều bên kiện về vấn đề bản quyền, bao gồm vụ kiện tập thể được thúc đẩy bởi Công ty luật Clarkson và các tác giả có sách bán chạy nhất như Paul Tremblay và Mona Awad.

Với sự lặp lại hơn nữa của công nghệ AI thế hệ mới, những tranh chấp tương tự sẽ chỉ tăng lên.

Các công ty lớn có nhiều khả năng trở thành mục tiêu chỉ trích của công chúng, ngay cả khi họ dám chịu trách nhiệm, thì việc tuân thủ đầy đủ việc thu thập dữ liệu cũng không dễ dàng. Do số lượng tham số khổng lồ, các mô hình lớn cần được đào tạo và triển khai với sự trợ giúp của các công nghệ như điện toán phân tán và dịch vụ đám mây, điều này làm tăng nguy cơ đánh cắp, giả mạo, lạm dụng hoặc rò rỉ dữ liệu.

Làm thế nào để cân bằng giữa việc bảo vệ quyền riêng tư cá nhân và khuyến khích đổi mới công nghệ cũng như cách tìm ra con đường tối ưu giữa sự tồn tại của doanh nghiệp và sản xuất tuân thủ đã là những vấn đề mà mọi công ty dành riêng cho AI sáng tạo đều không thể tránh khỏi.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích

Phần thưởng
1
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
Gate 2025 Q2 Report Released
17k Phổ biến
CPI Data Incoming
16k Phổ biến
Altcoin Season Update
3k Phổ biến
4Gate Derivatives Volume Hits New High
14k Phổ biến
5Join Gate VIP to Win MacBook
30k Phổ biến
6MicroStrategy Buys More Bitcoin
836 Phổ biến
7BTC Hits New High
110k Phổ biến
8My Gate Moments
26k Phổ biến
9VIP Exclusive Airdrop Carnival
26k Phổ biến
10Fed June Meeting Minutes
7k Phổ biến

Ghim

sơ đồ trang web