جمعآوری اطلاعات از اینترنت برای چتجیپیتی توسط بات جدید اوپنایآی
این مساله شکایتهای متعدد نویسندگان و سایر کاربران اینترنت را به دنبال داشته است. بسیاری از اوپنایآی و سایرین به دلیل استفاده از اطلاعات شخصی و محتوای دارای حق نشر برای آموزش مدلهایشان که از این متنها بهطور بالقوه به عنوان اطلاعات استفاده میکنند یا حتی این متنها در پاسخهای سیستم تکرار میشوند، انتقاد کردهاند. شرکتهای هوش مصنوعی با انتقاد افراد دیگری نیز مواجه شدهاند که ادعا میکنند چنین وبگردهایی یا اصطلاحا «خزندگان وب» زیرساخت وب آنها را مجبور میکنند از نهایت ظرفیتش استفاده کند. به عنوان نمونه، ایلان ماسک گفته که بار این باتها توییتر را مجبور کردهاند تعداد پستهایی را که کاربران میتوانند در سایت مشاهده کنند، محدود کند. چتجیپیتی۵/ ۳ و ۴ موجود اوپنایآی بر اساس دادههای برداشتهشده از اینترنت تا اواخر سال ۲۰۲۱ آموزش داده شدهاند. برای مالکان آن دادهها یا برای وبسایتهایی که این دادهها از آنها جمعآوری شدهاند، هیچ راهی وجود ندارد که این اطلاعات را از مدلهای اوپنایآی حذف کنند. اینک اوپنایآی میگوید سیستم جدید که «جیپیتیبات» نام دارد، در میان دادهها و متنها در وب میچرخد تا برای آموزش دادن به مدلهای آتی، اطلاعات بیشتری جمعآوری کند. به مدیران وبسایتها گفته شده که اگر نمیخواهند این اطلاعات جمعآوری شود، باید برای بات دستورالعملهایی قرار دهند تا از چرخیدن آن در وبسایتشان جلوگیری کنند. مدیران میتوانند چنین اطلاعاتی را در فایلی به نام robots. txt قرار دهند که به سایر خزندگان وب مانند خزندگان وبی که گوگل برای نتایج جستوجویش از آنها استفاده میکند دستورالعملهایی میدهد.