Untitled-1 copy

مطالعه‌ای که اخیرا توسط موسسه تحقیقاتی Epoch AI در این زمینه انجام شده است، این موضوع را تایید می‌کند. بر این اساس، پیش‌بینی می‌شود که این کمبود داده در فاصله سال‌های 2026 تا 2032 اتفاق می‌افتد و در واقع انعکاسی از یک چالش مهم در حفظ روند سریع پیشرفت و توسعه هوش مصنوعی است. رشد هوش مصنوعی به میزان بسیار وسیع به داده‌های متنی تولید شده توسط انسان وابسته بوده است، اما این منبع محدود و متناهی به تدریج در حال کاهش است. در حال حاضر شرکت‌هایی از جمله اوپن ای‌آی و گوگل منابع داده با کیفیت بالا مانند محتوای Reddit و رسانه‌های خبری را خریداری می‌کنند تا بتوانند روند آموزش الگوهای هوش مصنوعی خود را حفظ کنند. با این حال کمبود داده‌های جدید ممکن است به زودی این شرکت‌ها را مجبور به استفاده از داده‌های خصوصی حساس یا داده‌های ساختگی کند که کمتر قابل اعتماد خواهند بود.

در حقیقت بررسی اخیر موسسه Epoch AI تاکید می‌کند که ممکن است مقیاس و درجه‌بندی الگوهای هوش مصنوعی که به قدرت محاسباتی بسیار زیاد و مجموعه داده‌های بزرگ نیاز دارند، با کاهش منابع داده غیرممکن شود. در حالی که روش‌های جدید تا حدودی این مشکل را کمتر کرده‌اند، اما نیاز اساسی به داده‌های با کیفیت تولید شده توسط انسان همچنان وجود دارد. برخی از کارشناسان و متخصصان پیشنهاد می‌کنند که برای رفع این معضل به جای الگوهای هوش مصنوعی بزرگ‌تر، تمرکز روی الگوهای تخصصی باشد. توسعه‌دهندگان هوش مصنوعی در واکنش‌ به این چالش‌ها، در حال بررسی روش‌های جایگزینی از جمله تولید داده‌های مصنوعی و ساختگی هستند. با این حال اما نگرانی‌ها در مورد کیفیت و کارآیی چنین داده‌هایی همچنان ادامه خواهد داشت و پیچیدگی روند حفظ پیشرفت‌های هوش مصنوعی، در مواجهه با منابع زبانی طبیعی و محدود را برجسته می‌کند.

این بررسی‌ها نشان می‌دهد که کل موجودی موثر داده‌های متنی عمومی تولید شده توسط انسان چیزی در حدود 300 تریلیون توکن است که با فاصله اطمینان 90 درصدی از 100 تا هزار توکن تخمین زده می‌شود. البته این تخمین فقط شامل داده‌هایی است که به اندازه کافی کیفیت بالایی دارند تا برای آموزش الگوهای هوش مصنوعی مورد استفاده قرار بگیرند و امکان به‌کارگیری در مدل‌های آموزشی در دوره‌های مختلف را فراهم می‌آورند.

با توجه به برآورد‌های انجام شده در این تحقیقات، پیش‌بینی می‌شود که چه زمانی این داده‌ها به‌طور کامل مورد استفاده قرار می‌گیرند. به این ترتیب مشخص شد با فاصله اطمینان 80درصدی، می‌توان به سادگی گفت که ذخیره داده‌های باکیفیت در دسترس عموم و تولید شده توسط انسان، در مقطع زمانی بین سال‌های 2026 تا 2032 به‌طور کامل مورد استفاده قرار می‌گیرد و به پایان می‌رسد. با این حال اما زمان دقیقی که این داده‌ها به‌طور کامل مورد استفاده قرار می‌گیرند، تا حد زیادی به نحوه و شکل مقیاس‌بندی الگوهای هوش مصنوعی و روند رشد آنها بستگی دارد. اگر این الگوهای هوش مصنوعی به‌طور بهینه‌ای آموزش داده شوند، احتمال آن وجود دارد که تا سال 2028 داده‌های کافی برای آموزش آنها وجود داشته باشد. اما واقعیت انکارناپذیری که وجود دارد، آن است که الگوهای هوش مصنوعی اخیر مانند Llama 3 متعلق به شرکت متا، اغلب با پارامترهای کمتر و در مقابل، داده‌های بیشتر آن هم بیش از حد آموزش داده می‌شوند تا در هنگام انجام فرآیند نتیجه‌گیری بتوانند کارآیی بیشتر از نظر محاسباتی داشته باشند.