آنها دریافتند که الیزا از هوش مصنوعی چت‌جی‌پی‌تی ۳.۵اوپن‌ای‌آی که نسخه رایگان چت‌جی‌پی‌تی این شرکت را ارائه می‌کند، بهتر عمل کرده است. آزمون تورینگ، از وقتی که آلن تورینگ، دانشمند بریتانیایی رایانه، آن را نخستین‌بار در ۱۹۵۰ مطرح کرد، معیاری برای تعیین توانایی ابزارهای ماشینی (کامپیوتری) در تقلید از مکالمه انسانی به شمار می‌رفته است. در جدیدترین بررسی، قرار بود ۶۵۲ شرکت‌کننده انسانی قضاوت کنند که آیا در حال صحبت با انسانی دیگرند، یا از طریق اینترنت با یک چت‌بات هوش مصنوعی صحبت می‌کنند. چت‌بات‌ چت‌جی‌پی‌تی‌۴ اوپن‌ای‌آی که از نسخه رایگان این فناوری قدرتمندتر است، توانست شرکت‌کنندگان در این بررسی را در موارد متعددتر و با موفقیت ۴۱ درصد بیشتر از الیزا، فریب دهد. الیزا در ۲۷ درصد مواقع توانست وانمود کند که انسان است؛ در حالی‌که چت‌جی‌پی‌تی‌۳.۵ فقط ۱۴ درصد موفقیت داشت. گری مارکوس، متخصص هوش مصنوعی، موفقیت الیزا را برای شرکت‌های فناوری مدرنی که روی چت‌بات‌های هوش مصنوعی کار می‌کنند، «مایه آبروریزی» توصیف کرد.

با این حال، سایر دانشگاهیان استدلال کردند که چت‌جی‌پی‌تی برای عملکرد خوب در آزمون تورینگ طراحی نشده است. اتان مولیک، استاد هوش مصنوعی در آموزشگاه وارتون دانشگاه پنسیلوانیا در ایالات‌متحده، در شبکه ایکس‌(توییتر سابق) نوشت: «فکر می‌کنم وقتی این مقاله را بخوانید، این واقعیت که چت‌جی‌پی‌تی ۳.۵ به الیزا می‌بازد، تعجب‌آور نیست.» وی تاکید کرد: «اوپن‌ای‌آی خطر جعل هویت را نگرانی‌ای واقعی در نظر گرفته است و از [روش] یادگیری تقویتی با بازخورد انسانی (RLHF) برخوردار است تا اطمینان حاصل کند که چت‌جی‌پی‌تی برای موفقیت در آزمون تورینگ و جا زدن خود به مثابه انسان، تلاش نمی‌کند. [اما] الیزا به‌شدت به این شکل طراحی شده است تا با استفاده از روان‌شناسی ما [در این آزمون خاص] موفق شود.» یکی از دلایلی که شرکت‌کنندگان در این بررسی الیزا را با انسان اشتباه می‌گرفتند، این بود که «خیلی بدتر» از آن بود که [مشابه و همپای] هوش مصنوعی مدل کنونی باشد و از این‌رو «به احتمال بیشتر، [شبیه] انسانی بود که عامدانه همکاری نمی‌کند.» آرویند نارایانان، استاد علوم رایانه‌ای در دانشگاه پرینستون که خود در این پژوهش شرکت نداشت، گفت: «مانند همه مواقع، آزمون رفتار، چیزی درباره قابلیت‌ها به ما نمی‌گوید. چت‌جی‌پی‌تی به گونه‌ای تنظیم شده است که لحنی رسمی داشته باشد، نه بیان دیدگاه‌ و نظایر آن که سبب می‌شود کمتر شبیه به انسان باشد.»‌