Avesiar – Jakarta
Teknologi kecerdasan buatan memang sudah menjadi bagian dari alternatif penyelesaian tugas-tugas atau pertanyaan-pertanyaan tertentu dalam kehidupan modern saat ini. Pro-kontra mengenai hasil yang didapatkan dari ChatGPT, serta tingkat validitas data, juga bergulir sepanjang penggunaannya.
Berdasarkan investigasi oleh OpenAI dan dibagikan oleh The New York Times, bahwa halusinasi, fakta imajiner, dan kebohongan langsung telah menjadi bagian dari chatbot AI sejak diciptaka, dilansir Techradar, Rabu (7/5/2025).
Disebutkan juga bahwa secara teoritis, peningkatan model akan mengurangi frekuensi kemunculannya. Model andalan terbaru OpenAI, GPT o3 dan o4-mini, dimaksudkan untuk meniru logika manusia. Tidak seperti pendahulunya, yang terutama berfokus pada pembuatan teks yang lancar, OpenAI membangun GPT o3 dan o4-mini untuk memikirkan berbagai hal selangkah demi selangkah.
OpenAI telah membanggakan bahwa o1 dapat menyamai atau melampaui kinerja mahasiswa PhD dalam bidang kimia, biologi, dan matematika. Namun, laporan OpenAI menyoroti beberapa hasil yang mengerikan bagi siapa pun yang menerima tanggapan ChatGPT begitu saja.
OpenAI menemukan bahwa model GPT o3 memasukkan halusinasi dalam sepertiga dari uji tolok ukur yang melibatkan tokoh masyarakat. Angka tersebut dua kali lipat lebih tinggi dari model o1 sebelumnya tahun lalu. Model o4-mini yang lebih ringkas bahkan berkinerja lebih buruk, berhalusinasi pada 48% tugas serupa.
Ketika diuji pada pertanyaan pengetahuan yang lebih umum untuk tolok ukur SimpleQA, halusinasi menjamur hingga 51% dari respons untuk o3 dan 79% untuk o4-mini. Itu bukan sekadar gangguan kecil dalam sistem; itu krisis identitas yang parah. Anda mungkin berpikir sesuatu yang dipasarkan sebagai sistem penalaran setidaknya akan memeriksa ulang logikanya sendiri sebelum membuat jawaban, tetapi itu tidak benar.
Satu teori yang beredar di komunitas penelitian AI adalah bahwa semakin banyak penalaran yang coba dilakukan model, semakin besar kemungkinannya untuk keluar jalur.
Tidak seperti model yang lebih sederhana yang berpegang pada prediksi dengan keyakinan tinggi, model penalaran menjelajah ke wilayah di mana mereka harus mengevaluasi beberapa kemungkinan jalur, menghubungkan fakta yang berbeda, dan pada dasarnya berimprovisasi. Dan berimprovisasi di sekitar fakta juga dikenal sebagai mengarang sesuatu.
Korelasi bukanlah sebab akibat, dan OpenAI memberi tahu The Times bahwa peningkatan halusinasi mungkin bukan karena model penalaran secara inheren lebih buruk. Sebaliknya, mereka bisa saja lebih bertele-tele dan berani dalam menjawab.
Karena model baru tidak hanya mengulang fakta yang dapat diprediksi tetapi berspekulasi tentang kemungkinan, garis antara teori dan fakta yang dibuat-buat bisa menjadi kabur bagi AI. Sayangnya, beberapa kemungkinan itu sama sekali tidak terkait dengan kenyataan.
Namun, lebih banyak halusinasi adalah kebalikan dari apa yang diinginkan OpenAI atau pesaingnya seperti Google dan Anthropic dari model mereka yang paling canggih. Menyebut chatbot AI sebagai asisten dan kopilot menyiratkan bahwa mereka akan membantu, bukan membahayakan. Pengacara telah mendapat masalah karena menggunakan ChatGPT dan tidak memperhatikan panggilan pengadilan imajiner; siapa yang tahu berapa banyak kesalahan seperti itu yang menyebabkan masalah dalam situasi yang tidak terlalu berisiko?
Peluang halusinasi untuk menimbulkan masalah bagi pengguna berkembang pesat seiring dengan mulai diterapkannya sistem AI di ruang kelas, kantor, rumah sakit, dan lembaga pemerintah. AI yang canggih dapat membantu menyusun lamaran pekerjaan, menyelesaikan masalah penagihan, atau menganalisis lembar kerja, tetapi paradoksnya adalah semakin bermanfaat AI, semakin sedikit ruang untuk kesalahan.
Anda tidak dapat mengklaim dapat menghemat waktu dan tenaga orang jika mereka harus menghabiskan waktu yang sama untuk memeriksa ulang semua yang Anda katakan. Bukan berarti model-model ini tidak mengesankan. GPT o3 telah menunjukkan beberapa prestasi luar biasa dalam pengkodean dan logika.
Bahkan dapat mengungguli banyak manusia dalam beberapa hal. Masalahnya adalah saat ia memutuskan bahwa Abraham Lincoln menjadi pembawa acara podcast atau bahwa air mendidih pada suhu 80°F, ilusi keandalan hancur.
Hingga masalah tersebut terselesaikan, Anda harus menerima respons apa pun dari model AI dengan sesendok garam. Terkadang, ChatGPT sedikit mirip dengan pria menyebalkan yang ada di terlalu banyak rapat yang pernah kita hadiri; penuh percaya diri dalam omong kosong belaka. (adm)













Discussion about this post