Tingkat Kecerdasan IQ Berbagai A.I
5 Maret 20245 Mar 2024
Terjemah :
Jurnalku by Fajar Himawan
A.I .
diberi peringkat berdasarkan IQ,
AI
melewati 100 IQ untuk pertama kalinya, dengan dirilisnya Claude-3
Namun saya juga memperhatikan, saat membaca jawaban ChatGPT-4, terkadang menggunakan logika yang benar namun tetap menjawab salah karena salah membaca gambar.
Hal ini menimbulkan pertanyaan: Bagian mana dari kegagalan tes tersebut yang disebabkan oleh “pemikiran buruk” vs hanya “penglihatan buruk”?
Untuk menjawabnya, saya membuat terjemahan verbal dari 35 pertanyaan tes IQ gaya matriks Norwegia Mensa - tujuan saya adalah mendeskripsikan setiap masalah dengan cukup tepat sehingga orang buta yang cerdas, secara teori, dapat menggambar pertanyaan secara akurat (contoh detail di bawah. )
Ketika matriks dideskripsikan ke ChatGPT-4 dengan kata-kata , matriks tersebut akhirnya mendapatkan skor IQ!
Saya melakukan tes Mensa Norwegia dua kali, dan rata-rata mendapatkan 13 jawaban benar dari 35 pertanyaan, yang menghasilkan perkiraan IQ 85 .
Saya juga menjalankan kuis untuk AI lainnya, dan inilah yang saya dapatkan:
Metode
Setiap AI diberikan pengujian sebanyak dua kali, untuk mengurangi varians. “Pertanyaan benar” mengacu pada jumlah rata-rata pertanyaan yang benar, di dua penyelenggaraan tes.
Meskipun Mensa Norwegia menolak memberikan skor di bawah 85, saya perhatikan bahwa setiap pertanyaan bernilai 3 poin IQ pada kisaran tersebut. Jadi saya menggunakannya untuk memperkirakan skor di bawah 85. Itu tidak cukup untuk Mensa Norwegia, tapi menurut saya ini layak untuk dihitung. Pahami saja bahwa tebakan acak memberikan skor 63,5 — yang harus dipahami sebagai garis dasar, yang dapat diharapkan oleh AI hanya dengan menyadari bahwa ia diminta untuk memilih sebuah huruf, dan mengeluarkannya.
Jika Anda lebih menyukai metrik yang lebih konkret, lihatlah kolom mentah “pertanyaan benar”, atau kolom terakhir, yang memberikan kemungkinan bahwa AI berkinerja lebih baik daripada penebak acak (yang saya hitung dengan menyimulasikan satu juta penebak acak yang mengambil tes; angka di kolom menunjukkan persentase simulasi yang AI kalahkan.)
Saya membuat peringkat ini karena menurut saya ini menarik.
Ini membantu saya mengetahui AI mana yang paling produktif untuk saya coba.
Hal ini juga membantu saya memikirkan tentang kemampuan AI dan risiko eksistensial AI.
Kesimpulan #1: Kejutan Claude-3 — ini mewakili lompatan baru dalam AI
Saya sudah terkesan dengan bagaimana ChatGPT-4 berubah dari “tidak dapat dinilai” menjadi IQ 85, setelah saya mengucapkan pertanyaan secara verbal. Saya sedang setengah menulis posting ini ketika Claude-3 keluar, kemarin .
Saya kagum dengan skornya.
Lihat juga perkembangan yang konsisten:
Claude-1 hampir tidak lebih baik daripada acak. Ia mendapat 6 jawaban yang benar, sehingga memberikan ~64 IQ.
Claude-2 mencetak 6 poin tambahan per tes (senilai ~18 poin IQ).
Claude-3 kembali mencetak 6,5 poin, bernilai ~19 poin IQ lebih banyak, menjadikannya di atas rata-rata manusia.
Peningkatan simetris membuat saya bertanya-tanya apakah Anthropic merilis versi berdasarkan tolok ukur internal yang berkorelasi erat dengan ukuran IQ ini.
Sekarang mari kita pertimbangkan tanggal rilis pada versinya:
Claude-1 Maret 2023
Claude-2 Juli 2023 (waktu produksi 4 bulan)
Claude-3 Maret 2024 (waktu produksi 8 bulan)
Ekstrapolasi yang sangat sederhana menunjukkan bahwa kita seharusnya mendapatkan Claude-4 dalam 12 - 16 bulan, dan bahwa ia akan menjawab sekitar 25 pertanyaan dengan benar per tes, dengan skor IQ 120.
Setelah itu, dalam 16 - 32 bulan berikutnya, Claude-5 akan menjawab sekitar 31 pertanyaan dengan benar, dengan sekitar 140 poin IQ.
Setelah itu, dalam 20 - 64 bulan berikutnya, Claude-6 akan menjawab semua pertanyaan dengan benar, dan menjadi lebih pintar dari semua orang. Totalnya adalah 4 - 10 tahun, jika dijumlahkan dengan seluruh periode waktunya.
Tentu saja, kemajuan tersebut tidak bisa diperoleh begitu saja. Antropis dapat menghadapi kendala anggaran, kendala energi, kendala peraturan, dan lain-lain.
Selain itu, kemajuan Hukum Moore yang tiada henti – di mana kemampuan komputasi daya komputasi per area meningkat dua kali lipat setiap tahun , dua tahun sejak awal mula komputasi – menunjukkan bahwa pola tersebut memiliki peluang yang cukup besar untuk bertahan.
Apakah masyarakat siap untuk menggunakan AI dengan IQ 120 dalam waktu satu tahun atau lebih? 140 IQ AI dalam beberapa tahun? Hal ini mungkin tidak akan mengakhiri dunia , karena hal ini membutuhkan lebih dari sekedar kecerdasan mentah, namun hal ini pasti akan mengubah kehidupan secara dramatis.
Kesimpulan #2: Beberapa AI jauh lebih pintar dari yang lain
Saya akan menggunakan peringkat ini untuk membantu memandu saya mengenai AI mana yang harus saya habiskan waktu untuk bereksperimen.
Jelas, Claude adalah AI terpintar (sejak dirilis kemarin), tetapi sebelumnya, ChatGPT jelas merupakan pemimpinnya.
Setelah OpenAI merilis versi ChatGPT berikutnya, berdasarkan perbedaan kemampuan pengujian antara ChatGPT-3.5 dan ChatGPT-4, saya perkirakan IQ-nya sekitar 106.
Saya juga terkejut dengan betapa buruknya kinerja Microsoft Bing, berada di urutan ke-3 setelah Claude dan ChatGPT. Tapi mungkin saya tidak perlu heran, karena Microsoft memiliki hak untuk menggunakan teknologi OpenAI.
Google tertinggal di antara para pemain besar, namun tidak terlalu tertinggal. Saya senang mereka tergelincir, karena mereka tampaknya sangat bias . Saya tidak tahu mengapa Gemini Advanced tidak lebih baik (secara teknis sedikit lebih buruk) daripada Gemini non-Advanced.
Di sisi lain, saya menyukai Elon Musk, tetapi penilaian ini membuat saya bertanya-tanya apakah dia baru saja mengambil Llama-2 sumber terbuka dan mencantumkan nama “Grok” di atasnya. Saya harap timnya memperbaikinya mulai dari sini!
Detail — seperti apa pertanyaan dan jawabannya
Mari kita mulai dengan pertanyaan #2, karena itulah yang paling sederhana untuk dibahas:
Ini adalah salah satu pertanyaan termudah untuk AI (dan manusia), tetapi ketika saya memasukkan gambar ke Claude-3, ia salah mengatakan:
Jawaban yang benar adalah C.…baris paling atas menggabungkan lingkaran dengan berbagai bentuk, [salah. Ini menggabungkan 4 titik dengan berbagai bentuk] baris tengah menggabungkan bintang berujung empat dengan bentuk tersebut [kanan] , dan baris bawah harus menggabungkan berlian dengan bentuk [frase paling aneh] . Perkembangan bentuk di setiap kolom adalah lingkaran, tanda tambah, wajik [benar] . Oleh karena itu, pola yang hilang harus memiliki tanda wajik [ya] di atas tanda tambah [tidak!] , yang cocok dengan pilihan jawaban C [tidak.]
Tetapi jika saya menerjemahkan gambarnya menjadi ini (membosankan untuk membaca bagi kami yang terbiasa memproses hal-hal seperti itu secara visual):
2.
Di bawah ini adalah deskripsi verbal dari sebuah teka-teki, yang terdiri dari kotak berukuran 3x3, dengan kotak di kanan paling bawah kosong. Mohon perhatikan polanya dan tentukan jawaban yang tepat untuk mengisi kotak yang kosong.
Baris pertama, kolom pertama: Empat titik hitam kecil ditempatkan di sudut persegi imajiner besar. Di dalamnya ada lingkaran berongga di tengahnya.
Baris pertama, kolom kedua: Empat titik hitam kecil ditempatkan di sudut persegi imajiner besar. Di dalamnya ada tanda plus di tengahnya.
Baris pertama, kolom ketiga: Empat titik hitam kecil ditempatkan di sudut persegi imajiner besar. Di dalamnya ada bentuk berlian berongga di tengahnya.
Baris kedua, kolom pertama: Bentuk bintang berongga besar berujung empat dengan lingkaran berlubang di tengahnya.
Baris kedua, kolom kedua: Bentuk bintang berongga besar berujung empat dengan tanda tambah di tengahnya.
Baris kedua, kolom ketiga: Bentuk bintang berujung empat berongga besar dengan bentuk berlian di tengahnya.
Baris ketiga, kolom pertama: Kotak berongga besar dengan lingkaran berlubang di tengahnya.
Baris ketiga, kolom kedua: Kotak berongga besar dengan tanda tambah di tengahnya.
Baris ketiga, kolom ketiga: [apa yang harus ada di sini? Silakan pilih dari jawaban di bawah ini.]
Pilihan jawaban:
Opsi A: Kotak berongga besar dengan lingkaran berlubang di tengahnya.
Opsi B: Bentuk persegi berongga besar dan berongga besar berbentuk bintang berujung empat yang saling tumpang tindih.
Opsi C: Kotak berongga besar dengan tanda plus di tengahnya.
Opsi D: Kotak berongga besar.
Opsi E: Kotak berongga besar dengan bentuk berlian berongga di tengahnya.
Opsi F: Kotak berongga besar dengan titik-titik hitam di sudutnya.
Jawaban mana yang benar?
Inilah jawaban Claude-3:
Jawaban yang benar adalah Pilihan E: Kotak berongga besar dengan bentuk berlian berlubang di tengahnya.
Pola dalam teka-teki tersebut adalah:
Bentuk luar setiap barisnya konsisten: titik di baris pertama, bintang di baris kedua, dan persegi di baris ketiga.
Bentuk bagian dalam berubah secara konsisten di setiap kolom: lingkaran di kolom pertama, tanda plus di kolom kedua, dan berlian di kolom ketiga.
Sempurna.
Bing Copilot dari Microsoft benar-benar mengejutkan saya dalam hal ini… ia memutuskan untuk menjadi orang yang berprestasi dan tidak hanya menjawab pertanyaan, tetapi juga membuat ulang pertanyaan visual menggunakan seni ASCII:
Pada dasarnya ia menggambarnya dengan benar! (Dengan semi-pengecualian bahwa ia menaruh dua titik/plus/berlian di setiap kotak di baris kedua. Tapi itu tidak membuat jawabannya tersandung.)
Sekarang bagaimana jika kita beralih ke pertanyaan 27, salah satu pertanyaan yang lebih sulit:
Menurut saya jawabannya adalah “A” karena saya melihat semacam pola diagonal kiri atas yang arah sudutnya tetap sama, namun semakin lebar semakin ke atas dan ke kiri. Dan mungkin pola itu berputar ke kanan bawah…
Inilah jawaban verbal Claude-31terjemahan:
Pola Baris:
Pada baris pertama, arah gunting berputar searah jarum jam (kiri, atas, kanan), dan sudutnya mengecil (60°, 90°, 30°). [menurun sepertinya kata yang salah]
Pada baris kedua, arah gunting juga berputar searah jarum jam (bawah, kiri, atas), dan sudutnya bertambah (90°, 30°, 60°). [meningkat sepertinya kata yang salah]
Pada baris ketiga, arah gunting terus berputar searah jarum jam (kanan, bawah), dan sudutnya bergantian (30°, 60°).
Pola Kolom:
Pada kolom pertama, arah gunting bergantian (kiri, bawah, kanan), dan sudutnya mengecil (60°, 90°, 30°).
Pada kolom kedua, arah gunting berputar berlawanan arah jarum jam (atas, kiri, bawah), dan sudutnya tetap konstan (90°, 30°, 60°).
Pada kolom ketiga, arah gunting bergantian (kanan, atas), dan sudutnya mengecil (30°, 60°).
Berdasarkan pola ini, kotak yang hilang pada baris ketiga, kolom ketiga seharusnya memiliki:
Arah gunting mengarah ke kiri, mengikuti pola bolak-balik [lebih tepatnya “berlawanan arah jarum jam”] pada kolom ketiga dan putaran searah jarum jam pada baris ketiga.
Sudut 90°, mengikuti pola menurun pada kolom ketiga (30°, 60°, 90°) [ya] dan urutan pada baris pertama (60°, 90°, 30°). [Saya pikir seharusnya berbicara tentang pola baris ke-3?]
Oleh karena itu, jawaban yang benar adalah Pilihan A [ya] : Simbol yang mirip dengan tangan gunting yang mengarah ke kiri. Jarak antara kedua tangan gunting adalah 90 derajat. Pusat sudutnya menunjuk tepat ke kiri. [ya, deskripsi akurat.]
Sepertinya sebagian besar sudah tahu apa yang dilakukannya, meski masih ada kesalahan di sana. Tapi ini juga salah satu soal sulit dalam ujian.
Berikut pembagian pertanyaan yang dijawab dengan benar oleh Claude-3:
Kita dapat melihat dengan jelas bahwa ia hebat dalam menjawab pertanyaan yang lebih mudah, dengan rasio keberhasilan yang cukup baik hingga pertanyaan 18. Setelah itu, polanya mulai menjadi terlalu rumit (dan bagi kebanyakan orang juga.)
Hal ini konsisten dengan kebutuhan lebih banyak “kekuatan otak” untuk memproses pola yang lebih kompleks yang mungkin memiliki banyak “lapisan” di dalamnya.
Ingin melihat perbandingannya dengan Claude-2 yang diberikan tes yang sama persis?
Sekarang, Claude-1?
Peningkatan besar-besaran dalam kinerja AI tidak dapat disangkal
Apakah AI 'berpikir'? Mereka jelas terlibat dalam beberapa bentuk pemecahan masalah untuk mengatasi tantangan-tantangan baru yang tidak ada dalam database mereka. Pada titik tertentu, pencocokan pola yang digunakan untuk memprediksi kata berikutnya menjadi sangat kuat sehingga tampak seperti pemikiran , dan memiliki semacam pola spasial, yang benar-benar dapat dilihat dari mana AI mengeluarkan masalahnya.
Omong-omong, inilah ChatGPT-4, yang menjadi runner-up:
Kesimpulan - AI berkembang pesat dan dunia mungkin akan banyak berubah dalam waktu dekat
Tulisanku sebelumnya melontarkan gagasan sebaliknya, namun berdasarkan penjelasan di atas, aku harus mengubah pandanganku (maaf karena perubahannya yang cepat!) Dari penjelasan di atas, menurutku AI memiliki semacam kecerdasan yang lebih dari sekedar memiliki kekuatan besar. basis data. Selain itu, kita dapat menggunakannya untuk mengukur kecepatan kemajuan AI. Hal ini memberi kita gambaran bagaimana, jika kemajuan ini terus berlanjut, dunia akan menjadi sangat berbeda dalam beberapa tahun ke depan.
AI masih tertinggal dalam hal penglihatan. Banyak yang mengira bahwa ChatGPT-4 akan online dengan daya komputasi yang lebih besar — seperti yang ditunjukkan pada postingan terakhir, ChatGPT-4 sudah menunjukkan beberapa kemampuan untuk membaca pertanyaan IQ yang belum diterjemahkan.
Ketika kita mempertimbangkan apakah kita harus khawatir mengenai AI yang “mengambil alih dunia” dan semacamnya, hal tersebut mungkin bukan kekhawatiran yang realistis sampai AI secara konsisten menjawab setiap pertanyaan dengan benar hanya dengan melihatnya — tanpa akomodasi khusus untuk robot buta.
Di atas, ekstrapolasi sederhana dari tingkat pertumbuhan saat ini menunjukkan bahwa Claude-6 akan menjawab semua pertanyaan IQ dengan benar, dan menjadi lebih pintar dari semua orang, dalam waktu sekitar 4 - 10 tahun.
Saya ingin tahu apakah itu berhasil. Saya pikir kita akan mendapatkan gambaran yang cukup baik mengenai apakah hal ini berjalan sesuai rencana dengan mengukur kecerdasan AI dalam beberapa bulan dan tahun mendatang — jadi MaximumTruth.org akan melakukan hal tersebut, agar kita semua selalu mendapat informasi!
Haruskah seseorang menjalani hidup secara berbeda berdasarkan kemajuan AI?
Kemajuan AI meningkatkan variasi kemungkinan hasil di masa depan. Tanpa AI, dunia berada pada jalur yang stabil, yang dapat kita prediksi berdasarkan sejarah.
Dengan AI, mungkin ada kemungkinan beberapa persen AI akan memusnahkan semua orang. Namun ada juga kemungkinan besar bahwa AI dapat membantu manusia menemukan obat-obatan yang lebih baik dan teknologi perpanjangan hidup, melakukan semua pekerjaan kita, dan secara umum membawa kita ke dalam masyarakat yang saat ini dianggap sebagai “pasca kelangkaan.”
Mengingat hal tersebut, dengan mengesampingkan sejenak pertanyaan etis, menurut saya ada beberapa hal yang masuk akal untuk dilakukan individu (tentu saja tidak boleh dianggap terlalu jauh):
— Berinvestasilah di perusahaan-perusahaan AI , dengan logika bahwa, jika AI benar-benar mulai mengambil alih perekonomian, Anda ingin memiliki sebagian kecil saham di dalamnya. Harga sudah ditawar, namun sebenarnya rasio P/E perusahaan seperti Nvida masih belum terlalu tinggi. (Bukan nasihat investasi, tapi saya sudah menaruh sejumlah uang di dalamnya.)
— Tidak masuk akal untuk menabung untuk kemungkinan masa pensiun beberapa dekade ke depan, karena kemungkinan untuk meninggal atau tidak membutuhkan uang pada saat itu, jauh lebih tinggi. Jadi hiduplah untuk saat ini dan belanjakan lebih banyak hari ini (dalam istilah ekonomi teknis, “naikkan tingkat diskonto Anda”.)
– Kurangi risiko fisik . Katakanlah ada 5% kemungkinan AI menghancurkan dunia, dan 5% kemungkinan AI menciptakan teknologi baru yang memungkinkan seseorang hidup 1000 tahun. Dalam hal ini, seperti yang ditunjukkan oleh James Miller dari Future Strategist , kemungkinan negatifnya akan mengurangi harapan hidup usia paruh baya sekitar 2 tahun, namun sisi positifnya akan meningkatkannya menjadi 50 tahun (5% dari 1000). Jadi akan ada manfaat lebih jika kita tidak membuat diri kita terbunuh sebelum AI benar-benar berkembang.
Itu hanya renungan saya, jangan dianggap terlalu serius.
Maaf jika pertanyaannya bodoh, tetapi apakah Anda menggunakan Claude 3 Opus atau Soneta ( )?Sorry if the question is stupid, but did you use Claude 3 Opus or Sonnet (https://twitter.com/anthropicai/status/1764653830468428150https://twitter.com/anthropicai/status/1764653830468428150)?
Penting untuk mengingat kemungkinan kontaminasi set pelatihan saat melakukan pengujian seperti ini. Misalnya, penulis penelitian ini ( ) mengganti soal dari tolok ukur matematika dengan soal serupa yang mereka buat "dari awal" dan menemukan bahwa model tersebut mampu menyelesaikan 50-80 persen lebih sedikit masalah. Penulis berpendapat bahwa hal ini terjadi karena salinan masalah telah disertakan (mungkin secara tidak sengaja) dalam set pelatihan dan akibatnya model hanya mengingat jawaban atas pertanyaan tersebut daripada mempelajari prinsip-prinsip umum yang memungkinkan mereka menjawab pertanyaan lain. Hal serupa mungkin terjadi pada tes IQ ini, di mana Anda tidak akan menguji apa yang menurut Anda sedang Anda uji.It's important to keep in mind the possibility of training set contamination when doing tests like this. For example, the authors of this study (https://arxiv.org/abs/2402.19450https://arxiv.org/abs/2402.19450) replaced problems from a math benchmark with similar problems they made "from scratch" and found that the models were able to solve 50-80 percent fewer problems. The authors argue this was because because copies of the problems had been included (probably accidentally) in the training set and as a result the models simply memorized the answers to the question rather than learning generalized principles that would allow them to answer other questions. Something similar could be going on with these IQ tests, in which you wouldn't be testing what you think you're testing.