HomePendidikanAI ubah pemahaman saintis tentang pembelajaran bahasa

AI ubah pemahaman saintis tentang pembelajaran bahasa

Oleh: MORTEN CHRISTIANSEN dan PABLO CONTRERAS KALLENS

TIDAK seperti dialog yang ditulis dengan teliti yang terdapat dalam kebanyakan buku dan filem, bahasa interaksi seharian cenderung menjadi tidak kemas dan tidak lengkap, penuh dengan permulaan yang salah, gangguan dan orang bercakap antara satu sama lain. Daripada perbualan santai antara rakan-rakan, kepada pertengkaran antara adik-beradik, kepada perbincangan rasmi dalam bilik mesyuarat, perbualan yang sebenar adalah huru-hara. Apabila dilihat dari segi huru-haranya pengalaman linguistik, nampak sangat menakjubkan apabila orang boleh belajar bahasa sama sekali.

Atas sebab ini, ramai saintis bahasa – termasuk Noam Chomsky, pengasas linguistik moden – percaya bahawa pelajar bahasa memerlukan sejenis gam untuk mengekang sifat tidak terkawal bahasa seharian. Dan gam itu ialah tatabahasa: sistem peraturan untuk menghasilkan ayat tatabahasa.

Kanak-kanak mesti mempunyai acuan tatabahasa yang disambungkan ke dalam otak mereka untuk membantu mereka mengatasi batasan pengalaman bahasa mereka – atau begitulah yang difikirkan oleh saintis bahasa.

Acuan ini, sebagai contoh, mungkin mengandungi “peraturan super” yang menentukan cara bahagian baharu ditambahkan pada frasa sedia ada. Kanak-kanak kemudian hanya perlu belajar sama ada bahasa ibunda mereka adalah seperti bahasa Inggeris, di mana kata kerja disebut sebelum objek (seperti dalam “Saya makan sushi”), atau bahasa seperti Jepun, di mana kata kerja disebut selepas objek (dalam bahasa Jepun, ayat yang sama berstruktur sebagai “Saya sushi makan”).

Tetapi pandangan baharu tentang pembelajaran bahasa datang daripada sumber yang tidak disangka: kecerdasan buatan (AI). Satu model bahasa AI yang besar boleh menulis artikel akhbar, puisi dan kod komputer serta menjawab soalan dengan jujur ​​selepas terdedah kepada banyak input bahasa. Dan lebih mengejutkan, mereka semua melakukannya tanpa bantuan tatabahasa.

Bahasa gramatis tanpa tatabahasa

Walaupun pilihan kata-kata mereka kadangkala pelik, mengarut atau berat sebelah, perkauman, seksis dan lain-lain yang memudaratkan, satu perkara adalah sangat jelas: majoriti besar keluaran model bahasa AI ini adalah betul dari segi tatabahasa. Namun begitu, tidak ada acuan tatabahasa atau peraturan yang disambungkan ke dalamnya – ia bergantung pada pengalaman linguistik sahaja, walaupun tidak kemas.

GPT-3, boleh dikatakan yang paling terkenal daripada model ini, ialah rangkaian neural pembelajaran mendalam yang besar dengan 175 bilion parameter. Ia dilatih untuk meramalkan perkataan seterusnya dalam ayat yang diberikan sebelum ini merentasi ratusan bilion perkataan daripada internet, buku dan Wikipedia. Apabila ia membuat ramalan yang salah, parameternya telah dilaraskan menggunakan algoritma pembelajaran automatik.

Hebatnya, GPT-3 boleh menghasilkan teks yang boleh dipercayai bertindak balas terhadap gesaan seperti “Ringkasan filem ‘Fast and Furious’ yang terakhir ialah…” atau “Tulis puisi dalam gaya Emily Dickinson.” Lebih-lebih lagi, GPT-3 boleh bertindak balas kepada analogi tahap SAT (Standard Admission Test), soalan pemahaman bacaan dan juga menyelesaikan masalah aritmetik mudah – semuanya daripada mempelajari cara meramal perkataan seterusnya.

neurons, brain cells, brain structure
Photo by geralt on Pixabay

Membandingkan model AI dan otak manusia

Walau bagaimanapun, persamaan dengan bahasa manusia tidak berhenti di sini. Penyelidikan yang diterbitkan dalam Nature Neuroscience menunjukkan bahawa rangkaian pembelajaran mendalam buatan ini nampaknya menggunakan prinsip pengiraan yang sama seperti otak manusia. Kumpulan penyelidikan, yang diketuai oleh ahli sains saraf Uri Hasson, pertama kali membandingkan sejauh mana GPT-2 – “adik lelaki” GPT-3 – dan manusia boleh meramalkan perkataan seterusnya dalam cerita yang diambil daripada podcast “This American Life”: orang dan AI meramalkan perkataan yang sama hampir 50 peratus pada masa itu.

Para penyelidik merekodkan aktiviti otak sukarelawan semasa mendengar cerita itu. Penjelasan terbaik untuk corak pengaktifan yang mereka perhatikan ialah otak manusia – seperti GPT-2 – bukan hanya menggunakan satu atau dua perkataan sebelumnya semasa membuat ramalan tetapi bergantung pada konteks terkumpul sehingga 100 perkataan sebelumnya. Secara keseluruhannya, penulis membuat kesimpulan: “Penemuan kami tentang isyarat saraf ramalan spontan semasa peserta mendengar ucapan semula jadi menunjukkan bahawa ramalan aktif mungkin mendasari pembelajaran bahasa sepanjang hayat manusia.”

Satu kebimbangan yang mungkin ialah model bahasa AI baharu ini diberi banyak input: GPT-3 dilatih mengenai pengalaman linguistik bersamaan dengan 20,000 tahun manusia. Tetapi kajian awal yang belum lagi dikaji semula mendapati bahawa GPT-2 masih boleh memodelkan ramalan perkataan seterusnya manusia dan pengaktifan otak walaupun dilatih pada hanya 100 juta perkataan. Itu adalah dalam jumlah input linguistik yang biasa didengar oleh kanak-kanak semasa 10 tahun pertama kehidupan.

Kami tidak mencadangkan bahawa GPT-3 atau GPT-2 mempelajari bahasa sama seperti yang dilakukan oleh kanak-kanak. Malah, model AI ini nampaknya tidak begitu memahami, jika ada, tentang apa yang mereka perkatakan, sedangkan pemahaman adalah asas kepada penggunaan bahasa manusia. Namun, apa yang dibuktikan oleh model ini ialah seorang pelajar – walaupun tiruan – boleh mempelajari bahasa dengan cukup baik daripada pendedahan semata-mata untuk menghasilkan ayat gramatis yang sempurna dan melakukannya dengan cara yang menyerupai pemprosesan otak manusia.

woman, child, christmas
Photo by Adelkazaika on Pixabay

Memikir semula pembelajaran bahasa

Selama bertahun-tahun, ramai ahli bahasa percaya bahawa pembelajaran bahasa adalah mustahil tanpa acuan tatabahasa terbina dalam. Model AI baharu membuktikan sebaliknya. Mereka menunjukkan bahawa keupayaan untuk menghasilkan bahasa tatabahasa boleh dipelajari daripada pengalaman linguistik sahaja. Begitu juga, kami mencadangkan bahawa kanak-kanak tidak memerlukan tatabahasa semula jadi untuk mempelajari bahasa.

“Kanak-kanak harus dilihat, bukan didengari” seperti pepatah lama, tetapi model bahasa AI terkini mencadangkan bahawa ia jauh dari kebenaran. Sebaliknya, kanak-kanak perlu terlibat dalam perbualan dua hala sebanyak mungkin untuk membantu mereka mengembangkan kemahiran bahasa mereka. Pengalaman linguistik – bukan tatabahasa – adalah kunci untuk menjadi pengguna bahasa yang cekap.

 

Morten H. Christiansen adalah Profesor Psikologi di Cornell University, dan Pablo Contreras Kallens adalah pelajar PhD dalam psikologi di Universiti Cornell.

Artikel ini diterbitkan semula daripada The Conversation di bawah lesen Creative Commons. Baca artikel asal.

Author

Pilihan Editor