AI atau kecerdasan buatan adalah bidang ilmu yang sangat luas dan memiliki banyak cabang. Namun, umumnya AI memiliki langkah-langkah sebagai berikut:
1. Tahap Input: Pada tahap ini, AI menerima data dalam berbagai bentuk seperti teks, gambar, suara, video, atau tipe data lainnya, tergantung pada jenis program AI yang digunakan.
2. Tahap Pemrosesan: Pada tahap ini, AI akan memproses input yang diberikan menggunakan berbagai metode seperti machine learning, deep learning, atau algoritma logika lainnya. Proses yang dilakukan juga tergantung pada jenis program AI yang digunakan.
3. Tahap Output: Tentu saja, hasil dari data yang telah diproses akan dihasilkan pada tahap ini.
Mari kita ambil contoh program AI yang sedang populer, yaitu ChatGPT. ChatGPT adalah sebuah program yang dibangun menggunakan algoritma Transformer varian GPT (Generative Pretrained Transformer). ChatGPT, dan model-model AI lainnya membutuhkan satu hal yang sangat penting: data pelatihan. Data pelatihan atau training data adalah data yang diperlukan untuk melatih atau mengajari model AI. Dalam kasus ChatGPT, data pelatihan diperoleh dari berbagai sumber di internet seperti Wikipedia, korpus, dan sumber data lainnya. Data yang diperoleh kemudian digunakan untuk melatih model.
Setelah model dilatih dengan data pelatihan, langkah selanjutnya adalah menguji kemampuan model dalam memproses input dan memberikan output. Uji coba dilakukan dengan memberikan input dan memeriksa output yang dihasilkan oleh model. Jika output yang dihasilkan sudah sesuai dengan harapan, maka model AI tersebut siap digunakan.
Setelah siap, model akan dideploy sehingga dapat digunakan secara luas.
Bingung dengan “data pelatihan” atau “mengajari model”? Kita ambil contoh program analisis sentimen. Pertama, kita membutuhkan dataset yang berisi sentimen dan labelnya, misalnya:
- Teks: Ada nih di trans7 hitam putih, dia dpt penghargaan juga di norwegia #hitamputih. Label: positif
- Teks: Selamat berbuka puasa Semoga amal ibadah hari ni diterima Allah #hitamputih. Label: positif
- Teks: Suka banget dengan acara hitam putih. Label: positif
- Teks: Hitam putih bego, haruka diundang bentar biar pd liat younglex, udah gt malah dihina, Bego. Label: negatif
- Teks: Miris liat pemerintah, Juara angkat berat se-asia tp tdk ada biaya mengikuti kejurnas.. #miris #hitamputihtrans7 Label: negatif
- Teks: Miris ketika anak Indonesia kesulitan menggunakan Bahasa Indonesa dan lebih nyaman menggunakan bahasa asing #HitamPutihTrans7 #AkuIndonesia. Label: negatif
Dan setelah itu. Biasanya, program analisis sentimen membutuhkan setidaknya 100 data untuk setiap labelnya agar dapat belajar dengan baik. Selain itu, labelnya juga tidak hanya terbatas pada positif atau negatif, tetapi juga dapat ditambahkan label lain seperti netral, dan sebagainya.
Setelah kita memiliki dataset yang diperlukan, langkah berikutnya adalah membuat dan melatih model. Model yang digunakan adalah model NLP atau Pemrosesan Bahasa Alami. Terdapat beberapa algoritma yang dapat digunakan, seperti RNN, LSTM, GRU, dan algoritma lainnya. Setelah itu, kita perlu melatih model tersebut. Pelatihan dilakukan dengan memasukkan dataset ke dalam model agar model dapat mempelajari pola dari setiap label.
Setelah menyelesaikan pelatihan model, model tersebut biasanya harus diuji dan divalidasi. Setelah itu, baru model dapat digunakan.
Misalnya, jika kita bertanya kepada model tersebut “toleransi umat beragama macam apa yang diterapkan di Serang Banten? Toleransi hanya mitos #hitamPutihT7”, apa jawabannya? Apakah jawabannya positif, negatif, atau netral?