Mata kita menerima gambar sebagai sinyal dan otak kita memprosesnya menjadi gambar. Image recognition mencoba meniru proses ini. Komputer menerima gambar sebagai urutan pixel, yang berisi angka yang mewakili titik gelap atau terang. Gambar biasanya disimpan dalam format tabel RGB (Red Green Blue).
Sekarang kita sudah paham bagaimana komputer melihat gambar. Sekarang, mari kita bahas tentang image detection itu sendiri. Image atau object recognition berusaha memproses gambar dan mendeteksi objek di dalamnya. Manusia dengan mudah dapat membedakan kucing, kuda, atau pohon, tetapi komputer sulit melakukannya. Proses pelatihan komputer untuk memahami dan membedakan objek disebut machine learning, yang merupakan salah satu bidang dari Artificial Intelligence (AI).
Langkah pertama dalam melakukan pengenalan gambar itu sendiri adalah dengan membuat mesin mampu mengklasifikasikan gambar tersebut. Kita dapat menggunakan pembelajaran mesin untuk melakukan proses klasifikasi gambar ini. Proses pembuatan model dapat dilakukan dengan langkah-langkah berikut ini:
1. Mengambil pixel dari sebuah gambar
Pada langkah ini, kita perlu mengambil pixel dari gambar dan mengubahnya menjadi tabel RGB. Setiap warna memiliki rentang nilai antara 0 hingga 255. Kita akan membentuk matriks sesuai dengan dimensi gambar. Misalnya, jika gambar memiliki ukuran 1024 x 768, maka kita akan membuat 3 set matriks dengan ukuran 1024 x 768.
2. Persiapan gambar dengan label adalah langkah penting dalam tahap pelatihan model
Gambar-gambar tersebut menampilkan berbagai kategori, seperti kucing, ikan, atau pohon. Semakin banyak gambar yang digunakan untuk setiap kategori, maka model akan semakin baik dalam membedakan kategori-kategori tersebut. Gambar-gambar ini digunakan agar model dapat mengenali fitur-fitur penting dalam sebuah gambar yang menunjukkan bahwa gambar tersebut termasuk dalam kategori ikan atau kucing. Secara singkat, gambar-gambar ini digunakan sebagai bahan pembelajaran dalam model machine learning. Metode ini dikenal dengan sebutan supervised machine learning.
3. Melatih model agar dapat mengklasifikasikan gambar
Ilustrasi di atas menunjukkan bagaimana model dapat dilatih menggunakan gambar yang telah diberi label. Ada berbagai jenis model machine learning yang dapat digunakan dalam tahap ini, salah satunya adalah Convolutional Neural Network (CNN) yang merupakan metode yang terkenal dalam mengklasifikasikan gambar dan juga dikenal sebagai deep learning.
Tujuan utama dari model machine learning ini adalah untuk mempelajari fitur-fitur penting yang dapat menggambarkan sebuah ikan menjadi ikan, sehingga model dapat membedakan dan mengklasifikasikan gambar ke dalam kategori tertentu.
4. Mengenali (atau memprediksi) gambar baru
Setelah model selesai dilatih, kita dapat menggunakannya untuk mengenali atau memprediksi gambar baru. Gambar baru akan diubah menjadi piksel dan dimasukkan ke dalam model yang telah kita buat sebelumnya. Kemudian, model akan mengklasifikasikan gambar tersebut.
Dengan mengikuti langkah-langkah tersebut, kita dapat mengembangkan model sehingga dapat mengenali beberapa objek secara spesifik dalam suatu gambar. Hasil akhirnya dapat kita lihat pada demo di bawah ini. Gambar tersebut merupakan contoh pengaplikasian lanjutan dari image recognition.