Konteks yang saya tangkap dari pertanyaan ini begini:
- Pembelajaran mesin perlu dilatih
- Gimana kalau dia dilatih aja sama pembelajaran mesin lain yang udah terlatih sebelumnya?
- Kita perlu data untuk latihan tersebut
- Kita gak punya datanya, atau punya tapi gak mau mengalokasikan waktu untuk melatih pembelajaran mesin tersebut
Caranya bisa 2:
- Beli data latihannya
- Beli algoritma yang sudah terlatihnya
Contoh nomor 1 adalah FB dan IG. Zaman saya SMA kalau ada acara saya gak pernah motret ataupun minta kirimin foto hasil jepretan orang lain. Karena saya udah 4.0, saya cuma bilang ke tukang foto, “ntar tag gue ya.”
Lama-lama karena jutaan orang di dunia saling ngetag, FB bisa tahu muka saya yang mana dan suatu hari ada foto lain, tanpa perlu ditag, FB bisa ngetagin sendiri buat saya
Itu contoh latihan data untuk pembelajaran mesin, dalam hal ini penglihatan komputer. Data itu bisa dijual, atau kalau di RRT yang semisal diakuisisi pemerintah untuk melatih CCTV untuk sistem kredit sosial
“Tapi kan tag di FB gak jelas, dan gak semua sisi wajah ada.”
Fungsi filter IG adalah untuk mendeteksi wajah kita dan kemudian memasangnya dari mulai make up, topi, sampai diubah menjadi lawan gender. Ini adalah proses latihan untuk algoritma penglihatan komputer IG, dan IG memiliki data semua pengguna.
Contoh nomor dua lebih jelas, tanpa gap:
Saya udah berkali-kali bilang di quora bahwa tiktok itu bukan perusahaan sosmed bertemakan hiburan dan joget. Tiktok itu perusahaan AI. Kalian yang joget itu adalah data latihannya
Bonus:
Memungkinkan semua algoritma pembelajaran mesin berbagi data secara terpusat adalah tujuan dari API terbuka atau data terbuka. BMKG, misalnya
Jika BMKG membagikan data mereka secara gratis, apa keuntungan yang bisa mereka peroleh? BMKG akan menerima umpan balik jika ada aplikasi yang dapat membangun sistem deteksi lebih dini.