Ketika AI Belajar Membaca Uang: Prototipe Deep Learning untuk Membantu Tunanetra di Kalimantan Selatan
Catatan penulis
Artikel ini merupakan adaptasi populer dari karya tulis ilmiah untuk lomba yang saya tulis pada tahun 2024, berjudul “Prototipe Fungsional Deteksi dan Penghitung Uang Berbasis Deep Learning: Solusi Tunanetra di Kalimantan Selatan.”
Teknologi seharusnya tidak hanya canggih, tetapi juga berguna
Ketika orang membicarakan kecerdasan buatan, yang sering muncul biasanya adalah hal-hal besar: model bahasa, mobil otonom, generative AI, atau robot masa depan. Namun bagi saya, ada pertanyaan yang jauh lebih penting: bisakah teknologi membantu seseorang menjalani aktivitas sehari-hari dengan lebih mandiri?
Pertanyaan itulah yang menjadi inti dari karya tulis ilmiah ini.
Artikel ini membahas sebuah prototipe deteksi dan penghitung uang berbasis deep learning yang dirancang untuk membantu penyandang tunanetra mengenali nominal uang rupiah dan menghitung totalnya secara lebih mandiri. Fokusnya bukan sekadar membuat model yang bisa berjalan, tetapi membangun dasar solusi asistif yang relevan dengan kebutuhan nyata, khususnya bagi tunanetra di Kalimantan Selatan.
Mengapa mengenali uang masih menjadi persoalan nyata
Bagi banyak orang, mengenali uang adalah hal yang nyaris otomatis. Sekilas melihat, nominal bisa langsung diketahui. Namun bagi penyandang tunanetra, aktivitas yang tampak sederhana ini dapat berubah menjadi tantangan harian yang serius.
Kesulitan membedakan nominal uang tidak hanya memperlambat transaksi, tetapi juga meningkatkan risiko salah bayar, salah menerima kembalian, hingga penipuan. Walaupun uang kertas memiliki fitur fisik tertentu, seperti tekstur atau penanda khusus, dalam praktiknya fitur tersebut tidak selalu mudah diandalkan. Uang bisa aus, terlipat, kusut, atau kondisinya sudah tidak ideal. Pada titik ini, banyak tunanetra tetap harus bergantung pada bantuan orang lain.
Ketergantungan seperti ini mungkin terlihat kecil dari luar, tetapi sebenarnya menyangkut sesuatu yang sangat penting: kemandirian.
Dari sinilah ide penelitian ini bermula. Bagaimana jika kamera dan model computer vision bisa mengambil alih tugas mengenali uang? Bagaimana jika hasil pengenalan itu dapat diterjemahkan menjadi informasi yang mudah diakses pengguna, misalnya melalui suara? Dan bagaimana jika sistem tersebut juga bisa menghitung total uang yang sedang dipegang?
Gagasan intinya: mengajarkan model untuk mengenali uang rupiah
Solusi yang saya kembangkan berbentuk prototipe deteksi dan penghitung uang berbasis YOLOv8, salah satu arsitektur object detection modern yang dikenal cepat dan efektif.
Secara sederhana, sistem ini bekerja seperti berikut:
- Kamera mengambil gambar uang kertas.
- Model mendeteksi objek uang pada gambar.
- Model mengklasifikasikan nominalnya.
- Sistem menghitung jumlah uang yang terdeteksi.
- Informasi hasil deteksi dapat diteruskan ke keluaran yang ramah pengguna, seperti suara.
Dengan pendekatan ini, sistem tidak hanya mencoba menjawab pertanyaan “ini uang berapa?”, tetapi juga “total uang yang ada berapa?”
Hal ini penting, karena dalam situasi nyata seseorang tidak selalu memegang satu lembar uang. Sering kali ada beberapa lembar dengan nominal berbeda, dalam posisi yang tidak ideal, dengan pencahayaan yang tidak selalu bagus.
Mengapa memilih YOLOv8
Dalam penelitian ini saya memilih YOLOv8 karena model ini dirancang untuk pendeteksian objek secara efisien dan real-time. Dibanding pendekatan yang lebih berat atau lebih lambat, YOLO memiliki keunggulan pada kecepatan inferensi sekaligus kemampuan mengenali objek langsung dari citra.
Untuk kasus uang kertas, itu berarti model harus bisa:
- menemukan area uang dalam gambar,
- membedakan tiap nominal rupiah,
- tetap bekerja dalam variasi sudut pengambilan,
- dan tidak mudah terkecoh oleh gangguan visual di sekitar objek.
Pilihan ini juga sejalan dengan visi pengembangan alat bantu yang suatu saat dapat diarahkan ke implementasi lebih praktis, bukan berhenti sebagai eksperimen laboratorium.
Membangun dataset: bukan sekadar memotret uang
Salah satu bagian terpenting dari penelitian ini adalah pembangunan dataset. Model yang baik tidak akan lahir dari data yang asal-asalan.
Dalam penelitian ini, saya menggunakan 2.877 gambar mata uang rupiah. Dataset disusun dari berbagai denominasi uang kertas, yaitu:
- Rp1.000
- Rp2.000
- Rp5.000
- Rp10.000
- Rp20.000
- Rp50.000
- Rp100.000
Yang penting bukan hanya jumlah gambar, tetapi juga keragaman kondisinya. Karena sistem ini ditujukan untuk membantu dalam situasi nyata, data tidak diambil hanya pada kondisi rapi dan ideal. Gambar dikumpulkan dengan mempertimbangkan banyak variasi, seperti:
- uang dalam kondisi normal,
- uang terlipat,
- uang kusut,
- sudut pengambilan berbeda,
- jarak kamera yang bervariasi,
- pencahayaan normal,
- pencahayaan minim,
- dan kondisi gambar yang kabur.
Setelah data terkumpul, proses anotasi dilakukan menggunakan Roboflow agar tiap gambar memiliki label yang sesuai. Tahap ini sangat penting karena kualitas anotasi berpengaruh langsung pada kualitas pembelajaran model.
Dengan kata lain, sebelum model belajar mengenali uang, saya harus memastikan bahwa data yang diberikan memang cukup representatif terhadap dunia nyata.
Proses pengembangannya memang dibuat iteratif
Penelitian ini tidak dibangun dengan pendekatan sekali jadi. Prosesnya bersifat iteratif: mulai dari kajian teknologi sebelumnya, analisis kebutuhan pengguna, perancangan prototipe, pengujian, evaluasi, lalu penyempurnaan.
Pendekatan semacam ini penting untuk proyek AI terapan. Dalam banyak kasus, tantangan terbesar bukan hanya pada pembuatan model, tetapi pada penyesuaian sistem terhadap kondisi penggunaan yang tidak ideal.
Karena itu, penelitian ini tidak hanya berupaya membangun model yang memiliki angka akurasi tinggi, tetapi juga mengevaluasi bagaimana kinerjanya saat diuji dalam kondisi yang lebih realistis.
Apa saja yang diuji
Untuk melihat seberapa andal model bekerja, pengujian dilakukan dalam beberapa kondisi utama:
- kondisi normal,
- kondisi minim pencahayaan,
- kondisi kabur,
- serta pengujian terhadap kemampuan model membedakan uang dari objek lain seperti kertas berwarna.
Tujuan pengujian ini sederhana tetapi penting: sistem harus tetap berguna saat lingkungan tidak sempurna. Sebab dalam pemakaian nyata, pengguna tidak selalu berada di ruangan terang dengan posisi kamera ideal.
Hasilnya: kuat pada kondisi normal dan cahaya minim, menurun saat kabur
Hasil pengujian menunjukkan bahwa model memiliki performa yang cukup menjanjikan.
Pada pengujian per nominal dalam kondisi berbeda, akurasi berada pada kisaran berikut:
| Nominal | Kondisi Normal | Minim Pencahayaan | Kondisi Kabur |
|---|---|---|---|
| Rp1.000 | 93% | 93% | 70% |
| Rp2.000 | 94% | 92% | 65% |
| Rp5.000 | 91% | 91% | 70% |
| Rp10.000 | 95% | 93% | 72% |
| Rp20.000 | 92% | 91% | 67% |
| Rp50.000 | 93% | 90% | 71% |
| Rp100.000 | 90% | 90% | 65% |
Ada satu hal yang langsung terlihat dari hasil ini: model cukup kuat pada kondisi normal dan pencahayaan minim, tetapi performanya turun cukup jauh saat gambar kabur.
Ini adalah temuan yang menarik. Banyak sistem computer vision justru langsung jatuh saat cahaya rendah, tetapi dalam penelitian ini model masih mampu menjaga akurasi di atas 90% untuk banyak nominal dalam kondisi minim pencahayaan. Artinya, sistem punya potensi untuk tetap bermanfaat di situasi yang tidak terlalu ideal.
Sebaliknya, blur menjadi tantangan yang jauh lebih berat. Hal ini masuk akal karena gambar kabur menghilangkan detail visual yang justru penting untuk membedakan nominal uang.
Tidak semua nominal sama mudahnya untuk dikenali
Walaupun performa umum model cukup baik, tidak semua nominal memiliki tingkat kesulitan yang sama.
Dari evaluasi per nominal, akurasi yang dicatat adalah:
| Nominal | Akurasi |
|---|---|
| Rp1.000 | 93% |
| Rp2.000 | 80% |
| Rp5.000 | 90% |
| Rp10.000 | 91% |
| Rp20.000 | 89% |
| Rp50.000 | 92% |
| Rp100.000 | 94% |
Di sini terlihat bahwa Rp2.000 menjadi kelas yang paling menantang, dengan akurasi hanya 80%, lebih rendah dibanding nominal lain yang mayoritas berada di sekitar atau di atas 90%.
Temuan ini menunjukkan bahwa dalam object detection, tantangan bukan hanya soal “bisa mendeteksi uang atau tidak”, tetapi juga soal seberapa mudah tiap kelas dibedakan secara visual. Bisa jadi ada kemiripan fitur, keterbatasan variasi data, atau kondisi latar belakang tertentu yang membuat model lebih sering salah pada kelas tersebut.
Precision, recall, dan apa artinya terhadap keandalan sistem
Untuk memahami performa model secara lebih dalam, penelitian ini tidak berhenti pada akurasi. Evaluasi juga dilakukan menggunakan metrik seperti precision, recall, F1-score, dan mAP@0.5.
Secara umum, hasilnya menunjukkan performa yang solid:
| Nominal | F1-Score (confidence 0.5) | Precision | Recall | mAP@0.5 |
|---|---|---|---|---|
| Rp1.000 | 0.92 | 0.968 | 0.95 | 0.952 |
| Rp10.000 | 0.92 | 0.961 | 0.95 | 0.961 |
| Rp100.000 | 0.92 | 0.957 | 0.95 | 0.957 |
| Rp2.000 | 0.92 | 0.909 | 0.95 | 0.909 |
| Rp20.000 | 0.92 | 0.973 | 0.95 | 0.973 |
| Rp5.000 | 0.92 | 0.935 | 0.95 | 0.935 |
| Rp50.000 | 0.92 | 0.963 | 0.95 | 0.963 |
| Semua kelas | 0.92 | 0.952 | 0.95 | 0.952 |
Beberapa hal penting yang dapat dibaca dari hasil ini:
- Precision tinggi berarti ketika model mengatakan “ini uang nominal tertentu”, prediksinya cukup sering benar.
- Recall tinggi berarti model juga cukup baik dalam menangkap objek yang memang ada, tidak terlalu sering melewatkan uang yang seharusnya terdeteksi.
- F1-score 0.92 menunjukkan keseimbangan yang baik antara precision dan recall.
- mAP@0.5 sebesar 0.952 untuk semua kelas menunjukkan kualitas deteksi yang kuat secara keseluruhan.
Menariknya, evaluasi juga menunjukkan bahwa model mencapai performa optimal di sekitar confidence 0.5, sedangkan precision dapat mencapai 1.00 pada confidence sekitar 0.888. Ini memberi gambaran bahwa ada titik operasi tertentu yang dapat dipilih tergantung kebutuhan sistem: apakah ingin lebih ketat untuk mengurangi false positive, atau lebih longgar agar tidak terlalu banyak melewatkan objek.
Apa arti penelitian ini sebenarnya
Di atas kertas, penelitian ini berbicara tentang dataset, anotasi, YOLOv8, confusion matrix, kurva precision-recall, dan evaluasi model. Namun jika dilihat lebih dalam, inti sebenarnya jauh lebih manusiawi.
Penelitian ini adalah tentang membuat aktivitas finansial yang sederhana menjadi lebih aksesibel.
Ketika seseorang dapat mengetahui nominal uang tanpa harus selalu bertanya kepada orang lain, ada rasa percaya diri yang tumbuh di sana. Ada kemandirian. Ada martabat dalam hal kecil yang sering diabaikan oleh orang yang tidak pernah mengalami hambatan tersebut.
Itulah mengapa saya melihat proyek seperti ini bukan hanya sebagai eksperimen teknis, tetapi sebagai bagian dari bagaimana AI seharusnya bekerja: mendekatkan teknologi pada kebutuhan manusia yang nyata.
Keterbatasan yang tetap perlu disampaikan
Sebagai karya ilmiah, penelitian ini juga memiliki batasan yang perlu disampaikan secara jujur.
Beberapa keterbatasan utamanya adalah:
- dataset masih terbatas pada 2.877 gambar,
- skenario uji belum mencakup seluruh kondisi nyata yang mungkin ditemui pengguna,
- penelitian belum melibatkan evaluasi langsung dari pengguna tunanetra,
- dan fokus penelitian masih berada pada aspek teknis, belum menyentuh aspek sosial, ekonomi, maupun kebijakan implementasi.
Artinya, hasil penelitian ini menjanjikan, tetapi belum final. Ini adalah fondasi awal yang kuat, bukan produk akhir yang selesai sepenuhnya.
Ke mana penelitian ini bisa dikembangkan
Ada banyak arah pengembangan yang sangat mungkin dilakukan setelah penelitian ini.
Salah satunya adalah memperluas dataset agar model semakin tahan terhadap variasi dunia nyata: uang yang lebih lusuh, latar belakang yang lebih kompleks, kamera dengan kualitas berbeda, hingga skenario transaksi sehari-hari yang lebih dinamis.
Langkah berikutnya yang tidak kalah penting adalah melibatkan pengguna tunanetra secara langsung dalam proses pengujian. Karena pada akhirnya, sistem asistif yang baik tidak hanya akurat secara teknis, tetapi juga nyaman, intuitif, dan benar-benar membantu dalam penggunaan nyata.
Selain itu, prototipe ini juga berpotensi diarahkan ke bentuk implementasi yang lebih praktis, misalnya:
- aplikasi mobile,
- perangkat berbasis kamera dengan keluaran audio,
- atau sistem embedded yang lebih ringan dan mudah dibawa.
Refleksi penutup
Menulis dan mengembangkan karya ini membuat saya semakin yakin bahwa inovasi tidak selalu harus dimulai dari sesuatu yang besar. Kadang, inovasi yang paling berarti justru hadir dari persoalan yang tampak sederhana, tetapi berdampak besar dalam kehidupan sehari-hari seseorang.
Bagi saya, proyek ini bukan hanya tentang mendeteksi uang. Ini adalah tentang bagaimana AI, computer vision, dan deep learning bisa diterjemahkan menjadi alat bantu yang lebih inklusif.
Masih ada banyak ruang perbaikan, tentu. Tetapi sebagai prototipe awal, penelitian ini menunjukkan bahwa arah tersebut layak untuk diteruskan.
Dan mungkin, di situlah nilai terpentingnya: bukan hanya pada angka akurasi, tetapi pada kemungkinan bahwa teknologi dapat menjadi jembatan menuju hidup yang lebih mandiri bagi lebih banyak orang.
Catatan akhir dari penulis
Artikel ini merupakan adaptasi populer dari karya tulis ilmiah lomba tahun 2024 yang saya tulis sendiri. Dalam versi blog ini, saya berusaha mempertahankan substansi penelitian sambil mengubah gaya penyampaian agar lebih reflektif, lebih natural, dan lebih mudah dinikmati seperti artikel di platform semacam Medium.
Bila kelak penelitian ini dikembangkan lebih jauh menjadi sistem yang benar-benar bisa dipakai di lapangan, saya berharap ia tidak hanya menjadi proyek teknis, tetapi juga menjadi contoh kecil bahwa teknologi yang baik adalah teknologi yang memahami kebutuhan manusia.