Konversi PDF to OCR (Optical Character Recognition)

Muhammad Fajri
Wednesday, 28 April 2021

Bismillahirrahmanirrahim.

time-synchronization

Sebelum kita lanjutkan, harap diingat bahwa fitur ini sebaiknya dimanfaatkan secara bijak dan tidak digunakan untuk melakukan plagiasi dan tindakan yang melanggar lainnya. Terima kasih.

Microsoft Word pada dasarnya sudah menjadi kebutuhan dasar dalam pengelolaan dokumen, pengetikan surat misalnya. Aplikasi ini memberikan kemudahan seperti melakukan pemformatan dokumen termasuk teks dan paragraf. Hampir semua bidang memanfaatkan perangkat lunak ini karena kemudahan dalam pengoperasiannya dan juga menjadi standar perangkat lunak yang digunakan dalam pengelolaan dokumen.

Seiring perkembangannya, di versi yang baru selalu terdapat fitur baru yang ditambahkan. Salah satu fitur ini ada konversi file ke PDF. Fitur ini baru ditambahkan pada versi Microsoft Office 2010, untuk versi 2007 baru ditambahkan pada Service Pack 3. Tentu dengan adanya fitur ini kita dapat mengonversi file langsung di dalam aplikasi, tanpa aplikasi atau layanan tambahan lagi.

Belakangan, terdapat fitur baru yang ditambahkan yang menurut saya memberikan kemudahan, utamanya dalam pengetikan dokumen. Dengan fitur ini, waktu yang digunakan pun menjadi lebih efisien. Fitur ini yaitu kemampuan untuk mengonversi PDF menjadi OCR (Optical Character Recognition) yaitu kemampuan program untuk mengenali karakter (alfabet dan angka) dalam sebuah gambar. Fitur ini yang akan kita coba praktekkan di sini.

Mengambil sebuah Gambar

Untuk memulai, pertama kita ambil sebuah gambar melalui kamera, baik melalui kamera ponsel atau pun kamera digital. Berikut adalah sampel gambar yang digunakan.

take-an-image

Mengedit di Word

Berikutnya, silahkan kirim file gambar tadi ke perangkat komputer yang digunakan, melalui USB atau pun media file sharing yang lain, misalnya SHAREIt atau Feem.

Import file gambar tadi ke dalam program Microsoft Word, melalui menu Insert – Pictures.

import-image

Setelah berhasil di-export, akan ada sebuah menu baru dengan nama Format. Klik menu tersebut untuk melakukan pengeditan sederhana seperti cropping image (pada grup Size pilih Crop) dan mengubah warna (pada grup Adjust pilih Color).

Untuk warna (color) sampel yang saya gunakan yaitu Recolor – Black and White: 75%, dengan maksud teks yang ada menjadi berwana hitam dan latar berwarna putih–namun, ini pun tergantung hasil dari gambar yang diambil, dengan kata lain kondisional.

edit-image

Berikut adalah hasil cropping dan pengubahan warna yang telah dilakukan.

edit-image-result

Simpan File dalam Format PDF

Setelah gambar selesai diedit, simpan file dalam format PDF. Dengan menggunakan tombol pintas keyboard, tekan tombol F12 sehingga tampil sebuah kotak dialog bernama Save As.

save-file

Pada kolom Save as type, pilih PDF (*.pdf). Berikutnya tentukan tempat penyimpanan file, kemudian klik Save.

Membuka Dokumen PDF di Microsoft Word

Untuk menguji apakah file yang telah disimpan tadi teksnya dapat diedit saat dibuka kembali di Microsoft Word, kita coba buka filenya dengan memilih membuka dengan (open with) melalui klik kanan file, kemudian pilih Word 2016. Jika tidak terdapat pilihan tersebut, pilih opsi Choose default program… dan silahkan browse atau cari opsi Word 2016, saat memilih opsi di daftar ini, hilangkan tanda centang pada checkbox, ini untuk menghindari aplikasi yang ingin dipilih menjadi default.

Setelah dimuat, akan tampil kotak pemberitahuan yang menyatakan aplikasi Word akan melakukan konversi terhadap file PDF agar dapat diedit layaknya dokumen Word biasa dan tambahan informasi lain. Silahkan pilih OK untuk melanjutkan.

attention-dialog

Setelah langkah tersebut dilakukan, dokumen PDF akan dimuat pada program aplikasi Word 2016. Jika file gambar yang diambil pada langkah sebelumnya cukup jelas perbedaan karakternya, maka hasilnya pun bisa lebih optimal sesuai yang diharapkan. Berikut contoh hasil dari gambar yang telah diambil sebelumnya.

file-result

Dari sampel ini dapat dilihat bahwa teks yang ada dapat diedit seperti mengedit dokumen Word namun dalam format file .pdf. Hasilnya cukup lumayan, teks yang ada bisa dikatakan mendekati presisi 100% seperti aslinya (dalam hal teks atau karakter yang dikenali). Untuk tujuan pengenalan karakter atau dikenal sebagai OCR agar waktu pengetikan menjadi lebih efisien, program Word ini dapat diandalkan. Namun kembali lagi dari hasil gambar yang diambil dan juga kompleksitas konten yang ada seperti terdapat banyak grafis, format indentasi, atau bahkan terdapat tabel pada gambar tersebut, dan juga menggunakan jenis font dalam format handwriting (misalnya Blackadder ITC, Embassy BT, Monotype Corsiva), hasilnya mungkin tidak sesuai harapan termasuk karakter yang tidak dikenali dengan baik justru menjadi karakter asing yang tidak kita inginkan.

Dari fitur yang ada ini, dapat kita manfaatkan untuk tujuan seperti membuat kutipan saat menyusun suatu karya ilmiah yang sumbernya dari buku fisik atau skripsi atau bahkan jurnal digital, menyusun file PDF dari teks yang di-scan (membuat salinan dari buku fisik), atau pun membuka file PDF yang telah dikonversi yang sebelumnya dibuat dari dokumen Word dengan maksud file PDF dapat diedit dan disimpan kembali dengan nama file baru, dan sebagainya.

Akhirnya kita sudah berada di bagian akhir artikel, semoga apa yang dipaparkan dapat dipahami dengan baik, dan tentunya diikuti dan dipraktekkan. Semoga bermanfaat. Terima kasih.