Scrape Data Laporan PPATK Berbentuk Portable Document Format (PDF) dengan Python

Scrape Data Laporan PPATK dengan Python

Pusat Pelaporan dan Analisis Transaksi Keuangan atau yang biasa disingkat PPATK akhir-akhir ini menjadi salah satu institusi yang menjadi sorotan publik selain Kementerian Keuangan, Direktorat Jenderal Pajak (DJP) dan Bea Cukai. Pasalnya, kasus yang menyeret sejumlah oknum di Kementerian Keuangan (Kemenkeu) berbuntut pada pengungkapan harta kekayaan beberapa pejabat di beberapa lembaga negara.

Setelah mengungkap uang sebanyak 100 triliun terkait rekening Brigadir Yosua, kini PPATK semakin viral dengan upayanya mengungkap ratusan triliun sebagaimana yang diumumkan oleh Menkopolhukam, Mahfud MD, beberapa waktu ini di berbagai media. Adapun judul yang tersebar hingga menuai pro dan kontra antar pihak, yaitu adanya transaksi janggal sebesar Rp. 349 triliun di lingkungan Kemenkeu.

Hingga tadi malam (29/03/2023), Dewan Perwakilan Rakyat (DPR) Komisi III mengadakan rapat terbuka untuk melakukan konfirmasi atas berita yang dinilai "liar" tersebut dengan mengundang Kepala PPATK, Ivan Yustiavandana. Rapat jejak pendapat sekaligus adu kekuatan data tersebut berlangsung kurang lebih 8 jam. Menkopolhukam dengan jelas membeberkan asal-usul transaksi janggal Rp 349 triliun di tubuh Kemenkeu.

Kendati demikian, rapat tersebut terpaksa ditunda pada jadwal berikutnya dengan mengundang Menteri Keuangan Sri Mulyani, Kepala PPATK, dan Menkopolhukam. Sebab, DPR berpendapat bahwa terjadi beda data antara yang diutarakan oleh Menkeu dan Menkopolhukam.

Posisi kebenaran data PPATK dalam situasi ini sangat diperlukan. Apalagi, kasus pencucian uang negara sejauh ini disinyalir telah terjadi sejak lama dan banyak kasus yang menguap atau berhenti diusut.

Sebenarnya, PPATK secara periodik mengumumkan hasil analisisnya melalui portal resmi. Laporan Tahunan PPATK selama tahun 2022 pun juga sudah dirilis dan seluruh pihak dapat membacanya. Laporannya pun terarsip dengan baik pada website resmi berikut. Hanya saja, bentuk laporannya masih dalam bentuk Portable Document Format (PDF). Lantas bagaimana caranya untuk melakukan scrape data pada laporan PDF PPATK dengan Python?

Sebelum praktik scrape data PDF PPATK, kita perlu mengunduh dokumen laporan PDF tersebut. Kemudian mengimplementasikan beberapa langkah berikut:


Scrapingdynamicgraph

Berdasarkan data laporan PPATK tahun 2022, pada tabel B terlihat bahwa hasil analisis terkait indikasi tindak pidana asal paling banyak adalah korupsi, yakni sebanyak 252 laporan, Perpajakan sebanyak 188 laporan, lalu terorisme sebanyak 162 laporan, dan penipuan sebanyak 142 laporan. Sedangkan selebihnya kurang dari 100 laporan.

Demikian sedikit sharing kita terkait teknik scrape data dari dokumen PDF dengan Python. Semoga bermanfaat dan selamat mempraktikkan!


Add Comments


EmoticonEmoticon