Web Scraping dengan Python

Web Scraping dengan Python

Berjumlah kembali dengan blog sederhana ini. Pada unggahan kali ini, kita akan belajar bersama mengenai teknik paling dasar melakukan web scraping menggunakan Python.

Seperti yang telah kita tahu, bahwa salah satu cara untuk memperoleh data yang bisa kita gunakan dalam riset atau penelitian saat ini tidak hanya dari survei atau sensus, tetapi juga dari internet. Kehadiran internet yang menyediakan beragam data dan informasi sangat potensial menjadi lahan sumber data baru untuk kebermanfaatan atau kebaikan.

Di internet banyak kita jumpai situs-situs yang menarik dan bisa dieksplorasi secara mendalam untuk meningkatkan manfaat dan mengembangkan ilmu pengetahuan. Untuk memperoleh data dan informasi dari internet, kita biasa menggunakan teknik perambaan atau web scraping baik dengan tujuan menambang data (data mining) maupun menambang teks (text mining).

Dalam kesempatan ini, situs yang menjadi target web scraping kita adalah situs kumpulan quote dengan alamat URL https://quotes.toscrape.com/, sebuah situs yang menyediakan kumpulan quote dari para pakar dan ahli ilmu pengetahuan dan teknologi. Berikuta sekilas tampilan laman depan situs tersebut:

Situs kumpulan quote

Dari situs ini, kita akan mencoba memperoleh 2 data, yaitu data teks quote itu sendiri serta data author dari setiap quote. Kemudian dari hasil web scraping, kita coba eksplorasi sedikit untuk dianalisis sehingga memperkaya informasi atau insight.

Namun, sebelum itu, ada pertanyaan besar yang selama ini viral didiskusikan, apakah web scraping adalah aktivitas ilegal?

Jawaban dari pertanyaan ini masih debatable. Namun, dari sudut pandang saya sendiri, selama aktivitas web scraping ini tidak bertujuan untuk merugikan pihak lain dan selama data yang discrape adalah data-data yang bersifat public (data umum dan secara bebas disebarkan), maka it's ok. Berbeda bila aktivitas hacking yang kita lakukan seperti hijacking atau melakukan pencurian data yang bersifat rahasia dan merugikan pihak lain, maka ini sungguh dilarang dan tidak diperbolehkan.

Baik, untuk melakukan web scraping dengan Python, ada beberapa tahapan yang harus dilalui, yaitu:

1. Menyiapkan web scraper, dalam unggahan ini kita coba menggunakan scrapy;

2. Menjelajahi situs target dengan menggunakan fungsi inspect element pada Mozila atau Chrome;

3. Menjalankan web scraper berdasarkan node hasil inspect element situs yang mengandung data atau informasi yang kita butuhkan;

4. Konversi ke dalam dataframe;

5. Analisis data.

Untuk mengimplementasikan web scraping dengan Python, langkah-langkahnya adalah sebagai berikut:


Untitled

Dari hasil visualisasi di atas, pada wordcloud terlihat bahwa kata paling banyak digunakan dalam quote pada ahli adalah kata "thingking", "though", "ways", dan "miracle". Pada intinya, kesemua quote yang diberikan pada ahli sebagai wejangan bagi kita adalah untuk selalu berpikir dan menjadi pemikir untuk menemukan jalan keluar dari berbagai permasalahan dalam kehidupan. Sebab, hal itu merupakan bentuk usaha yang boleh jadi menciptakan keajaiban-keajaiban dan anugerah dari Yang Maha Esa.

Berdasarkan bar plot atau bar chart, terlihat bahwa jumlah kata yang dipakai oleh para ahli atau ilmuwan dalam quote-nya paling banyak adalah quote Albert Einstein diikuti Jane Austen, Andre Gide, dan Eleanor Roosevelt. Hasil ini memungkinkan kita untuk meneliti lebih lanjut mengenai korelasi antara jumlah penguasaan kosakata dengan inteligensi seseorang, misalkan berdasarkan jumlah tulisannya atau aspek lainnya.

Demikian sedikit sharing kali ini, semoga sedikit banyak bermanfaat bagi pembaca. Jangan lupa untuk terus mengikuti, menyimak, dan mempraktikkan setiap unggahan menarik, unik, dan terbaru dalam blog sederhana ini. Selamat mempraktikkan!

Add Comments


EmoticonEmoticon