Apakah ada perpustakaan yang dapat berjalan dengan susah payah melalui AJAX/javascript?

Saya menggunakan PHP untuk mengambil beberapa informasi dari halaman web, namun, saya menemukan bahwa informasi yang saya coba ambil dari halaman dimuat melalui beberapa cara AJAX/javascript. Saya pikir saya ingat bahwa Curl dapat melakukan iterasi melalui javascript, tetapi ternyata bukan itu masalahnya.

Sepertinya saya ingat semacam perpustakaan/fungsi "browser web" backend yang dapat dilacak melalui javascript dan AJAX, untuk mendapatkan hasil halaman akhir dari browser yang berfungsi penuh.

Apakah ada perpustakaan atau fungsi yang bisa melakukan ini? Adakah ide tentang cara melakukan hal ini, selain harus menelusuri sendiri skrip/pengalihan secara manual? Tidak harus cantik -- saya hanya ingin mengikis teks yang dihasilkan.


person Coldblackice    schedule 17.06.2012    source sumber


Jawaban (2)


Mungkin tidak di php tetapi dalam bahasa lain ada: Watir/WatiN, Selenium, watir/selenium-webdriver, capybara-webkit, celerity, node.js menjalankan js secara langsung, serta phantomjs. Ada juga iMacros dan opsi komersial serupa.

Namun saya biasanya menemukan bahwa saya bisa mendapatkan data yang saya inginkan tanpa semua ini hanya dengan melihat permintaan yang dibuat halaman tersebut dan membuatnya kembali/mengurai responsnya.

person pguardiario    schedule 18.06.2012

Saya rasa tidak ada perpustakaan seperti itu. Jika Anda benar-benar putus asa dan punya banyak waktu luang, tentu saja Anda dapat mengunduh kode sumber Firefox, misalnya, dan membuat sendiri sesuatu yang berguna. Namun menurut saya ini tidak akan menjadi penggunaan terbaik sumber daya Anda atau orang lain.

Perhatikan bahwa bahkan bot pengindeksan Google tidak memproses ajax. Berikut pendapat Google mengenai hal ini. Sangat mungkin bahwa situs yang Anda hadapi mendukung hal ini, dalam hal ini Anda dapat mencoba menggunakan teknik Google ini, tetapi secara keseluruhan, sayangnya, Anda kurang beruntung.

person Aleks G    schedule 17.06.2012
comment
Sebenarnya terdapat beberapa bukti yang sangat kuat yang menunjukkan bahwa perayap Google saat ini sangat berbasis pada Chrome, dan perayap tersebut merayapi konten AJAX dengan baik: webmasterworld.com/google/4159807.htm - person ; 17.06.2012
comment
@duskwuff Ya, saya pernah melihat postingan itu sebelumnya. Namun jika log situs web saya dapat digunakan, maka Google tidak merayapi ajax. - person Aleks G; 17.06.2012