Begini cara menghindari AGC yang bisa merusak reputasi Blog

Cara menghindari blog AGC

RYANID.MY.ID - Saya memutuskan untuk membuat cms sendiri setelah setiap blog yang saya buat semua kena agc, setiap hari, setiap bulan selalu saja ada blog baru yang mengambil sebagian atau setengah dari total artikel saya. Uniknya artikel yang di agc bisa masuk dalam penelusuran google alias tidak terkena deindex.

Akhirnya saya migrasi dari blogger ke selfhost dengan cms buatan sendiri, saya memulai dengan kode html sederhana mirip jekyll. Tapi lama-kelamaan saya sempurnakan hingga akhirnya jadi seperti sekarang. Selama berbulan-bulan saya melakukan anailisis yang mendalam tentang tools yang di gunakan oleh AGC. Ternyata bukan feed saja yang membuat blog bisa di agc tapi sitemap dan daftar list.

jadi tools agc melakukan scraping sitemap xml atau halaman yang mengandung daftar links lengkap. Dokumen tersebut di ekstrak, dan masing2 url di scrapx lagi, dan mereka akan mengekstrak dokumen html dan membuatnya menjadi xml yang siap import atau dokumen txt notepad.

Dengan metode scraping, program sudah mampu mengambil dokumen dalam meta tag title, deskripsi, dalam tag body artikel. Selain mengentraks, tools bahkan bisa menggunakan alat phak ketiga untuk melakukan spin artikel menggunakan API dengan hasil yang maksimal

Sedangkan tools modern sekarang menggunakan google sebagai pencari untuk menemukan artikel dengan kualitas tinggi, makanya artikel yang sering tampil pada halaman 1 - 6 penelusuran sering menjadi target AGC. Dari sini saya bisa belajar kalau untuk mencegah tools agc mengakses banyak halaman adalah dengan meniadakan sitemap baik dalam format xml maupun html.

Dojo merupakan salah satu pelopor lahirnya blog agc yang dikembangkan oleh Mochammad Masbuchin. Namun menurut saya AGC walpaper masih tergolong normal karena hanya sebuah gambar, masalahnya berada pada hak cipta saja. Contoh website ugc gambar, pinterest menampilkan gambar dari beragam wesite dan tidak merusak reputasi lebih banyak dari sumbernya., berbeda lagi jika mengambil semua artikel penuh termasuk gambar yang ada di dalamnya.

AGC lebih merusak, karena ia membuat artikel menjadi duplikat, menyebabkan spam, serta mencuri hak kekayaan intelektual (nilai ekonomi) dari konten tersebut. Satu artikel SEO berkualitas harganya lumayan mahal, jika di ambil begitu saja oleh blog AGC pemilik konten bisa kehilangan pendapatan dari artikel tersebut.

Kerugian lain yang di sebabkan oleh AGC yakni metrik spam score dari domain kita jadi meningkat, persaingan di google jadi semakin sengit karena blog agc juga ikutan muncul dengan keyword yang sama. Dan tentu saja pemilik artikel asli akan kehilangan sebagian pendapatan mereka, trafik menurun, hingga berpotensi kehancuran.

Google juga tidak mengizinkan konten yang di buat otomatis berada di platformnya, konten yang di buat otomatis termasuk dalam pelanggaran webmaster. Selengkapnya bisa cek di developers.google.com/search/docs/advanced/guidelines/auto-gen-content?hl=id. Menurut Google ada beberapa kriteria konten yang di larang :

  • Teks yang tidak sesuai bagi pembaca, tetapi mungkin berisi kata kunci penelusuran.
  • Teks yang diterjemahkan oleh alat otomatis tanpa seleksi atau peninjauan manual sebelum dipublikasikan.
  • Teks yang dibuat melalui proses otomatis, seperti rantai Markov.
  • Teks yang dibuat menggunakan teknik sinonim atau obfuscation otomatis.
  • Teks yang dibuat dari scraping feed RSS/Atom atau hasil penelusuran.
  • Penggabungan konten dari berbagai halaman web tanpa menambahkan nilai yang memadai.

Artikel ini hanya memposting cara mencegah bukan mengatasi, jika kamu butuh panduan mengatasi artikel terkena agc silakan baca di sini

Blog saya pertama ryanjh350.blogspot.com, mengalami kasus serupa di mana 80% artikel di publikasikan ulang oleh blog orang lain, setiap hari jumlah blog AGC yang menduplikasi artikel saya makin bertambah. Dampak nya luar biasa, awalnya saya bisa mendapatkan ribuan trafik di Google perlahan menurun hingga pada suatu ketika menjaid sepi pengunjung. 90% artikel saya kena deindex, ketika saya mencari dengan judul keyword artikel di google hanya nama domain saja yang di temukan. Sebagian artikel saya sudah terkena deindex.

DMCA sama sekali tidak bisa di andalkan, butuh waktu berbulan-bulan untuk meminta takedown, hasilnya juga tidak memuaskan. DMCA menolak laporan hanya kerena tanggal terbit blog agc di atur lebih awal dari artikel aslinya. Tapi sekarang ada kabar baik, sebagian blog AGC bisa saya tenggelamkan dengan melaporkanya ke Blogger.



Cara kerja Blog auto generated Content

Blog AGC adalah blog biasa, entah itu blog wp, blogger, atau platform lain nya. Yang berbahaya itu adalah program auto scraping, program inilah yang bertugas mengumpulkan konten-konten yang ada dalam website kemudian mengemasnya dalam bentuk file yang bisa di eksport dengan mudah ke blog. Bentuknya seperti dokumen .xml yang berisi teks ascii biasa dan telah terformat dalam penyusun xml.

Software aplikasi biasanya di program dengan bahasa python, php, ataupun nodejs. Bahasa pemrograman ini memang biasa di gunakan dalam pengembangan website. Mereka bisa membuat web 2.0 (web dinamins yang selalu berubah-ubah). Seperti yang saya jelaskan di atas, web agc bisa mengambil data melalui scraping sitemap, feed RRS yang terbuka, serta artikel yang trending (page one di google).

Metode scraping lebih banyak di gunakan dibanding metode eksport RRS. Sebagian besar website tidak mengatur feed mereka ke versi penuh. Metode scraping sama seperti mengunduh halaman web utuh, lalu kemudiam mengekstrak semua isinya termasuk judul, meta tag, gambar, dan body artikel.

Aplikasi AGC profesional biasanya terhubung dengan tools layanan pihak ketiga untuk mengacak kalimat (spin artikel) agar artikel tersebut terlihat unik. Mereka melakukan hal ini karena khawatir dengan DMCA, laporan DMCA benar-benar membuat artikel mereka tidak muncul di penelusuran. Di sebagian web hosting yang patuh terhadap aturan DMCA mungkin akan menghapusnya.

Kemarin saya mencoba membuat sebuah tools AGC dengan melakukan scrapx sitemap blog droidide.com, dapet lah sekitar 208 file ekstensi .html, file tersebut di olah lagi untuk di ekstrak dan di ambil text body artikel, meta deskripsi, serta judul. Hasil akhir berupa file .txt notepad, file tersebut bisa lagi dijadikan sebuah dokumen .xml dengan memperhatikan syntax penulisan yang benar. Hasilnya akan bisa di import ke blogger, wordpress dan cms lain yang mendukung import via RRS.

Ada juga aplikasi AGC yang langsung ter-integrasi dengan blog. Contohnya, AGC MP3 sebagian besar topik mereka berasal dari Youtube. Keyword adalah salah satu cara mereka untuk menganbil konten yang ada di Youtube. Ada yang menggunakan API ada juga yang menggunakan metode scraping.

Metode scraping punya kelemahan, jika template blog berubah. Pemilik program agc harus memperbaruhi metode pengekstrakanya. Sebagai contoh saja, bagi pengguna template buatan mas sugeng. Orang sudah familiar dengan kelas/div body-post-article. Kelas ini sebagai penanda di mulainya penulisan suatu artikel hingga tag penutup.



Tutup Feed, sitemap dan daftar links yang terbuka.

Daftar links adalah salah satu celah bagi AGC untuk mengunduh semua data artikel yang ada di blog kita. Saya sudah menutup feed RRS, Sitemap, dan Daftar Links. Sitemap saya hanya bisa di akses oleh GSC dan mesin pencari lain, dengan tautan unik yang tidak saya sebar luaskan. Saya mengetahui semuanya dari hasil analisis, bagaimana bisa web AGC mendapatkan sebagian besar konten saya meskipun feed sudah di tutup? Bahkan related post tidak muncul karena saya menonaktifkan fitur feed pada blogger.

Jika kamu masih bisa mengakses domain.com/sitemap.xml, itu artimya blog tersebut masih terbuka dan bisa menjadi korban AGC di kemudian hari. Saran saya tutup URL tersebut jangan biarkan siapapun mengetahuinya. Disarankan untuk tidak membuat sebuah halaman yang memuat banyak links, daftar links adalah celah terbuka yang bisa dimanfaatkan oleh pelaku AGC.

Aplikasi Scraping sudah dimanfaatkan untuk mengenerate konten otomatis ketika ada tindakan. Prinsipnya sama seperti cralwer Google, mesin AGC hanya memanfaatkan keyword dan satu halaman. Semua halaman yang saling tertaut satu sama lain akan masuk ke dalam database mereka.



Tidak ada cara menghapus konten yang sudah di reposting, kecuali melaporkan konten tersebut sebagai pelanggaran hak kekayaan intelektual. Bagi sebagian layanan yang patuh terhadap DMCA kemungkinan akan menghapus konten dari platform nya. Membasmi AGC sama seperti buang-buang waktu, jika kamu berhasil menghapus satu dikemudian hari akan muncul puluhan web dengan topik yang sama. Lebih baik kita mencegah dibanding mengobati, saya selalu melakukan pemantauan pada setiap keyword yang saya buat.

Jika ada blog lain yang menggunakan keyword tersebut, saya akan periksa apakah isinya sama dengan konten yang saya miliki. Sebelum semua artikel di index oleh mesin pencari saya harus melakukan takedown terlebih dahulu menggunakan Google DMCA. Lebih hemat waktu, proses pelaporan membutuhkan waktu lama. Tergantung antrian dan tingkat pelanggaran yang kamu berikan. Saya 2 bulan, kadang hanya seminggu.

Untuk artikel spin DMCA tidak bisa banyak membantu, artikel spin juga merugikan. Sebab mereka mengambil keyword yang begitu penting dalam blog kita. Saya mencoba untuk memperbanyak jumlah artikel dan menghilangkan jejak. Dalam hal ini daftar links, saya meniadakan daftar links guna menghindari tools semacam ini. Sebagai gantinya, saya akan menggunakan link building.

Tekniknya sama seperti membuat internal links, setiap selesai menulis artikel saya akan mencari apakah ada artikel lain yang saling terkait dengan kalimat yang saya ketikan. Satu halaman hanya mengandung satu saja link, tools agc tidak akan bisa menelusuri semua URL lebih dalam.



Move On dari Blogger ke Self Hosting menggunakan CMS Mandiri

Jika ingin serius menjadi blogger platform gratisan tidak bisa kamu andalkan. Bukan keterbatasan, tapi bugs yang ada justru akan mengganggu kita dalam menjadi blogger. Alih-alih fokus menulis, SEO, dan marketing bugs yang hadir bisa menambah waktu kamu dalam membangun sebuah blog. Belum cukup sampai disini, robot google yang digunakan pada blogger.com bisa membuat blog kamu lenyap dalam seketika. Fitur pendeteksian otomatis milik Google belum sepenuhnya sempurna, masih banyak mengandung bugs yang menyebabkan salah penilaian. Baca Blog tiba-tiba terkunci oleh blogger

Masalah RRS, dan URL sitemap yang tebuka, masalah Error 5xx, Masalah gambar tidak muncul di halaman Related post, artikel dan lain-lain. Memang wajar jika blogger menjadi platform terbatas, tapi tidak dengan bugs yang ada dan terus ada hingga berbulan-bulan tanpa penyelesaian. Sudah 3 tahun saya pakai platform ini, tapi bugs yang muncul tidak diperbaiki malah dibiarkan begitu saja.

Jangan takut nggak cukup uang, cobalah bangun blog sendiri gunakan hosting. Dengan uang 15-25ribu saja sudah cukup membeli paket hosting hemat. Dalam setahun kamu hanya mengeluarkan 300ribu saja, untuk blog dengan traffik ribuan sehari masih cocok. Saya sudah mencobanya, teknologi terus berkembang. Dengan menggunakan hosting kita bisa memproteksi diri lebih dalam. Bayangkan saja seandainya saya tidak move on dari blogger, pasti sampai sekarang saya masih berkutat dengan masalah blog AGC.

Dengan bemigrasi ke hosting dan cms mandiri kita mempunyai kontrol penuh dengan konten yang kita buat, termasuk membatasi jumlah konten yang di tampilkan pada wesite tertentu. Disini saya bisa menganalisis web agc yang melakukan scraping, caranya dengan mengenali permintaan yang di lakukan oleh ip yang sama dalam waktu singkat. Kamu bisa memblokir ip tersebut.

Baru 6 bulan saya move on tak terasa sudah banyak pengalaman berharga yang saya dapatkan. Saat ini saya sudah meraih 70 transaksi pertama sejak memindahkan blog ini ke hosting. Saya hanya move on saja artikel lama masih saya tinggalkan di blogger, masih bisa di baca di news.ryanid.my.id.



CMS Sendiri lebih sedikit konten yang terkena dampak AGC

Ada yang unik setelah pindah dari blogger ke cms mandiri, saat menggunakan blogger saya setiap hari menemukan blog yang menyalin topik artikel saya. Blog yang sama juga ikutan menerbitkan artikel yang baru seminggu saya buat. Tapi setelah menggunakan cms pribadi, sangat jarang melihat artikel yang di AGC. Selama 6 bulan belakangan ini, saya hanya menemukan satu yakni gambar tayang di blog lain.

Itu juga di lakukan secara manual, bukan otomatis, hanya ada satu gambar. Saya bisa mengetahuinya karena adanya backlink dari sumber web yang tidak saya kenali. Keywordnya sama, gambarpun sama. Tapi judul tersebut sudah saya sunting, sementara mereka hanya memposting judul dari artikel lama yang belum di sunting. Tidak terlalu besar dampaknya.

Tidak ada rrs dan sitemap disini, url sitemap, feeds rrs, dan lain-lain saya sembunyikan. Memang benar dugaan awal penyebab agc adalah url sitemap yang terbuka, percuma mempersingkat RRS feed kalau sitemap masih bisa di buka oleh sembarang



Pertimbangkan untuk membangun otoritas blog guna bersaing di serp jika ada artikel yang kena AGC, blog dengan otoritas rendah tentu saja bisa kalah dengan AGC. Pemilik blog yang di buat otomatis menggunakan aged domain, dan domain yang sudah ada iklan. Mereka akan leih mudah masuk ke halaman 1-20 penelusuran karena sudah punya otoritas yang bagus. Jika blog kamu tidak punya otoritas yang baik, bisa jadi blog kamu kalah dan terkena penalti deindex google.

RyanID
RyanID Saya aslinya tertarik pada teknologi elekronika, tapi karena kurang di dukung ortu, akhirnya pindah ke coding. Saat ini bekerja sebagai fullstack dev di Netzku.com