Semalt ให้คำแนะนำเกี่ยวกับวิธีจัดการกับบ็อตสไปเดอร์และซอฟต์แวร์รวบรวมข้อมูล

นอกเหนือจากการสร้าง URL ที่เป็นมิตรกับ เครื่องมือค้นหา แล้วไฟล์. htaccess ยังช่วยให้ผู้ดูแลเว็บบล็อกบ็อตเฉพาะจากการเข้าถึงเว็บไซต์ของพวกเขา วิธีหนึ่งในการบล็อกโรบอตเหล่านี้คือผ่านไฟล์ robots.txt อย่างไรก็ตาม Ross Barber ผู้จัดการฝ่ายความสำเร็จของลูกค้าของ Semalt กล่าวว่าเขาได้เห็นโปรแกรมรวบรวมข้อมูลบางส่วนไม่สนใจคำขอนี้ หนึ่งในวิธีที่ดีที่สุดคือการใช้ไฟล์. htaccess เพื่อหยุดไม่ให้จัดทำดัชนีเนื้อหาของคุณ
บอทเหล่านี้คืออะไร?
เป็นซอฟต์แวร์ประเภทหนึ่งที่ใช้โดยเสิร์ชเอ็นจิ้นเพื่อลบเนื้อหาใหม่จากอินเทอร์เน็ตเพื่อการจัดทำดัชนี

พวกเขาทำงานต่อไปนี้:
- เยี่ยมชมหน้าเว็บที่คุณเชื่อมโยง
- ตรวจสอบข้อผิดพลาดรหัส HTML ของคุณ
- พวกเขาบันทึกหน้าเว็บที่คุณเชื่อมโยงไปถึงและดูว่าหน้าเว็บใดที่เชื่อมโยงไปยังเนื้อหาของคุณ
- พวกเขาจัดทำดัชนีเนื้อหาของคุณ
อย่างไรก็ตามบ็อตบางตัวอาจเป็นอันตรายและค้นหาเว็บไซต์ของคุณเพื่อหาที่อยู่อีเมลและแบบฟอร์มที่มักใช้ในการส่งข้อความหรือสแปมที่ไม่ต้องการ คนอื่น ๆ ก็มองหาช่องโหว่ความปลอดภัยในรหัสของคุณ
สิ่งที่จำเป็นในการบล็อกโปรแกรมรวบรวมข้อมูลเว็บคืออะไร
ก่อนที่จะใช้ไฟล์. htaccess คุณต้องตรวจสอบสิ่งต่าง ๆ ต่อไปนี้:
1. เว็บไซต์ของคุณต้องทำงานบนเซิร์ฟเวอร์ Apache ทุกวันนี้แม้แต่ บริษัท ผู้ให้บริการเว็บโฮสติ้งที่มีคุณสมบัติเหมาะสมครึ่งหนึ่งก็สามารถให้คุณเข้าใช้งานไฟล์ที่ต้องการได้
2. คุณควรเข้าถึงไฟล์บันทึกเซิร์ฟเวอร์ของเว็บไซต์ของคุณเพื่อให้คุณสามารถค้นหาว่าบอทใดที่กำลังเยี่ยมชมหน้าเว็บของคุณ
โปรดทราบว่าไม่มีวิธีที่คุณจะสามารถปิดกั้นบ็อตที่เป็นอันตรายได้ทั้งหมดเว้นแต่คุณจะปิดกั้นบ็อตทั้งหมดแม้แต่ผู้ที่คุณคิดว่ามีประโยชน์ บ็อตใหม่จะเกิดขึ้นทุกวันและอันที่เก่ากว่านั้นจะถูกแก้ไข วิธีที่มีประสิทธิภาพมากที่สุดคือการรักษาความปลอดภัยรหัสของคุณและทำให้ยากสำหรับบอทที่จะสแปมคุณ
ระบุบอท
บอตสามารถระบุได้โดยที่อยู่ IP หรือจาก "สตริงตัวแทนผู้ใช้" ซึ่งส่งในส่วนหัว HTTP ตัวอย่างเช่น Google ใช้ "Googlebot"
คุณอาจต้องการรายการนี้ด้วยบอต 302 ถ้าคุณมีชื่อของบอทที่คุณต้องการเก็บไว้โดยใช้. htaccess
อีกวิธีหนึ่งคือการดาวน์โหลดไฟล์บันทึกทั้งหมดจากเซิร์ฟเวอร์และเปิดโดยใช้โปรแกรมแก้ไขข้อความ ตำแหน่งของพวกเขาบนเซิร์ฟเวอร์อาจเปลี่ยนแปลงได้ขึ้นอยู่กับการกำหนดค่าเซิร์ฟเวอร์ของคุณ หากคุณหาไม่พบให้ขอความช่วยเหลือจากโฮสต์เว็บของคุณ

หากคุณทราบว่ามีการเยี่ยมชมหน้าใดหรือเวลาที่เข้าชมจะเป็นการง่ายขึ้นที่จะมีบอทที่ไม่ต้องการ คุณสามารถค้นหาไฟล์บันทึกด้วยพารามิเตอร์เหล่านี้
ครั้งหนึ่งคุณเคยสังเกตว่าบ็อตใดที่คุณต้องบล็อก จากนั้นคุณสามารถรวมไว้ในไฟล์. htaccess โปรดทราบว่าการบล็อกบอทนั้นไม่เพียงพอที่จะหยุด อาจกลับมาพร้อมกับ IP หรือชื่อใหม่
วิธีการบล็อกพวกเขา
ดาวน์โหลดสำเนาของไฟล์. htaccess ทำการสำรองข้อมูลหากจำเป็น
วิธีที่ 1: การบล็อกโดย IP
ข้อมูลโค้ดนี้บล็อกบอทโดยใช้ที่อยู่ IP 197.0.0.1
ปฏิเสธคำสั่งอนุญาต
ปฏิเสธจาก 197.0.0.1
บรรทัดแรกหมายความว่าเซิร์ฟเวอร์จะบล็อกคำขอทั้งหมดที่ตรงกับรูปแบบที่คุณระบุและอนุญาตให้ผู้อื่นทั้งหมด
บรรทัดที่สองบอกให้เซิร์ฟเวอร์ออกหน้า 403 ที่ต้องห้าม
วิธีที่ 2: การบล็อกโดยตัวแทนผู้ใช้
วิธีที่ง่ายที่สุดคือใช้เครื่องมือเขียนใหม่ของ Apache
RewriteEngine On
RewriteCond% {HTTP_USER_AGENT} BotUserAgent
RewriteRule - [F, L]
บรรทัดแรกทำให้มั่นใจได้ว่าโมดูลการเขียนถูกเปิดใช้งาน บรรทัดที่สองคือเงื่อนไขที่ใช้กับกฎ "F" ในบรรทัดที่ 4 บอกให้เซิร์ฟเวอร์ส่งคืน 403: สิ่งต้องห้ามในขณะที่ "L" หมายความว่านี่เป็นกฎสุดท้าย
จากนั้นคุณจะอัปโหลดไฟล์. htaccess ไปยังเซิร์ฟเวอร์ของคุณและเขียนทับไฟล์ที่มีอยู่ เมื่อเวลาผ่านไปคุณจะต้องอัปเดต IP ของบอท ในกรณีที่คุณทำผิดพลาดเพียงอัปโหลดข้อมูลสำรองที่คุณทำไว้