บล็อก Google ไม่ให้เข้าถึงข้อมูลเว็บไซต์ บางครั้งเราไม่อยากให้ Google และ Search Engines อื่น เก็บข้อมูลและแสดงข้อมูลเว็บไซต์ของเราในหน้าการค้นหา ปัญหานี้แนะนำให้สร้างไฟล์ robots.txt เพื่อแจ้งให้ Bot ของ Google และ Search Engines อื่น ที่ทำหน้าที่เก็บข้อมูลเว็บไซต์ทราบว่าหน้าไหนอนุญาต และหน้าไหนไม่อนุญาตให้เข้าถึงข้อมูลได้ โดยมีรายละเอียดดังนี้
ตัวอย่างที่ 1 แบบไม่อนุญาตให้เก็บข้อมูลทุกหน้าของเว็บไซต์ คือ บล็อกการเข้าถึงทั้งหมด
User-agent: *
Disallow: /
ตัวอย่างที่ 2 ไม่อนุญาตให้เก็บข้อมูลบาง URL สมมุติหลังบ้านมี URL คือ devdit.com/admin/
User-agent: *
Disallow: /admin/
ตัวอย่างที่ 3 ไม่อนุญาตให้เก็บข้อมูลจากไฟล์ที่กำหนด สมมุติไฟล์ชื่อ security.html
User-agent: *
Disallow: /security.html
ตัวอย่างที่ 4 ไม่อนุญาตให้เก็บข้อมูลจากไฟล์รูปภาพ สมมุติไฟล์ชื่อ my.jpg อยู่ใน Folder images
User-agent: Googlebot-Image
Disallow: /images/my.jpg
วิธีสร้างไฟล์ robots.txt
ไฟล์ robots.txt คือไฟล์ Text ธรรมดาสามารถสร้างด้วยโปรแกรม Notepad ได้เลย และนำคำสั่งด้านบนที่ต้องการไปวางไว้ในไฟล์ และบันทึกเป็นชื่อ robots นามสกุล .txt (ไฟล์ robots.txt ต้องเป็นชื่อนี้เท่านั้น)
ไฟล์ robots.txt ไปใส่ไว้ที่ไหน
เมื่อสร้างไฟล์ robots.txt เสร็จแล้ว ให้นำไฟล์ดังกล่าวไปวางไว้ที่ตำแหน่ง root ของเว็บไซต์ (ตำแหน่งแรกสุดของเว็บไซต์ ที่ไฟล์ index เก็บอยู่) จากนั้นทดลองเรียก URL ไปหาไฟล์ดังกล่าว สมมุติโดเมนชื่อ devdit.com ให้เรียกดังนี้
devdit.com/robots.txt
กรณีไม่มีข้อผิดพลาดจะพบคำสั่งในไฟล์ robots.txt แสดงที่หน้าจอ