Robots.txt คืออะไร ทำไมถึงมีความสำคัญ
ทำความรู้จักไฟล์ Robots.txt คืออะไร ก่อนอื่นต้องอธิบายการทำงานของบอตหรือหุ่นยนต์ของ Search Engine ทุกๆ ตัวที่จะเข้ามาทำการเก็บ Crawl ในการเก็บข้อมูลภายในเว็บไซต์ เพื่อนำเว็บไซต์กลับไปทำเป็น Index ซึ่งไฟล์แรกที่บอตจะเข้ามาอ่านเป็นอันดับแรกก็คือไฟล์ Robots.txt ซึ่งในไฟล์นั้นสามารถเขียน Script ตามคำสั่งเพื่อบอกให้บอตรู้ได้ว่ามีไฟล์ใดบ้างที่สามารถเข้าไปเก็บข้อมูลภายในเว็บไซต์ได้ รวมถึงไฟล์ไหนที่ไม่อนุญาติให้เข้าไปเก็บข้อมูล
ประโยชน์ของการมีไฟล์ Robots.txt
โดยทั่วไปปกติถ้าหากไม่มีไฟล์ Robots.txt พวกบอตจะเข้ามาทำการเก็บข้อมูลในทุกส่วนของเว็บไซต์ ซึ่งสำหรับบางเว็บไซต์อาจจะต้องการให้ทำการเก็บข้อมูลเพื่อนำไป Index ซึ่งไฟล์ Robots.txt ก็สามารถเขียนระบุได้ว่าต้องการป้องการไม่ให้บอตเข้ามาเก็บข้อมูลในหน้าที่ไม่ต้องการได้
Script และคำสั่งต่างๆในไฟล์ Robots.txt ที่สำคัญ
ในส่วนประกอบของไฟล์ robots.txt นั้น สามารถถูกสร้างได้อย่างง่ายๆ ไม่ว่าจะเป็นเครื่องมือ Noteped, Sublime Text,Visual Studio Code โดยจะมีคำสั่งที่ประกอบด้วยกันคือ
- User-agent : คำสั่งนี้จะเป็นการบอกว่า Crawler ตัวไหนที่สามารถเข้ามา Crawl เก็บข้อมูลภายในเว็บไซต์ได้ (ถ้าหากใช้เครื่องหมาย ดอกจัน (*) จะเป็นการบ่งบอกถึงให้ Crawler ทุกตัวเข้ามาเก็บข้อมูลได้)
- Disallow : เป็นคำสั่งที่ไม่อนุญาตให้ Crawal เข้ามาเก็บข้อมูลภายในเว็บไซต์หรือหน้าเว็บไซต์ที่ไม่ต้องการให้ Crawaler
- Allow : เป็นคำสั่งที่อนุญาตให้ Crawal เข้าไปเก็บข้อมูลของเว็บไซต์
- Sitemap : เป็นบอกตำแหน่งของ Sitemap ของเว็บไซต์ เพื่อให้ Crawal เข้าไปดูโครงสร้างของเว็บไซต์ที่สร้างขึ้น
ตัวอย่างการเขียนคำสั่ง Script ในไฟล์ Robots.txt
User-agent: *
Allow: /
Disallow: /wp-admin/
Sitemap: https://www.navigatewebdesign.com/sitemap.xml
ในตัวอย่างหมายความว่า เป็นการอนุญาตให้ Crawler ทุกตัวนั้นสามารถเข้าไปทำการ Crawl เก็บข้อมูลได้ทั้งหมด ยกเว้นข้อมูล /wp-admin/ ที่ไม่ต้องการให้เข้าไปทำการเก็บข้อมูล และยังมีการบอกตำแหน่งของ Sitemap ให้บอตรู้เช่นกัน
วิธีการสร้างไฟล์ Robots.txt
- เปิดโปรแกรม Editor หรือโปรแกรมอื่นๆขึ้นมา ตัวอย่าง โปรแกรม Sublime Text
- พิมพ์ Script คำสั่งที่ต้องการลงไป
- บันทึกชื่อไฟล์โดยตั้งชื่อไฟล์ให้เป็น robots.txt
- ทำการอัพโหลดไฟล์ robots.txt ขึ้นไปในตำแหน่งของ root Directory ของเว็บไซต์ โดยเป็นตำแหน่งเช่นเดียวกับ VERIFY และ sitemap.xml