செமால்ட்: டரோடர் ரோபோக்களை எவ்வாறு தடுப்பது. Txt

Robots.txt கோப்பு என்பது ஒரு பொதுவான உரை கோப்பாகும், இது வலை கிராலர்கள் அல்லது போட்கள் ஒரு தளத்தை எவ்வாறு வலம் வர வேண்டும் என்பதற்கான வழிமுறைகளைக் கொண்டுள்ளது. பல உகந்த வலைத்தளங்களில் பொதுவான தேடுபொறி போட்களில் அவற்றின் பயன்பாடு தெளிவாகத் தெரிகிறது. ரோபோக்கள் விலக்கு நெறிமுறையின் (REP) ஒரு பகுதியாக, robots.txt கோப்பு வலைத்தள உள்ளடக்கத்தை அட்டவணையிடுவதற்கான ஒரு முக்கிய அம்சமாக அமைகிறது, அதேபோல் பயனர் கோரிக்கைகளை அங்கீகரிக்க ஒரு சேவையகத்தை செயல்படுத்துகிறது.

இணைப்பது என்பது தேடுபொறி உகப்பாக்கம் (எஸ்சிஓ) இன் ஒரு அம்சமாகும் என்று செமால்ட் மூத்த வாடிக்கையாளர் வெற்றி மேலாளர் ஜூலியா வாஷ்னேவா விளக்குகிறார், இது உங்கள் முக்கிய இடத்திலுள்ள பிற களங்களிலிருந்து போக்குவரத்தைப் பெறுவதை உள்ளடக்கியது. இணைப்பு சாற்றை மாற்றுவதற்கான "பின்தொடர்" இணைப்புகளுக்கு, உங்கள் வலைத்தளத்துடன் சேவையகம் எவ்வாறு தொடர்பு கொள்கிறது என்பதற்கான பயிற்றுவிப்பாளராக செயல்பட உங்கள் வலைத்தள ஹோஸ்டிங் இடத்தில் ஒரு robots.txt கோப்பைச் சேர்ப்பது அவசியம். இந்த காப்பகத்திலிருந்து, சில குறிப்பிட்ட பயனர் முகவர்கள் எவ்வாறு நடந்துகொள்கிறார்கள் என்பதை அனுமதிப்பதன் மூலம் அல்லது அனுமதிப்பதன் மூலம் அறிவுறுத்தல்கள் உள்ளன.

Robots.txt கோப்பின் அடிப்படை வடிவம்

ஒரு robots.txt கோப்பில் இரண்டு அத்தியாவசிய வரிகள் உள்ளன:

பயனர் முகவர்: [பயனர் முகவர் பெயர்]

அனுமதிக்காதீர்கள்: [URL சரம் வலம் வரக்கூடாது]

ஒரு முழுமையான robots.txt கோப்பில் இந்த இரண்டு வரிகளும் இருக்க வேண்டும். இருப்பினும், அவற்றில் சில பயனர் முகவர்கள் மற்றும் வழிமுறைகளின் பல வரிகளைக் கொண்டிருக்கலாம். இந்த கட்டளைகளில் அனுமதி, அனுமதி அல்லது வலம்-தாமதம் போன்ற அம்சங்கள் இருக்கலாம். வழக்கமாக ஒரு வரி இடைவெளி உள்ளது, இது ஒவ்வொரு அறிவுறுத்தலையும் பிரிக்கிறது. அனுமதிக்கும் அல்லது அனுமதிக்காத அறிவுறுத்தல்கள் ஒவ்வொன்றும் இந்த வரி முறிவால் பிரிக்கப்படுகின்றன, குறிப்பாக robots.txt க்கு பல வரிகளுடன்.

எடுத்துக்காட்டுகள்

உதாரணமாக, ஒரு robots.txt கோப்பில் இது போன்ற குறியீடுகள் இருக்கலாம்:

பயனர் முகவர்: டரோடர்

அனுமதி: / சொருகி

அனுமதி: / API

அனுமதி: / _comments

இந்த வழக்கில், இது உங்கள் வலைத்தளத்தை அணுகுவதைத் தரோடர் வலை கிராலரைத் தடுக்கும் ஒரு தொகுதி robots.txt கோப்பு. மேலே உள்ள தொடரியல் இல், செருகுநிரல்கள், ஏபிஐ மற்றும் கருத்துகள் பிரிவு போன்ற வலைத்தளத்தின் அம்சங்களை குறியீடு தடுக்கிறது. இந்த அறிவிலிருந்து, ரோபோவின் உரை கோப்பை திறம்பட இயக்குவதன் மூலம் ஏராளமான நன்மைகளை அடைய முடியும். Robots.txt கோப்புகள் ஏராளமான செயல்பாடுகளைச் செய்ய முடியும். உதாரணமாக, அவர்கள் இதற்கு தயாராக இருக்க முடியும்:

1. அனைத்து வலை கிராலர்களின் உள்ளடக்கத்தையும் ஒரு வலைத்தள பக்கத்தில் அனுமதிக்கவும். உதாரணமாக;

பயனர் முகவர்: *

அனுமதி:

இந்த வழக்கில், எந்தவொரு வலை கிராலரும் ஒரு வலைத்தளத்திற்கு செல்லுமாறு கோரப்படுவதன் மூலம் அனைத்து பயனர் உள்ளடக்கத்தையும் அணுக முடியும்.

2. ஒரு குறிப்பிட்ட கோப்புறையிலிருந்து ஒரு குறிப்பிட்ட வலை உள்ளடக்கத்தைத் தடு. உதாரணத்திற்கு;

பயனர் முகவர்: கூகிள் பாட்

அனுமதி: / எடுத்துக்காட்டு-துணை கோப்புறை /

கூகிள் போட் என்ற பயனர் முகவர் பெயரைக் கொண்ட இந்த தொடரியல் கூகிளுக்கு சொந்தமானது. இது www.ourexample.com/example-subfolder/ என்ற சரத்தில் உள்ள எந்தவொரு வலைப்பக்கத்தையும் அணுகுவதைத் தடுக்கிறது.

3. ஒரு குறிப்பிட்ட வலைப்பக்கத்திலிருந்து ஒரு குறிப்பிட்ட வலை கிராலரைத் தடு. உதாரணத்திற்கு;

பயனர் முகவர்: பிங்போட்

அனுமதி: /example-subfolder/blocked-page.html

பயனர் முகவர் பிங் போட் பிங் வலை கிராலர்களுக்கு சொந்தமானது. இந்த வகை robots.txt கோப்பு www.ourexample.com/example-subfolder/blocked-page என்ற சரத்துடன் ஒரு குறிப்பிட்ட பக்கத்தை அணுகுவதை பிங் வலை கிராலரை கட்டுப்படுத்துகிறது.

முக்கிய தகவல்

  • ஒவ்வொரு பயனரும் உங்கள் robts.txt கோப்பைப் பயன்படுத்துவதில்லை. சில பயனர்கள் அதை புறக்கணிக்க முடிவு செய்யலாம். இத்தகைய வலை கிராலர்களில் பெரும்பாலானவை ட்ரோஜன்கள் மற்றும் தீம்பொருள் ஆகியவை அடங்கும்.
  • ஒரு Robots.txt கோப்பு காண, அது உயர் மட்ட வலைத்தள அடைவில் கிடைக்க வேண்டும்.
  • "Robots.txt" எழுத்துக்கள் வழக்கு உணர்திறன் கொண்டவை. இதன் விளைவாக, சில அம்சங்களின் மூலதனம் உட்பட எந்த வகையிலும் அவற்றை நீங்கள் மாற்றக்கூடாது.
  • "/Robots.txt" என்பது பொது களமாகும். எந்தவொரு URL இன் உள்ளடக்கத்திலும் சேர்ப்பதன் மூலம் இந்த தகவலை யார் வேண்டுமானாலும் கண்டுபிடிக்க முடியும். அத்தியாவசிய விவரங்கள் அல்லது அவை தனிப்பட்டதாக இருக்க விரும்பும் பக்கங்களை நீங்கள் குறியிடக்கூடாது.

send email