Indexarea este procesul de scanare a fișierelor localizate pe o resursă Internet de către un robot de căutare. Această procedură se realizează astfel încât site-ul să fie disponibil în rezultatele căutării pentru diverse interogări din motorul de căutare. Printre cele mai mari motoare de căutare de astăzi se numără Yandex, care efectuează această scanare în felul său.
Instrucțiuni
Pasul 1
Indexarea site-ului Internet se realizează prin programe automate speciale - roboți de căutare, care urmăresc automat aspectul noilor site-uri pe World Wide Web, scanând în mod constant pagini de internet situate pe Internet, fișiere și linkuri către acestea pe fiecare resursă.
Pasul 2
Pentru a scana, robotul merge în directorul în care se află resursa pe un anumit server. Atunci când alegeți un nou site, robotul este ghidat de disponibilitatea acestuia. De exemplu, există o părere că Yandex scanează mai întâi site-urile create într-un domeniu în limba rusă și în limba rusă - ru, rf, su sau ua și abia apoi se mută în alte regiuni.
Pasul 3
Robotul navighează către site și scanează structura acestuia, căutând mai întâi fișiere care indică căutări ulterioare. De exemplu, un site este scanat pentru Sitemap.xml sau robots.txt. Aceste fișiere pot fi utilizate pentru a seta comportamentul robotului de căutare la scanare. Folosind sitemap-ul (sitemap.xml), robotul are o idee mai exactă a structurii resursei. Webmasterul folosește robots.txt pentru a defini fișiere pe care nu ar dori să le afișeze în rezultatele căutării. De exemplu, ar putea fi informații personale sau alte date nedorite.
Pasul 4
După ce a scanat aceste două documente și a primit instrucțiunile necesare, robotul începe să analizeze codul HTML și să proceseze etichetele primite. În mod implicit, în absența unui fișier robots.txt, motorul de căutare începe procesarea tuturor documentelor stocate pe server.
Pasul 5
Făcând clic pe link-uri din documente, robotul primește, de asemenea, informații despre alte site-uri aflate în coadă pentru scanare în urma acestei resurse. Fișierele scanate de pe site sunt salvate ca o copie text și structură pe servere în centrele de date Yandex.
Pasul 6
Nevoia de re-scanare este, de asemenea, determinată automat de roboți. Programul compară rezultatul scanării existente cu versiunea actualizată a site-ului atunci când trece din nou prin indexare. Dacă datele primite de program diferă, copia site-ului este actualizată și pe serverul Yandex.