Διατρέχω έναν ιστότοπο για έναν πελάτη όπου εμφανίζουν μια μεγάλη βάση δεδομένων με πληροφορίες που έχουν συγκεντρωθεί με ακρίβεια και σιγά-σιγά τα χρόνια. Βρίσκουν τα δεδομένα τους στον ιστό σε διάφορα μέρη. Περισσότερο από πιθανό οφείλεται σε ένα ξύστρα που περνάει από τη σελίδα του ιστότοπου ανά σελίδα και εξάγει τις πληροφορίες που χρειάζονται σε μια δική τους βάση δεδομένων. Και σε περίπτωση που αναρωτιέστε, ξέρουν ότι είναι τα δεδομένα τους, λόγω ενός ενιαίου φυτεύονται κομμάτι των δεδομένων σε κάθε κατηγορία στην περιοχή τους.
Έχω κάνει πολλές έρευνες σχετικά με αυτό το διάστημα των δύο τελευταίων ημερών και μπορώ να σας πω ότι δεν υπάρχει μια τέλεια λύση. Έχω βρει πολλά πράγματα να κάνω για να καταστήσω αυτό το κάπως πιο δύσκολο για αυτούς, ωστόσο. Αυτό έκανα για τον πελάτη.
Ασαξιωμένα δεδομένα σελίδων
Αν διαθέτετε πολλά δεδομένα σελιδοποιημένα και κάνετε σελίδωση των δεδομένων σας προσθέτοντας έναν διαφορετικό αριθμό στο τέλος της διεύθυνσης URL σας, δηλαδή http://www.domain.com/category/programming/2 - Στη συνέχεια κάνετε η δουλειά του crawler είναι πολύ πιο εύκολη. Το πρώτο πρόβλημα είναι, με ένα εύκολα αναγνωρίσιμο μοτίβο, ο καθορισμός τόσο χαλαρά σε αυτές τις σελίδες ενός αποξεστήρα είναι εύκολο ως πίτα. Δεύτερο πρόβλημα, ανεξάρτητα από τη διεύθυνση URL των επόμενων σελίδων της κατηγορίας, είναι πολύ πιθανό να υπάρξει ένας επόμενος και προηγούμενος σύνδεσμος για να τους μανδαλώσουν.
Με τη φόρτωση των σελίδων δεδομένων μέσω javascript χωρίς μια σελίδα reload, αυτό περιπλέκει σημαντικά τη δουλειά για πολλούς ξύστρες εκεί έξω. Η Google μόλις άρχισε η ίδια να αναλύει το javascript στη σελίδα. Υπάρχει μικρό μειονέκτημα για την επαναφόρτωση αυτών των δεδομένων. Παρέχετε μερικές λιγότερες σελίδες για την ευρετηρίαση από την Google, αλλά, τεχνικά, τα δεδομένα σελίδων θα πρέπει όλοι να δείχνουν στη σελίδα της κατηγορίας ριζών μέσω της κανονικοποίησης ούτως ή άλλως. Ασαξιώστε τις σελίδες των σελίδων σας.
Τυχαία παραγωγή προτύπου
Οι ξύστρες θα είναι συχνά ελαφρώς προσαρμοσμένες ειδικά για τα δεδομένα σας. Θα μανδαλώσουν σε μια συγκεκριμένη κλάση ή κλάση για τον τίτλο, το τρίτο κελί σε κάθε σειρά για την περιγραφή σας κλπ. Υπάρχει ένα εύκολα αναγνωρίσιμο μοτίβο για τα περισσότερα ξύστρες να δουλεύουν με τα περισσότερα δεδομένα που προέρχονται από τον ίδιο πίνακα, εμφανίζεται από το ίδιο πρότυπο. Τυποποιήστε τα διακριτικά σας div και τα ονόματα των τάξεων, εισαγάγετε κενές στήλες πίνακα τυχαία με πλάτος 0. Εμφανίστε τα δεδομένα σας σε έναν πίνακα σε μία σελίδα, σε διανυσματικά στυλ και σε συνδυασμό σε άλλο πρότυπο. Παρουσιάζοντας τα δεδομένα σας με πρόβλεψη, μπορούν να αποφλοιωθούν με προβλέψιμο και ακριβή τρόπο.
Δοχείο μελιού
Αυτό είναι αρκετά τακτοποιημένο στην απλότητα του. Έχω συναντήσει αυτή τη μέθοδο σε αρκετές σελίδες για την αποτροπή της απόξεσης του ιστότοπου.
- Δημιουργήστε ένα νέο αρχείο στον διακομιστή σας που ονομάζεται gotcha.html.
- Στο αρχείο robots.txt, προσθέστε τα εξής:
Χρήστης-πράκτορας: *
Disable: /gotcha.html
Αυτό λέει σε όλα τα ρομπότ και τις αράχνες εκεί έξω ευρετηρίαση του ιστοτόπου σας για να μην ευρετήριο το αρχείο gotcha.html. Οποιοσδήποτε κανονικός ανιχνευτής ιστού θα σέβεται τις επιθυμίες του αρχείου robots.txt και δεν θα έχει πρόσβαση σε αυτό το αρχείο. δηλαδή το Google και το Bing. Ίσως να θέλετε να εφαρμόσετε αυτό το βήμα και να περιμένετε 24 ώρες πριν προχωρήσετε στο επόμενο βήμα. Αυτό θα διασφαλίσει ότι ένας ανιχνευτής δεν αποκλείεται τυχαία από εσάς λόγω του γεγονότος ότι ήταν ήδη στο μέσο της ανίχνευσης όταν ενημερώσατε το αρχείο robots.txt. - Τοποθετήστε ένα σύνδεσμο στο gotcha.html κάπου στον ιστότοπό σας. Δεν έχει σημασία πού. Θα ήθελα να προτείνω στο υποσέλιδο, ωστόσο, βεβαιωθείτε ότι αυτός ο σύνδεσμος δεν είναι ορατός, στο CSS, οθόνη: κανένα?
- Τώρα, καταγράψτε τα IP / γενικές πληροφορίες του perp που επισκέφθηκε αυτή τη σελίδα και μπλοκάρει. Εναλλακτικά, θα μπορούσατε να βρείτε ένα σενάριο για να τους δώσετε λανθασμένα και σκουπίδια. Ή ίσως ένα ωραίο προσωπικό μήνυμα από εσάς σε αυτούς.
Οι τακτικοί θεατές ιστού δεν θα μπορούν να δουν τον σύνδεσμο, οπότε δεν θα χτυπήσει τυχαία. Τα αξιόπιστα προγράμματα ανίχνευσης (Google, για παράδειγμα), θα σέβονται τις επιθυμίες του robots.txt και δεν θα επισκέπτονται το αρχείο. Έτσι, οι μόνοι υπολογιστές που θα πρέπει να σκοντάψουν σε αυτή τη σελίδα είναι εκείνοι με κακόβουλες προθέσεις, ή κάποιος που βλέπει τον πηγαίο κώδικα σας και κάνει τυχαία κλικ (και καλά, εάν συμβεί αυτό).
Υπάρχουν πολλοί λόγοι που μπορεί να μην λειτουργούν πάντα. Κατ 'αρχάς, πολλοί αποξέστες δεν λειτουργούν όπως οι κανονικοί ανιχνευτές ιστού και δεν ανακαλύπτουν τα δεδομένα ακολουθώντας κάθε σύνδεσμο από κάθε σελίδα του ιστότοπού σας. Τα ξύστρα είναι συχνά κατασκευασμένα για να διορθώσουν σε ορισμένες σελίδες και να ακολουθήσουν μόνο ορισμένες δομές. Για παράδειγμα, μπορεί να ξεκινήσει ένας αποξεστήρας σε μια σελίδα κατηγορίας και στη συνέχεια να πει μόνο για να επισκεφτεί τις διευθύνσεις URL με τη λέξη / δεδομένα στο γυμνοσάλιαγκας. Δεύτερον, αν κάποιος τρέχει τον αποξεστήρα στο ίδιο δίκτυο με τους άλλους και υπάρχει κοινόχρηστο IP που χρησιμοποιείται, θα απαγορεύσετε ολόκληρο το δίκτυο. Θα πρέπει να έχετε έναν πολύ δημοφιλή ιστότοπο για να είναι ένα πρόβλημα.
Γράψτε τα δεδομένα σε εικόνες εν κινήσει
Βρείτε ένα μικρότερο πεδίο δεδομένων, όχι απαραίτητα μεγάλες σειρές κειμένου, καθώς αυτό μπορεί να κάνει το styling της σελίδας λίγο πιο δύσκολο. Εξάγετε αυτά τα δεδομένα μέσα σε μια εικόνα, αισθάνομαι πολύ σίγουρη ότι υπάρχουν μέθοδοι σχεδόν σε κάθε γλώσσα προγραμματισμού για να γράψετε κείμενο σε μια εικόνα δυναμικά (στο php, imagettftext). Αυτό είναι πιθανότατα πιο αποτελεσματικό με αριθμητικές τιμές καθώς οι αριθμοί παρέχουν ένα πολύ αμελητέο πλεονέκτημα SEO.
Εναλλακτική λύση
Αυτό δεν ήταν επιλογή για αυτό το έργο. Απαιτεί μια σύνδεση μετά από ένα ορισμένο αριθμό προβολών σελίδας ή εμφανίζει ένα περιορισμένο ποσό των δεδομένων χωρίς να έχει συνδεθεί. Δηλαδή, εάν έχετε 10 στήλες, εμφανίζετε μόνο 5 στους μη εγγεγραμμένους χρήστες.
Μην κάνετε αυτό το λάθος
Μην ενοχλείτε να προσπαθείτε να βρείτε κάποιο είδος λύσης που βασίζεται στον χρήστη-παράγοντα του bot. Αυτή η πληροφορία μπορεί εύκολα να παραπλανηθεί από ένα ξύστρα που ξέρει τι κάνουν. Το google bot, για παράδειγμα, μπορεί εύκολα να μιμηθεί. Είστε περισσότερο από πιθανό δεν θέλετε να απαγορεύσετε την Google.
