Features
- Erzeugen einer robots.txt mit immer aktueller Liste von KI-UserAgents
- Blockieren von UserAgents, die sich nicht an die robots.txt halten
- Tracking von Bots und Crawlern über KnownAgents
- Individuelle Regeln in der robots.txt
- Eigene Sitemaps in der robots.txt
Dieses Plugin verwendet die Known Agent API (vorher bekannt als DarkVisitors API), um immer aktuelle Listen von KI-Useragents zu beziehen und eine robots.txt zu erstellen. Dafür brauchst du einen kostenlosen API-Token.
Installation
composer require mauricerenck/darkvisitors
Lade die neueste Version hier herunter, entpacke sie und kopiere sie nach site/plugins/dark-visitors.
Setup
Du benötigst einen Dark Visitors Access Token, um dieses Plugin zu nutzen.
Gehe zu https://knownagents.com/ und erstelle dir ein Konto und ein Projekt. Öffne das Projekt und hol dir deinen Token unter "Einstellungen".
Bearbeite deine config.php und füge diese Zeile hinzu:
'mauricerenck.dark-visitors.token' => 'YOUR TOKEN'
KI Crawler blockieren
Definiere, welche Arten von KI-Crawlern du blockieren möchtest:
'mauricerenck.dark-visitors.aiTypes' => ['AI Assistant', 'AI Data Scraper', 'AI Search Crawler'],
Folgende Typen stehen zur Auswahl:
- AI Agent
- AI Assistant
- AI Data Scraper
- AI Search Crawler
- Archiver
- Developer Helper
- Fetcher
- Automated Agent
- Intelligence Gatherer
- Scraper
- SEO Crawler
- Search Engine Crawler
- Security Scanner
- Undocumented AI Agent
- Uncategorized
Blockierung erzwingen
Einige Crawler halten sich nicht an die robots.txt und erfassen trotzdem Daten. Um dies zu verhindern, kannst du das Blockieren erzwingen:
'mauricerenck.dark-visitors.force-block' => true,
Dies blockiert konfigurierte Agents über das Kirby-Routing und liefert ein 403 zurück.
Obwohl die Liste der UserAgents gut gepflegt ist, sollte dir bewusst sein, dass es bei fehlerhaften Matches dazu kommen kann, das Besucherinnen deine Seite nicht aufrufen können.
Die Kirby-Route-Methode funktioniert solide und sollte bei einer überschaubaren Anzahl an Zugriffen gut funktionieren. Bei einer hohen Zahl von Zugriffen empfiehlt es sich, Agents serverseitig z.B. über die .htaccess oder nginx config zu blockieren.
Eigene Regeln
Füge deine eigenen Regeln zur robots.txt hinzu:
'mauricerenck.dark-visitors.agents' => [
[
'userAgents' => ['Googlebot', 'Bingbot'],
'disallow' => ['/admin'],
],
[
'userAgents' => ['Bingbot'],
'allow' => ['/microsoft'],
],
],
Deine eigenen Regeln überschreiben die Standardregeln. Die Standardregeln lauten:
[
'userAgents' => ['*'],
'disallow' => ['/kirby', '/site'],
];
Sitemaps
Füge deine Sitemaps zur robots.txt hinzu:
'mauricerenck.dark-visitors.sitemaps' => [
'Sitemap: https://your-site.tld/sitemap.xml',
'Sitemap: https://your-site.tld/sitemap2.xml',
],
Tracking/Analytics
KnownAgents bietet eine Tracking-Funktion. Wenn du das nutzen willst, kannst du es in der Konfiguration aktivieren:
'mauricerenck.dark-visitors.analytics' => true,