universal-link-extractor-et.../README.md

94 lines
2.9 KiB
Markdown
Raw Normal View History

2024-09-21 21:37:31 +02:00
# Pad Stratum0 Link Extractor
2024-09-21 21:03:48 +02:00
## Beschreibung
2024-09-21 21:37:31 +02:00
Dieses Go-Programm ist ein spezialisierter Web Scraper, der entwickelt wurde, um Links von der Pad Stratum0 Plattform zu extrahieren. Es navigiert durch verschachtelte iFrames und sammelt alle URLs, die mit "https://pad.stratum0.org/p/dc" beginnen.
2024-09-21 21:03:48 +02:00
## Funktionen
2024-09-21 21:37:31 +02:00
- Extrahiert Links von einer initialen URL und folgt diesen rekursiv bis zu einer konfigurierbaren maximalen Tiefe.
- Navigiert durch verschachtelte iFrames, um versteckte Links zu finden.
- Vermeidet doppelte Besuche von URLs.
- Bietet detaillierte Konsolenausgaben über den Fortschritt des Scrapings.
- Sammelt Statistiken über gefundene und besuchte Links.
2024-09-21 21:03:48 +02:00
## Voraussetzungen
- Go 1.16 oder höher
- go-rod Bibliothek
## Installation
1. Stellen Sie sicher, dass Go auf Ihrem System installiert ist.
2. Klonen Sie das Repository:
```
2024-09-21 21:37:31 +02:00
git clone https://github.com/yourusername/pad-stratum0-link-extractor.git
cd pad-stratum0-link-extractor
2024-09-21 21:03:48 +02:00
```
3. Installieren Sie die erforderlichen Abhängigkeiten:
```
go mod tidy
```
2024-09-21 21:37:31 +02:00
## Konfiguration
Sie können die maximale Suchtiefe anpassen, indem Sie den Wert der `maxDepth` Variable am Anfang der `main.go` Datei ändern:
2024-09-21 21:03:48 +02:00
2024-09-21 21:37:31 +02:00
```go
maxDepth = 3 // Ändern Sie diesen Wert nach Bedarf
```
## Verwendung
2024-09-21 21:03:48 +02:00
2024-09-21 21:37:31 +02:00
1. Führen Sie das Programm aus:
2024-09-21 21:03:48 +02:00
```
go run main.go
```
2024-09-21 21:37:31 +02:00
2. Das Programm wird mit der Extraktion von Links beginnen und den Fortschritt in der Konsole ausgeben.
3. Nach Abschluss wird eine Liste aller gefundenen Links sowie Statistiken angezeigt.
## Ausgabe
Das Programm gibt folgende Informationen aus:
- Fortschrittsmeldungen für jede verarbeitete URL
- Informationen über gefundene und geladene iFrames
- Eine Liste aller gefundenen einzigartigen Links
- Statistiken über die Gesamtanzahl der gefundenen Links, besuchten URLs und die Gesamtlaufzeit
2024-09-21 21:03:48 +02:00
## Anpassung
2024-09-21 21:37:31 +02:00
- Um andere Websites zu scrapen, passen Sie die initiale URL und den regulären Ausdruck für die Link-Erkennung an.
- Für komplexere Scraping-Logik können Sie die `extractLinks` Funktion modifizieren.
2024-09-21 21:03:48 +02:00
## Fehlerbehebung
2024-09-21 21:37:31 +02:00
- Wenn Sie Probleme mit dem Laden von iFrames haben, überprüfen Sie die CSS-Selektoren in der `processNestedIframes` Funktion.
- Bei Timeout-Problemen können Sie die `MustWaitLoad` Aufrufe anpassen oder zusätzliche Wartezeiten einbauen.
2024-09-21 21:03:48 +02:00
## Beitrag
Beiträge zum Projekt sind willkommen. Bitte öffnen Sie ein Issue oder einen Pull Request für Vorschläge oder Verbesserungen.
## Lizenz
[Fügen Sie hier Ihre gewählte Lizenz ein, z.B. MIT, GPL, etc.]
2024-09-21 21:37:31 +02:00
2024-09-21 21:03:48 +02:00
```
Diese README.md bietet eine umfassende Übersicht über Ihr Projekt und enthält Abschnitte für:
2024-09-21 21:37:31 +02:00
1. Eine Beschreibung des Projekts und seiner Hauptfunktionen
2. Installationsanweisungen
3. Konfigurationsmöglichkeiten
4. Verwendungshinweise
5. Erklärung der Ausgabe
2024-09-21 21:03:48 +02:00
6. Anpassungsmöglichkeiten
7. Tipps zur Fehlerbehebung
8. Informationen zum Beitragen zum Projekt
9. Einen Platzhalter für die Lizenz