Wie kann man Impressum-Seiten scrapen und Daten extrahieren?

Question

Florian Poullin · Accepted Answer

Ein Impressum ist eine gesetzlich vorgeschriebene Erklärung in deutschsprachigen Ländern, die in Publikationen wie Büchern, Zeitungen, Websites und Geschäftskorrespondenz erforderlich ist. Es muss Details über die Eigentümerschaft und Urheberschaft des Dokuments enthalten.

Die meisten Websites in deutschsprachigen Ländern haben eine Impressum-Seite mit ihren Kontaktinformationen.

Das Scrapen dieser Daten ist perfekt für die Lead-Generierung. Impressum-Seiten enthalten wertvolle Daten wie:

Namen der Unternehmensleitungs
Berufsbezeichnung
Telefonnummer
E-Mail-Adresse
Postadresse

Die Informationen sind verfügbar, aber nicht in einem strukturierten Format. Bis jetzt war es schwierig, diese Informationen automatisch zu extrahieren. Aber mit KI zeige ich dir, wie du diese Kontaktinformationen in einem strukturierten Format extrahieren kannst.

In dieser Anleitung zeige ich dir, wie du den Datablist KI-Agenten nutzen kannst, um eine Liste von Websites zu scrapen und alle gewünschten Informationen von den Impressum-Seiten zu extrahieren.

Du kannst dir auch dieses Video ansehen, um es in Aktion zu sehen.

Schritt 1: Importiere deine Liste von Websites

Zuerst importierst du eine CSV/Excel-Datei mit einer Liste von Websites, die du scrapen möchtest. Datablist ist ein Lead-Management-Tool mit Superkräften. Eine davon ist der Datablist KI-Agent. Unser KI-Agent versteht Text und kann Websites durchsuchen, um relevante Daten zu finden.

Um deine CSV-Datei zu importieren, erstelle eine leere Sammlung und klicke auf Import. Oder klicke auf der Startseite auf die Schaltfläche "Start with a CSV/Excel file".

CSV-Datei importieren

Dies ist meine importierte Datei. Sie enthält zwei Spalten: den Namen des Unternehmens und seine Website.

Liste deutscher Websites zum Scrapen

Schritt 2: Schreibe einen funktionierenden Prompt

Jetzt bitten wir einen KI-Agenten, jede Website zu besuchen, den Link zur Impressum-Seite zu finden und dann die Impressum-Seite zu lesen, um Kontaktinformationen zu extrahieren.

Klicke auf das Menü "Enrich" und wähle "AI Agent".

AI Agent öffnen

Wir müssen einen Prompt mit der zu besuchenden Website-URL und den Daten, die wir extrahieren möchten, schreiben. Und wir können einige Tipps hinzufügen, um die Impressum-Seite zu finden.

Hier ist mein Prompt:

Visit {{WEBSITE}} and scrape the impressum page to extract the following information: 
- Founder name
- Job Title
- Email Address
- Phone Number
The Impressum page is usually on the URL /impressum

Du kannst nach mehr (oder weniger) Datenpunkten fragen. Die Website-URL wird als Platzhalter definiert. Und Datablist führt für jede Zeile einen personalisierten Prompt aus.

Um eine Variable für die Website zu verwenden, gib 2 geschweifte Klammern ein und wähle die Website-Eigenschaft aus deiner Sammlung.

Einen Prompt schreiben

Schritt 3: Konfiguriere erwartete Ausgaben

Nach dem Prompt müssen wir die erwarteten Ausgaben konfigurieren. Der Agent verwendet den Namen und die Beschreibung der Ausgabe zusammen mit dem Prompt, um die Aufgabe zu verstehen.

Hier haben wir:

Founder Name - Beschreibung: The name of the founder. Empty if not found.
Job Title - Beschreibung: The job title of the founder, when available.
Email Address - Beschreibung: Email address found on the impressum page.
Phone Number - Beschreibung: The company phone number.

Erwartete Ausgaben

Schritt 4: Füge Ausgaben zur Sammlung hinzu

Klicke auf "Continue to outputs configuration". Die im vorherigen Schritt konfigurierten erwarteten Ausgaben erscheinen hier.

Wähle "+" um für jede Ausgabe eine neue Eigenschaft (=Spalte) zu deiner Sammlung hinzuzufügen.

Eigenschaften hinzufügen

Du kannst auch eine Eigenschaft erstellen, um die Fehlermeldung zu sehen, wenn der Agent die Aufgabe nicht ausführen kann.

Schritt 5: Führe die Anreicherung aus

Der letzte Schritt: Klicke auf "Instant run", um den Agenten auszuführen.

Scraping-Ergebnisse

Die Eigenschaft "Error Msg" zeigt einen Text an, wenn der Agent die Website nicht erreichen kann oder wenn keine Impressum-Seite gefunden wird.

Wie kann man Impressum-Seiten scrapen und Daten extrahieren?

Schritt 1: Importiere deine Liste von Websites

Schritt 2: Schreibe einen funktionierenden Prompt

Schritt 3: Konfiguriere erwartete Ausgaben

Schritt 4: Füge Ausgaben zur Sammlung hinzu

Schritt 5: Führe die Anreicherung aus

Nehmen Sie teil an der Zukunft der Listenverwaltung