Ein Impressum ist eine gesetzlich vorgeschriebene Erklärung in deutschsprachigen Ländern, die in Publikationen wie Büchern, Zeitungen, Websites und Geschäftskorrespondenz erforderlich ist. Es muss Details über die Eigentümerschaft und Urheberschaft des Dokuments enthalten.
Die meisten Websites in deutschsprachigen Ländern haben eine Impressum-Seite mit ihren Kontaktinformationen.
Das Scrapen dieser Daten ist perfekt für die Lead-Generierung. Impressum-Seiten enthalten wertvolle Daten wie:
- Namen der Unternehmensleitungs
- Berufsbezeichnung
- Telefonnummer
- E-Mail-Adresse
- Postadresse
Die Informationen sind verfügbar, aber nicht in einem strukturierten Format. Bis jetzt war es schwierig, diese Informationen automatisch zu extrahieren. Aber mit KI zeige ich dir, wie du diese Kontaktinformationen in einem strukturierten Format extrahieren kannst.
In dieser Anleitung zeige ich dir, wie du den Datablist KI-Agenten nutzen kannst, um eine Liste von Websites zu scrapen und alle gewünschten Informationen von den Impressum-Seiten zu extrahieren.
Du kannst dir auch dieses Video ansehen, um es in Aktion zu sehen.
Schritt 1: Importiere deine Liste von Websites
Zuerst importierst du eine CSV/Excel-Datei mit einer Liste von Websites, die du scrapen möchtest. Datablist ist ein Lead-Management-Tool mit Superkräften. Eine davon ist der Datablist KI-Agent. Unser KI-Agent versteht Text und kann Websites durchsuchen, um relevante Daten zu finden.
Um deine CSV-Datei zu importieren, erstelle eine leere Sammlung und klicke auf Import. Oder klicke auf der Startseite auf die Schaltfläche "Start with a CSV/Excel file".
Dies ist meine importierte Datei. Sie enthält zwei Spalten: den Namen des Unternehmens und seine Website.
Schritt 2: Schreibe einen funktionierenden Prompt
Jetzt bitten wir einen KI-Agenten, jede Website zu besuchen, den Link zur Impressum-Seite zu finden und dann die Impressum-Seite zu lesen, um Kontaktinformationen zu extrahieren.
Klicke auf das Menü "Enrich" und wähle "AI Agent".
Wir müssen einen Prompt mit der zu besuchenden Website-URL und den Daten, die wir extrahieren möchten, schreiben. Und wir können einige Tipps hinzufügen, um die Impressum-Seite zu finden.
Hier ist mein Prompt:
Visit {{WEBSITE}} and scrape the impressum page to extract the following information:
- Founder name
- Job Title
- Email Address
- Phone Number
The Impressum page is usually on the URL /impressum
Du kannst nach mehr (oder weniger) Datenpunkten fragen. Die Website-URL wird als Platzhalter definiert. Und Datablist führt für jede Zeile einen personalisierten Prompt aus.
Um eine Variable für die Website zu verwenden, gib 2 geschweifte Klammern ein und wähle die Website-Eigenschaft aus deiner Sammlung.
Schritt 3: Konfiguriere erwartete Ausgaben
Nach dem Prompt müssen wir die erwarteten Ausgaben konfigurieren. Der Agent verwendet den Namen und die Beschreibung der Ausgabe zusammen mit dem Prompt, um die Aufgabe zu verstehen.
Hier haben wir:
- Founder Name - Beschreibung: The name of the founder. Empty if not found.
- Job Title - Beschreibung: The job title of the founder, when available.
- Email Address - Beschreibung: Email address found on the impressum page.
- Phone Number - Beschreibung: The company phone number.
Schritt 4: Füge Ausgaben zur Sammlung hinzu
Klicke auf "Continue to outputs configuration". Die im vorherigen Schritt konfigurierten erwarteten Ausgaben erscheinen hier.
Wähle "+" um für jede Ausgabe eine neue Eigenschaft (=Spalte) zu deiner Sammlung hinzuzufügen.
Du kannst auch eine Eigenschaft erstellen, um die Fehlermeldung zu sehen, wenn der Agent die Aufgabe nicht ausführen kann.
Schritt 5: Führe die Anreicherung aus
Der letzte Schritt: Klicke auf "Instant run", um den Agenten auszuführen.
Die Eigenschaft "Error Msg" zeigt einen Text an, wenn der Agent die Website nicht erreichen kann oder wenn keine Impressum-Seite gefunden wird.