Textdatenanalyse mit NLP und maschinellem Lernen

Textdaten auf relevante Inhalte "zwischen den Zeilen" untersuchen

Ein Großteil der weltweit verfügbaren Informationen liegt in Texten vor. Für viele Anwendungen ist das Crawling und anschließendes »Schürfen« nach relevanten Informationen im Text von Bedeutung. Die Topics, „Stimmungen“ oder den Schreibstil eines Autors zu erkennen ist bedeutsam, etwa wenn Sie

  • forensische Untersuchungen von Textdateien oder Chatverläufen auf Datenträgern durchführen,
  • Nachrichten, Unternehmensdaten, Social Media Kanäle oder Meinungsumfragen auswerten
  • im „Data Journalism“ recherchierte Inhalte aufbereiten
  • Sie sich in den weiten Feldern der Data Science und Data Analytics mit diesem Thema befassen

In dieser Weiterbildung werden Ihnen hierzu Methoden der digitalen Textdatenanalyse vermittelt, mit dem Schwerpunkt auf Computerlinguistik (NLP) und maschinellem Lernen (ML).

Die Herausforderung: Das "Schürfen" nach relevanten Informationen in digitalen Testsammlungen

Für das Analysieren von digitalen Textdaten sind Verfahren des maschinellen Lernens (ML) für Sie verfügbar. Diese müssen geeignet ausgewählt und angepasst werden. Zusätzliche Schwierigkeiten sind oftmals hierbei die Unstrukturiertheit von Texten und das Fehlen von Metadaten.

 

Die Lösung: Natural Language Processing (NLP) und maschinelles Lernen (ML), um relevante Informationen aus Texten ableiten zu können!

Ihnen werden Methoden der digitalen Textanalyse vermittelt, mit den Schwerpunkten auf Natural Language Processing (NLP) und ML. Dies umfasst die gesamte Verarbeitungs-Pipeline für (ggf. große) Textmengen.

Hierzu lernen Sie zuerst die theoretischen Grundlagen und Python-Methoden des NLP kennen, etwa für das Crawling im Internet oder das maschinenlesbare „Bereinigen“ und Preprocessing (oftmals unstrukturierter) Textdaten. Anschließend lernen Sie an Programmierbeispielen, wie bekannte Standardmethoden des ML (z.B. Clustering, Classification) funktionieren.

Außerdem sehen Sie, wie Sie die Entstehung der ML-Ergebnisse interpretieren und mit welchen Statistik-Methoden Sie die Güte von ML-Verfahren für Textdatenanalyse beurteilen können.

Dieser Kurs besteht einerseits aus Live-Vorträgen und Demos als Online-Seminar.

Außerdem haben wir für Sie eine Reihe von Python-Programmieraufgaben als Jupyter-Notebooks vorbereitet, die Sie unter Live-Betreuung unserer ExpertInnen bearbeiten.

Natürlich planen wir hierbei ausreichend Zeit für Diskussionen, Ihre Fragen und Pausen ein.

Zur Nachbereitung nach Kursende stehen Ihnen unsere Expertinnen und Experten noch einen weiteren Tag per Internetforum für Ihre Nachfragen zur Verfügung.

 

Ihre Vorteile auf einen Blick

Nach dem Seminar können Sie...

  • verstehen, welche Methoden des NLP und ML für Ihre Projekte verfügbar sind
  • diese Methoden in Python implementieren
  • Ihre Implementierung in Ihren eigenen Projekten anwenden und evaluieren
     

Dieses Seminar bietet Ihnen...

  • Vermittlung aktueller Methoden und Werkzeuge für die Textdatenanalyse
  • Erkenntnisse aus dem aktuellen Forschungsstand zu innovativen Methoden in NLP und ML
  • Betreuung bei der Bearbeitung der Python-Programmierbeispiele durch unsere ExpertInnen im Videochat und per Internetforum
  • Zeit zur Selbstreflexion und asynchrones Lernen passend zu ihrem Lerntempo, denn unsere Expert*innen stehen Ihnen nach dem Seminar noch für Rückfragen per Forum zur Verfügung
  • Tipps für Literatur und externe Informationsquellen, mit denen Sie auch nach diesem Kurs am Puls der Zeit bleiben können
  • Austausch mit Expert*innen und Vernetzung mit anderen Anwendenden über unseren Kurs hinaus
Grundlagen Textanalyse, IT-Sicherheit, IT-Forensik
© iStock
ÜBERBLICK
Veranstaltungstyp
Online-Seminar
Format
Online
Abschluss
Teilnahmebescheinigung
Zugangsvoraussetzung
Praktische Programmiererfahrungen in Python.
Termine, Anmeldefrist und Ort
  • Unser Angebot zur Textdatenanalyse mit NLP und ML wird derzeit inhaltlich und vom Zuschnitt für Sie aktualisiert. Neue Angebote sind im 3. Quartal wieder hier für Sie verfügbar.
Dauer/ Ablauf
20 Stunden an 4 Tagen / Jeweils von 10:00 bis 15:30 Uhr
Sprache
Deutsch
Teilnahmegebühr
1.500,00 € (USt. befreit gemäß §4 Nr. 22 Buchstabe a UStG)
ZIELGRUPPE
  • Forensiker*innen und Ermittler*innen
  • IT-Sicherheitsexpert*innen
  • Data Science & Data Analytics
  • Data Journalists
  • Social Media Manager
  • Marketing Experts
  • Financial Analysts
INHALTE
  • Crawling nach Textdaten im Internet
  • Korpuserstellung und -strukturierung
  • Datenbereinigung
  • Preprocessing
  • Grundlagen des ML in der Textdatenanalyse: Datenrepräsentation, Klassifikationsverfahren, Hyperparameter
  • Interpretierbarkeit von ML-Modellen
  • Evaluierung Ihrer Ergebnisse
  • Überblick über Anwendungen: Autorschaftsanalyse, Topic Modeling und Sentiment-Analyse
  • Tipps zu Literatur und externen Informationsquellen

Zu allen Kursteilen: Programmier-Beispiele in Python als Jupyter-Notebooks zur eigenen Bearbeitung, mit Betreuung durch unsere Expert*innen

LERNZIELE
  • Das Verstehen des maschinellen Lernens im Kontext der automatischen Analyse von Textdaten (NLP)
  • Eigene Lösungen mithilfe der Programmiersprache „Python“ implementieren können.
  • Die Qualität ggf. von externen ML-Lösungen beurteilen können, bevor Sie hierzu Ressourcen investieren
TRAINER*INNEN

Jeong-Eun Choi, Lukas Graner, Karla Schäfer

Die Trainer*innen und Expert*innen im Bereich ML und NLP (wissenschaftliche Mitarbeitende aus dem Bereich "Media Security & IT-Forensics")

Referenzen:

  • Forschungsprojekte zum Thema Fakenews in Textform im Internet
  • Paper Award im „Digital Forensics Workshop (WSDF)” auf der ARES-Konferenz 2020 für eine Arbeit zu Autorschaftsanalyse
  • 3. Platz im internationalen Textforensik-Wettbewerb „Profiling Fake News Spreaders on Twitter (2020 Edition)“ auf der „PAN at CLEF“-Konferenz mit einer Arbeit zum Erkennen von Desinformation