Shownotes DL001: Data Science
Intro (00:00:00)
Thema des Podcasts und der Folge (00:00:18)
Willkommen zu unserer ersten Folge beim datenleben-Podcast!Wir sind Helena und Janine und möchten euch mitnehmen in die Welt der Daten.Was ist Data Science? Was bedeuten die Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt?Das sind alles Fragen, mit denen wir uns auseinander setzen werden.Wer schon immer mehr über Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.
In unserer ersten Folge möchten wir etwas allgemeiner in Data Science einführen.Wir möchten euch zeigen, warum Data Science ein wichtiges Thema ist, was ein Data Scientist wie Helena zum Beispiel ausmacht und wie die Arbeit eines Data Scientist aussieht, vor allem wie vielfältig sie ist.
Vorstellung (00:01:03)
Wer ist Helena? (00:01:03)
arbeitet freiberuflich als Data Scientist
hat Physik studiert und in experimenteller Physik promoviert, sie bereitet sich auf ihre Disputation vor
sie ist Teil der Hackercommunity, hat den Braunschweiger Hackerspace Stratum0 mitgegründet
Wer ist Janine? (00:03:52)
promoviert in Literaturwissenschaft zum Thema Wissenschaft und Technik in der Gegenwartsliteratur
wissenschafts- und technikaffin und interessiert sich für Themen rund um Naturwissenschaft, Datenschutz und digitale Gesellschaft
natürlich aber vor allem für Bücher und auch kreative Dinge mit allen möglichen Materialien und Techniken
Warum ist Data Science ein wichtiges Thema? (00:04:42)
Data Science ist jetzt schon wichtig und wird in den kommenden Jahren immer wichtiger werden
Immer mehr Daten werden erfasst und stehen zur Verfügung, um benutzt zu werden
Daten werden uns mittels Statistiken ständig gezeigt, in den Nachrichten, Sozialen Medien und verschiedenen anderen Formaten
Oft fehlt der Kontext: Woher kommen die Daten, was sagen die Daten selbst und wofür werden sie vielleicht benutzt?
Statistik ist oft schwer zu verstehen: "Traue keiner Statistik, die du nicht selbst gefälscht hast."
Man muss sich immer fragen, wie Daten eigentlich erhoben werden, um zu wissen, welche Schlüsse man aus Statistiken ziehen kann
Grundthese und unser Motto: Kenne dein Messverfahren!
Beispiel Rauschprofil von Kameras: Hat eine Kamera in einer physikalischen Messung etwas Bedeutendes gezeigt oder war es nur ein Artefakt der Kamera?
Daten und die Methode ihrer Erhebung müssen immer hinterfragt werden
Erzählung: Wenn ein Data Scientist nicht schlafen kann (00:06:53)
Mit Data Science wird Wissen gewonnen
Eine Fragestellung oder ein Problem braucht eine Lösung
Daten erfassen über das Problem (Schlafmangel) und seine Rahmenbedingungen (Verhalten, Ernähurung, Stimmung)
Daten korrelieren: Schlafmangel mit Verhalten, Ernährung und Stimmung abgleichen
Aus den Beobachtungen Schlüsse ziehen
Korrelation ist noch nicht Kausalität: den Blick weiten und auch die Daten anderer Tage angucken, gezogene Schlüsse überprüfen
Kausalität im Experiment überprüfen: Rahmenbedingungen verändern und neue Daten erfassen
Ablesen, ob sich Hypothesen bestätigt haben, ggf. erneut anpassen und Daten sammeln
Am Ende können auf Basis von Daten Entscheidungen getroffen werden
Was ist Data Science? (00:10:02)
Datenerfassung: Mikro, Kamera, Umfragen, Bewegungsprofile, Nutzerverhalten
Datenanalyse: klassisch mit Statistik, Text aus Tonaufnahmen extrahieren, Objekterkennung auf Fotos
Maschinelles Lernen, wird bereits manchmal als Künstliche Intelligenz bezeichnet, ist aber noch nicht als solche zu verstehen
Eine spezielle Form des Maschinellen Lernens sind Neuronale Netze
Programmieren -> Hackermentalität
Statistik zu können reicht nicht aus, man muss auch programmieren können, um etwa Schritte zu automatisieren, die sich wiederholen
Beispiel: Wildtierkamera
Datenanalyse passiert schon bei der Datenerfassung: die Kamera soll nur auslösen, wenn ein Tier vor der Kamera ist
Wenn die Kamera schließlich aus dem Wald geholt wird, geschieht die umfassende Analyse: Welche Tiere wurden fotografiert?
Wie oft sind an diesem konkreten Ort diese Tiere erfasst wurden und zu welcher Zeit?
Daten mit anderen Kamerastandorten in Verbindung bringen und über mehrere Jahre betrachten
Zeigt die Ausbreitung und die Anzahl einer Population beobachteter Tierarten (Beispiel Ansiedlung Luchse im Harz)
Mittels Maschinellem Lernen müssen keine Menschen die umfangreichen Bildsammlungen auswerten, Auswertung wird automatisiert
Software erkennt das Tier
Das Trainieren des Programms ist aufwändig, die Anwendung dann aber nicht mehr, sie erleichtert viele Arbeitsschritte durch Automatisierung
Wofür Data Science? (00:17:15)
Ziel von Data Science: informierte Entscheidungen treffen
Data Science generiert Daten und daraus gewinnen wir Wissen über die Welt um uns herum
Dieses Wissen hilft uns zu entscheiden, z.B. wie Technik um uns herum funktionieren soll, welche Ziele sie haben kann
Firmen beauftragen Data Scientists mit Datenerfassung und -analysen, um eine Geschäftsstrategie zu entwickeln
Beispiel Glasfaserkabel: Ein Unternehmen möchte wissen, in welcher Stadt sie mit dem Ausbau von Glasfaserkabeln anfangen sollten
Beispiel Diskriminierung: Auch gesellschaftliche Aspekte lassen sich aus Daten ablesen, wie und wo findet etwa Diskriminierung statt?
Beispiel Statistiken: Wahlumfragen verschiedener Institute fallen immer etwas anders aus, zeigt, dass es auch drauf ankommt, wer Daten sammelt und wie er sie auswertet
Wahlstatistiken können dabei auch den Effekt haben, sich auf Wahlentscheidungen von Wähler*innen auszuwirken
Das kann dabei völlig unbewusst passieren, oder bewusst, weil man sich etwa an der 5%-Hürde orientiert
Es ist auch immer die Frage, wer die Daten mit welchen Hintergrund analysiert
Beispiel Kredite: Betrachten übervorsichtig ihre Daten und neigen dazu die Vergangenheit zu reproduzieren (alte Klischees haben Bestand, Gruppen werden ausgeschlossen)
Klassisches Beispiel ist hier auch die SchuFa
Beispiel Postleitzahlen: Beim Einkaufen werden wir nach Postleitzahlen gefragt, das kann verschiedene Effetke haben
Werbung verteilen: Reichweite messen, wo hat Werbung zu mehr Kunden geführt, woher kommen Kunden, welche Werbung funktioniert?
Postleitzahlennutzung durch Dritte: Institutionen kaufen die Datensätze auf und verkaufen sie weiter, z. B. an Kreditinstitute
Diese können dann sehen, ob ein Kunde in einem Stadtteil mit hoher Kaufkraft lebt und ihre Entscheidung über Kredite daran binden
Data Science spielt gerade beim Umgang mit personenbezogenen Daten eine große Rolle, gerade auch im Kontext Diskriminierung
Zum Thema Diskriminierung durch Daten ist bereits eine Folge in Planung
Was macht Helena als Data Scientist konkret? (00:22:50)
Die Arbeit besteht aus sehr viel Softwareentwicklung
Für Kunden, die Daten vorliegen haben, werden eigene Lösungen entwickelt
Dabei werden verschiedene statistische Modelle entwickelt oder implementiert
Beispiel Wetterdaten: Projekt für das Europäische Zentrum für mittelfristige Wettervorhersagen (EZMW) zusammen mit einer Designerin
Ziel war es aus den Daten eine Darstellung zu entwickeln, die nicht verschweigt, dass Wettervorhersagen unsicher sind
Konzept entwickelt, wie man darstellen kann, mit welcher Wahrscheinlichkeit eine Wetterprognose für einen bestimmten Tag zutrifft
Datenbasis des EZMW genutzt: Sie berechnen immer 50 Szenarien mit leicht verschiedenen Werten aus, die Wahrscheinlichkeit liegt nur bei 30%
Ergebnis war eine Darstellung, die verständlicher die Wahrscheinlichkeit von Wettervorhersagen vermitteln kann
Leider ist der Dienst nicht mehr online, aber auf GitHub kann man sich die grafischen Darstellungen dazu ansehen
Arbeitsalltag eines Data Scientist
Konkrete Aufgabenstellung, die man zu bearbeiten hat, oft innerhalb eines Teams, mit dem man sich besprechen muss
Basis ist oft ein Testdatensatz, an dem man entwickeln kann: Algorithmen, Auswertemethoden und Analysen testen oder grafische Darstellungen und Plots
Testdaten verhindern, dass Geschäftsgeheimnisse oder personenbezogene Daten an Data Scientists ausgegeben werden müssen
Nachteil ist, dass Testdaten oft andere Eigenschaften haben, sodass ein späterer Testlauf mit echten Daten oft zu Bugs (Fehlern) führt
Spannend an Data Science: Neue Rätsel und Logik Puzzle lösen, wo war die Annahme falsch, woran hat man nicht gedacht, was passiert mit den Daten?
Beispiel Adressdaten: wenn man online einkauft, muss man oft seine Adresse angeben, die Eingabemaske kann schon zum Problem werden
Fehlerquellen sind Sonderzeichen oder Adressen ohne Straßenangabe und Hausnummer oder internationale Adressen (nicht einheitlicher Aufbau von Adressdaten)
International verschickte Pakete sind daher anfällig für Fehler in der Datenerfassung und -ermittlung
Kaputte Adressdaten können Menschen (Paketzusteller, Paketshopmitarbeiter) zum Glück oft ausgleichen können, Drohnen wären damit vermutlich überfordert
Data Scientists haben oft Verschwiegenheitsverpflichtungen, deswegen kann Helena nicht wirklich über aktuelle Projekte reden, an denen sie arbeitet
Was muss man als Data Scientist können? (00:35:41)
Muss man programmieren können? Wie sehr muss man sich im IT-Bereich auskennen?
Im Bereich Statistik oder Mathematik kommt es nicht so sehr auf das Programmieren an, grafische Programme wie Tableu können einem das ein bisschen abnehmen
Das wären dann aber für Helena eher Statistiker und keine Data Scientists
Für Helena gehört zu Data Science neben Statistik ganz klar auch das Programmieren, dass man Ideen umsetzen kann
Um wirklich sicher mit Statistik umgehen zu können, reicht es nicht, nur mal ein Buch darüber gelesen zu haben, man sollte es schon im Studium gehabt haben
Man muss verschiedene Anwendungsbereiche können und kennen, sodass man die je nach Fall anwenden kann
Es wird von den meisten Data Scientists erwartet, dass sie schon sehr viel gesehen haben und das Ganze in Software umsetzen können
Ein Data Scientist muss sich in das Thema oder Tätigkeitsfeldes des Kunden einarbeiten und ein Verständnis für das wirtschaftliche Interesse des Kunden haben
Beispiel Flugverspätungen: Es gibt bestimmte Kenngrößen wie Flugverspätungen dargestellt werden
Man muss diese Kenngrößen verstehen, damit die Analsysen diese Kenngrößen ausliefern
Und man muss verstehen, wo Probleme auftreten können, die das Ergebnis eventuell verzerren
Ein Data Scientist muss viel Interesse, Verständnis und Logik mitbringen und bereit sein sich in viele neue Bereiche hineinzudenken
Neue Projekte sind daher immer spannend, weil man immer mit neuen Fragestellungen konfrontiert wird
Manchmal muss man aber auch einfach nur eher unspannende Dinge abarbeiten, die gut bezahlt werden
Was ist der Unterschied zwischen Data Scientists, Data Analysts und Data Engeniers?
Helena unterscheidet für sich nicht nach solchen Kategorien und zweifelt daran, wie zielführend das ist
In ihrer Praxis hat das bisher keine Rolle gespielt
Für Helena liegt der Reiz in der Vielseitigkeit, daher ist sie auch Freiberuflerin, weil sie so immer mit neuen Aufgaben konfrontiert wird
Sie kann natürlich nur für sich selbst sprechen
Fazit (00:42:12)
Data Science ist eine Disziplin, deren Ziel es ist, Erkenntnisse zu gewinnen und dafür Daten zu sammeln und zu verarbeiten
In den nächsten Folgen werden wir dann schauen, was es für Varianten gibt
Nächstes Thema: Coronadaten am 25.07.2020 (00:43:30)
Im Moment erleben wir die Covid-19-Epedemie
Wir sind keine Epidemiologen, aber wir wollen einfach mal über die jetzt anfallenden Daten sprechen
Jeder spricht über Fallzahlen, Sterblichkeit, Übersterblichkeit und Ansteckungswahrscheinlichkeiten
Was gibt es für Daten? Was gibt es für Fallstricke mit diesen Daten? Wie kann man sie sinnvoll einordnen?
Aber wir wollen keine inhaltliche Aussage treffen, sondern eher Muster beschreiben
Wir kriegen jeden Tag neue Werte und Zahlen präsentiert und manche fragen sich: Worauf muss ich da achten?
Call to Action (00:43:40)
Wenn euch unsere erste Folge gefallen hat, empfehlt sie weiter und folgt uns
Twitter unter @datenleben
Webseite: https://www.datenleben.de/
Schreibt uns bei Fragen oder Themenvorschlägen!
Schlagworte zur Folge
Data Science, Messverfahren, Maschinelles Lernen, Berufsfeld Data Science, Arbeitsalltag
Quellen
Wikipedia: Liste geflügelter Worte –Traue keiner Statistik, die du nicht selbst gefälscht hast
GitHub, ktrask: ESOWC-2018-visualisation
Weiterführende Links
Stratum0
DLF Kultur: Zusammenhang Postleitzahlen und Kredite
Wikipedia: Postleitzahlen in der Privatwirtschaft
Antidiskriminierungsstelle des Bundes: Diskriminierungsrisiken durch Verwendung von Algorithmen
Süddeutsche Zeitung: Wahlumfragen sind ein Problem für die Demokratie
Bundeszentrale für politische Bildung: Wahlkabine zum Thema Wahlumfragen, bpb-Podcast zur Bundestagswahl 2017
Deutscher Bundestag, Wissenschaftliche Dienste: Einfluss vonMeinungsumfragen und Demoskopien aufWählerverhal-ten und Wahlergebnisse
Luchsprojekt Harz
Wikipedia: Maschinelles Lernen
Wikipedia: Data Science