Guten Tag
Gerne lade ich euch diesen Mittwoch und Donnerstag, 24. und 25. März
2021 zum virtuellen NLP Hackathon der Uni Bern ein. Auf dieser Website
und unten im Email sind die 4 spannenden Challenges aufgeführt, die bis
jetzt eingereicht wurden:
https://www.cnd.philnat.unibe.ch/ueber_uns/aktivitaeten/nlp_hackathon/
Der Ablauf des Hackathons ist wie folgt:
*Kickoff am Mittwoch, 24. März 2021, 9:00 - 10:00 Uhr*
- Begrüssung und Einführung
- Vorstellung der Challenges
- Team-Building
*Präsentation der Resultate am Donnerstag, 25. März 2021, 15:00 - 16:00 Uhr*
- Präsentation der Ergebnisse
- ab 16h virtuelles Abschlussbier
Meeting auf BigBlueButton: https://bbb.ch-open.ch/b/mat-f4n-qtn
Kommunikation per Slack: https://nlphackathon.slack.com
Aktuell sind rund 25 Personen angemeldet. Wer ebenfalls teilnehmen
möchte, kann sich per Email an dh(a)wbkolleg.unibe.ch anmelden.
Danke auch fürs Weiterleiten dieser Nachricht an weitere interessierte
Personen!
Wir freuen uns auf spannende zwei Tage NLP-Hacking!
Herzliche Grüsse,
Matthias Stürmer
Challenges
Folgende vier Challenges sind aktuell eingereicht:
1. Forschungsstelle Digitale Nachhaltigkeit Uni Bern: Kompetitive
Challenge "Klassifikation von Schweizer Gerichtsurteilen"
<https://www.kaggle.com/c/swiss-german-court-rulings/overview>
The legal language is very special in many regards compared to
regular natural language. It is highly structured, rather
complicated, contains its own special terms and uses certain words
differently than they are used in regular text. Text classification
is simple to define but has a myriad of possible applications and
good systems can provide immense value. Common general applications
of text classification include for example spam filtering, email
priority rating, or topic classification. And in the legal domain
text classification includes legal judgement prediction (predict
outcome of a case based on description of case's facts) or legal
area prediction. So in this challenge, you will predict the chamber
based on the text of a court decision. The chamber is structured in
the form of {federal level}_{court}_{chamber number} (e.g. SG_KG_002
=> St. Gallen, Kantonsgericht, 002).
2. Statistisches Amt Kanton Zürich: Kreative Challenge "STATBOT.CH"
<https://www.cnd.philnat.unibe.ch/ueber_uns/aktivitaeten/nlp_hackathon/statb…> (English
Documentation on GitHub
<http://https/github.com/statistikZH/statbot/tree/main/documentation>)
If you are searching for some form of statistical information, it is
not always easy to find it in the shortest time possible.
Particularly in Switzerland, the data and information are not only
spread vertically over different federal levels. They are also
spread within these federal levels horizontally over different
offices and even there sometimes over different sites/channels with
different formats. Looking for the needle in the haystack looks
comparably easy next to that. Further, even search engines are only
of limited help, as they follow an indexing logic that excludes
information stored in databases or files. The background of a more
difficult search for facts, is also a risk for democratic processes:
The harder it is for the average citizen to find truthful
information, the easier it is to spread fake news. Therefore, the
Statistical Office of the Canton of Zurich, together with other
organizations, would like to develop a Swiss Statistical Bot
(STATBOT), which would provide data and statistical information
directly and quickly across all organizations.
3. Digital Humanities Uni Bern: Kreative Challenge "NER for Historical
Documents" <https://www.kaggle.com/c/ner-turmbucher>
Developments towards NER solutions have shown significant outcome in
the past few years already. Nevertheless, applications for sparse
language data are still a challenge, specially when dealing with
data from pre-modern times. In this challenge, we focus on language
data from the 16th to the 18th century from the Bernese Turmbücher
(legal documents protocolled in the Tower of Bern, Switzerland).
These documents are currently hosted in the State Archives of Bern.
Language models are not provided.
4. Digital Humanities Uni Bern: Visualization of Language Models
Language models (e.g. character embeddings) are essential to succeed
in NLP tasks. Especially when it comes to Part-of-Speech and Named
Entity Recognition, tasks result in more precise models if supported
by adequate language models already. Since the advent of word2vec
and large transformer-based language models (such as BERT or GPT-3)
a variety of specialized and fine-tuned language models is currently
available. Despite the widespread use and the necessity when it
comes to specific model training (e.g. for language entities with
only sparse data), our understanding of the models themselves is
limited at best. In order to strengthen our understanding of
language models and to start the process of reflecting them, this
challenge asks for creative ways of visualizing language models. We
envision 3D-visualizations based on dimension reduction to identify
the positioning of e.g. synonym/homonyms in vector spaces or listing
of semantic fields (neighboring vector values). For context
insensitive approaches (e.g. word2vec or GloVe) we imagine to use
the fixed vectors and represent calculations in grids.
__________________________________
Universität Bern
Institut für Informatik
Forschungsstelle Digitale Nachhaltigkeit
PD Dr. Matthias Stürmer
Leiter der Forschungsstelle Digitale Nachhaltigkeit,
Dozentur Digitale Transformation am INF und
Dozentur Digitale Nachhaltigkeit am IWI
Büro 204 (2. Stock)
Schützenmattstrasse 14
CH-3012 Bern
Telefon +41 31 631 38 09 (Direkt)
Telefon +41 31 631 47 71 (Sekretariat)
Mobile +41 76 368 81 65
matthias.stuermer(a)inf.unibe.ch
www.digitale-nachhaltigkeit.unibe.ch
Hallo zusammen
Für unser Forschungsprojekt<https://www.digitale-nachhaltigkeit.unibe.ch/forschung/kuenstliche_intellig…> brauchen wir Zugang zu SwissDox.ch<http://SwissDox.ch> welches Zugriff bietet auf die Zeitungstexte der grössten Schweizer Medienhäuser. Die Uni Bern hat bereits einen regulären Zugriff<https://www.unibe.ch/universitaet/dienstleistungen/universitaetsbibliothek/…> darauf, jedoch ist dort kein Zugriff auf einen Datenbankdump möglich.
Wir klären gerade mit der Uni Zürich und SwissDox ab inwiefern wir an der Uni Bern einen Text Mining Zugriff zu SwissDox.ch<http://SwissDox.ch> erhalten können. Da dieser Zugang ziemlich teuer ist (bis 20000 CHF pro Jahr) wäre es für die Universitätsbibliothek wichtig zu wissen, wie gross das Interesse von Forschungsgruppen an der Uni Bern ist an einem solchen Zugang.
Wenn du auch Interesse daran hast, dann antworte mir doch kurz hier. Es wäre spannend zu wissen wofür du diesen Zugang verwenden möchtest.
Beste Grüsse
Joel Niklaus
––––––––––––––––––––––––––––––––––––––––––––––––––
Universität Bern
Forschungsstelle Digitale Nachhaltigkeit
Joel Niklaus, MSc Computer Science
Doktorand am Forschungsprojekt “Open Justice vs. Privacy"
Schützenmattstrasse 14
CH-3012 Bern
joel.niklaus(a)inf.unibe.ch<mailto:joel.niklaus@inf.unibe.ch>
+41 (0)78 664 46 59
www.digitale-nachhaltigkeit.unibe.ch<http://www.digitale-nachhaltigkeit.unibe.ch>
https://www.cnd.philnat.unibe.ch/ueber_uns/aktivitaeten/nlp_hackathon/
(English version of this call is attached)
*Virtueller NLP-Hackathon der Universität Bern am 24. und 25. März 2021*
Call for Challenges für NLP-Hackathon
*Texte lassen sich mittels Methoden des Natural Language Processing
(NLP) auf sprachliche und inhaltliche Informationen untersuchen und
auswerten. Um neue Blickwinkel auf die unterschiedlichen
NLP-Problemstellungen zu erhalten und neue Arbeitsweisen kennenzulernen,
veranstaltet die Universität Bern am 24. und 25. März 2021 einen
NLP-Hackathon. Eigene Challenges können jetzt eingereicht werden.*
Erfolgreiche NLP-Anwendungen zeichnen sich durch den Einsatz von
maschinellen Lernverfahren aus, die einerseits auf Sprachmodellen
basieren und andererseits über genügend Trainingsmaterial verfügen. Die
Herausforderungen sind entsprechend vielseitig und betreffen von der
textuellen Aufbereitung über den Einsatz von deep learning Algorithmen
bis zu Visualisierungsformen unterschiedliche digitale Anwendungen. Im
Rahmen des ersten NLP-Hackathon der Universität Bern am Mittwoch und
Donnerstag, 24. und 25. März 2021 sollen Teilnehmende konkrete
Challenges rund um NLP lösen und diese anschliessend einander
vorstellen. Vorgängig können NLP-Challenges von Uni-internen Stellen
oder von Extern eingereicht werden, für die sich die Teilnehmenden
anschliessend registrieren.
Zielsetzungen
Bei einem Hackathon finden Personen zusammen, die gemeinsam in kurzer
Zeit eine kreative, technische Lösung auf bestimmte Problemstellungen
(Challenges) entwickeln wollen. Das übergeordnete Ziel des NLP Hackathon
ist der Wissensaufbau, der Erfahrungsaustausch und die verbesserte
Vernetzung von Interessierten betreffend NLP. Ausserdem sollen mit der
Bearbeitung von konkreten Challenges die Möglichkeiten und Grenzen von
heutigen NLP-Technologien getestet und mit neuen Tools experimentiert
werden. Zudem sollen die einreichenden Stellen von Lösungsansätzen für
ihre Challenges profitieren und bei Interesse die Zusammenarbeit mit den
Teilnehmenden fortsetzen.
Berücksichtigung COVID-19
Normalerweise finden Hackathons an einem Veranstaltungsort statt, wo
sich alle treffen, austauschen und auch verpflegen können. Da es in der
aktuellen Pandemie-Lage jedoch schwierig ist, grössere Anlässe vor Ort
zu organisieren, soll der NLP Hackathon im März 2021 dezentral
durchgeführt werden. Die teilnehmenden Teams arbeiten im Homeoffice oder
in ihrer jeweiligen Arbeitsumgebung an der ausgewählten Challenge. Zu
Beginn des Hackathons gibt es eine kurze virtuelle Vorstellung aller
Teams und gewählten Challenges und zum Abschluss des Tages präsentieren
die Teams ihre Resultate virtuell.
Challenges
Gesucht werden NLP-Challenges beispielsweise zu folgenden Themen:
* Spezifische Erkennformen (Part-of-Speech, Named Entity Recognition etc.)
* Information Extraction und Open Knowledge Graph Canonicalization
* Relationship Extraction
* Fachsprachen
* historische Sprachformen
* etc.
Eine NLP-Challenge kann entweder A) kompetitiven oder B) kreativen
Charakter haben:
1. Bei den kompetitiven Challenges müssen die Problemstellung und die
zu analysierenden Daten exakt vorgegeben werden, damit die
Ergebnisse messbar und untereinander vergleichbar sind. Es geht also
darum, dass die teilnehmenden Teams versuchen, eine möglichst gute
Lösung für die NLP-Challenge zu entwickeln und damit die Challenge
zu gewinnen. Dazu muss eine entsprechende Competition auf Kaggle
(www.kaggle.com <http://www.kaggle.com/>) erstellt und für den
Hackathon eingereicht werden.
Beispiel: «Zur Verfügung steht ein Trainings-Datenset von
deutschsprachigen Schweizer Bundesgerichtsentscheiden annotiert mit
Named Entities. Erziele eine möglichst hohe F1-Score auf dem Testset
bei der Vorhersage von Named Entities.»
2. Bei den kreativen Challenges können NLP-bezogene Problemstellungen
eingereicht werden, deren Ergebnisse sich nicht einfach
quantifizieren lassen (bspw. offene Fragestellungen,
Datenvisualisierungen, kreativer Umgang mit NLP-Ausgaben etc.).
Dennoch braucht es eine klare Beschreibung der Aufgabenstellung und
der erwarteten Resultate, damit die Arbeiten fokussiert ausgeführt
werden können.
Beispiel: «Zur Verfügung steht ein Knowledge Graph aufgebaut auf
einem Schweizer Gerichtsurteil. Reduziere diesen auf die
wesentlichsten Fakten und stelle deine Erkenntnisse ansprechend dar.»
Alternativ: «Visualisiere ein Sprachmodel (language model) mit dem
Ziel einzelne Tokens zu finden oder Wortcluster zu identifizieren
und interpretierbar zu machen.»
Für beide Arten von NLP-Challenges können bis Montag, 22. Februar 2021
per Email die jeweiligen Kaggle-Links bzw. die Beschreibung der
kreativen Challenges an dh(a)wbkolleg.unibe.ch
<mailto:dh@wbkolleg.unibe.ch?subject=NLP-hackathon:> eingereicht werden.
Bei Fragen zu den Challenges, dem Ablauf, dem Aufwand etc. können die
untenstehenden Personen kontaktiert werden.
Ablauf
* Januar 2021: Veröffentlichung des Call for NLP-Challenges
* 22. Februar 2021: Eingabeschluss für kompetitive und kreative Challenges
* 1. März 2021: Veröffentlichung der eingereichten Challenges
* 15. März 2021: Anmeldeschluss für teilnehmende Teams
* 24. und 25. März 2021: Durchführung des NLP-Hackathons
Veranstaltende
Der Anlass ist eine Fortsetzung des NLP-Workshop im August 2020
<https://www.cnd.philnat.unibe.ch/ueber_uns/aktivitaeten/workshop_zu_natural…> und
wird durch die Digital Humanities der Phil.-hist. Fakultät
<https://www.dh.unibe.ch/>, das Phil.-nat. Kompetenznetzwerk
Digitalisierung (CND) <https://www.cnd.philnat.unibe.ch/>, die
Forschungsstelle Digitale Nachhaltigkeit
<https://www.digitale-nachhaltigkeit.unibe.ch/> des Instituts für
Informatik und die Science IT Support Unit (ScITS)
<https://www.scits.unibe.ch/> der Universität Bern organisiert. Der
NLP-Hackathon ist Teil der vDHd2021 virtual Digital Humanities Community
im deutschsprachiger Raum <https://vdhd2021.hypotheses.org/>.
Hinweis für Doktorierende
Doktorierende der Graduate School of the Arts and Humanities (GSAH) der
Universität Bern erhalten 1 ECTS für die aktive Teilnahme an diesem
NLP-Hackathon.
Kontaktpersonen
Prof. Dr. Tobias Hodel
<https://www.dh.unibe.ch/ueber_uns/personen/prof_dr_hodel_tobias>
Digital Humanities, Phil.-hist. Fakultät
tobias.hodel(a)wbkolleg.unibe.ch <mailto:tobias.hodel@wbkolleg.unibe.ch>
PD Dr. Matthias Stürmer
<https://www.digitale-nachhaltigkeit.unibe.ch/ueber_uns/personen/pd_dr_stuer…>
Leiter Forschungsstelle Digitale Nachhaltigkeit
Institut für Informatik, Phil.-nat. Fakultät
matthias.stuermer(a)inf.unibe.ch <mailto:matthias.stuermer@inf.unibe.ch>