% Pages are numbered in submission mode, and unnumbered in camera-ready
%\ifcvprfinal\pagestyle{empty}\fi
\setcounter{page}{4321}
\setcounter{page}{1}
\begin{document}
%%%%%%%%% TITLE
...
...
@@ -75,11 +75,22 @@ We aim to provide the network more relevant semantic information about the diffe
\section{Method}
Die gewählte Architektur für unsere Experimente entspricht in weiten Teilen der vorgestellten Architektur aus dem Paper: “Skeleton based Zero Shot Action Recognition in Joint Pose-Language Semantic Space”. Das darin präsentierte Modell wurde nach dem Reengineering-Prinzip mithilfe der im Paper veröffentlichten Informationen aus seinen einzelnen Modulen zusammengebaut. Einzelne Module wurden dabei ausgetauscht oder zu Gunsten einer besseren Performanz leicht abgeändert. Detaillierte Informationen zum verwendeten Modell, das in [Abbildung…] illustriert ist, sollten den Veröffentlichung von [Autoren vom Paper] entnommen werden. Hier wird hingegen nur ein kurzer Überblick gegeben, nach welchem Prinzip das Modell die Zero-Shot Aufgabe zu lösen versucht, und welche Veränderungen im Vergleich zu [Paper] vorgenommen wurden.
Die Architektur besteht aus drei Teilen:
1. Einem visuellen Pfad
2. Einem semantischen Pfad
3. Einem Vergleich-lernenden Teil
Die gewählte Architektur für unsere Experimente entspricht in weiten Teilen der vorgestellten Architektur aus dem Paper: “Skeleton based Zero Shot Action Recognition in Joint Pose-Language Semantic Space”. Das darin präsentierte Modell wurde nach dem Reengineering-Prinzip mithilfe der im Paper veröffentlichten Informationen aus seinen einzelnen Modulen zusammengebaut. Einzelne Module wurden dabei ausgetauscht oder zu Gunsten einer besseren Performanz leicht abgeändert. Detaillierte Informationen zum verwendeten Modell, das in [Abbildung…] illustriert ist, sollten den Veröffentlichung von [Autoren vom Paper] entnommen werden. Hier wird hingegen nur ein kurzer Überblick gegeben, nach welchem Prinzip das Modell die Zero-Shot Aufgabe zu lösen versucht, und welche Veränderungen im Vergleich zu [Paper] vorgenommen wurden.\\
\noindent
Die Architektur besteht aus drei Teilen:\medskip\\
{\bf 1. } Einem visuellen Pfad\\
{\bf 2. } Einem semantischen Pfad\\
{\bf 3. } Einem Vergleich-lernenden Teil\medskip\\
\begin{quotation}
\noindent
Die Architektur besteht aus drei Teilen:\medskip\\
{\bf 1. } Einem visuellen Pfad\\
{\bf 2. } Einem semantischen Pfad\\
{\bf 3. } Einem Vergleich-lernenden Teil\medskip\\
\end{quotation}
Die Aufgabe des visuellen Pfades ist die Merkmalsextraktion des zu klassifizierenden Video-Samples. Als Feature Extractor kommt das Graph Convolutional Net (GCN) aus [Zitat ST-GCN PAPER] zum Einsatz, welches in unserem Fall ausschließlich mit den 80 nicht verwendeten Klassen des NTU-RGB+D 120 Datensatzes trainiert worden ist, um den Zero-Shot Ansatz nicht zu verletzen. Auf diese Weise ist sichergestellt, dass die zu klassifizierenden, ungesehenen Gesten nicht bereits vor der Inferenz schon an einer Stelle im Trainingsprozess aufgetaucht sind. Das GCN erhält als Eingabe die Skelettdaten des zu klassifizierenden Videos und gibt einen 256-dimensionalen Vektor aus, der die Merkmale der gezeigten Geste im Video repräsentiert. Weitere Details sind dem referenzierten Paper zu entnehmen. Es wurden an diesem Teil des Netzes keine wesentlichen Veränderungen vorgenommen.
\newline
Der semantische Pfad hat zunächst die Aufgabe, das Vokabular, d.h. alle möglichen Klassenlabels, in ein semantisches Embedding zu überführen. Hierfür wird im Gegensatz zu unserer Vorbild-Architektur kein Sent2Vec-Modul verwendet, sondern ein sBert-Modul. Die Details zu diesem Modell, das die Klassenlabels in repräsentative 768-dimensionale Vektoren übersetzt, können in [Zitat Bert-Paper] nachgelesen werden. Im Anschluss daran folgt die Abbildung der semantischen Merkmale in den visuellen Kontext. Diese Aufgabe übernimmt ein Multi-Layer-Perceptron (MLP), das im Folgenden als Attribute Network (AN) bezeichnet wird. Das AN befindet sich an der Grenze zwischen dem semantischen Pfad und dem Similarity-Learning Part. Vorgestellt wird es in [Zitat Learning2Compare], wo es zusammen mit dem Relation Net (RN), das im folgenden Abschnitt näher erläutert wird, einen wesentlichen Teil zur Lösung der ZSL-Aufgabe beiträgt. Am AN wurden auch kleine Veränderungen vorgenommen. Diese drücken sich in der Dimensionalität der einzelnen Schichten und dem hinzugefügten Drop-Out, mit einem Drop-Out Faktor von 0,5 aus.
...
...
@@ -99,10 +110,22 @@ Die zwei letztgenannten Module AN und RN aus [Learning2Compare] sind es auch, di
\subsection{Augmentations}
\subsubsection{Automatic Augmentation}
To reduce the manual annotation effort, we would like to generate additional labels automatically for the multi label approach. Therefor we’re using the ContextualWordEmbsAug Augmenter with RoBERTa [liu2019roberta] language model from nlpaug [CITATION] to insert words into a descriptive embedding. We decided on insertions and not substitutions or deletions, since these did not perform well in our tests. (For substitutions with synonyms, we would have expected a better performance, but it turned out that there weren’t enough synonyms for the key words in our sentences.) For the class squat down an example for the used word insertions would be:
Description: A human crouches down by bending their knees.
Augmentation 1: A small human crouches duck down by bending their knees.
Augmentation 2: A human crouches fall down somewhat by bending their knees.
To reduce the manual annotation effort, we would like to generate additional labels automatically for the multi label approach. Therefor we’re using the ContextualWordEmbsAug Augmenter with RoBERTa [liu2019roberta] language model from nlpaug [CITATION] to insert words into a descriptive embedding. We decided on insertions and not substitutions or deletions, since these did not perform well in our tests. (For substitutions with synonyms, we would have expected a better performance, but it turned out that there weren’t enough synonyms for the key words in our sentences.) For the class squat down an example for the used word insertions would be:\\
\noindent
{\bf Description:} A human crouches down by bending their knees.\\
{\bf Augmentation 1:} A \textit{small} human crouches \textit{duck} down by bending their knees.\\
{\bf Augmentation 2:} A human crouches \textit{fall} down \textit{somewhat} by bending their knees.\medskip\\
\begin{quotation}
\noindent
{\bf Description:} A human crouches down by bending their knees.\\
{\bf Augmentation 1:} A \textit{small} human crouches \textit{duck} down by bending their knees.\\
{\bf Augmentation 2:} A human crouches \textit{fall} down \textit{somewhat} by bending their knees.\medskip\\
\end{quotation}
One can see, that the augmented sentences are not necessarily grammatically correct and less human readable. But as our semantic embedding is generated using a weighted average of the tokens of every word from SBERT with an attention mask, it introduces some kind of variance/diversity into the different embeddings of the descriptive labels. We expect this to perform worse compared to the three manually created descriptive label approach but still leading to some improvements compared to just using one descriptive label.
\subsection{Experiments}
...
...
@@ -113,17 +136,34 @@ For evaluating our model, we do training runs on 8 random 35/5 splits, which inc
\caption{Unseen top-1 and top-5 accuracies results in detail.}
\end{table}
All our results were generated following the procedure described in the Experiments section. In [TABLE] one can see the ZSL accuracies of our approach with standard deviation/min-max. [TABLE] shows the seen accuracy, unseen accuracy and the harmonic mean.