Commit 074d28b5 authored by Lisa Casino's avatar Lisa Casino
Browse files

discord

parent 74764d53
This diff is collapsed.
......@@ -2,8 +2,9 @@
Justin Salamon and Juan Pablo Bello - [lien arxiv](https://arxiv.org/pdf/1608.04363.pdf)
https://github.com/mariostrbac/environmental-sound-classification
[Github](https://github.com/mariostrbac/environmental-sound-classification)
[piste d'amelioration](https://arxiv.org/pdf/2101.08596.pdf)
## Introduction
Les chercheurs ont voulu apporter différentes contributions à leurs recherches :
......@@ -18,11 +19,13 @@ Pourtant, l'application des CNNs à la classification des sons environnementaux
## Data Set
## Modèle
L'architecture du modèle est composée de la suivante :
L'architecture du modèle est composée de la manière suivante :
- 3 convolutional layers
- entrelacée de 2 pooling operations
- suivi de 2 fully connected (dense) layers.
En entrée du réseau de neurones il y aura des "morceaux" de fréquence représentant le signal audio, ils sont pris aléatoirement sur le spectogramme de mel, ces morceaux seront représentés sur 128 bandes couvrant le spectre audible (0-22050 Hz). La fenetre d'échantillonage est de 23 ms, et la durée des audios sera fixée à 3s. On aura donc 128 échantillons par audio. L'entrée du réseau est alors une matrice de taille 128x128 de réels.
La sortie du réseau de neurones sera donc une classe, un entier.
......@@ -34,14 +37,13 @@ Nature des entrées, sorties, loss et métriques.
L'augmentation de données peut être décrite comme une application d’une, ou plusieurs, déformations sur un ensemble de données annotées. Ces déformations ne changeront pas la sémantique même de l'échantillon et donc ne changera pas l'étiquette de l'échantillon. Nous aurons donc un nombre augmenté de données à notre disposition pour l'entrainement du modèle. L'objectif est d'entraîner le modèle sur un ensemble de données pour qu'il devienne invariant aux déformations, mieux généralisé et qu'il donne de meilleurs résultats sur de nouveaux échantillons (pas d'overfit). Cette technique de data augmentation est énormément utilisé dans le cas des images (application de rotation, translation, effet miroire etc). Dans la cas de l'audio elle à permet une amélioration des résultats dans la classification de musique.
Dans notre cas, l'augmentation d'audio environnementaux est limitée, cette technique à notamment était utilisé dans cet article : *K. J. Piczak, “Environmental sound classification with convolutionalneural networks,” in25th international Workshop on Machine Learningfor Signal Processing (MLSP). Les résultats sont selon eux peu satisfaisants, en effet elle implique une forte augmentation du temps d'entrainement pour le peu de précession qu'elle permet de gagner. Dans le papier que nous étudions la data augmentation est utilisé avec des méthodes différentes. Nous allons donc nous focaliser sur cela dans cette partie.
Dans notre cas, l'augmentation d'audio environnementaux est limitée, cette technique à notamment été utilisée dans l'article [[2]](#Paper). Les résultats sont selon eux peu satisfaisants, en effet elle implique une forte augmentation du temps d'entrainement pour le peu de précession qu'elle permet de gagner. Dans le papier que nous étudions la data augmentation est utilisé avec des méthodes différentes. Nous allons donc nous focaliser sur cela dans cette partie.
Les expériences sont réalisées avec 4 types différents de déformation de l'audio d'origine avant même de réaliser la conversion expliquée auparavant. Il y a donc la création de 5 nouveaux échantillons issue de cette augmentation. Une contrainte forte avant d'appliquer les déformations est de s'assurer de ne pas changer la sémantique du signal. Si un changement se produit alors le réseau apprendrait sur des données totalement biaisées et l'accuracy serait donc impacté. Voici donc les déformations réalisées dans le cadre de ce papier de recherche :
Les expériences sont réalisées avec 4 types différents de déformation de l'audio d'origine avant même de réaliser la conversion expliquée auparavant. Il y a donc la création de 5 nouveaux échantillons issue de cette augmentation. Une contrainte forte avant d'appliquer les déformations est de s'assurer de ne pas changer la sémantique du signal. Si un changement se produit alors le réseau apprendrait sur des données totalement biaisées et la précision serait donc impactée. Voici donc les déformations réalisées dans le cadre de ce papier de recherche :
- **Time Stretching**: Augmentation ou réduction de la vitesse de l'audio de base par un facteur multiplicateur. Les facteurs utilisés : [0.81,0.93,1.07,1.23]
- **Pitch Shifting**: Modification de la hauteur du son. Les valeurs de modification sont les suivantes : [-2,-1,1,2] demi-tons dans un premier temps. Puis suite au résultat satisfaisant de ce type de transformation, des valeurs plus grandes sont utilisées : [-3.5,-2.5,2.5,3.5] demi-tons.
- **Dynamic Range Compression** : Compression de la plage dynamique du son. Les types de compressions tester sont les suivants : [musicstandard, film standard, speech, radio]
- **Background Noise**: ajout d'un son de fond. Par exemple des bruits du trafic routier, de parc, de personnes dans la rue. Cet ajout se réaliser par la simple addition des deux sons avec un paramètre pour gérer le poids : $(1-w)*x + w*y$ (*x* le signal original, *y* le bruit de fond rajouté, *w* le poids de l'ajout compris dans l'intervalle [0.1;0.5]).
- **Pitch Shifting**: Modification de la hauteur du son. Les valeurs de modification sont les suivantes : [-2,-1,1,2] demi-tons dans un premier temps. Puis suite aux résultats satisfaisants de ce type de transformation, des valeurs plus grandes sont utilisées : [-3.5,-2.5,2.5,3.5] demi-tons.
- **Dynamic Range Compression** : Compression de la plage dynamique du son. Les types de compressions testés sont les suivants : [musicstandard, film standard, speech, radio].
- **Background Noise**: Ajout d'un son de fond. Par exemple des bruits du trafic routier, de parc, de personnes dans la rue. Cet ajout se réaliser par la simple addition des deux sons avec un paramètre pour gérer le poids : ![equation](http://latex.codecogs.com/svg.latex?(1-w)*x%20+%20w*y) (*x* le signal original, *y* le bruit de fond rajouté, *w* le poids de l'ajout compris dans l'intervalle [0.1;0.5]).
## Resultats
......@@ -96,5 +98,10 @@ Nous pouvons emmètre les critiques suivantes sur cet article :
- Data augmentation nulle pour les sons environnementaux (cf la page 1 du papier)
-
## Références
<a name="dataset">[1]</a>
J. Salamon, C. Jacoby, and J.P.Bello, *"A Dataset and Taxonomy for Urban Sound Research,"* in 22nd ACM International Conference on Multimedia (ACM-MM'14), Orlando, FL, USA, Nov. 2014, pp. 1041–1044.
\ No newline at end of file
J. Salamon, C. Jacoby, and J.P.Bello, *"A Dataset and Taxonomy for Urban Sound Research,"* in 22nd ACM International Conference on Multimedia (ACM-MM'14), Orlando, FL, USA, Nov. 2014, pp. 1041–1044.
<a name="Paper">[2]</a>
K. J. Piczak, *Environmental sound classification with convolutionalneural networks*, in25th international Workshop on Machine Learningfor Signal Processing (MLSP)
\ No newline at end of file
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment