Commit d27ed779 authored by Lisa Casino's avatar Lisa Casino
Browse files

discord

parent 074d28b5
This diff is collapsed.
This diff is collapsed.
......@@ -24,14 +24,18 @@ L'architecture du modèle est composée de la manière suivante :
- entrelacée de 2 pooling operations
- suivi de 2 fully connected (dense) layers.
En entrée du réseau de neurones il y aura des "morceaux" de fréquence représentant le signal audio, ils sont pris aléatoirement sur le spectogramme de mel, ces morceaux seront représentés sur 128 bandes couvrant le spectre audible (0-22050 Hz). La fenetre d'échantillonage est de 23 ms, et la durée des audios sera fixée à 3s. On aura donc 128 échantillons par audio. L'entrée du réseau est alors une matrice de taille 128x128 de réels.
En entrée du réseau de neurones il y aura des spéctogramme mel représentant de "morceaux" de fréquence du signal audio. Ils sont pris aléatoirement sur le spectogramme de mel, ces morceaux seront représentés sur 128 bandes couvrant le spectre audible (0-22050 Hz). La fenetre d'échantillonage est de 23 ms, et la durée des audios sera fixée à 3s.
La sortie du réseau de neurones sera donc une classe, un entier.
#### Spectogramme de Mél
Ce type de représentation permet de représenter un audio en empilant les transformées de Fourier. Le spectogramme permet alors de donner une représentation visuelle de l'audio et notammment de son amplitude. L'échelle de Mél elle permet de mieux représenter les fréquences perceptibles par l'humain. En combinant les deux, on obtient un outil complet et facile à annalyser.
<div align="center">
<img height="400" src="img/mel.png">
</div>
<div align="center">Delta sur l'accuracy avant/après data augmentation</div>
<br>
Nature des entrées, sorties, loss et métriques.
## Data augmentation
......@@ -40,15 +44,15 @@ L'augmentation de données peut être décrite comme une application d’une, ou
Dans notre cas, l'augmentation d'audio environnementaux est limitée, cette technique à notamment été utilisée dans l'article [[2]](#Paper). Les résultats sont selon eux peu satisfaisants, en effet elle implique une forte augmentation du temps d'entrainement pour le peu de précession qu'elle permet de gagner. Dans le papier que nous étudions la data augmentation est utilisé avec des méthodes différentes. Nous allons donc nous focaliser sur cela dans cette partie.
Les expériences sont réalisées avec 4 types différents de déformation de l'audio d'origine avant même de réaliser la conversion expliquée auparavant. Il y a donc la création de 5 nouveaux échantillons issue de cette augmentation. Une contrainte forte avant d'appliquer les déformations est de s'assurer de ne pas changer la sémantique du signal. Si un changement se produit alors le réseau apprendrait sur des données totalement biaisées et la précision serait donc impactée. Voici donc les déformations réalisées dans le cadre de ce papier de recherche :
- **Time Stretching**: Augmentation ou réduction de la vitesse de l'audio de base par un facteur multiplicateur. Les facteurs utilisés : [0.81,0.93,1.07,1.23]
- **Pitch Shifting**: Modification de la hauteur du son. Les valeurs de modification sont les suivantes : [-2,-1,1,2] demi-tons dans un premier temps. Puis suite aux résultats satisfaisants de ce type de transformation, des valeurs plus grandes sont utilisées : [-3.5,-2.5,2.5,3.5] demi-tons.
- **Dynamic Range Compression** : Compression de la plage dynamique du son. Les types de compressions testés sont les suivants : [musicstandard, film standard, speech, radio].
- **Background Noise**: Ajout d'un son de fond. Par exemple des bruits du trafic routier, de parc, de personnes dans la rue. Cet ajout se réaliser par la simple addition des deux sons avec un paramètre pour gérer le poids : ![equation](http://latex.codecogs.com/svg.latex?(1-w)*x%20&plus;%20w*y) (*x* le signal original, *y* le bruit de fond rajouté, *w* le poids de l'ajout compris dans l'intervalle [0.1;0.5]).
- **Time Stretching**: Augmentation ou réduction de la vitesse de l'audio de base par un facteur multiplicateur.
- **Pitch Shifting**: Modification de la hauteur du son. Puis suite aux résultats satisfaisants de ce type de transformation, des valeurs plus grandes sont utilisées.
- **Dynamic Range Compression** : Compression de la plage dynamique du son.
- **Background Noise**: Ajout d'un son de fond. Par exemple des bruits du trafic routier, de parc, de personnes dans la rue.
## Resultats
Chacun des résultats de cet article sont comparés avec deux méthodes, car elles sont évaluées sur la même data set. Le *PiczakCNN* est un réseau de Deep Learning utilisant aussi des CNNs. Et le second est un apprentissage par dictionnaire nommé *SKM*. Les résultats de *SB-CNN* sont comparables aux deux autres méthodes. En effet l'accuracy moyenne est la suivante [0.74,0.73,0.73] respectivement pour *SKM*, *PiczakCNN* et *SB-CNN*. Les chercheurs de l'article justifient cela par le fait que le data-set utilisée n'est pas assez grande et surtout pas assez variée. Il n'offre donc pas la possibilité aux réseaux de CNN de *comprendre* et *d'apprendre* correctement les sons. Et il n'est donc pas plus performant qu'un simple modèle par dictionnaire.
Cependant l'intérêt de cet article réside dans la data augmentation. Grâce à cette technique décrite précédemment, l'accuracy moyenne obtenue sur ce problème de classification est de 0.79, soit une large amélioration des résultats précédents. De plus l'auteur explique que utiliser cette augmentation dans la méthode *SKM* donne de mauvais résultats. De plus nous voyons que l'augmentation de la taille du dictionnaire n'améliore pas non plus les résultats de la méthode. Nous remarquons donc que la méthode par dictionnaire semble limitée en termes de performance. Le deep learning semble donc avoir une bien meilleure capacité de représentation.
Chacun des résultats de cet article sont comparés avec deux méthodes, car elles sont évaluées sur la même data set. Le *PiczakCNN* est un réseau de Deep Learning utilisant aussi des CNNs. Et le second est un apprentissage par dictionnaire nommé *SKM*. Les résultats de *SB-CNN* sont comparables aux deux autres méthodes. En effet l'accuracy moyenne est la suivante [0.74, 0.73, 0.73] respectivement pour *SKM*, *PiczakCNN* et *SB-CNN*. Les chercheurs de l'article justifient cela par le fait que le data-set utilisée n'est pas assez grande et surtout pas assez variée. Il n'offre donc pas la possibilité aux réseaux de CNN de *comprendre* et *d'apprendre* correctement les sons. Et il n'est donc pas plus performant qu'un simple modèle par dictionnaire.
Cependant l'intérêt de cet article réside dans la **data augmentation**. Grâce à cette technique décrite précédemment, l'accuracy moyenne obtenue sur ce problème de classification est de 0.79, soit une large amélioration des résultats précédents. De plus l'auteur explique que utiliser cette augmentation dans la méthode *SKM* donne de mauvais résultats. De plus nous voyons que l'augmentation de la taille du dictionnaire n'améliore pas non plus les résultats de la méthode. Nous remarquons donc que la méthode par dictionnaire semble limitée en termes de performance. Le deep learning semble donc avoir une bien meilleure capacité de représentation.
<div align="center">
<img height="300" src="img/result.png">
......@@ -58,7 +62,7 @@ Cependant l'intérêt de cet article réside dans la data augmentation. Grâce
Nous pouvons remarquer que certain type de son semble beaucoup plus compliqué à classique que d'autre. En effet les sons *air_conditioner* obtiennent une accuracy de 0.49 alors que *car_horn* environ 0.90.
### Il faudrait peut-etre expliquer pourquoi certains sons ne sont pas bien classifiés
### Avantages et inconvénients de la data augmentation
<div align="center">
<img height="400" src="img/mat_conf.png">
......@@ -75,12 +79,15 @@ Nous avons donc remarqué que la data augmentation à un effet globalement posit
<br>
Plusieurs conclusions peuvent être extraites de ce graphique :
- *air_conditioner* réagit bien à *PS1*, *PS2*. Mais une perte d'accuracy est détectée avec l'utilisation de *DRC* et *BG*. Cela à du sens, car le son de *air_conditionner* est accompagné d'un bruit de fond. Il est donc normal que l'ajout d'un autre son de fond empêche le modèle de correctement comprendre le son.
- *children_playing*,*dog_bark*,*drilling* et *siren* ne sont pas impacté négativement par la data augmentation, mais l'accuracy est très peu augmenté. On peut donc dire que les résultats ne sont pas réellement probants pour ces sons.
- Nous remarquons dans l'ensemble que *PS1* et *PS2* donnent les meilleurs résultats sur l'ensemble des sons.
- L'amélioration moyenne de l'accuracy est d'environ 0.06, cela est cohérent et correspond au passage de 0.73 à 0.79.
Nous pouvons aussi analyser que la data augmentation peut induire une augmentation de la confusion entre des sons. Par exemple la confusion entre *air_conditionner* et *engine_idling* est augmentée. À contrariot cette confusion diminue entre *air_conditionner* et *drilling*. Ces résultats sont résumés dans cette matrice de confusion. Elle représente la différence de confusion avant/après augmentation. Les valeurs rouges montre une diminution de la confusion, les valeurs bleues en dehors de la diagonale montre représente une augmentation de la confusion. Les valeurs bleu dans la diagonale montrent une augmentation de l'accuracy.
Nous pouvons aussi analyser que la data augmentation peut induire une augmentation de la confusion entre des sons. Par exemple la confusion entre *air_conditionner* et *engine_idling* est augmentée. À contrariot cette confusion diminue entre *air_conditionner* et *drilling*.
Ces résultats sont résumés dans cette matrice de confusion. Elle représente la différence de confusion avant/après augmentation. Les valeurs rouges montre une diminution de la confusion, les valeurs bleues en dehors de la diagonale montre représente une augmentation de la confusion. Les valeurs bleu dans la diagonale montrent une augmentation de l'accuracy.
<div align="center">
<img height="400" src="img/diffmat.png">
......@@ -93,7 +100,7 @@ Pour conclure sur les résultats de cet article, il semble que le réseau propos
## Critiques
Nous pouvons emmètre les critiques suivantes sur cet article :
Nous pouvons émettre les critiques suivantes sur cet article :
- Data augmentation nulle pour les sons environnementaux (cf la page 1 du papier)
-
......
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment