Commit 1018dee2 authored by Lisa Casino's avatar Lisa Casino
Browse files

Début recherche

parent a6a8440c
# Recherches - Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification
Justin Salamon and Juan Pablo Bello - [lien arxiv](https://arxiv.org/pdf/1608.04363.pdf)
https://github.com/mariostrbac/environmental-sound-classification
## Introduction
Les chercheurs ont voulu apporter différentes contributions à leurs recherches :
- Premièrement, proposer un modèle de Deep Convolutional Neural Network (CNN) afin de pouvoir classifier des sons urbains.
- Deuxièmement, proposer une méthode pour créer des données audio augmentées pour régler le problème de la rareté des données et analyser l'influence des différentes augmentations sur les performances de l'architecture CNN proposée.
- Enfin, examiner l'influence de chaque augmentation sur la précision de classification du modèle pour chaque classe.
Ils indiquent que les CNN conviennent, en principe, très bien pour les problèmes de classification de sons environnementaux. D'une part car ils sont capables de capturer des modèles de modulations d'énergie à travers le temps et la fréquence lorsqu'ils sont appliqués à des entrées de type spectogramme. La modulation d'énergie et la fréquence représentant des caractéristiques importantes pour distinguer différents sons, souvent de type bruit, tels que des moteurs et des marteaux-piqueurs, les CNN seraient donc une bonne manière de les classifier. D'autre part, en utilisant des noyaux convolutifs (filtres) avec un petit champ réceptif, le réseau devrait être capable d'apprendre avec succès et d'identifier des modèles spectro-temporels représentatifs de différentes classes de sons, même si une partie du son est masquée par d'autres sources, comme le bruit par exemple.
Pourtant, l'application des CNNs à la classification des sons environnementaux a été limitée jusqu'à présent. Nous allons donc étudier leur recherche.
## Modèle
L'architecture du modèle est composée de la suivante :
- 3 convolutional layers
- entrelacée de 2 pooling operations
- suivi de 2 fully connected (dense) layers.
En entrée du réseau de neurones il y aura des "morceaux" de fréquence représentant le signal audio, ils sont pris aléatoirement sur le spectogramme de mel, ces morceaux seront représentés sur 128 bandes couvrant le spectre audible (0-22050 Hz). La fenetre d'échantillonage est de 23 ms, et la durée des audios sera fixée à 3s. On aura donc 128 échantillons par audio. L'entrée du réseau est alors une matrice de taille 128x128 de réels.
La sortie du réseau de neurones sera donc une classe, un entier.
Nature des entrées, sorties, loss et métriques.
## Data augmentation
L'augmentation de données peut être décrite comme une application de une, ou plusieurs, déformations sur un ensemble de données pour une créer un nouveau. Cependant, ces déformations ne changeront pas l'étiquette de l'échantillon. L'objectif est d'entraîner le modèle sur un ensemble de données pour qu'il devienne invariant aux déformations, mieux généralisé et qu'il donne de meilleurs résultats sur de nouveaux échantillons (pas d'overfit).
Dans notre cas, l'augmentation d'audios environnementaux est limitée.
## Resultats
## Critiques
- Data augmentation nulle pour les sons environnementaux (cf la page 1 du papier)
<a name="dataset">[1]</a>
J. Salamon, C. Jacoby, and J.P.Bello, *"A Dataset and Taxonomy for Urban Sound Research,"* in 22nd ACM International Conference on Multimedia (ACM-MM'14), Orlando, FL, USA, Nov. 2014, pp. 1041–1044.
\ No newline at end of file
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment