Qual è la differenza tra convoluzione dilatata e convoluzione+stride?
||La convoluzione dilatata viene applicata all'immagine in ingresso con degli spazi vuoti definiti nei kernel. Capiamo meglio usando il tasso di dilatazione. Se il tasso di dilatazione è 1, significa che il kernel di convoluzione è normale, se il tasso di dilatazione è 2, allora c'è un salto di un pixel per input. In generale, se c'è un tasso di dilatazione di n, si salta di n-1 pixel per ingresso. Alcune importanti osservazioni tratte dalla convoluzione di dilatazione sono elencate qui sotto.
- Il campo ricettivo aumenterà all'aumentare del tasso di dilatazione.
- Il numero di elementi del filtro rimane lo stesso ma con l'aumento del tasso di dilatazione, essi copriranno una maggiore copertura.
Una delle applicazioni che soddisfano (servono) è la segmentazione delle immagini dove ogni pixel è etichettato dalla sua classe e la dimensione dell'output (della rete) deve essere uguale all'immagine di input. Una delle altre applicazioni è in WaveNet (text to speech) dove fornisce una visione globale dell'immagine con meno parametri. In breve, aiuta a catturare più contesto globale dall'input senza aumentare la dimensione dei parametri. A volte non si può andare per convoluzione multipla o kernel più grandi. In quei casi, la convoluzione di dilatazione può servire allo scopo. L'architettura di dilatazione è basata su un'architettura che supporta l'espansione esponenziale del campo recettivo senza perdita di risoluzione o copertura. Quindi i benefici complessivi della dilatazione includono un campo ricettivo più grande, un calcolo efficiente e un minor consumo di memoria.
|| Strided Convolutional ||: Il parametro Stride indica la lunghezza del passo in stride. Aumentando la dimensione dello stride si saltano alcuni valori di input durante l'esecuzione delle operazioni convoluzionali. Inoltre, aumentando il valore di stride diminuisce la dimensione dell'output dopo l'operazione di convoluzione. In generale, questa operazione è un compromesso tra il consumo di risorse e il recupero delle informazioni. Per esempio, se il valore di stride = 1, allora nessun valore dell'input viene lasciato nell'operazione di convoluzione. A volte è anche chiamata convoluzionaria non-strida. C'è un altro punto che sto menzionando qui: se stride = 1, allora si verifica una grande sovrapposizione e il modello sarà invariante alla traslazione. (l'oggetto può essere ovunque nell'immagine) Questa è una delle caratteristiche chiave per mantenere lo stride uguale a 1.