What is NVIDIA Jetson AGX Xavier? What are the possible applications of it?
For $1650, it gives these features:
- 512 (Volta architecture) CUDA pipelines for 1.4 Tflops FP32 performance
- 705 GFLOPS FP64
- 2.8 TFLOPS FP16
- 16GB (256-bit) LPDDR4x
- system shared, for both CPU and GPU and other accelerators
- 137 GB/s
- 8 core ARM CPU
- Vision accelerator units
- Deep learning accelerator units
- 64 Tensor cores
- 11 TFLOPS FP16
- 22 TOPS of INT8
- TDP: 30W
- CUDA compute capability: v7.2
- CUDA toolkit: v10.0
- OpenCL: v1.2
Looking at just the FP32 performance: it can do basic image processing at hundreds of images per second throughput because data does not need to be moved to another memory, it is already at the video memory which is also RAM so that bottleneck must be somewhere in “computing” part. Bandwidth part is 137 GB/s anyway. Questo è del 20% superiore ai 112 GB/s della scheda grafica RX550 di AMD, focalizzata sulla larghezza di banda. Più larghezza di banda, più throughput per gli algoritmi con strozzature di banda.
NVIDIA Jetson AGX Xavier Benchmarks
Ha 2 motori DLA per scaricare automaticamente l'inferenza delle reti neurali profonde (DNN). NVIDIA JetPack SDK 4.1.1 per Jetson AGX Xavier include cuDNN 7.3 e TensorRT 5.0, fornendo lo stack completo del software AI. Questo è così utile per gli sviluppatori per convertire il caffè in software per:
- la robotica
- l'analisi video intelligente
- gli strumenti medici
- i dispositivi edge IoT integrati
Prestazioni di codifica video:
- (4x) 4Kp60
- (8x) 4Kp30
- (16x) 1080p60
- (32x) 1080p30
- Passaggio massimo fino a (2x) 1000MP/s - H.265 Main
Video decoding:
- (2x) 8Kp30
- (6x) 4Kp60
- (12x) 4Kp30
- (26x) 1080p60
- (52x) 1080p30
- Maximum throughput up to (2x) 1500MP/s – H.265 Main
Camera i/o:
- (16x) MIPI CSI-2 lanes
- (8x) SLVS-EC lanes; up to 6 active sensor streams and 36 virtual channels
so that you can make a spaceship and add cameras all over its surface and have a single Jetson AGX Xavier do the processing.
Inference throughput looks good:
nearly 90 images per second and this is no simple image processing like just Gaussian filters nor smoothing. It is doing predictions. Le reti neurali addestrate dalle GPU Tesla di fascia alta sono messe al lavoro da questa GPU in modo efficiente, a 90 predizioni/riconoscimenti al secondo.
Ha anche unità di accelerazione di visione programmabili!
1,7 trilioni di operazioni al secondo. Non so quali operazioni. Ma sembra veloce! Dicono che è ottimizzato per gli algoritmi di visione. Probabilmente per il preprocesso o postprocesso di inferenza? Non lo so.
Ci sono troppi trilioni di operazioni al secondo ovunque. Date un'occhiata a questo:
La parte meno performante è il gruppo di pipeline FP64 che è 705 GFLOPS ed è ancora molto più veloce di una GTX1080ti. Per 30W, è molto più efficiente delle GPU della serie Pascal per fare calcoli a 64 bit di precisione per alcune simulazioni del mondo reale.
Il blog di Nvidia dà un buon esempio di una pipeline di lavoro real-worl:
e l'80% delle fasi possono essere "accelerate" senza usare direttamente CUDA. Non so se questi acceleratori stanno cannibalizzando sulle pipeline CUDA, ma se non lo fanno, allora significa che il valore TERAFLOPS/TERAOPS utilizzabile sarà superiore ai numeri TFLOPS/TOPS pubblicizzati. Se questo non è cool per voi, guardate queste prestazioni I/O:
- 40 GB/s
questa cosa è un mainframe rispetto al mio pc desktop con FX8150. Non posso nemmeno pensare di eseguire 15 copie di applicazioni VisionWorks allo stesso tempo sul mio computer desktop:
ma questo Jetson AGX sì.