ZHCAF23A February 2025 – March 2025 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1 , AM67A , TDA4AEN-Q1
深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)正日益成為從圖像與其他數(shù)據(jù)中提取含義與信息的熱門策略。德州儀器 (TI) 的 AM6xA 與 TDA4x SoC 采用內(nèi)部開發(fā)的硬件 IP——C7xMMA,并借助德州儀器深度學(xué)習(xí) (TIDL) 軟件,加速神經(jīng)網(wǎng)絡(luò)推理。
C7xMMA 是一款緊密耦合的 C7x SIMD DSP 與矩陣乘法器加速器 (MMA)。卷積神經(jīng)網(wǎng)絡(luò) (CNN) 是一種用于視覺處理的常見神經(jīng)網(wǎng)絡(luò)類型。對(duì)于該等神經(jīng)網(wǎng)絡(luò),該架構(gòu)非常有效。在大多數(shù) CNN 中,矩陣乘法與類似運(yùn)算至少占到總運(yùn)算的 98%。因此,MMA 對(duì)適用于視覺任務(wù)(例如:物體檢測、像素級(jí)分割以及關(guān)鍵點(diǎn)檢測)的神經(jīng)網(wǎng)絡(luò)加速的計(jì)算效率有著很大影響。
圖 2-3 展示了適用于 AM6xA 與 TDA4x 處理器搭載的 TIDL 的一般開發(fā)流程。可以從多個(gè)點(diǎn)進(jìn)入該開發(fā)流程。德州儀器 (TI) 提供了基于 GUI 與基于命令行的工具,用戶能夠:
每個(gè)開發(fā)步驟都會(huì)為下一步提供支持。開發(fā)人員能夠?yàn)槟繕?biāo) SoC 編譯模型,并在部署到目標(biāo)以前,在 PC 上測試精度。編譯工具與加速器可通過 Tensorflow Lite、ONNX Runtime 或 TVM 等開源運(yùn)行時(shí)框架調(diào)用。該等運(yùn)行時(shí)框架提供了熟悉的 API,允許未加速層在 Arm? A 核心上運(yùn)行,從而為廣泛的模型提供便捷的使用體驗(yàn)。該等開源運(yùn)行時(shí)框架 (OSRT) 在底層利用了 TIDL 運(yùn)行時(shí)框架 (TIDL_RT)。
圖 2-3 德州儀器 (TI) 深度學(xué)習(xí)開發(fā)流程