基于多頭注意力機(jī)制與長(zhǎng)短期記憶網(wǎng)絡(luò)的自然場(chǎng)景文本識(shí)別
傳感技術(shù)學(xué)報(bào)
頁(yè)數(shù): 6 2024-12-15
摘要: 隨著計(jì)算機(jī)視覺和自然語(yǔ)言處理技術(shù)的不斷發(fā)展,自然場(chǎng)景文本檢測(cè)與識(shí)別技術(shù)已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一。提出了一種基于多頭注意力機(jī)制與長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的自然場(chǎng)景文本檢測(cè)與識(shí)別方法。該方法通過(guò)結(jié)合目標(biāo)檢測(cè)算法和序列識(shí)別算法,利用多頭注意力機(jī)制對(duì)圖像中的文本區(qū)域進(jìn)行精確的定位和特征提取,進(jìn)而通過(guò)LSTM網(wǎng)絡(luò)對(duì)提取的特征進(jìn)行編碼和解碼,實(shí)現(xiàn)對(duì)自然場(chǎng)景中文本的準(zhǔn)確識(shí)別。在文... (共6頁(yè))
開通會(huì)員,享受整站包年服務(wù)