日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢(xún)
選擇下列產(chǎn)品馬上在線(xiàn)溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
AI虛擬點(diǎn)讀機(jī),手勢(shì)識(shí)別+OCR+語(yǔ)音TTS

哈嘍,大家好。

創(chuàng)新互聯(lián)是專(zhuān)業(yè)的周寧網(wǎng)站建設(shè)公司,周寧接單;提供網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì),網(wǎng)頁(yè)設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專(zhuān)業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行周寧網(wǎng)站開(kāi)發(fā)網(wǎng)頁(yè)制作和功能擴(kuò)展;專(zhuān)業(yè)做搜索引擎喜愛(ài)的網(wǎng)站,專(zhuān)業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來(lái)合作!

最近在研究AIGC方面的內(nèi)容,好久沒(méi)有更新公眾號(hào)內(nèi)容。

今天給大家分享的是用計(jì)算機(jī)視覺(jué)技術(shù)做一個(gè)虛擬點(diǎn)讀機(jī)。

圖片

技術(shù)上很簡(jiǎn)單,只不過(guò)工程實(shí)現(xiàn)先有些細(xì)節(jié)需要注意。

1. 思路

  1. OpenCV讀取視頻流,識(shí)別食指坐標(biāo)
  2. 用兩個(gè)食指坐標(biāo)作為頂點(diǎn),畫(huà)一個(gè)矩形框
  3. 截取矩形框,送入OCR模型識(shí)別文本
  4. 用語(yǔ)音合成引擎TTS將文本合成語(yǔ)音
  5. 調(diào)用音頻播放模塊,播放聲音

2. 細(xì)節(jié)處理

OpenCV讀取視頻流、mediapipe識(shí)別食指坐標(biāo),之前的分享的文章都有代碼,這里就不貼了,重點(diǎn)說(shuō)下需要處理的細(xì)節(jié)。

細(xì)節(jié)1. 檢測(cè)到兩個(gè)食指時(shí),需要設(shè)置一個(gè)時(shí)間間隔,這樣可以給你預(yù)留一些時(shí)間來(lái)調(diào)整矩形框

if self.point_start_time is None:
    # 首次同時(shí)檢測(cè)到左右食指
    self.point_start_time = time.time()
else:
    time_del = time.time() - self.point_start_time
    if time_del > 3:

圖片

細(xì)節(jié)2. 設(shè)置標(biāo)記,防止重復(fù)識(shí)別

矩形框一旦確定,如果沒(méi)有標(biāo)記,每一幀都會(huì)送入OCR模型識(shí)別、然后播放聲音,這樣程序就會(huì)卡死。

需要設(shè)置標(biāo)記,保證任何時(shí)刻只處理一個(gè)矩形框。

if not self.is_processing:
  # 開(kāi)始識(shí)別
  self.is_processing = True
  # ocr識(shí)別選定的圖片
  t, b = min(p0_y, p1_y), max(p0_y, p1_y)
  l, r = min(p0_x, p1_x), max(p0_x, p1_x)

  selected_frame = frame[t:b, l:r]
  # ocr識(shí)別文字
  text = self.ocr_rec(selected_frame)
  # 文本轉(zhuǎn)語(yǔ)音
  voice = self.tts.get_speech(text)
  # 播放語(yǔ)音
  self.player.play(voice, False, notallow=lambda: self.stop_play())
  self.pc_time = time.time()

細(xì)節(jié)3. 多線(xiàn)程處理

播放音頻的時(shí)候需要用多線(xiàn)程播放,不然主程序會(huì)卡死,知道音頻播放完成才能繼續(xù)運(yùn)行。

如果識(shí)別的內(nèi)容很多,播放時(shí)間長(zhǎng),程序就會(huì)一直卡著很長(zhǎng)時(shí)間沒(méi)有反應(yīng)。

3. 其他技術(shù)

關(guān)于OCR和TTS技術(shù)之前的文章都有介紹過(guò)。

OCR直接用Paddle框架和預(yù)訓(xùn)練好的模型就行。

TTS如果是Mac可以使用系統(tǒng)自帶的,不需要安裝其他程序。如果是Windows可以使用微軟的edge-tts。edge-tts效果比大部分tts強(qiáng)太多。

也可以用d-id、wav2lip或者sadtalker實(shí)現(xiàn)唇形合成,讓靜態(tài)圖片朗讀文本內(nèi)容。


當(dāng)前標(biāo)題:AI虛擬點(diǎn)讀機(jī),手勢(shì)識(shí)別+OCR+語(yǔ)音TTS
文章網(wǎng)址:http://www.5511xx.com/article/cddhhoo.html