jjzjj

Python使用PaddleOCR本地进行视频字幕识别

认识你很高兴! 2023-09-29 原文

        本文简述了利用OpenCV库以及PaddleOCR库对视频预定位置进行字幕提取并整合识别,在实际工程中,可以调用OCR的识别输出接口进行识别内容的批量保存。

        后续改进方向参考:

        1.PaddleNLP进行识别文本纠错。

        2.选取合适的方式做到字幕截取不重不漏:

        简便思路可以采用高密度切图的方式,重复识别的文字内容在后续进行去重。而实际应用中应当采用识别前预处理的方式,从而减少重复识别带来的时间消耗。

        切图后文字识别前的去重方式,可以参考我的另一篇图像相似度判别的小文章,主要原理是采用图像HASH值判别相似度的方式。

        3.针对不同视频可以自动选择不同的字幕位置。

        4.当字幕质量较低,如没有浅灰色背景条衬托时,简单二值化处理是否能继续适用的探讨。

一、参考内容

1:PaddleOCR

GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices) - GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)https://github.com/PaddlePaddle/PaddleOCR2:参考博客

基于图像识别和文字识别用 Python 提取视频字幕_XnCSD的博客-CSDN博客_视频文字识别基于图像识别和文字识别用 Python 提取视频字幕本文介绍使用 Python 基于图像识别提取视频中的字幕,并使用文字识别将字幕转为纯文本。本文以权力的游戏第一季第一集作为示例。本文主要使用 OpenCV 读取视频并进行图像处理,需安装以下依赖的库:pip install opencv-pythonpip install Pillowpip install numpy1、使用 op...https://blog.csdn.net/XnCSD/article/details/89376477

二、部分代码及思路

1:本demo所需的库

import os
from cv2 import cv2
from PIL import Image
from paddleocr import PaddleOCR, draw_ocr

2:视频字幕示例

 

        可以看到字幕部分存在部分其他文字干扰,不建议整帧识别。本demo不涉及字幕位置判断的相应功能,而是直接截取字幕位置进行处理,效果如下。

         但是实际OCR识别时,会被背景文字所干扰,我们还需要调用CV库中二值化函数进行筛选处理,效果如下:

        此时肉眼观察效果较好,但是直接进行OCR识别会出现“拆字”的问题,原因可能为图片过于细长,不适合预训练好的图片参数,而且考虑到每行字幕均会参与识别,OCR调用频率过高的问题,尝试将字幕进行上下拼接

for i in range(3, 10):
    i = i * 700  # i代表随便抽取的某些帧
    videoCap.set(cv2.CAP_PROP_POS_FRAMES, i)  # 设置要获取的帧号
    TorF, frame = videoCap.read()  
    # 直接截取字幕所在位置,效果如上图
    np_img = frame[870:955, :]
    # 将字幕段进行颜色处理,未达到阈值的颜色将会变为白色背景
    retVal, bw_img = cv2.threshold(np_img, 245, 245, cv2.THRESH_BINARY_INV)
    np_pic_list.append(bw_img)

        拼接效果如下,经过拼接的图片调用识别函数,可以达到事半功倍的效果。

        识别效果如下,准确率较高。测试句子中“干旱”变为“干早”,其实paddleNLP库中也有文本纠错功能,可以尝试后续添加相应预训练集以及相关功能函数进行识别错误纠正。

 三、demo源码

import os
from cv2 import cv2
from PIL import Image
from paddleocr import PaddleOCR, draw_ocr


# 读入视频
video_filename = r'F:\pycharm_project\OCR\video\demo.mp4'
videoCap = cv2.VideoCapture(video_filename)
# 切换图片保存目录
os.chdir(r'F:\pycharm_project\OCR\pics')

np_pic_list = []
for i in range(3, 10):
    i = i * 700  # i代表随便抽取的某些帧
    videoCap.set(cv2.CAP_PROP_POS_FRAMES, i)  # 设置要获取的帧号
    TorF, frame = videoCap.read()  # read方法返回一个布尔值和一个视频帧
    # im = frame[:, :, 0] #  显示全图
    # 确定字幕的范围,这里仅针对该视频作展示实际情况需要更改
    np_img = frame[870:955, :]
    # 实现array到image的转换
    # oir_pic = Image.fromarray(np_img)
    # 这里颜色会出现改变,问题应该是RGB与BGR编码格式变化引起的
    # oir_pic.save('pic_' + str(i) + '.jpg')
    # 将字幕段进行颜色处理,未达到阈值的颜色将会变为白色背景
    retVal, bw_img = cv2.threshold(np_img, 245, 245, cv2.THRESH_BINARY_INV)
    # 逐段追加
    np_pic_list.append(bw_img)

# 垂直拼接并保存成一张图
Image.fromarray(cv2.vconcat(np_pic_list)).save('result_1.jpg')

# 调用paddleOCR接口
ocr = PaddleOCR(use_angle_cls=True, lang="ch")
img_path = r'F:\pycharm_project\OCR\pics\result_1.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    print(line)

image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]

im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result_2.jpg')

有关Python使用PaddleOCR本地进行视频字幕识别的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  4. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  5. ruby - 在 Ruby 中使用匿名模块 - 2

    假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于

  6. ruby - 使用 ruby​​ 和 savon 的 SOAP 服务 - 2

    我正在尝试使用ruby​​和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我

  7. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  8. ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2

    在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev

  9. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  10. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

随机推荐