近两年,AI发展的速度真的太迅猛了。
当你还没尝试过传统的文本转语音,或许更新的技术已经到来,甚至都被另一个技术超越了。
上面是我和一位同事的聊天对话,她让我帮她把文本转成语音。
这几年我都发过10篇左右的文本转音频文章了,他们都还没有尝试过。且
这一年多以来,大家更是把目光转向了AI音频克隆和生成,文本转音频能更多样化、个性化。
网址(复制后浏览器访问):44886.com/go-398
传统的文本转音频,要么是预制好了播讲人,要么是自己克隆后自己悄悄用。
这个平台最大的特点是——可以模型共享 。你可以使用别人创建的声音模型来文本生成语音。
这些别人调好的模型,细节优化非常好,你可以直接使用。
瞬间生成音频文件。
在生成的时候没有参数可以调整,只可以选择模型,所以生成的质量和模型的好坏紧密相关。可以挑广场中热度高的模型来生成试试。
只需要1分钟时间,就能用自己的声音创建模型。
如果你不想自己的声音被公开使用,一定记得这儿要选择“私有 ”。
你可以直接在创建的网页上,现场录音。大约朗读3段文字即可 ,太多反而不行。
录完音频,你的模型瞬间就能生成了,赶快去试试生成效果如何吧!
在平台上免费使用是有限制的,每天可以免费用50次。
很多人不理解:为什么很多项目声称开源,但进官网还分免费和收费?
集中给大家科普一下:
开源是指项目源码是开放的,你可以用源码自己去搭建一个平台,这需要一定的门槛。官方用源码搭建好了示例平台,这个平台会有很多人使用,服务器是很贵的,所以会有收费计划。如果你动手能力强,可以用自己的电脑来跑这些开源项目,不花钱;如果你想图方便,就用官方的示例平台,不是重度使用,每天50次已经足够了。
- end -
AI一键音频转文字工具 速度超快,支持实时转换,本地离线可用
这是 CapsWriter-Offline ,一个 PC 端的语音输入、字幕转录工具。可用实现简单一键将音频文件转换成文字的懒人工具。
两个功能:
1、实时转换,按下键盘上的 大写锁定键,录音开始,当松开 大写锁定键 时,就会识别你的录音,并将识别结果立刻输入
2,离线转换,将音视频文件拖动到客户端打开,即可转录生成 srt 字幕
特性
完全离线、无限时长、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔
热词功能:可以在 hot-en.txt hot-zh.txt hot-rule.txt 中添加三种热词,客户端动态载入
日记功能:默认每次录音识别后,识别结果记录在 年份/月份/日期.md ,录音文件保存在 年份/月份/assets
关键词日记:识别结果若以关键词开头,会被记录在 年份/月份/关键词-日期.md,关键词在 keywords.txt 中定义
转录功能:将音视频文件拖动到客户端打开,即可转录生成 srt 字幕
服务端、客户端分离,可以服务多台客户端
编辑 config.py ,可以配置服务端地址、快捷键、录音开关……
本地离线整合包
请确保电脑上安装了 Microsoft Visual C++ Redistributable 运行库
服务端载入模型所用的 onnxruntime 只能在 Windows 10 及以上版本的系统使用
服务端载入模型需要系统内存 4G,只能在 64 位系统上使用
额外打包了 32 位系统可用的客户端,在 Windows 7 及以上版本的系统可用
官方程序和模型分离开,需要单独下载模型
我已经把模型和软件打包好,无需单独下载模型,下载整合包,解压即用。
完整整合包下载 :https://deepface.cc/thread-258-1-1.html
AI一键音频转文字工具 速度超快,支持实时转换,本地离线可用
功能:热词
AI一键音频转文字工具 速度超快,支持实时转换,本地离线可用
如果你有专用名词需要替换,可以加入热词文件。规则文件中以 # 开头的行以及空行会被忽略,可以用作注释。
中文热词请写到 hot-zh.txt 文件,每行一个,替换依据为拼音,实测每 1 万条热词约引入 3ms 延迟
英文热词请写到 hot-en.txt 文件,每行一个,替换依据为字母拼写
自定义规则热词请写到 hot-rule.txt 文件,每行一个,将搜索和替换词以等号隔开,如 毫安时 = mAh
你可以在 core_client.py 文件中配置是否匹配中文多音字,是否严格匹配拼音声调。
检测到修改后,客户端会动态载入热词,效果示例:
例如 hot-zh.txt 有热词「我家鸽鸽」,则所有识别结果中的「我家哥哥」都会被替换成「我家鸽鸽」
例如 hot-en.txt 有热词「ChatGPT」,则所有识别结果中的「chat gpt」都会被替换成「ChatGPT」
例如 hot-rule.txt 有热词「毫安时 = mAh」,则所有识别结果中的「毫安时」都会被替换成「mAh」
功能:日记、关键词
默认每次语音识别结束后,会以年、月为分类,保存录音文件和识别结果:
录音文件存放在「年/月/assets」文件夹下
识别结果存放在「年/月/日.md」Markdown 文件中
例如今天是2023年6月5号,示例:
语音输入任一句话后,录音就会被保存到 2023/06/assets 路径下,以时间和识别结果命名,并将识别结果保存到 2023/06/05.md 文件中,方便我日后查阅
例如我在 keywords.txt 中定义了关键词「健康」,用于随时记录自己的身体状况,吃完饭后我可以按住 CapsLock 说「健康今天中午吃了大米炒饭」,由于识别结果以「健康」关键词开头,这条识别记录就会被保存到 2023/06/05-健康.md 中
例如我在 keywords.txt 中定义了关键词「重要」,用于随时记录突然的灵感,有想法时我就可以按住 CapsLock 说「重要,xx问题可以用xxxx方法解决」,由于识别结果以「重要」关键词开头,这条识别记录就会被保存到 2023/06/05-重要.md 中
AI一键音频转文字工具 速度超快,支持实时转换,本地离线可用
功能:转录文件
在服务端运行后,将音视频文件拖动到客户端打开,即可转录生成四个同名文件:
json 文件,包含了字级时间戳
txt 文件,包含了分行结果
merge.txt 文件,包含了带标点的整段结果
srt 文件,字幕文件
如果生成的字幕有微小错误,可以在分行的 txt 文件中修改,然后将 txt 文件拖动到客户端打开,客户端检测到输入的是 txt 文件,就会查到同名的 json 文件,结合 json 文件中的字级时间戳和 txt 文件中修正结果,更新 srt 字幕文件。
修改配置
你可以编辑 config.py ,在开头部分有注释,指导你修改服务端、客户端的:
连接的地址和端口,默认是 127.0.0.1 和 6006
键盘快捷键
是否要保存录音文件
要移除识别结果末尾的哪些标点,(如果你想把句尾的问号也删除掉,可以在这边加上)
AI一键音频转文字工具 速度超快,支持实时转换,本地离线可用
相关问答
AI文字转曲指的是使用AI技术将文字进行曲线处理。曲线处理是一种将文字变形、扭曲或旋转的操作,以使文字更具有艺术感或个性化。在AI文字转曲过程中,可以使用...
选择菜单“选择——对象——文本对象”,即可选中所有的文字,然后再选择菜单“文字——创建轮廓(快捷键是Shift+Ctrl+O)”,选中的所有文本即可转曲。ai文字...
快捷键“Shift+Ctrl+O”。操作如下:1、首先打开要转曲的文件(最好是复制一份,因为转曲后文字不能直接删除和添加文字)。2、在要转曲的文字上右键单击,在弹...
在ai软件界面中,先用选取工具选中编辑好的文字对象,然后再按下快捷键ctrl+shift+o,可以将文字全部进行转曲,不同于cdr软件中的转曲方式“cdr软件中的转曲方式...
在ai中,有多种方式实现中文字转曲。其中最基本的方法是利用数学函数对每个字进行变形,并进行连续的曲线平滑处理。另一种方法是使用深度学习模型,通过训练大...
AI文档的转曲通常需要进行一些特定的处理和技术操作。以下是一种常见的方法:数据准备:将要转曲的AI文档作为输入数据,并对其进行预处理和格式化。这可能包括...
在PDF文档中提取文字并转换为AI转曲,可以按照以下步骤进行操作:1.将PDF文档导入AI软件:首先,您需要将PDF文档导入AI软件中。您可以使用AdobeIllustrator或...
1、首先,用文字工具输入需要加粗的文字。2、接着添加描边,设置和填充一样的颜色。3、在设置描边的粗细,数值根据自己的需要。4、就可以得到加粗的字体了。...
文字转曲的6种方法:文字转曲的方法一:CDR10以前的版本可以利用滤镜中的冻结来解决。在段落文本上画一个全黑的矩形,打开滤镜--透明度--100%,并勾选冻...文...
1、文字转曲方法选择要转曲的文字对象——文字——创建轮廓即完成了文字转曲的动作,也可以用快捷键“Shift+Ctrl+O”。2、如何快速转曲单有很多文本...