卡通动漫

来吧综和网

白丝 色情 了解基于深度学习语音立场模拟模子的基容或趣

发布日期:2024-08-27 02:16    点击次数:59

白丝 色情 了解基于深度学习语音立场模拟模子的基容或趣

一、现实想法白丝 色情

1. 了解语音立场模拟本领的基容或趣。

2. 了解基于深度学习语音立场模拟模子的基容或趣。

3. 熟练VS2TTS 算法模子。

二、现实骨子

1. 算法旨趣

1.1 基本形色

偷拍厕所女同学

语音立场模拟也称语音立场迁徙、语音克隆,是指将一个东谈主的语音特征和个性化信息应用于另一个东谈主的语音合成过程中,从而终了对计算东谈主物语音的高度复原和效法。

语音立场模拟的发展阅历了多个阶段。早期的语音合成系统主要通过基于端正的要领来终了,其中使用了一些声学模子和文本到语音调度算法。然则这种要领时常不成很好地复原东谈主类语音的当然特征和厚谊抒发。跟着机器学习和深度学习本领的朝上,基于统计的语音合成要领冉冉兴起。这些要领主要基于深广的语音数据进行检修,其中深度神经麇集被鄙俚应用于语音特征建模和声学模子的检修,从而好像更好地捕捉语音的多样特征,并生成愈加当然运动的语音。

语音立场模拟的旨趣主要包括两个方面:语音特征索乞降语音生成。最初需要从源语音中索求出计算东谈主物的语音特征,如调子、语速、语音质地等,这常常通过深度神经麇集进行声学建模来终了,麇聚积自动学习特征默示,并生成对应的语音特征向量,然后专揽计算东谈主物的语音特征向量,蚁合语言模子进行语音生成。语言模子不错基于给定的输入文本和语音特征向量来生成当然运动的语音讯号。

1.2 立场模拟本领

基于深度学习的语音立场模拟本领它们使用不同的神经采聚会构和检修计谋来终了高质地的语音合成和克隆,底下先容几个有代表性的模子。

CycleGAN-VC2:是基于CycleGAN 的声息调度模子,它专揽了起义性检修的念念想,通过检修两个生成器和两个判别器来终了声息的调度。CycleGAN-VC2 模子的检修过程包括两个阶段,最初在前向传播阶段,一个生成器将源语音调度为计算话语者的语音;然后在反向传播阶段,另一个生成器将计算语音调度回源话语者的语音。通过轮换地进行这两个调渡过程,并使用两个判别器对调度的语音进行评估,模子好像学习到有用的语音特征映射联系。CycleGAN-VC2 模子的优点在于不需要配对的检修数据,只需要使用两组不同话语者的单一音频进行检修,就不错终了语音特征的调度。它好像捕捉到话语者之间的语音特征各别,并生成传神的调度语音。

SV2TTS:基于Google 发布的Tacotron2 的TTS 模子,何况在其中加入了代表话语东谈主音色的向量默示,终明晰克隆话语东谈主声息的功能,亦然本现实的算法旨趣。

1.3 SV2TTS 职责经过白丝 色情

模子分为3 个模块组成,encoder 模块,systhesis 模块,vocoder 模块。Encoder 接受到话语东谈主音频,然青年景代表话语东谈主音色的向量,手脚speaker embedding,Vocoder 中则输入systhesis 检修好的后产生的mel-spectrogram,然后完成text-to-speech 的任务得回信频输出。

Systhesis是一个典型的encoder-decoder结构,中间加了attention,其中Encoder部分由char embedding,conv layer 和BiLSTM 组成。中间是一个Attention。Decoder 部分是一个自回首RNN,用来权衡Mel-spectrogram,而每一步的权衡成果prediction会插足prenet层,网友自拍偷偷色然后和attention的成果一齐插足LSTM层,LSTM 层的成果和attention 的向量再作念concat 然后通过linear projection 权衡计算的spectrogram,然后这个权衡的成果插足post-net 层来权衡一个残差,加到prediction 上咱们就得回了终末的mel-spectrogram;蚀本函数使用MSE。

2. 功能瞎想

2.1 功能形色

AiNLP 东谈主工智能轻量化应用框架是一款面向于东谈主工智能当然语言应用的开辟框架,经受长入模子调用、长入硬件接口、长入算法封装和长入应用模板的瞎想模式,终明晰镶嵌式角落打算环境下进行快速的应用开辟和格式实行。

AiNLP 为模子算法的调用提供RESTful 调用接口,及时复返当然语言算法措置成果,同期通过物联网云平台的应用接口,终了与硬件的衔接和互动,最终变成各色智联网产业应用。

AiNLP 框架如下图所示:

三、现实要领

1. 工程部署

1.1 硬件部署

1)准备东谈主工智能角落应用平台,给角落打算网关正确衔接Wi-Fi 天线、麦克风(麦克风阵列或者

Ai 语音录像头)、电源。

2)按下电源开关上电启动角落打算网关,将启动ubuntu 操作系统。

3)系统启动后,衔接局域网内的Wi-Fi 麇集,记载角落打算网关的IP 地址,比如:192.168.100.200。

1.2 工程部署

1)初始MobaXterm 器用,通过SSH 登录到角落打算网关(参考附录2)。

2)在SSH 末端创建现实职责目次,若文献夹已存在则跳过此步:

$ mkdir -p ~/ainlp-exp

3)通过SSH 将本现实工程代码和ainlp 工程包(DISK-AILab\02-软件辛苦\02-轮廓应用\ainlp.zip)

上传到~/ainlp-exp 目次下(文献的上传参考附录2)。

2. 工程初始

1)在SSH 末端输入敕令初始现实工程:

3. 语音立场模拟

1)插足现实后,在现实交互区上半部分显现立场迁徙复返的音频,下半区域为需要合成的英文文本信息,及需要进行立场模拟的音频立场模版。

2)在文本框输入英文语句,下拉框选拔需要进行立场模拟的立场库,比如“特朗普”,点击“发送” 按钮将会调用算法进行语音合成,在 Linux 末端窗口不错看到合成的程度条信息,合成收场后将会在应用交互区显现复返的音频,点击“播放”即可播放合成的语音。(若是立场库选拔“刻下灌音”,则调用 的是算法文献夹内置的 audio_test.wav 音频手脚立场)

3)在现实交互区右上角有“立场注册”图标,点击可进行灌音(点击灌音后,chrome 浏览器会弹出提醒使用麦克风的权限,需重点击“允许”连接),处于灌音情状时,图标翰墨显现“正在灌音”,对着麦克风(角就逮关录像头里面集成了麦克风)进行话语灌音,再次点击“正在灌音”图标则完成灌音,应用将会将会调用算法进行立场注册,到手后会弹窗提醒,在现实成果区不错看到算法复返成果。

4)注册到手后将会在算法文献夹内看到保存的音频文献audio_test.wav白丝 色情,此文献将会手脚“刻下灌音”语音立场,可通过下拉菜单选拔进行立场模拟。





Powered by 卡通动漫 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2022 版权所有