ChatTTS-Enhanced：革新文本转语音与音频处理的强大工具 | Doiiars Blog

type

status

date

slug

summary

tags

category

icon

password

ChatTTS-Enhanced：革新文本转语音与音频处理的强大工具

项目预览

notion image

介绍

音质增强/降噪解决Chat-TTS生成时的噪音问题。

支持多TXT、SRT文件批量处理。

支持长文本处理，支持中英混读。可自定义切割长度。

支持导出srt文件。

支持调节语速、停顿、笑声、口语化程度等参数。

支持导入ChatTTS Speaker音色。详情看帮助。

支持储存音色配置与选项配置。方便管理。

离线一键整合包

支持WIN、MAC

百度网盘

链接: https://pan.baidu.com/s/1DqvN2hHZ2uAmdjKCwKNmCQ?pwd=f5d4 提取码: f5d4

夸克网盘

链接：https://pan.quark.cn/s/4ee64af2aedb

部署

Windows

https://github.com/erew123/alltalk_tts/releases/tag/deepspeed

Mac&Linux部署

Linux

Mac

ChatTTS-Enhanced API使用方法详解

路由

`/generate_audio` 路由

方法：POST

描述：接受JSON格式的数据，处理文本并生成音频文件，然后返回生成的音频文件。

请求数据

请求体应为JSON格式，包含以下字段：

TextProcessParams

batch_processing：布尔值，是否批量处理。

txt_file：字符串，文本文件路径。

split_text_flag：布尔值，是否拆分文本。

text：字符串，输入的文本。

segment_length：整数，文本段长度。

AudioPreProcessParams

text_segments：由batch_or_split_text生成的文本段列表。

audio_profile_path：字符串，音频配置文件路径。

speed_slider：浮点数，语速调节。

temperature：浮点数，温度参数。

top_P：浮点数，top-P采样参数。

top_K：整数，top-K采样参数。

refine_oral：浮点数，口语化精炼参数。

refine_laugh：浮点数，笑声精炼参数。

refine_break：浮点数，停顿精炼参数。

refine_text_flag：布尔值，是否精炼文本。

nums2text_switch：布尔值，数字转文本开关。

concatenate_audio：布尔值，是否连接音频。

emb_upload：布尔值，是否上传嵌入。

emb_upload_path：字符串，嵌入上传路径。

srt_flag：布尔值，是否生成字幕。

batch_processing：布尔值，是否批量处理。

EnhanceProcessParams

enhance_audio：布尔值，是否增强音频。

denoise_audio：布尔值，是否降噪。

nfe：浮点数，噪声过滤效果。

solver：字符串，增强算法。

tau：浮点数，时间常数。

功能流程

解析请求数据：从请求中提取文本处理和音频处理参数。

文本处理：使用batch_or_split_text函数将文本处理为文本段。

音频预处理：使用audio_pre_processor函数处理文本段并生成音频数据。

音频文件生成：使用write函数将生成的音频数据写入WAV文件。

返回音频文件：如果音频生成成功，返回生成的WAV音频文件，否则返回错误信息。

示例请求

请求体示例：

代码结构

import statements：导入所需的库和模块。

Flask app initialization：初始化Flask应用。

Route definition：定义API路由和处理函数。

Text and Audio processing：处理请求数据并生成音频。

Main block：运行Flask应用。

原文件

感谢

ChatTTS:https://github.com/2noise/ChatTTS

Resemble Enhance:https://github.com/resemble-ai/resemble-enhance

ChatTTS_colab:https://github.com/6drf21e/ChatTTS_colab

PaddleSpeech:https://github.com/PaddlePaddle/PaddleSpeech

ChatTTS_Speaker:https://github.com/6drf21e/ChatTTS_Speaker

WeTextProcessing:https://github.com/wenet-e2e/WeTextProcessing

ChatTTS-Enhanced

CCmahua • Updated Nov 24, 2024

作者:Doiiars
链接:http://doiiars.com/article/chat-tts-enhanced-noise-reduction-software-text-to-speech-windows-mac
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

GitHub Copilot 付费版与免费版对比

Lazy loaded image

GitHub to Gitingest 按钮

Lazy loaded image

OmniParser 2 Windows安装中文指南（AMD/Nvidia平台）

Lazy loaded image

CosyVoice-ComfyUI 中的张量类型错误问题解决指南

Lazy loaded image

Hydra: 革新Python应用程序配置管理

Lazy loaded image

Aider：最全功能的开源AI编程助手

Lazy loaded image

Aider：最全功能的开源AI编程助手 OverEasy：加速零样本视觉模型创建与执行的Python框架

Loading...

目录

0%

Doiiars

一个低调的技术Geek

最新发布

Rimworld中改变殖民者文化的方法

最全免费 ASR 服务合集！（阿里云系列模型）

Ollama 中 Gemma3 的 Function Calling 无法使用的问题

自定义 Modelfile 方案实现 Ollama Gemma 3 函数调用指南

公告

🎉欢迎来到 Doiiars 个人站！🎉

-- 感谢您的支持 ---

👏欢迎体验👏

NLCISBNPlugin插件

CDDA 游戏启动器汉化版

Cataclysmdda漫游指南

Cataclysmdda 0.H "Herbert"

条款和条件

目录

0%