type
status
date
slug
summary
tags
category
icon
password

ChatTTS-Enhanced:革新文本转语音与音频处理的强大工具

项目预览

notion image

介绍

  • 音质增强/降噪解决Chat-TTS生成时的噪音问题。
  • 支持多TXT、SRT文件批量处理。
  • 支持长文本处理,支持中英混读。可自定义切割长度。
  • 支持导出srt文件。
  • 支持调节语速、停顿、笑声、口语化程度等参数。
  • 支持导入ChatTTS Speaker音色。详情看帮助。
  • 支持储存音色配置与选项配置。方便管理。

离线一键整合包

支持WIN、MAC
百度网盘
夸克网盘

部署

Windows

Mac&Linux部署

Linux
Mac

ChatTTS-Enhanced API使用方法详解

路由

/generate_audio 路由

  • 方法POST
  • 描述:接受JSON格式的数据,处理文本并生成音频文件,然后返回生成的音频文件。

请求数据

请求体应为JSON格式,包含以下字段:

TextProcessParams

  • batch_processing:布尔值,是否批量处理。
  • txt_file:字符串,文本文件路径。
  • split_text_flag:布尔值,是否拆分文本。
  • text:字符串,输入的文本。
  • segment_length:整数,文本段长度。

AudioPreProcessParams

  • text_segments:由batch_or_split_text生成的文本段列表。
  • audio_profile_path:字符串,音频配置文件路径。
  • speed_slider:浮点数,语速调节。
  • temperature:浮点数,温度参数。
  • top_P:浮点数,top-P采样参数。
  • top_K:整数,top-K采样参数。
  • refine_oral:浮点数,口语化精炼参数。
  • refine_laugh:浮点数,笑声精炼参数。
  • refine_break:浮点数,停顿精炼参数。
  • refine_text_flag:布尔值,是否精炼文本。
  • nums2text_switch:布尔值,数字转文本开关。
  • concatenate_audio:布尔值,是否连接音频。
  • emb_upload:布尔值,是否上传嵌入。
  • emb_upload_path:字符串,嵌入上传路径。
  • srt_flag:布尔值,是否生成字幕。
  • batch_processing:布尔值,是否批量处理。

EnhanceProcessParams

  • enhance_audio:布尔值,是否增强音频。
  • denoise_audio:布尔值,是否降噪。
  • nfe:浮点数,噪声过滤效果。
  • solver:字符串,增强算法。
  • tau:浮点数,时间常数。

功能流程

  1. 解析请求数据:从请求中提取文本处理和音频处理参数。
  1. 文本处理:使用batch_or_split_text函数将文本处理为文本段。
  1. 音频预处理:使用audio_pre_processor函数处理文本段并生成音频数据。
  1. 音频文件生成:使用write函数将生成的音频数据写入WAV文件。
  1. 返回音频文件:如果音频生成成功,返回生成的WAV音频文件,否则返回错误信息。

示例请求

请求体示例:

代码结构

  • import statements:导入所需的库和模块。
  • Flask app initialization:初始化Flask应用。
  • Route definition:定义API路由和处理函数。
  • Text and Audio processing:处理请求数据并生成音频。
  • Main block:运行Flask应用。

原文件

api.py
CCmahua

感谢

 
ChatTTS-Enhanced
CCmahuaUpdated Nov 24, 2024
 
Aider:最全功能的开源AI编程助手OverEasy:加速零样本视觉模型创建与执行的Python框架
Loading...