Code Monkey home page Code Monkey logo

chenyme-aavt's Introduction

Chenyme-AAVT V0.6.1

简体中文 badge 英文 badge 下载 Download

Note :长文本字幕翻译的错位问题将会后续优化。由于开始准备考研,更新速度可能会放缓,感谢理解~~~


非常感谢您来到我的 AI Auto Video-Audio Translation 项目!该项目旨在提供一个简单易用的全自动视频(音频)识别、翻译工具,帮助您快速识别声音并翻译生成字幕文件,然后将翻译后的字幕与原视频合并,以便您更快速的实现视频翻译。

Tips:推荐选用 Faster-whisper 和 Large 模型以获得最好的断句、识别体验。

注意: 首次使用 Whisper 模型时需下载,国内建议开启 VPN 下载。启用 GPU 加速需下载 CUDA 和 PyTorch,且保证PyTorch 版本与 CUDA 匹配,否则程序识别失败会默认禁用GPU加速。

麻烦给一颗免费的星叭~感谢!!!

../public/photo 0.6 1.png 测试效果 点击下载

项目亮点

  • 支持 faster-whisper 后端。
  • 支持 GPU 加速。
  • 支持 VAD 辅助识别。
  • 支持 ChatGPTKIMI 翻译。
  • 支持多种语言识别、翻译。
  • 支持多种字幕格式输出。
  • 支持字幕修改,二次精翻。
  • 支持字幕、视频预览。
  • 支持AI总结、问答。

Kimi 是由月之暗面(Moonshot AI)团队的超长记忆 AI 助手

moonshot官网:https://www.moonshot.cn/

kimi官网:https://kimi.moonshot.cn/

如何安装

更快速的安装(省去下载FFmpeg)

releases

正常安装

本项目需要依赖 Python 环境和 FFmpeg,可能会用到 CUDA 和 PyTorch 。

  1. 安装 Python 环境
  • 您需要安装 Python 3.8 或更高版本。
  • 您可以从 Python官网 下载并安装最新版本的 Python。
  1. 安装 FFmpeg
  • 您需要安装 FFmpeg。
  • 您可以从 FFmpeg官网 下载并安装 FFmpeg。
  1. 设置 FFmpeg 为环境变量
  • 按下 Win+R 快捷键打开运行对话框。
  • 在弹出的框中输入 rundll32 sysdm.cpl,EditEnvironmentVariables,然后点击确定。
  • 在上面的用户变量中找到 Path,双击。
  • 点击新建,输入刚刚下载的 FFmpeg 的路径。示例:D:\APP\ffmpeg(请根据自己的实际路径调整!)。
  1. 运行 install.bat
  • 在项目根目录下运行 install.bat 来安装所有依赖库。

如何使用

  1. 设置参数
  • config内设置 OPENAI_API_KEYOPENAI_BASE_URLKIMI_API_KEY,以便使用翻译引擎。
  • 您也可以在网页中设置各项参数,目前版本已经可以自动保存到config中,无需重新设置。
  1. 运行程序
  • 运行 webui.bat
  • 等待网页跳转,如果没有跳转请自行在浏览器输入http://localhost:8501/
  • 首次使用streamlit,可能会要求输入email,直接Enter跳过即可。
  • 上传文件,设置模型,运行程序,耐心等待处理

注意事项

  1. 请确保您的系统已经正确安装了 Python,并且版本号为 3.8 或更高。
  2. 请确保已经安装了 FFmpeg,并设置 FFmpeg 为环境变量。
  3. 请确保运行 install.bat,安装所有依赖库。
  4. 使用 GPU 加速时请确保安装了正确的 CUDAPytorch 版本
  5. 推荐使用 faster-whisperLarge 模型,以获得最好的断句体验,但模型需要从 Huggingface 下载。

TODO

识别相关

  • 更换更快的Whisper项目
  • 支持个人微调Whisper模型
  • 自动匹配识别模型
  • VAD辅助优化
  • 字词级断句优化
  • 更多的语种识别

翻译相关

  • ChatGPT翻译优化*
  • 更多的语种翻译
  • 更多的翻译模型
  • 更多的翻译引擎

字幕相关

  • 双字幕
  • 更多字幕格式
  • 字幕预览、实时修改
  • 自动化字幕文本校对
  • 个性化字幕

其他

  • 视频总结、罗列重点
  • 实时语音翻译
  • 视频中文配音
  • 视频预览
  • AI助手

注:含*的功能还不稳定,可能存在某些BUG。


特别鸣谢

本人是 AI 时代的受益者,本项目的开发基本是站在巨人的肩膀上实现的。主要基于 OpenAI 开发的 Whisper 来识别声音和 LLMs 辅助翻译字幕 ,利用 Streamlit 搭建快速使用的 WebUI 界面,以及 FFmpeg 来实现字幕与视频的合并。

非常感谢 OpenAI 、 Streamlit 、 FFmpeg 、Faster-whisper、kimi的开发人员!

如有问题和建议,随时联系我!


截图

主页面

../public/photo2.png

音频

../public/photo1.png

视频

../public/photo 0.6 1.png ../public/photo1.png

chenyme-aavt's People

Contributors

chenyme avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.