tegnike / aituber-kit Goto Github PK

View Code? Open in Web Editor NEW

211.0 4.0 40.0 26 MB

AITuber Kit

Home Page: https://aituber-kit.vercel.app

License: MIT License

JavaScript 1.52% TypeScript 92.94% CSS 1.21% Dockerfile 0.18% Python 4.15%

aituber-kit's Introduction

概要

主に以下の2つの機能があります。

AIキャラとの対話
AITuber配信

下記の記事に詳細な使用方法を記載しました。

共通事前準備

リポジトリをローカルにクローンします。

git clone https://github.com/tegnike/aituber-kit.git

フォルダを開きます。

cd aituber-kit

パッケージインストールします。

npm install

開発モードでアプリケーションを起動します。

npm run dev

URLを開きます。http://localhost:3000

AIキャラとの対話

AIキャラと会話する機能です。
このリポジトリの元になっているpixiv/ChatVRMを拡張した機能です。
各種LLMのAPIキーさえあれば比較的簡単に試すことが可能です。
直近の会話文を記憶として保持します。
マルチモーダルで、カメラからの映像やアップロードした画像を認識して回答を生成することが可能です。

使用方法

設定画面で各種LLMのAPIキーを入力します。
- OpenAI
- Anthropic
- Google Gemini
- Groq
- ローカルLLM（APIキーは不要ですが、ローカルAPIサーバーを起動しておく必要があります。）
- Dify Chatbot（APIキーは不要ですが、ローカルAPIサーバーを起動しておく必要があります。）
必要に応じてキャラクターの設定プロンプトを編集します。
用意がある場合は、VRMファイルおよび背景ファイルをアップロードします。
音声合成エンジンを選択し、必要に応じて声の設定を行います。
- VOICEVOXの場合は複数の選択肢から話者を選ぶことができます。予めVOICEVOXアプリを起動しておく必要があります。
- Koeiromapの場合は、細かく音声を調整することが可能です。APIキーの入力が必要です。
- Google TTSの場合は日本語以外の言語も選択可能です。credential情報が必要です。
- Style-Bert-VITS2は、ローカルAPIサーバーを起動しておく必要があります。
- GSVI TTSは、ローカルAPIサーバーを起動しておく必要があります。
- ElevenLabsは様々な言語の選択が可能です。APIキーを入力してください。
入力フォームからキャラクターと会話を開始します。マイク入力も可能。

AITuber配信

Youtubeの配信コメントを取得して発言することが可能です。
Youtube APIキーが必要です。
「#」から始まるコメントは読まれません。

使用方法

設定画面でYoutubeモードをONにします。
Youtube APIキーとYoutube Live IDを入力します。
他の設定は「AIキャラとの対話」と同様に行います。
Youtubeの配信を開始し、キャラクターがコメントに反応するのを確認します。
会話継続モードをONにすると、コメントが無いときにAIが自ら発言することができます。

その他の機能

外部連携モード（β版）

WebSocketでサーバーアプリにメッセージを送信して、レスポンスを取得することができます。
上記2つと異なり、フロントアプリで完結しないため少し難易度が高いです。
⚠ 現在メンテナンスしきれていないため、動かない可能性があります。

使用方法

サーバーアプリを起動し、ws://127.0.0.1:8000/ws エンドポイントを開きます。
設定画面でWebSocketモードをONにします。
他の設定は「AIキャラとの対話」と同様に行います。
サーバーアプリからのメッセージを待ち、キャラクターが反応するのを確認します。

スライドモード

スライドをAIキャラが自動で発表するモードです。
予めスライドと台本ファイルを用意しておく必要があります。

使用方法

予めAIキャラと対話できるところまで進めておきます。
スライドフォルダと台本ファイルを指定のフォルダに配置します。
設定画面でスライドモードをONにします。
スライド開始ボタンを押して発表を開始します。

TIPS

VRMモデル、背景固定方法

VRMモデルは public/AvatarSample_B.vrm のデータを変更してください。名称は変更しないでください。
背景画像は public/bg-c.jpg の画像を変更してください。名称は変更しないでください。

環境変数の設定

一部の設定値は .env ファイルの内容を参照することができます。
設定画面で入力した場合は、その値が優先されます。

その他

会話履歴は設定画面でリセットすることができます。
各種設定項目はブラウザに保存されます。
コードブロックで囲まれた要素はTTSで読まれません。

スポンサー募集

開発を継続するためにスポンサーの方を募集しています。
あなたの支援は、AITuberキットの開発と改善に大きく貢献します。

協力者の皆様（ご支援いただいた順）

他、プライベートスポンサー複数名

利用規約

ライセンスは pixiv/ChatVRM に準拠し、MITライセンスとしています。
ロゴの利用規約
VRMモデルの利用規約

コントリビューター用TIPS

新しい言語の追加方法

新しい言語をプロジェクトに追加するには、以下の手順に従ってください。

言語ファイルの追加:
- locales ディレクトリに新しい言語のディレクトリを作成し、その中に translation.json ファイルを作成します。
- 例: locales/fr/translation.json (フランス語の場合)
翻訳の追加:
- translation.json ファイルに、既存の言語ファイルを参考にして翻訳を追加します。

言語設定の更新:

src/lib/i18n.js ファイルを開き、resources オブジェクトに新しい言語を追加します。

resources: {
  ...,
  fr: {  // 新しい言語コード
    translation: require("../../locales/fr/translation.json"),
  },
},

言語選択オプションの追加:
- ユーザーが言語を選択できるように、UIの適切な部分（例えば設定画面の言語選択ドロップダウン）に新しい言語オプションを追加します。
```
<select>
  ...,
  <option value="FR">フランス語 - French</option>
</select>
```
テスト:
- 新しい言語でアプリケーションが正しく表示されるかテストします。

これで新しい言語のサポートがプロジェクトに追加されます。

音声言語コードの追加

音声言語コードの対応も追加する必要があります。
Introduction コンポーネント内の getVoiceLanguageCode 関数に新しい言語コードを追加します。

const getVoiceLanguageCode = (selectLanguage: string) => {
  switch (selectLanguage) {
    case 'JP':
      return 'ja-JP';
    case 'EN':
      return 'en-US';
    case 'ZH':
      return 'zh-TW';
    case 'zh-TW':
      return 'zh-TW';
    case 'KO':
      return 'ko-KR';
    case 'FR':
      return 'fr-FR';
    default:
      return 'ja-JP';
  }
}

READMEの追加

新しい言語のREADME (README_fr.md), ロゴ利用規約 (logo_licence_fr.md), VRMモデル利用規約 (vrm_licence_fr.md) を docs ディレクトリに追加してください。

aituber-kit's People

Contributors

Stargazers

Watchers

Forkers

giovannismokes touristshaun sunwood-ai-labs tangtc1981 trend-surf shinshin86 yelban eiichitsuru shadel ochisamu t-hashiguchi1995 tylorshine knzhang sougetuote witchpot-studio zapabob maasa1221 kouji5010 junzokamahara johnkeigo kazuya-bros hxdaze kamezaki-vcube nikkojuku terisuke yabusameryoma sayonari yumakakefuda sinoda1114 akira-papa kazuglobal ken2190 tokimwc g-kari cdcd72 worldmakerinc saten-private jiroshimaya morioki3 yamanaka-ctrl

aituber-kit's Issues

モバイルでの認証

Unable to access due to missing initial state.

Some specific scenarios are:

Using IDP-initiated SAML SSO
Using SignInWithRedirect i storage-partitioned browser environment.

特定のローカルLLM（具体的にはCommand R PlusやMistral系？)では、ユーザroleがuser/assistant/user/assitant/user/...という順序になっていないとエラーになるものがありました。その場合Bad Request 405が返ってきます。
調べてみると、発言履歴を10個だけ使っていますが、この場合「assitant/user」の５回繰り返しになります。先頭がassistantoなら良さそうなんですが、実は最初にsystem promptが入っているので、systemはassistanto相当になり、assistant/assitantと続くのでエラーになるようです。
単純にエラーをなくすだけなら、slice(-11)とかにすればエラーは出なくなります。
あるいは、この系統のLLMでは、system promptをuser roleに変更するとか（すいません、確認できていません）もありそうですが、モデル毎の設定を追加するのはちょっと面倒ですね。
src/pages/index.tsx:484
const messages: Message[] = [
{
role: "system",
content: systemPrompt,
},
...messageLog.slice(-10),
];

キャラを動かすと画面を中心に円**している

以前からこうだったっけ…？

2024-05-27.22.35.47.mov

VOICEVOXが網羅できてない（猫使ビイなど）

表情に加え動きも入れたい

VRMAを指定したらいけると思う
感情に合わせた短めのVRMAを探す

groqに対応させる

https://github.com/groq/groq-typescript

a

対話言語を増やす方法は？

ありがとうございます、この素晴らしい音声対話AITuberを開発してくれて。初めて試してみましたが、彼女の応答速度は非常に速く、通常の会話レベルに達することができます。お聞きしたいことがありますが、他の言語対話を追加する場合、例えば**語（繁体字**語 / zh-Hant）を追加する必要があるかもしれません。気になさらなければ、喜んで**語の対話サポートコードを追加してみたいです。

センシティブなコメントを省く

デスクトップアプリ化

コメントユーザーを分けて認識できるようにする

ユーザーのコメントも読み上げる

TTSの選択肢にstyle-bert-vits2追加

https://twitter.com/subaru_shoji/status/1785545587070578984

お試し用にvercelか何かでデプロイ

コメントしてくれた人に特定の挨拶を入れる機能

やるやく

UE5.4 で Meta Human と連動してほしい。

UE5.4 で Meta Human とAPI接続で連動してほしい。
＼(^o^)／つばさぁ！

Enterでチャット送信できるようにする

Style-Bert-VITS2で日本語をしゃべらせる時は、設定で言語を一度別の言語にする必要がある

音声エンジンにStyle-Bert-VITS2を設定して初めてnike-ChatVRMを使う時に、言語設定を何もいじっていないと、selectLanguageが"JA"になっていて、API呼び出しが失敗します。一度、言語設定を別のに変えてから日本語にすると"JP"になってうまくいくようになりました。

index.tsxの41行めでデフォルトが"JP"になっているのに、なぜ、"JA"が入っているかまでは追及できませんでした。
一度設定すればブラウザが覚えるようなので大きな問題ではありませんが、初めて使う人がハマりそうなので書かせていただきました。

配信終了機能

特定のコマンドで配信終了させる?
配信終了発言させる

add TTS local for other languages

Wanting to use TTS local instead of using TTS cloud, would that be possible ?

LLMの返答でコードブロックを受け取ったとき、```の右横のpythonみたいな文字列が会話履歴に表示されてしまう

下記のようになる。

コードブロックの右横のプログラミング言語を指定している部分は削除するようにする。

短期記憶入れる、LocalStorageでいけるかな

Githubちゃんとする

リリースノート
タグ
developブランチ
コード整形ツール

マイク入力受け付けが日本語のみになってる

初期表示画面の整理

読まないコメントを設定できるようにする

暫定：#で始まるコメント

英語をアルファベットで読んでしまうので、カタカナ語に直すLLMを挟む

配信終了機能

特定のコマンドで配信終了させる?
配信終了発言させる

Doesn't Respond to messages.

英中用にデフォルトシステムプロンプトを変更できるようにする

マイクを自動受付化にする

マイクの自動受付モード追加
AIキャラ自身の発言を拾わないように、発言しているときはマイクをOFFにさせる
デスクトップモードでマイク使えない不具合あるかも？

TypeScript版 LangChainとかでまとめられないか

アプリとREADMEの韓国語対応

koサンプル

{
  "Settings": "설정",
  "ExternalConnectionMode": "외부 연동 모드 (WebSocket)",
  "YoutubeMode": "YouTube 모드",
  "YoutubeInfo": "처음에 '#'이 있는 댓글은 무시됩니다.",
  "YoutubeAPIKey": "YouTube API 키",
  "YoutubeLiveID": "YouTube Live ID",
  "ConversationContinuityMode": "대화 지속 모드 (베타 버전)",
  "ConversationContinuityModeInfo": "댓글이 없을 때 AI가 스스로 대화를 지속하려고 하는 모드입니다. 현재 OpenAI만 지원됩니다.",
  "ConversationContinuityModeInfo2": "한 번의 응답에 여러 번 LLM을 호출하기 때문에 API 사용료가 증가할 수 있습니다. 주의하십시오.",
  "ConversationContinuityModeInfo3": "gpt-4o 또는 gpt-4-turbo에서 비교적 안정적으로 동작합니다.",
  "StatusOn": "상태: ON",
  "StatusOff": "상태: OFF",
  "SelectAIService": "AI 서비스 선택",
  "LocalLLM": "로컬 LLM",
  "SelectModel": "모델 선택",
  "OpenAIAPIKeyLabel": "OpenAI API 키",
  "AnthropicAPIKeyLabel": "Anthropic API 키",
  "GoogleAPIKeyLabel": "Google Gemini API 키",
  "GroqAPIKeyLabel": "Groq API 키",
  "DifyAPIKeyLabel": "Dify API 키",
  "APIKeyInstruction": "API 키는 아래 링크에서 얻을 수 있습니다. 얻은 API 키를 폼에 입력하십시오.",
  "ChatGPTInfo": "ChatGPT API는 브라우저에서 직접 접근하고 있습니다.",
  "LocalLLMInfo": "로컬 LLM 서버를 실행해야 합니다.",
  "LocalLLMInfo2": "로컬 LLM의 URL(포트 번호 포함)과 모델 이름을 입력하십시오.",
  "GroqInfo": "Groq API는 브라우저에서 직접 접근하고 있습니다.",
  "DifyInfo": "Dify에서는 채팅 봇 타입만 지원됩니다.",
  "DifyInfo2": "Dify의 사양상 대화 기록이 유지되지 않으므로 주의하십시오.",
  "DifyInfo3": "예: http://localhost:81/v1/chat-messages",
  "DifyInstruction": "Dify를 사용하는 경우, 이 시스템 프롬프트는 사용되지 않습니다. Dify 채팅 봇에 설정하십시오.",
  "EnterURL": "URL 입력",
  "CharacterModelLabel": "캐릭터 모델",
  "OpenVRM": "VRM 열기",
  "BackgroundImage": "배경 이미지",
  "ChangeBackgroundImage": "배경 이미지 변경",
  "CharacterSettingsPrompt": "캐릭터 설정 (시스템 프롬프트)",
  "CharacterSettingsReset": "캐릭터 설정 재설정",
  "SyntheticVoiceEngineChoice": "합성 음성 엔진 선택",
  "VoiceAdjustment": "목소리 조정",
  "VoiceEngineInstruction": "사용할 합성 음성 엔진을 선택하십시오.",
  "UsingKoeiromap": "Koeiromap 사용 (일본어 전용)",
  "UsingVoiceVox": "VOICEVOX 사용 (일본어 전용)",
  "UsingGoogleTTS": "Google TTS 사용",
  "UsingStyleBertVITS2": "Style-Bert-VITS2 사용",
  "StyleBertVITS2Info": "Style-Bert-VITS2를 사용합니다. 로컬 API를 사용하기 때문에 아래 사이트에서 환경에 맞는 앱을 다운로드하고 실행해야 합니다.",
  "SpeakerSelection": "보이스 타입 선택",
  "GoogleTTSInfo": "Google Cloud Text-to-Speech를 사용합니다. 다국어 지원이 가능합니다.",
  "AuthFileInstruction": "인증용 JSON 파일을 아래에서 얻어 리포지토리 루트 폴더에 credentials.json이라는 이름으로 배치하십시오.",
  "LanguageModelURL": "언어 모델은 아래 URL에서 선택하십시오.",
  "LanguageChoice": "언어 선택",
  "StyleBeatVITS2LocalServerURL": "Style-Bert-VITS2 로컬 서버 URL",
  "StyleBeatVITS2ModelID": "Style-Bert-VITS2 모델 ID",
  "StyleBeatVITS2Style": "Style-Bert-VITS2 스타일",
  "ConversationHistory": "대화 기록",
  "ConversationHistoryInfo": "최근 10개의 대화 문장이 기억으로 유지됩니다.",
  "ConversationHistoryReset": "대화 기록 재설정",
  "NotConnectedToExternalAssistant": "외부 어시스턴트와 연결되지 않았습니다.",
  "APIKeyNotEntered": "API 키가 입력되지 않았습니다.",
  "CodeLog": "코드 로그",
  "ChatLog": "대화 로그",
  "EnterYourQuestion": "질문을 입력하세요",
  "AboutThisApplication": "이 애플리케이션에 대해",
  "AboutThisApplicationDescription": "웹 브라우저에서 3D 캐릭터와 대화를 즐길 수 있습니다. 마이크나 텍스트 입력, 음성 합성을 사용하여 대화할 수 있습니다. 캐릭터(VRM)의 변경이나 성격 설정, 목소리 조정도 가능합니다. 설정은 왼쪽 상단의 메뉴 버튼에서 변경할 수 있습니다.",
  "TechnologyIntroduction": "기술 소개",
  "TechnologyIntroductionDescription1": "이 애플리케이션은 pixiv사의<b>ChatVRM</b>을 개조하여 만들어졌습니다. 원본 소스 코드는",
  "TechnologyIntroductionLink1": "여기",
  "TechnologyIntroductionDescription2": "를 참조하십시오.",
  "TechnologyIntroductionDescription3": "3D 모델 표시 및 조작에는",
  "TechnologyIntroductionDescription4": "을 사용하고 있으며, 대화 문장 생성에는",
  "TechnologyIntroductionDescription5": "등의 여러 LLM을 사용하고 있으며, 음성 합성에는",
  "TechnologyIntroductionDescription6": "등의 여러 TTS를 사용하고 있습니다. 자세한 내용은",
  "TechnologyIntroductionLink2": "설명 기사",
  "TechnologyIntroductionDescription7": "를 참조하십시오.",
  "SourceCodeDescription1": "이 애플리케이션의 소스 코드는 GitHub에서 공개되고 있습니다. 자유롭게 변경 및 개조가 가능합니다.",
  "RepositoryURL": "리포지토리 URL:",
  "DontShowIntroductionNextTime": "다음에 이 대화 상자를 표시하지 않기",
  "Close": "닫기",
  "Language": "언어 설정",
  "UsingGSVITTS": "GSVI TTS 사용",
  "GSVITTSInfo": "GSVI TTS 설정",
  "GSVITTSServerUrl": "GSVI TTS 서버 URL",
  "GSVITTSModelID": "GSVI TTS 모델 ID",
  "GSVITTSBatchSize": "GSVI TTS 배치 크기 (1 ~ 100 숫자가 클수록 추론 속도가 빨라지지만, 너무 크면 메모리가 부족할 수 있습니다)",
  "GSVITTSSpeechRate": "말 속도 (0.5 ~ 2.0 숫자가 클수록 빠름)"
}

geminiがない

index.tsx

        if (selectAIService === "openai" && !openAiKey) {
          setAssistantMessage(t('APIKeyNotEntered'));
          return;
        } else if (selectAIService === "anthropic" && !anthropicKey) {
          setAssistantMessage(t('APIKeyNotEntered'));
          return;
        } else if (selectAIService === "groq" && !groqKey) {
          setAssistantMessage(t('APIKeyNotEntered'));
          return;
        } else if (selectAIService === "dify" && !difyKey) {
          setAssistantMessage(t('APIKeyNotEntered'));
          return;
        }

なんかVRMのドラッグしたときの挙動が変？

=> #44 に移動

拾わなかったコメントも文脈に含める

本番環境にデプロイする

議題

本番環境にデプロイする
どのサービスが一番カンタンかを検証、Vercelが良い？

オンラインで使える各種サービス

TTS

Google TTSが一番安い
Koeiromapは2円/req、流石に高い

LLM

少額クレジット用意してHaiku？
無料のAIサービス使えるかも確認

やりたいこと

モデル入力フォームに入力したら勝手にダウンロードされて使えるようになって欲しい
ダウンロード中はUIでそれがわかるようにする
ダウンロードが完了したらその旨を表示する
ダウンロード先はollamaのデフォルトのフォルダでOK

参考

Menuボタンを表示切替できるようにする

左上にある設定を開く歯車アイコン（Menuコンポーネント）を表示ON/OFFできるようにする。
非表示の場合は設定画面を開けなくなるので、特定のコマンドで開けるようにするとよいかも

tegnike / aituber-kit Goto Github PK

aituber-kit's Introduction

English｜ 中文｜ 韓語

概要

共通事前準備

AIキャラとの対話

使用方法

AITuber配信

使用方法

その他の機能

外部連携モード（β版）

使用方法

関連

スライドモード

使用方法

TIPS

VRMモデル、背景固定方法

環境変数の設定

その他

スポンサー募集

協力者の皆様（ご支援いただいた順）

利用規約

コントリビューター用TIPS

新しい言語の追加方法

音声言語コードの追加

READMEの追加

aituber-kit's People

Contributors

Stargazers

Watchers

Forkers

aituber-kit's Issues

geminiがない

なんかVRMのドラッグしたときの挙動が変？

議題

オンラインで使える各種サービス

TTS

LLM

やりたいこと

参考

Recommend Projects

Recommend Topics

Recommend Org

English｜中文｜韓語