Code Monkey home page Code Monkey logo

Comments (10)

donahowe avatar donahowe commented on August 29, 2024 2

当然可以,论文中的漫画可视化就是参考斗破苍穹/赛博朋克边缘行者完成的绘图,者可以在run.py中手动导入id的参考图实现

from autostudio.

donahowe avatar donahowe commented on August 29, 2024

你好,正如论文中所提到的,StoryDiffusion的生成是一次性出完所有的图,那么只要有一张图不满意所有故事都要重新生成这并不合理。另外,它在在维护多角色一致性的性能非常有限。AutoStudio主要的目的是探索一个更加困难的任务:实时交互的生图,未来会更新与GPT的接口的代码(前3个agents),能够实现on-the-fly interaction(AutoStudio的SDXL版本也将马上放出)

from autostudio.

JoshonSmith avatar JoshonSmith commented on August 29, 2024

你好,正如论文中所提到的,StoryDiffusion的生成是一次性出完所有的图,那么只要有一张图不满意所有故事都要重新生成这并不合理。另外,它在在维护多角色一致性的性能非常有限。AutoStudio主要的目的是探索一个更加困难的任务:实时交互的生图,未来会更新与GPT的接口的代码(前3个agents),能够实现on-the-fly interaction(AutoStudio的SDXL版本也将马上放出)

是否可以根据参考图,来生成漫画,感觉应用会很广

from autostudio.

wikeeyang avatar wikeeyang commented on August 29, 2024

感谢大佬的快速回复!论文我也都看了,由于本人英文水平和大模型图形处理技术有限,不是太明白,您这么点一下,明白了很多,这也是我对本项目非常感兴趣的原因所在,学到不少,谢谢!

我看你的目标:on-the-fly interaction,我想这应该是现阶段T2I领域顶尖难度的应用了,为你的技术水平和创新Idea点赞!

我测试过 Omost、MuLan、StreamMultiDiffusion、StoryDiffusion、AI Comic Factory 等很多类似或相关的项目,目前在提示词准确性、图片风格延续性、连续出图等方面都存在挑战,我看本项目用了 SAM,一些类似 Segment 的技术,我感觉在图片人物完整性、风格延续性方面应该会有较大的提升!现在就是还没跑通过,如果能连续跑下来,并且试着自己换一下提示剧本,效果稳定的话,我觉得应该有很大的应用市场!

我最近也基于 SD3,测试了两个出图效率提升方面的项目:
https://github.com/gojasper/flash-diffusion
https://github.com/madebyollin/taesd
这两个项目结合,能使SD3秒速出图,效果还不错。当然,这两个项目都支持SD1.5、SDXL以及最新的SD3。
大佬也可以考虑在提升出图效率方面,是否能结合进去,当然,这个得看具体技术点,我不太懂。

目前我自己测了测用 Phi-3-mini-4k-instruct 作为后台 LLM 模型,根据指令,完成中文提示词到英文提示词的翻译转换。
然后,结合上述两个项目的出图速度提升,在自己本地环境,SD3出图速度快了非常多,在老破旧的显卡,基本也能秒速出图。

from autostudio.

donahowe avatar donahowe commented on August 29, 2024

是的您说的没错,感谢您的意见。AutoStudio和我先前的工作TheaterGen, CMIGBench数据集都是意在为on-the-fly interaction开路,即使他们的效果距离实际运用(端到端)还有一定的距离。我接下来将会加入腾讯实习继续focus这个领域 ;) 欢迎讨论~

from autostudio.

wikeeyang avatar wikeeyang commented on August 29, 2024

为大佬点赞!👍👍👍,期待您的项目越做越好!取得成功。

from autostudio.

wikeeyang avatar wikeeyang commented on August 29, 2024

恭喜大佬加入腾讯实习,👍👍👍,我觉得是个好机会,腾讯应该有该领域不少高手,可以一起相互学习提高!我觉得国内目前T2I大模型领域,混元 HunyuanDiT 和华为 PixArt 应该是领先的。特别是华为的 PixArt-Sigma-XL-2-2K-MS 大模型,毕竟任意比例的大分斌率输出挺难的,构图准确挺难,我测试过 6000x2000 这样的宽幅,PixArt 输出都比较准确。

from autostudio.

donahowe avatar donahowe commented on August 29, 2024

恭喜大佬加入腾讯实习,👍👍👍,我觉得是个好机会,腾讯应该有该领域不少高手,可以一起相互学习提高!我觉得国内目前T2I大模型领域,混元 HunyuanDiT 和华为 PixArt 应该是领先的。特别是华为的 PixArt-Sigma-XL-2-2K-MS 大模型,毕竟任意比例的大分斌率输出挺难的,构图准确挺难,我测试过 6000x2000 这样的宽幅,PixArt 输出都比较准确。

感谢,是的,目前t2i距离落地还有一定的距离,特别是interactive t2i,我还是个本科生啦刚刚入门,期待一起交流合作 ;)

from autostudio.

kentonson avatar kentonson commented on August 29, 2024

@wikeeyang 你好,我最近也在研究相关的项目比如storydiffusion,不知道你在试验中有没有发现storydiffusion在长提示词这块的缺陷,就是prompt一长,会导致生成的一致性下降,当然,我考虑了token长度限制的这个问题

from autostudio.

wikeeyang avatar wikeeyang commented on August 29, 2024

@kentonson 是的,提示词多了、长了,文生图模型的聚焦估计就会出问题,一致性、延续性是挺难的。

from autostudio.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.