AI在老李这里大概分这么几块内容

一、声音的克隆GPT-SoVITS和CosyVoice这类,实现的功能就是把一个人的声音克隆出来,然后可以推理生成出来各种说话的音频。
二、图片的生成,图像的处理,Comfyui的使用。文字生成图片,图片生成图片,图片扩展,局部重绘,去除内容,换背景,扣图,换脸等。
三、大模型的使用,这块其实范围很广,但总结下来,主要是思路,想法,学习和文字方面的。实际点就是利用大模型辅助写文稿,创作,制作各种计划,方案,学习。 涉及到到的软件和技术还是很多的,我大概列一下,ollama本地部署,Obsidian笔记系统,AnythingLLM的知识库,dify的使用。
四、语音或视频识别成文字,生成字幕,翻译字幕。
五、视频生成,由于对硬件需求很大,技术也是不稳定,老李暂时只是尝试大平台,比如可灵AI,本地测试过视频转绘,效果不是很好。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注