老张整理的各种场景下各种ai工具的应用优势价格等

注意：以下内容非ai生成：

在这个寒冷的冬至，我敲了快两个小时的文字，终于整理完了（此处有掌声）。分享给大家：

如果看文字难受，可以使用我刚刚顺便做的一个智能体小助手，你只需要问，下面文档中的内容就会自动对应回答了。

小助手入口（点击右下角老张头像即可互动）

ai生成文字类工具：

只要用于使用ai输出文字的场景，比如写方案，做策划，整理内容，分析数据。

claude 3.5 sonnet 模型，结合思维链提示词是当前ai产生文字的最优解。是很多文字工作者（写专业的商业小说，写书等），有200k上下文（就是大模型的记忆能力），约等于中文字数8万字。
claude 3.5sonnet的代码能力也非常强，如果是使用官方原版，甚至可以一边自然语言提需求，一边生成代码，一边运行代码玩游戏或解决问题。很多自媒体账号说的，孩子写代码做项目大部分的时候使用的都是claude 3.5 sonnet模型。
我也经常使用这个模型来写代码做项目。有些项目不是很复杂的，几个小时甚至就可以完成。
缺点是，这是国外模型，正常需要科学上网，并且需要非常繁琐的能力注册账号，并且面临着随时被官方封号的风险。有免费和付费版本。付费版本是每月20美金。
所以一般可以选择一些国内第三方提供的服务（通过接入官方的api接口，提供的跟官方版本类似的输出能力。我平时就是接入官方的api来使用的）。
claude 3.5 sonnet模型的官网是：https://www.anthropic.com/ ；国内api接口接入的平替是：https://ai.digilifeform.com （付费产品，广告下，老张做的）当然还有很多其他家的；

kimi 国产模型。有3个亮点：
1、制作ppt，有非常丰富的模版。并且完全免费；
2、上下文能力非常强（记忆能力），付费用户可以最高达到200万中文字上下文。大力出奇迹，当上下文能力最够长的时候，意味着什么？意味着，你丢一部红楼梦进去也就是五六十万字，你甚至可以让ai帮你把后30回高鹗写的重写，按前面曹雪芹的线索重写。
3、深度搜索能力。你可以简单理解为这种能力是，当你正常需要百度搜索，然后从一堆的搜索结果里，要筛选评估出一个调研或者方案的时候，你使用kimi的深度搜索他会自动帮你从互联网深入进行数据挖掘，然后深入帮你分析，最终给你结果。所以这个场景特别适合你需要分析调研一些市场上的最新情况的时候，因为他是实时通过搜索引擎获取最新信息，而不是大模型自己的数据库（大模型自己的数据库，正常是比当前时间早半年以上。比如现在来说大模型的数据库大部分的时间是23年或24年初的）。
4、kimi的视觉思考模型K1（最新上线的），在数理化方面的能力测试甚至有些超过了gpt o1模型。不过需要拍照上传的方式来进行。基本上可以代替老师的辅导作用，智商能力超过传统的ai自习室平台电脑能力。但是还没有形成自习室那种业务应用的级别。比如没有题库，无法形成错题本和个性化推荐。
kimi的官网是：https://kimi.moonshot.cn/

chatgpt 4o，以及o1和o1 pro模型。
这个是目前大家公认的综合能力排名全球第一的。比如文字输出，科学能力（超过人类科学家博士水平），数学能力，代码能力都非常强。
支持实时音视频响应，这个的一个很大的教育使用场景就是，可以做到手机或pad打开以后，摄像头对着作业本，可以实时跟孩子互动。有拟人化的声音，有不同的情绪表达。例如你需要他可爱一点的语气，他马上就可爱了。
可以训练他作为一个教育专家，心理学专家，学科辅导老师，耐心的引导孩子的答题。
通常来说，没有特别需求的场景下，o1因为有一定限制（20美金每月的）有使用次数限制，并且回答前需要一定时间的思考过程，所以gpt 4o模型是大家首选的模型。综合能力目前除了o1 pro以外最强的模型。
o1 以及o1pro也是首选ai写代码的模型。

有免费和付费版本，付费有20美金一个月和200美金一个月的。
200美金一个月可以使用o1pro，并且可以使用chatgpt 很牛的一个视频模型 sora（就是在大半年之前火遍全球一直没上线，最近刚刚上线的那个模型。不过很多能力已经pk不过包括中国很多的模型了）
chatgpt的官网是：www.chatgpt.com 国内平替可以使用：ai.digilifeform.com （付费产品），市场上有很多。

豆包
豆包是字节跳动旗下的一个大模型聊天助手。
豆包是综合能力很强，加上免费，基本上，如果不考虑在单独某个点上有特别要求的话，豆包是比较推荐的。使用起来方便，基本上可以满足大家日常文字输出使用。
豆包聊天助手官网：https://www.doubao.com/chat/

阿里的通义千问系列模型
阿里的这个系列模型走的是开源的方向，也是很多大企业想要自己的模型，会选择这个开源模型，加上自己的行业数据来训练企业或行业自己的垂类大模型的极好选择，很多外国团队也在使用阿里的这个开源模型。
阿里通义千问还有个亮点是之前很是火爆的全民舞王。就是给个兵马俑的照片都给你跳科目3那个。比较搞笑有趣火了一段时间。下载通义app使用阿里系的账号登录即可免费使用。
通义千问的pc网址：https://tongyi.aliyun.com/
另外一个国外开源方向的就是meta（原来的facebook），也是开源模型里能力较强的。开源我跟大家解释下，就是开发源代码出来给大家用的意思。大家都可以用他们的代码来做自己的事情；
meta的网址：https://www.meta.ai/

ai生成图片类工具

目前市场上公认的最强大的还是 midjourney 也是国外的团队做的。
对国内用户来说比较麻烦也是需要科学上网，需要付费使用有10美金，30美金，60美金3个套餐。当然国内也有很多通过技术实现免科学上网即可使用的平台。一般都是按张数或年费。几毛钱一张吧。
如果对图片质量要求较高，综合能力要求也较高，那么首先还是midjourney。使用需要使用英文提示词，并且提示词也相对比较专业。虽然简单的自然语言描述产出的图片质量也一样很高，但是你如果要指哪打哪的效果，对提示词还需要一定的学习和掌握。
midjourney网址：www.midjourney.com 国内平替也可以在 ai.digilifeform.com 上找到使用。

然后就是flux和stable diffusion。这两个是开源模型，就是任何人都可以源代码部署到服务器免费使用。对服务器要求较高。
这两个模型的图片生成特点的是可控性强。比如一键换衣（得保持人的脸，体型等不变），比如使用生成的模特跟自己的产品一起出镜，比如海马体拍照（你上传一些自己的照片，就可以选择生成你自己各种高质量海马体照片，省去几百块的专业摄影拍摄费用），所以这个电商领域特别好。因为产品图片不能随便让ai生成。产品图片要写实。这个已经重构了电商模特拍照的传统业务流程。
动手能力强的用户可以自己训练自己的模型。
普通用户因为没有高配置的电脑，也不具备部署的能力，通常也是在网上找别人部署好的使用。
根据实际使用场景这个使用成本也是极低的，大量使用，几分钱一张的成本都不用。

然后就是chatgpt的 dalle3，是chatgpt的会员都可以不限量使用。
可以随时通过中文的自然语言生成想要的照片。对照片质量没有特别要求的话，用起来还是很丝滑的。可以理解非常生涩难懂的古诗词。我平时写公众号文章等配图，要求不高，都是使用的这个工具。
不过需要购买gpt专业版会员而且需要科学上网，对普通用户不友好。
网址就是chatgpt的网址：www.chatgpt.com

下来就是国产的了，优先推荐的是即梦2.1，是字节跳动旗下的模型。
因为即梦2.1可以实现生成中文字，所以我可以用他生成海报。只需要自然语言说清楚海报的图片内容，文字的内容以及字体风格，文字大小，字体的位置。就可以快速生成海报。并且可以在生成后对图片进行编辑，比如选中一部分替换，或直接消除某部分的画面内容。
并且还是每日有60积分送（可以做60张图片或带有文字的海报）
即梦ai 2.1网址：https://jimeng.jianying.com/ai-tool/home/

还有就是海螺ai，可灵（快手旗下的），这些对图片生成要求不是特别高的话，生成的图片质量也不错了。
推荐使用海螺国际版网址：https://hailuoai.video/
快手的可灵网址：https://klingai.kuaishou.com/

接着说 ai生成音乐。

这个首选的是suno，虽然他们对中文应该有些水土不服，比如有时候吐字会不清，会把粤语和普通话混在一起的情况。但是他的4分钟时长，以及专业的音乐表现能力。可以设置自定义歌词，可以设置歌曲风格，还是大多数用户的首选。
当然不可避免的对普通用户不太友好。虽然免费的够用，但是需要科学上网。
好在国内的使用接口提供这个服务的平台也很多，价格都是非常便宜的，同一首歌就几毛钱。
suno的官方网址： www.suno.com 国内平替：ai.digilifeform.com

然后就是天工ai，这是国产模型。支持风格和参考歌曲的选择。有免费额度不过不多。生成的歌曲时长有限。中文咬字感觉能胜suno一筹。就是中文方面稳定性比suno强一些。
再就是豆包里，创作歌曲也非常简单，就可以直接在豆包小助手里唤起音乐歌曲创作。效果也还不错。并且是免费的。
天工音乐ai网址：https://www.tiangong.cn/music

我平时主要就是用suno，所以基本上没有去测试体验其他的了。

然后是文字或文图生成视频。

这个领域是近一年最卷的领域，虽然各有擅长，大部分专业玩家都是各种会员都充，混着用，来制作比较专业的视频（微电影级别，日常做个短视频可以不用高要求）。

谷歌的veo 2模型，新出来。还是比较强大；veo 2 网址：https://deepmind.google/technologies/veo/veo-2/
可灵1.6（快手的），这个最近发的版本，非常牛，而且可灵支持首尾帧功能，用这个可以做很多创意视频出来。快手可灵1.6模型官网：https://klingai.kuaishou.com/
再就是放了大半年期货，最近才上线的openai的 sora了。官网：https://sora.com/ 我把他放在了第三位，老实说大家各有亮点。只能个人感觉了。
即梦p2.0pro 或s2.0pro 两个模型的版本视频的生成质量也非常高；即梦官网：https://jimeng.jianying.com/ai-tool/home/
然后就是海螺ai，文字生成视频领域非常强。图生成视频领域也可以；海螺ai官网：https://hailuoai.video/
然后是国外的runway gen3 alpha 这个之前一直都是老大地位的，现在仍然在画面稳定性上保持的非常好；runway gen3 alpha 官网：https://runwayml.com/
pika，这个刚出来的时候还是很惊艳是，国内出来比较早的视频模型，不过后来后继乏力。后面的更新都是偏一些垂直搞怪的视频能力了。生成出来比较有趣。不过不再是其他几家那样的基础视频生成能力。
pika官网地址：https://pika.art

以上之所以没写百度的文心一言，还有科大讯飞的讯飞星火，主要是，他们的大模型能力还是乏善可陈。没有亮点。
百度的文心一言免费版本能力若与其他过程模型，收费版本水平也不咋地（4.0）；

下面是从具体应用场景下的一个简单说明：

智能体创作：扣子，dify，aimindschool（青少年）
什么是智能体，就是整合各种大模型能力，围绕某一个垂直场景打造工作流，一键运行解决这个场景问题的智能工作ai。
比如我们做一个ppt大纲小助手，你输入主题就给你输出ppt大纲，这就是一个简单的智能体。复杂一点，可以是自动根据关键词搜索小红书上热门新闻，自动通过ai分析热门逻辑，自动根据这些逻辑撰写一篇新的小红书文章以及配图，自动发布到小红书的整个过程。
扣子智能体创作平台网址：https://www.coze.cn/
dify智能体创作平台网址：https://cloud.dify.ai/
aimindschool青少年ai智能体创作平台：https://app.aimindschool.com

ppt制作 kimi， adaippt （https://adaippt.com），

网络搜索：kimi，gpt 4o，纳米搜索，秘塔搜索；

音视频实时：智谱轻言，gpt 4o

数理化理解：o1pro 以及 kimi

视频理解与分析：360ai浏览器豆包

有中文文字的海报：即梦2.1

生成虚拟试穿功能：可灵

生成产品模特图功能：flux/SD

用ai写代码来解决问题： gpt o1或o1pro，claude 3.5 sonnet

克隆自己的声音：海螺ai，仅需30s自己的录音，即可快速克隆自己声音，目前还是免费的。

数字人视频： heygen 网址：https://www.heygen.com/ ，d-id 网址：https://www.d-id.com/ ，可以通过上传自己的照片或者选择一个形象，克隆自己或他人的声音，生成对应的数字人口播视频。

数字人直播：目前市场上的数字人直播，绝大部分都是利用上面提到的类似技术，预先准备的24小时不重复的录播视频来直播的。包括直播间里的弹幕回复，也是自动识别后，通过预置的口播视频来回复的。这种数字人直播视频很容易别主流平台封杀。
还有一种是 实时的音视频直播数字人，这个对硬件投入要求较大。目前很少市场上的成熟产品。对技术要求也较高。我去年百度采访的数字生命就是这种实时互动的，复制了音容笑貌和思想的数字人。

“贾维斯”般的能力，被誉为自动驾驶的工具。
国产的手机版本的是智谱清言的autoglm 可以对多大十几个生活日常的app场景，进行一个语音指令，自动化执行。（比如打开微信朋友圈，给第一条朋友圈点赞；比如我要订一张下午3点去上海的500元以下的机票，以及更加复杂的组合能力，甚至达到了最长50步的工作流程处理）
autoglm的申请需要排队，可以去智谱清言app上找到入口申请，智谱清言网址：https://chatglm.cn/

国外的几个巨头也在做。谷歌的Project Jarvis，claude 3.5的，然后是微软的OmniParser 。都是自动操作屏幕，我们称之为计算机的自动驾驶。