文章字数 1718 字 阅读时间 7 分钟
🤖 由 ChatGPT 生成的文章摘要
DeepSeek是什么
DeepSeek 是由知名私募巨头幻方量化旗下的人工智能公司深度求索(DeepSeek)自主研发的大型AI(人工智能)语言模型。这个智能助手能够执行多种任务,包括自然语言处理、问答系统、智能对话、智能推荐、智能写作和智能客服等。
DeepSeek有哪些特点
- 综合能力:DeepSeek-V2 在多个综合能力评测中表现出色,与 GPT-4-Turbo、文心 4.0 等闭源模型相比具有竞争力。
- 中文和英文能力:在中文综合能力(AlignBench)中,DeepSeek-V2 在开源模型中排名第一,而在英文综合能力(MT-Bench)中,它与最强的开源模型 LLaMA3-70B 处于同一梯队。
- 开源模型:DeepSeek-V2 是一个开源模型,支持 128K 的上下文长度,而对话和 API 支持 32K 上下文。
- 多方面能力:表格中列出了 DeepSeek-V2 在知识、基础算数、数学解题、逻辑推理和编程等多个方面的能力评分。
- API 价格:DeepSeek-V2 提供具有竞争力的 API 价格,1 元/百万输入 Tokens 和 2 元/百万输出 Tokens。
- 即刻接入:DeepSeek-V2 拥有 236B 的参数量,提供 32K 上下文的对话和 API 支持,并且具有卓越的能力。
- 视觉和设计:官网展示了 DeepSeek 的 logo 和设计元素,表明其注重品牌形象和用户体验。
DeepSeek 官网
DeepSeek 官网地址、DeepSeek API Docs、DeepSeek Chat
如何免费获取 DeepSeek 500万 tokens
-
在 DeepSeek API 官网 注册账号并登录
-
在用量信息就可以看到自己的
可用总余额
DeepSeek 的开源研究有哪些
- DeepSeek LLM(Github开源地址)是一个包含 670 亿参数的先进大型语言模型(LLM)。它在英文和中文的海量数据集上从头开始训练,处理了高达 2 万亿个令牌的数据。
- 卓越的通用能力:在推理、编程、数学和中文理解等方面,DeepSeek LLM 67B Base 版本的表现超过了 Llama2 70B Base。
- 精通编程和数学:DeepSeek LLM 67B Chat 在编程(HumanEval Pass@1: 73.78)和数学(GSM8K 零样本学习: 84.1, 数学零样本学习: 32.6)方面展现出色的表现。它还在匈牙利国家高中考试上取得了65分的优异成绩,显示出其出色的泛化能力。
- 中文能力精通:根据评估,DeepSeek LLM 67B Chat 在中文语言处理上超过了 GPT-3.5。
- DeepSeek Coder(Github开源地址)是由深度求索(DeepSeek)推出的一系列代码语言模型。这些模型从零开始训练,使用了高达 2 万亿个(2T)令牌的数据量,其中 87% 是代码,13% 是中英文自然语言数据。DeepSeek Coder 提供了从 1B(10亿参数)到 33B(330亿参数)不同规模的模型版本,以满足不同用户的需求。
- 大规模训练:在 2T 令牌上从头开始训练,包含大量的代码和自然语言数据。
- 多种模型尺寸:提供从 1B 到 33B 不同规模的模型,适应不同复杂度的编程任务。
- 项目级代码补全:通过大窗口和填空任务,支持项目级别的代码补全和填充。
- 先进的编码性能:在多种编程语言和基准测试中实现了最先进的性能。
- DeepSeek Math(Github开源地址)是基于 DeepSeek-Coder-v1.5 7B 版本初始化,并在数学相关令牌上继续预训练的产品。这些数学令牌来源于 Common Crawl 数据集,同时结合了自然语言和代码数据,总数据量达到了 5000 亿个令牌。
- 专业数学能力:在没有依赖外部工具包和投票技术的情况下,在竞技级别的 MATH 基准测试上取得了 51.7% 的惊人成绩。
- 高性能接近:其性能接近 Gemini-Ultra 和 GPT-4 这样的先进模型。
- 研究支持:为了研究目的,DeepSeekMath 公开发布了基础版、指导版和强化学习(RL)模型的检查点,供公众使用
- DeepSeek VL(Github开源地址)是一个为现实世界中的视觉和语言理解应用而设计的开源视觉-语言(VL)模型。该模型拥有处理多种类型视觉和语言信息的通用多模态理解能力。
- 逻辑图处理:能够理解和处理逻辑图等复杂的视觉信息。
- 网页内容理解:具备解析和理解网页内容的能力。
- 公式识别:可以识别和处理数学公式。
- 科学文献理解:能够理解和分析科学文献中的视觉和语言内容。
- 自然图像处理:对自然场景中的图像进行处理和理解。
- 复杂场景下的具身智能:在复杂环境中展现具身智能,处理与现实世界相关的任务。
- DeepSeek V2(Github开源地址)是一款高效的 Mixture-of-Experts (MoE) 语言模型,它以经济的训练成本和高效的推理性能为特点。
- 经济的训练成本:与前代模型 DeepSeek 67B 相比,DeepSeek-V2 在保持更强性能的同时,节省了 42.5% 的训练成本。
- 高效的推理:每个 token 激活的参数数量为 21B,占总参数 236B 的一部分。
- 显著的性能提升:DeepSeek-V2 在标准基准测试和开放式生成评估中均展现出卓越的性能。
- 大幅度降低 KV 缓存:与前代相比,KV 缓存减少了 93.3%。
- 提升最大生成吞吐量:最大生成吞吐量提升了 5.76 倍。
- DeepSeek-Coder-V2 是一个开源的代码智能模型,在代码相关任务中表现媲美 GPT-4-Turbo。它支持 338 种编程语言,上下文长度扩展到 128K,有 16B 和 236B 参数两个版本,预训练数据量达到 6 万亿标记。该模型擅长代码生成、补全、修复以及数学推理。
你觉得这篇文章怎么样?
0
0
0
0
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 文武科技柜!
obaby
注册了,试试效果
斌仔
这操作速度真快,感觉又可以给我的总结插件多加一个模型了