DeepSeek硬核技术解读

DeepSeek硬核技术解读

本书是系统剖析DeepSeek系列大模型技术体系与实践路径的专著,结合作者一线研发经验与深度学习、强化学习、分布式系统等多领域知识,全面阐述DeepSeek在模型架构、训练推理、基础设施及数据工程等方面的核心突破与工程实践,兼具理论严谨性与实践指导性,旨在帮助AI研究者、工程师和技术决策者理解大模型关键技术,掌握高效、低成本构建和部署先进AI系统的方法。

弘德价
81.18
99.00
配送至
有货,
  • 不支持七天无理由退货
弘德网图书城
店铺评分

商品评价 0
发货速度 0
售后服务 0
  • 热销商品
  • 热门关注
  • 商品介绍
  • 商品评价
  • 商品编号 001008704


内容简介

    

本书是系统剖析DeepSeek系列大模型技术体系与实践路径的专著,结合作者一线研发经验与深度学习、强化学习、分布式系统等多领域知识,全面阐述DeepSeek在模型架构、训练推理、基础设施及数据工程等方面的核心突破与工程实践,兼具理论严谨性与实践指导性,旨在帮助AI研究者、工程师和技术决策者理解大模型关键技术,掌握高效、低成本构建和部署先进AI系统的方法。

全书分为两部分:第一部分(第1~5章):DeepSeek学习前置知识,从DeepSeek模型概述和重要突破切入,系统介绍经典Transformer架构、强化学习基础、大语言模型RLHF、量化技术及分布式训练基础知识,为读者奠定理论与技术基础。第二部分(第6~11章):DeepSeek核心技术,先解析DeepSeek的模型架构创新(MoE、MLA、分词器设计等),探讨跨模态对齐、负载均衡、基础设施优化及数据处理等关键议题;再聚焦DeepSeekV3、VL2及开源推理模型的训练逻辑(训练策略、超参数设计、数据构建等)与推理优化(Prefill、Decode阶段优化),提供构建高效可扩展AI系统的完整方法论与实战参考。

本书不仅解读技术报告,更注重前沿理论与工业实践结合,帮助读者理解AI系统构建的本质规律与发展趋势,为学术界和工业界提供清晰可复现的高效能人工智能研发路径。

目录

    

前言

第一部分 DeepSeek学习前置知识

第1章 认识DeepSeek

1.1 DeepSeek的模型介绍

1.2 DeepSeek的重要突破

1.2.1 为开源做贡献

1.2.2 性能大幅提升

1.2.3 成本显著降低

1.2.4 算法创新

1.3 DeepSeek系列模型与其他大模型的介绍

1.3.1 DeepSeek系列模型

1.3.2 国外知名大模型

1.3.3 国内知名大模型

第2章 经典Transformer架构

2.1 Transformer架构的特点

2.2 Transformer的基本原理

2.2.1 分词器

2.2.2 词嵌入层

……


好评度
0%
  • 全部评价
  • 晒图
  • 追评
  • 好评
  • 中评
  • 差评