AI时代架构师的进化

你好，我是华仔。

自从ChatGPT引爆全球的AI浪潮后，大模型技术进入了飞速发展的阶段，正深刻改变着各个领域。与以往技术浪潮不同，大模型技术飞速发展，虽然给各行各业带来了新的想象和创新空间，但普通人看到的更多是焦虑：大模型会取代自己吗？

事实上，这种担忧正在成为现实。当下，AI确实在某些岗位上正逐步取代人类，即便是某些难以被完全取代的岗位，应用AI后，所需的人力也会大大减少。对于架构师岗位来说，现在虽然没有看到AI直接取代架构师的情况，但是随着AI技术的发展，未来3到5年，AI会不会开始取代架构师？架构师岗位是否会大大减少？当然，乐观的架构师们也在思考：如何利用AI这个工具来提升自己。

要回答这些问题并不容易。甚至都有同学说，要先研读100篇AI经典英文论文后才能做出判断，其实这是错误的思维。正确的做法是基于大模型的技术本质和架构师岗位的核心能力综合判断。这一节，我就谈谈我对此的理解和看法。

大模型的技术本质

目前的大模型技术本质可以总结为三个字：G、P、T（就是ChatGPT名称中的GPT）。我们一一来看。

首先，G：Generative，生成式。它具有生成内容的能力，能够根据输入的提示或上下文信息，生成连贯、有逻辑且符合语言规则的文本内容，如对话、文章、故事等，与传统机器学习的判别式模型主要用于分类和判断等任务有所区别。

其次，P：Pretrained，预训练。模型在大规模的语料数据上进行了预先训练，融合了无监督学习、监督学习、强化学习。在预训练过程中，模型学习到了大量的语言知识和模式，包括语法、语义、语言的逻辑关系等，这些预训练的知识可以帮助模型在面对各种具体任务时，能够更快更好地微调或适应，提高模型在不同任务上的性能和泛化能力。

最后，T：Transformer。2017 年，Ashish Vaswani等人在论文《Attention Is All You Need》中正式提出了Transformer架构，它完全基于注意力机制，摒弃了传统的RNN和CNN结构，在机器翻译任务中取得了显著的性能提升，开启了自然语言处理的新篇章。Transformer架构的出现，使得自然语言处理领域取得了重大突破，GPT就是基于Transformer架构构建的，能够更高效地处理和生成自然语言文本。

虽然大模型技术飞速发展，各个不同的大模型产品也各具特色，但是本质上都符合GPT的框架，可以用一句话来解释大模型的技术本质：通过海量资料训练得到自然语言模式和知识的概率模型，然后基于概率模型生成输出内容。

了解了技术本质，接下来我们再对比下大模型与传统的人工智能和机器学习，聊聊大模型的优缺点。相比之下，大模型具备三大典型优势。

一是强大的语言理解与生成能力。大模型能够处理和生成非常自然流畅的文本，在对话、写作、翻译等任务中表现出色。例如，GPT-4 可以生成连贯、富有逻辑且内容丰富的文章，在与用户对话时能够理解复杂的语义并给出恰当的回应。

二是知识融合与泛化能力强。通过在海量数据上进行训练，大模型可以融合多领域的知识，对各种未知场景和任务具有较好的泛化能力。比如，在医疗、金融、法律等不同领域的问题求解中，它能利用已学习到的知识进行分析和回答，展现出跨领域的适应性。

三是特征提取与表示学习高效。大模型能够自动学习到数据中的复杂特征和模式，提取出更高级、更抽象的特征表示。以图像领域的大模型为例，其可以准确提取图像中的物体特征、场景信息等，在图像识别、分类等任务中取得高精度的结果。

但是大模型也不是完美无缺的，“预训练”和“概率”两个技术本质也导致其出现了一些缺点。

首先是计算资源需求巨大。大模型通常具有数以亿计甚至更多的参数，训练和部署这些模型需要强大的计算资源，如高性能的GPU集群，并且需要消耗大量的电力。这不仅增加了研究和应用的成本，也限制了其在一些资源受限环境中的使用。

其次是训练时间长。由于模型规模大、数据量庞大，大模型的训练时间往往很长，可能需要数周甚至数月的时间才能完成。这使得模型的开发和迭代速度较慢，不利于快速响应市场需求和技术变化。例如ChatGPT刚推出的时候，训练数据截止到2021年，如果问它流浪地球2或者Apple M2芯片相关的问题，它就回答不上来或者会编造答案。

然后是存在数据偏见和伦理问题。大模型的性能和输出依赖于所使用的数据，如果数据存在偏差或不完整，可能会导致模型产生有偏见的结果。此外，大模型可能被用于生成虚假信息、进行恶意攻击等，从而引发伦理和社会问题，如虚假新闻生成、深度伪造等。

最后是大模型幻觉。大模型在生成内容或进行推理等过程中，可能产生与客观事实不符、逻辑不合理或与上下文不连贯的内容。如下是ChatGPT刚推出时，广为流传的一个错误案例（现在大模型通过结合联网查询已经不会出现这个错误了）：

了解了大模型的技术本质，我们再来看架构师岗位的核心能力。

架构师能力模型

简而言之，架构师是业务和技术之间的桥梁，架构师对综合能力要求更高，需要同时具备业务、技术、管理三方面的能力，下面我们分别讨论。

技术能力包括：

扎实的计算机基础知识：对编程语言、数据结构、算法、操作系统、计算机网络、数据库原理等基础知识有深入理解，能够运用这些知识构建系统，优化系统性能、解决复杂问题。
丰富的架构设计经验：熟悉常见的软件架构模式，如分层架构、微服务架构、分布式架构等，能够根据项目需求选择合适的架构，并进行详细的架构设计，包括模块划分、接口定义、数据流向设计等。
熟悉各种技术框架和组件：掌握常用的开发框架、工具、系统，例如SpringBoot、Redis、MySQL、MongoDB等，能够基于业务和团队的特点选择合适的技术来设计系统架构。

业务能力包括：

行业理解：架构师需要深入了解所在行业的发展趋势、市场动态和竞争对手情况。
业务理解：对业务领域中的专业概念、术语、规则、流程有精准的理解和掌握。
业务理解能力：架构师需要深入理解业务需求，能够从复杂的业务需求中提炼出核心的技术问题，设计出优雅、高效的架构方案。

管理能力包括：

团队管理能力：具备团队组建、培训和激励的能力，能够根据项目需求组建合适的架构设计团队，对团队成员进行技术培训和指导，激发团队成员的积极性和创造力，提高团队整体效率。
风险管理能力：能够识别项目中的技术风险、市场风险、人员风险等，制定相应的风险应对策略，提前做好风险预案和架构可靠性设计，降低风险发生的概率和影响程度。
多维沟通能力：既要能够与业务部门、客户进行有效沟通，深入了解业务需求，又要能够在技术团队内部清晰地传达架构设计思路、技术方案和项目要求，确保团队成员对项目目标和技术方案有一致的理解，还要跨部门与产品、测试、运维等部门保持密切沟通，协调各方资源，推动项目顺利进行。

如果你记不住上面的能力模型描述，可以记住这句总结：架构师需要理解业务需求，判断业务需求中的关键点和复杂点，然后设计适合业务和团队的系统架构。在这个过程中，架构师有非常多的沟通工作：与业务沟通、与团队沟通、与老板沟通、与协作部门沟通，通过沟通获取非常多的显性和隐性的信息。

大模型能够取代架构师吗？

初步了解了大模型的技术本质和架构师的能力模型后，我们再来探讨大家最关心的问题：大模型能够取代架构师吗？

我的看法是，目前基于Transformer架构的大模型是无法取代架构师的。

首先，架构师为了设计出合理的架构，在真正产出架构设计前，需要大量的沟通工作，而这些工作目前大模型无法完全胜任。同时，我们也不可能把架构师沟通过程中获取的所有信息都输入给大模型，这样做的效率很低，而且很多隐性的信息或者潜意识的判断，我们无法直接感知，也无法用语言精确描述。

假设，我们真的能够设计出一个大模型机器人参与我们的各种讨论，大模型是否就能自己做出判断呢？我理解也不行。因为这些信息都是碎片化且有差异化的，要想让大模型基于这些信息做出设计和判断，需要非常多类似的案例进行训练。然而，企业的业务、团队、技术都在不断变化和演进，辛苦花费几个月甚至1年的时间来训练，可能还没训练完这些原始的训练资料就过时了。

其次，架构师需要设计出适合团队和业务特性的系统架构，而大模型训练后输出的结果根据概率生成，两者本质上是冲突的。简单来说，大模型输出的架构设计要么是大而全的，要么是业界常用的方案；而架构师设计的架构方案虽然包含和业界共性的部分，但是和团队及业务相关的部分才是关键。企业为了在市场中获得竞争优势，必然会有很多的业务差异化和特殊性，这正好与大模型的技术本质是矛盾的。

如下是一个大模型生成的架构设计方案：

我们可以看到，大模型输出的架构方案看似面面俱到，实际上并不能真正指导开发团队实现，很像不少人吐槽的“PPT架构师”的输出。

而且，架构师在做架构设计的时候，需要平衡和取舍各个利益干系人的诉求。此类工作涉及人类的情感和人际关系等因素，俗话说“有人的地方就有江湖”，目前大模型对于人类社会的“江湖”还不具备理解能力，更不用说参与了。

举个最简单的例子，你的团队换了一个新来的阿里系的高P领导，他特别喜欢用阿里云相关的技术，你在做架构设计的时候，就不得不考虑这方面的因素了；而大模型无法完成这样的“考虑”，也没法体验和感受你的想法：你是准备站队到这个新来的高P，还是采取稳妥一些的策略先观察看看，还是准备不鸟他，继续坚持你认为最合适的技术？这些都会影响你最终的架构设计方案。

最后，大模型“预训练”本质决定了它只能在已有的成熟技术中挑选和设计，无法创造新的架构思路或者解决方案。

例如谷歌2008年三篇大数据论文开创了软件行业的大数据时代，其背后的驱动因素是原有的各种技术方案都已经无法满足谷歌的业务发展，然后技术团队开创性地创造了新的解决思路和方案；而大模型不具备这样的创新能力。

大模型时代架构师进化建议

通过前面的分析我们可以看到，大模型之所以无法取代架构师，其中一个关键因素是架构师需要对企业的业务有深刻的理解，另外一个关键因素是架构师有大量和“人”打交道的地方。

当然这并不意味着架构师在大模型时代就可以高枕无忧，或者可以对大模型熟视无睹。大模型虽然不能取代架构师，但是对架构师也有不小的影响。

一个最直接的体现就是借助大模型，人人都可以快速掌握各种架构设计所需要的技术。大模型能够快速整合海量的技术知识，为学习者提供精准的技术指导和案例参考。以往需要花费大量时间和精力去学习和积累的架构设计技术，如今在大模型的帮助下，较短时间内就能被初步掌握。这使得架构设计领域的技术门槛在一定程度上有所降低，也加剧了架构师面临的竞争压力。

那么大模型时代，架构师如何保持或者提升自己的竞争力呢？我有几点建议。

首先是掌握大模型相关技术。深入学习大模型的原理、应用场景，了解其优势与局限性，思考如何将大模型与现有系统和业务进行集成，以及如何利用大模型来优化架构设计。例如，学习大模型的微调技术，以便根据具体业务需求对模型进行定制化。

其次是成为业务领域专家。保持对业务创新的敏感度，及时了解行业内的新技术、新模式和新趋势。将这些创新元素融入到架构设计中，为企业提供具有竞争力的解决方案；理解业务的核心流程、关键指标和发展趋势，能够从业务战略层面结合大模型和人工智能进行架构规划。

然后是推动技术创新与实践。尝试新的技术和方法，将大模型与其他新兴技术如区块链、物联网等相结合，探索新的架构模式和应用场景。通过实践不断积累经验，提升自己的创新能力和解决复杂问题的能力。

最后是利用大模型提升能力。架构师可借助大模型快速了解新兴技术的原理、应用场景和发展趋势，如询问大模型关于边缘计算、量子计算等技术与架构设计的结合点，获取学习资料和学习路径推荐，制定个性化的学习计划，加速对新技术的掌握。

小结

这一节，我们重点学习了架构师如何在大模型时代进化。大模型的技术本质是通过海量资料训练得到自然语言模式和知识的概率模型，然后基于概率模型生成输出内容；而架构师需要理解差异化和特性化的业务需求，判断业务需求中的关键点和复杂点，然后设计适合业务和团队的系统架构。大模型的“预训练” 和 “基于概率生成”的技术本质决定了目前还无法取代架构师，因为架构师需要对差异化的业务有深入的理解，并且还涉及大量和“人”打交道的场景。

虽然大模型还不会取代架构师，但是架构师也需要掌握大模型技术，通过大模型来提升自己的技术能力，并且思考如何将大模型与自己的业务和技术进行结合。

思考题

以上就是今天的全部内容，最后留一道思考题给你吧：最近爆火的DeepSeek具备了很强的推理能力，它是否可以取代架构师呢？

欢迎你把答案写到留言区，和我一起讨论。相信经过深度思考的回答，也会让你对知识的理解更加深刻。

精选留言（1）

若水清菡 👍（0） 💬（0）
平常的工作谈不上架构师，主要从事的是运维方面的工作。从运维角度我个人觉得deepseek对运维的改变： 1、运维写代码过程中的代码补全，意图识别和纠错； 2、安全方面上传的恶意js反混淆分析； 3、运维监控系统报警信息的分析和统计； 4、业务产品指标的波动分析和判断； 5、业务运维方案、运维故障复盘的完善和优化。这一切都是从工作流程上来提高工作效率，代替不了人对结果的二次分析，包括拿到deepseek的总结后与业务开发同学进行技术沟通，修复存在的风险问题等，本质上这些大模型目前只是让我们做工作做的更好，根据技术的发展不断提升认知能力，学会AI用好AI进而在工作中不断精进，提高岗位的竞争力和发展。
2025-02-21