自动驾驶至今依然是一个亟待解决的难题,并且需要大量实测验证支持,因此长期、持续、高效的研发迭代效率也是最终能实现全无人驾驶的保证。如何在保证安全的前提下,高效地进行研发迭代,是所有自动驾驶公司需要面临的一个重要挑战。
代码是自动驾驶软件的核心,代码的质量是安全的基石,代码的迭代效率也是研发效率的基础。
一套优秀的代码工程实践方式,可以做到保证代码质量,同时也提升了代码迭代效率。并且两者相辅相成,更高质量的、可维护性的代码质量将有利于长期的更新迭代,而更高的迭代效率带来的更良好的工程师开发体验必然也保证了最终系统的可靠性。
今天,我们将会分享小马智行的代码工程实践,向大家介绍小马智行如何在保证Safety First的前提下提升研发效率并维护良好的工程师开发体验。
代码库
小马智行的代码库包含了几十万个源代码文件(作为对比,我们熟知的Linux kernel库一共包含了七万多个文件),代码行数达到千万量级。在工作时间,平均每天有数百个提交被合入。如此的规模和频率也给代码库的管理,如外部依赖管理、编译、打包、发布等工具链提出了更高的要求。小马智行将代码库的管理视为提升研发效率和保证工程质量的基础,有专门的团队负责相关工具链和服务的开发和维护。小马智行使用bazel管理代码的构建,从而很好地支持了多语言、多平台、大规模的编译构建。我们针对所有代码使用同一套统一的编译环境和选项,减少了工程师重复工作的同时,杜绝了兼容性和依赖问题。我们还开发了一种内部的二进制打包格式,用于在单文件中包含所有所需的配置文件和依赖库等,极大简化了代码发布的工作。
开发环境
在小马智行,软件工程师统一使用Linux系统作为开发环境,同时我们维护了一套基于Ansible脚本的自动化配置用于安装配置编译环境和外部依赖等,保证每一位工程师开发环境的统一。此外,这一套自动化配置的开发环境和小马智行的自动驾驶车辆中的系统环境也是高度一致的,它们可以编译出完全一致的可执行文件并可以直接调试运行。因此,几乎所有自动驾驶车辆上的遇到问题,工程师都可以在本地复现,大大降低了工程师查找问题的难度。同时,行为的一致性也是保证自动驾驶安全的基础。统一完善的本地开发环境并不意味着工程师代码的编译测试受限于本地设备的性能:我们同时也使用分布式编译平台提供远程编译环境和缓存,使得个别文件的改动基本只需在秒级别内完成整体项目的构建;我们也在云端提供相同环境的系统用于运行各类测试和工具,小马智行的自有机房为这些功能提供了安全和可靠的支撑。可以说,在小马智行,开发环境是“开箱即用”的。
在小马智行,我们持续保持对新技术的采纳,防止日积月累的技术债。C++是我们的自动驾驶系统主要使用的开发语言,当前我们使用clang 10编译器以及C++17标准,并正在积极准备升级至C++20,这使得我们可以在代码库中充分使用语言新特性来优化可读性和性能。Python也是我们常用的脚本语言,我们使用的Python 3.8版本也是最新的几个稳定版本之一。在代码提交之前,我们要求使用clang-tidy, clang-format, iwyu, mypy等工具对代码进行前期的强制检查和格式化,确保代码风格的一致性并减少潜在的问题。
代码审阅(Code Review)
基于自动驾驶系统对安全的追求,小马智行在合并新代码之前有严格的规范:每一个提交(Pull Request)的合并需要一位代码可读性(Readability)审阅人以及一位代码所有者(Owner)的检查和通过。不同的开发语言有不同的可读性审阅人(比如C++ readability reviewer, Python readability reviewer),这些审阅人将确保提交中的代码具有相当的可读性,易于理解,同时遵循了相应语言的代码规范的最佳实践。而当一位工程师提交的代码可读性持续地达到标准后,这位工程师自己也可以申请成为可读性审阅人。代码的所有者根据代码所属的模块等灵活设置,他们均是非常熟悉相关代码的优秀工程师,他们需要对提交中代码的设计方案、功能以及正确性负责。一次代码合并前,代码所有者经常还会邀请所有与被修改的代码相关的工程师共同审阅代码。为了保证代码质量,一个提交花费数周时间进行审阅、各审阅人提出多达百条建议并多次修改的情况,在小马智行是非常常见的。
对于一些涉及复杂功能的代码,很多时候仅仅是代码的审阅是不够的。在这些时候,我们还要求工程师先进行设计文档的编写、审阅甚至答辩。只有相应的设计文档被通过后,工程师的代码提交才会被开始审阅,以此来避免虽然代码正确但是整体设计不符合要求的情况。
代码测试
仅仅是代码审阅的通过还不足以允许代码的合入。在审阅人审阅通过之后,提交的代码还需要通过一系列的自动化测试。
小马智行维护了大量的代码测试以保证代码的质量。包括常见的以文件为单位,测试特定代码功能的单元测试(Unit Test)、以代码的模块为单位,测试模块功能的集成测试(Integration Test),还包括了专门针对自动驾驶软件的模拟硬件输入,测试车载系统行为的硬件回路测试(Hardware In Loop Test)、测试车辆行为,与特定的历史版本代码对比的回归测试(Regression Test)、以及用于行为验证的大规模仿真评估(Large Scale Simulation Evaluation)等。
小马智行的代码仓库中有近万份单元测试用例,核心模块基本保证了100%的单元测试覆盖率。高密度的单元测试保证了代码的正确性,也防止其行为因为其他相关代码的意外修改被破坏。此外,小马智行研发了一套功能极为强大的仿真工具,用以测试代码在近似实际运行的环境中的行为。小马智行的仿真工具可以以一段车辆运行记录(可能来自真实的道路测试,也可能通过工具产生)为输入,测试自动驾驶软件的行为。这套仿真系统在硬件回路测试、回归测试和大规模仿真评估等过程中被大量使用。这些所有测试都可以由工程师在代码提交后,输入一行命令来在云端触发运行。
除此之外,我们还会使用多种代码检查工具来查找代码中可能的问题。在小马智行,我们会以每天一次的频率,使用ASAN (Address sanitizer)、TSAN(Thread sanitizer)、UBSAN(Undefined-behavior sanitizer)模式分别运行和检查所有的单元测试和仿真测试并确保他们通过,基本能消除代码中的各类内存访问、线程安全、未定义行为等问题。
工程师培养
除了上文中介绍到的工具和规范,工程的质量和效率归根结底还是依赖每一位优秀的工程师的努力,源自于每一位Ponies心中对Safety first的执着。在小马智行,每年都有大量的新人加入我们的工程师团队,我们会为每一位工程师设置一位导师,并为其设计量身定做的上手培训项目(onboard training program)。上手培训项目会包括从代码规范、系统架构介绍到训练代码开发等,耗时将近一个月。除此之外,每周一篇的Coding Tips、每周五的技术大牛分享(TGIAF)、各个团队几乎每天都有的技术沙龙,都为每一位工程师学习和提升提供了丰富的资源。对于每一个项目,我们坚持准备完善的设计文档、上线文档、维护文档等,并可能在必要的时候总结复盘文档用于反思和提高,这些不仅在项目进行过程中保证了工程质量,也为未来留下了宝贵的经验材料,供所有其他工程师学习。
总结
在小马智行,我们相信工程实践的每一步,从代码开发环境、代码规范到审阅流程、测试验证,都是奠定更安全高效的自动驾驶软件的基础。我们将工程师文化践行在日常工作中的每个细节,坚信用代码改变人类出行方式的愿景。
文章转载自公众号:汽车电子与软件