报告期内,公司继续坚守“做智能世界的数据基石”的使命,按照技术+产品双轮驱动的定位持续加大研发投入,为AI产业链上的各类机构提供算法模型开发训练所需的高质量专业数据集。2022年,公司持续探索、立足以智能驾驶为代表的新兴垂直领域,为公司中长期健康发展奠定基础。同时,公司适时恢复海外市场投放力度,积极拓宽海外市场空间。2022年,公司实现业务收入2.63亿元,较上年同期增长27.32%;实现归属于母公司所有者净利润2,945.41万元,较上年同期降低6.81%;扣非后归母净利润1,014.91万元,较上年同期降低51.83%;经营性现金流净额3,065.89万元,较上年同期增长4,620.72万元。截至报告期末,公司总资产为8.77亿元,归属于母公司的所有者权益为8.30亿元,分别较上年末增加4.31%和2.93%。2022年,公司具体经营情况如下:
2022年,随着全球经济形势逐渐复苏,境外市场需求快速回升,公司境外业务收入达到1.16亿元1,同比增长102.04%。受益于境外企业全球化扩张以及虚拟人、多语言扩展、软硬件升级等研发及业务方向的发展,多语种多模态数据业务需求呈现快速增长趋势,公司凭借多年来在语言研究、发音词典、语音、计算机视觉以及自然语言方面的技术储备,赢得了境外客户信赖,相关订单数量显著增长。
此外,为更好应对境外数据服务市场的复苏,公司也逐渐增强境外销售团队建设、增设境外本土销售人员,重启包括Interspeech、ICASSP等在内的海外研讨会及行业展会并深度参与,从而向全球市场展示公司先进技术实力及前瞻性产品积累,提升行业影响力;同时,利用搜索引擎、社交媒体、品牌宣传等多类渠道进行推广,提升海外市场及主要客户的认知度。
报告期内,得益于智能驾驶级别以及渗透率的不断提升,智能驾驶相关数据需求呈现出规模化增长趋势。2022年公司凭借逐步积累起来的行业领先的技术平台以及优质的服务品质,开始获得客户认可,2022年,公司智能驾驶业务收入4,174.51万元,同比增长115.12%,客户数量超过50家家居设计工作室,覆盖传统车企、新势力车企、智能驾驶技术公司等。
2022年,为更好抢抓智能驾驶发展机遇,公司建立独立的智能驾驶事业部,并从研发、技术、业务、销售等多维度布局智能驾驶业务。公司于报告期内上线了第四代智能驾驶标注平台,实现了智能驾驶应用场景全覆盖,可支持包括4D毫米波雷达、激光雷达、鱼眼摄像头等各类传感器的
新型数据处理需求。此外,公司通过整合当前主流的神经网络算法架构和海量的自有数据集,进行大量的模型训练和调优,提升了2D视觉及3D点云连续帧标注中的插值、预测、自动贴合、地面检测等算法效果,改善了标注效率和准确率。
报告期内,随着国家对于数据安全重视程度的不断提升,数据安全及合规能力成为智能驾驶数据服务领域新的竞争壁垒。2022年8月末,自然资源部发布《关于促进智能网联汽车发展维护测绘地理信息安全的通知》(以下简称《通知》),《通知》规定了从事测绘相关工作的内资企业需获得相应资质方能准入(外商投资企业则不能申请测绘资质),这意味着未取得测绘资质的企业将不得从事智能驾驶舱外数据的处理(包括但不限于采集、标注等)工作,进一步拉升了行业准入门槛。公司历来重视数据安全能力建设,并在相关资质方面加强布局,于2022年6月取得北京市规划和自然资源委员会行政许可,获得乙级测绘资质,为公司合规开展汽车数据采集、标注业务,建立完整数据解决方案、生产标注化数据集产品,奠定了坚实的基础。
2022年,按照公司技术+产品双轮驱动的定位,公司持续加大研发投入,不断提升技术和平台工具先进性、加大标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固公司核心竞争力。报告期内,公司研发费用共计9,427.34万元,占当期营业收入的35.86%,研发投入同比增长55.77%,在研发投入金额和研发投入占收入比两个维度均创公司历史新高。截至报告期末,公司研发人员数量增加至82人。
报告期内,公司持续加大基础研发投入,进一步提升人工智能基础算法、一体化数据生产平台、前沿技术研发等领域能力,同时重点投入智能驾驶数据处理综合性平台的相关算法研发,并形成了一些代表性成果:
新增算法模型框架1个、算法模型数量增至200余个、语音识别算法支持语种数增至58个;进一步提升多引擎决策策略对数据业务的效率提升作用,算法自动识别跳过人工处理能力实现30多个语种的覆盖,跳过率平均提升20%;完成多通道对齐算法迭代升级,在特定项目中对齐准确率提升至99.7%。在智能驾驶算法研发方向,全面优化2D目标检测算法,准确率提升超过70%,助力数据标注速度显著提升;完成3D点云目标检测算法的研发和平台部署;新增了包括3D点云分割算法、车道线检测算法、可行驶区域检测算法、交通灯检测算法等多种算法能力家居设计工作室。
全面提升一体化数据服务平台标注能力与自动化标注覆盖率,进一步拓展数据应用领域覆盖:(1)全面升级智能驾驶标注子平台,新增4D标注工具,优化点云语义分割、2D+3D融合标注、点云BEV(鸟瞰图)、Freespace场景等标注交互体验超过50个功能点;新增2D多目视频追踪联合标注场景支持,全面优化2D标注、像素级语义分割、2D连续帧标注体验超过80个功能点,大幅提升智能驾驶相关数据标注效率;
(2)升级一体化数据处理平台与算法训练平台无缝对接,实现涵盖语音、文本、图像、点云等各类数据类型的自动预标注、实时交互式辅助标注与自动质检,大幅提升平台自动化标注覆盖率与标注结果准确率;
(3)升级智能语音标注子平台,新增调型标注、多音字自动提取与标注、元音恢复标注等语音合成相关十余类标注场景支持共计超过30个功能点,支持基频提取,支持中文与日语韵律预测,支持中文、英文、日语、韩语、法语、意大利语、德语、葡萄牙语、俄语、丹麦语等23个语种的词性预测算法接入,持续提升对公司多语种数据业务的自动化支撑;
(4)在多语种语料设计领域,更新优化多语种语料设计平台,持续提升对复杂语音识别语料设计及语音合成语料设计等需求的支撑作用、确保满足甚至超出客户预期。
通过上述投入,截至报告期末,公司已经取得29项发明专利、1项实用新型专利授权及1项外观设计专利授权,163项计算机软件著作权。同时,公司实质性地提升了自身的算法能力、工程化数据研发及生产能力,形成了更为合理、高效的人机协同智能化解决方案,持续降低训练数据开发成本,以AI赋能训练数据开发,以训练数据赋能AI产业发展。
标准化数据集产品,是公司区别于众多竞争对手以定制化服务为主的特有商业模式,也是公司核心竞争力之一,标准化产品不仅可以更好服务于客户需求,同时由于产品本身的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
为更好缩短AI产品研发周期以及降低研发成本,购入标准化数据集产品并完成模型训练的客户需求持续存在。为更好适应新的行业发展趋势,公司2022年在产品研发方面的投入达到4,434.28万元、同比增长46.63%,用于开发覆盖智能语音、计算机视觉以及自然语言等领域的相关数据集产品。截止报告期末,公司新增研发超400个训练数据集产品,自有知识产权的训练数据产品储备超过1,300个,尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了更丰富的标准化产品资源。
随着以上产品的研发完成并投放市场,2022年标准化产品收入实现提升,达到1.11亿元,同比增长14.19%,公司在标准化数据集产品的投入获得市场认可,成效显著。
截止报告期末,公司已向下游客户提供了累计约6,000次/个定制或标准化训练数据集,可覆盖生活交流、客服、家居、行车、办公、普通环境、噪声等多种特定场景中的语言现象和视觉呈现,构建成独具特色的训练数据资源及服务能力集群,并已应用于个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧金融、智慧交通、智慧城市、机器翻译、智能问答、信息提取、情感分析、OCR识别等19类创新应用领域,赋能人工智能技术与实体经济的深度融合。
随着全球化扩张成为头部企业收入持续增长的重要引擎,多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求,公司持续保持语音语言学研究力度,在语音语言学基础研究方面,公司不断丰富合作语言学家团队资源,成员遍布世界各地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备。此外,公司建立了成熟的发音词典构建流程,截至报告期末,已积累下超过110个语种/方言的发音词典,覆盖希伯来语、乌尔都语、缅甸语、阿姆哈拉语、普什图语、阿尔巴尼亚语、格鲁吉亚语等小语种,累计词条数超过1,000万条,可支撑构建高质量的智能语音、多语种OCR及手写体训练数据。截至报告期末,公司已经拥有近200个语种/方言的覆盖能力,不仅包括含英家居设计工作室、法、德、意、西、日、韩等常见外语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势,同时也是公司的主要壁垒及核心技术之一。
报告期内,公司基于积累的强大语音语言学设计能力,为全球某知名科技企业提供了专业的闽南语语音数据集,将原本没有特定文字书写系统以及对应音标的闽南语,直接透过语音对语音翻译方式转换成另一种语言,辅助客户完成了闽南语等无文字无音标体系小语种语音技术突破。
2022年是我国《数据安全法》、《个人信息保护法》生效后的第一个完整自然年,两项法律的配套立法和执法要求逐步落地,数据安全监管环境进一步趋严。年末,《中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》正式发布,明确了包括“建立保障权益、合规使用的数据产权制度”、“建立安全可控、弹性包容的数据要素治理制度”等在内的数据基础制度建设方向,对企业的数据安全水准和能力提出了更高要求。
公司一直以来非常重视数据安全管理以及相关能力的提升。报告期内,公司在数据安全方面实现了多项工作成果。资质方面,公司取得北京市规划和自然资源委员会行政许可,获得乙级测绘资质,为公司智能驾驶采集业务拓展奠定基础;开展信息系统等级保护测评工作,获得等保三级备案证明;继续持有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证。行业参与方面,公司加入成为中国信通院数据安全推进计划成员单位,董事兼副总经理李科入选该计划数安智库专家,发表《AI训练数据安全管理实践》等文章,为人工智能领域数据安全管理建言献策,并因其贡献荣获数安智库2022年度优秀专家称号;公司根据实践经验总结、撰写的《人工智能基础数据业务之个人信息收集活动的合规审计》案例获选中国信通院、中国内审协会“全国首届数字化审计论坛”评选的“个人信息保护合规审计先锋实践案例”,数据安全管理工作获得了行业认可。
公司也一直坚持统筹安全与发展并重的原则,在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。2022年9月,我国《数据出境安全评估办法》正式生效实施,公司高度重视、认真研读并积极开展有关数据出境风险自评估、安全评估工作,并已依法向有关部门进行了安全评估申报。
2022年,公司在供应链管理体系稳健发展的同时,采取了一系列积极改革措施提升供应链运作的效率和质量,降低成本和风险,提高公司核心竞争力。报告期内,公司重组相关部门、设立新的集采中心,通过对供应链各环节整合的方式,实现境内、境外供应链资源集中化管理,并通过标准流程与制度体系的建设,优化供应链体系运作。同时,为更好进行项目成本管控,公司打通并形成了围绕供应链的综合大数据体系,采用数字化和智能化手段,优化供应链管理,对供应商资源池整合、梳理、标签化、线上化,形成供应链第一阶段“十级资源标签”,帮助公司提高供应链资产管理效率、降低成本、提高利用率和安全性,同时也可以提高可视化程度,对公司的管理和决策具有积极的促进作用。同时,在风险管理方面,公司建立了完整的供应链审核和管理制度,对供应商的质量、信用等方面提升了要求,以确保供应链的质量和合规性。
2022年,公司积极筹划包括股权激励等在内的长效激励机制,对公司近百名核心员工进行了上市后首次股权激励的授予;同时,完成了新一轮组织架构升级,藉此加快组织能力建设,为技术研发体系、基础数据服务业务、以及包括智能驾驶在内的新业务拓展提供全力保障;此外,结合公司新时期战略目标,全面升级企业文化,激励员工突破创新,引领企业高质量发展。
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。
算法、算力、数据是人工智能技术发展的三大要素,其中训练数据是算法发展和演进的“燃料”。在当前技术发展进程中,深度学习算法是推动人工智能技术取得突破性发展的关键技术理论,而大量训练数据的训练支撑则是深度学习算法实现的基础。深度学习分为“训练”和“推断”两个环节:训练需要海量数据(603138)输入,训练出一个复杂的深度神经网络模型;推断指利用训练好的模型,去“推断”现实场景中的待判断数据,并得出各种结论。训练数据越多、越完整、质量越高,模型推断的结论越可靠。因此,要使算法模型实现从技术理论到应用实践的落地过程,就需要提供大量的训练数据,对算法模型加以训练。通常,从自然数据源简单收集取得的原料数据并不能直接用于深度学习算法的训练,必须经过专业化的采集、加工处理,形成相应的工程化数据集后才能供深度学习算法等算法、模型训练使用。
自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞(002230)、海康威视(002415)、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量为810家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业,教育科研机构以及部分政企机构。
公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。
语音识别(AutomaticSpeechRecognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器自动将语音信号转换为对应的文本信息。
语音合成(TexttoSpeech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。
以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现了软件“发声说话”的效果,为用户提供即时语音导航。
公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。
计算机视觉(ComputerVision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集。
自然语言处理(NaturaLanguageProcessing,NLP)是以机器能够像人一样理解语言意图的技术。
以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。
公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集。
公司基于自身生产的训练数据提供算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高AI技术应用效果。
前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练素材,助力AI技术实现实践应用及商业化落地,赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中,覆盖了智能驾驶、个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智慧金融、智慧交通、智慧城市、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
(1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。
(2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。
(3)训练数据相关的应用服务:公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务,通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果,获取让渡资产使用权收入和技术服务收入,以及少量硬件销售收入。
公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。
公司基于其生产的训练数据提供算法模型相关训练服务,助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定行业和口音的专属算法模型,提高AI技术应用效果。
以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
数据服务采购:公司在数据采集、加工环节中,向人力资源服务等类型的公司等供应商采购的,非核心技术环节的原料数据采集、标注服务。
岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少量实习生招聘等。
其他采购:(1)训练数据生产所需的资产,主要包括软、硬件设备及其他需求物品采购;(2)日常运营所需的资产及物品,如办公用房、车辆、办公家具、计算机设备等;(3)日常专项服务采购等,主要包括审计服务、会议服务、差旅服务等。
上述原料数据采集、加工环节所涉及的数据服务采购,为公司最主要的采购类别,由集采中心负责;各部门岗位服务采购由人力资源部负责;其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理,并对采购费用进行核算及结算。
经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度,设立有完善的采购流程和体系,并与主要的供应商形成了良好稳定的长期合作关系。
公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高品质的训练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、口碑传播、参与学术会议和行业展会、官方网站和自媒体展示等方式建立品牌知名度、与客户建立联系,后续再通过商务谈判、招投标等形式获取具体业务机会。
根据国家统计局《战略性新兴产业分类(2018)》,公司所从事的训练数据生产业务属于“新一代信息技术产业—新兴软件和新型信息技术服务—新型信息技术服务—信息处理和存储支持服务—数据加工处理服务”行业,是国家重点支持的“新一代信息技术领域”的战略性新兴产业。公司通过设计训练数据集结构、执行数据采集、加工处理过程,生产用于算法模型开发训练用途的专业数据集,并以软件形式向客户交付,所属行业为软件和信息技术服务业。
(1)在全球数字经济发展以及以ChatGPT为代表的大模型的驱动下,全球人工智能产业即将进入新一轮加速发展期
当前,新一轮科技革命和产业变革深入发展,数字化转型成为大势所趋,世界主要国家均高度重视发展数字经济,纷纷出台战略规划,重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技术之一,正在发挥更加重要的作用。例如,随着数字经济发展的不断深入,数据体量以及复杂度均不断提升,为更好解决产业数字化中数据提取、处理、分析等工作,将会产生更多样化的人工智能需求,人工智能支出也将成为支持企业数字化转型支出的主力之一。
根据IDC报告,全球范围内,企业在人工智能市场的投资增速将显著高于数字化转型支出(DX)和GDP增速。
此外,以ChatGPT为代表的大模型在近期的现象级智能化表现引发行业强烈关注。作为全新的人工智能聊天机器人,推出仅仅两个多月,ChatGPT全球用户已突破1亿,人工智能通过极具颠覆性的能力再次走入大众视野,并获得了产业界的广泛关注。可以预见,人工智能行业将在以ChatGPT、GPT-4为代表的大模型技术的推动下进入新一轮产业高速发展期。
未来,受益于数字经济政策和大模型技术的双重驱动,人工智能将具备更强的产业融合能力,并将深刻影响千行百业的运行规则,以及人们的生活方式,人工智能产业的发展将随之进入快车道。
根据国际数据公司(IDC)的数据,2021年,全球人工智能市场规模为885.7亿美元,预计2025年将达到2,218.7亿美元,年复合增长率达到26.2%。
在市场需求拉动和国家政策的支持引导下,当前我国人工智能产业加速发展,已形成基础底层设施、中层技术、以及上层应用的完备的产业链生态,一批创新活跃、特色鲜明的创新企业不断涌现,并联合推动中国人工智能产业实现规模增长。根据国际数据公司(IDC)的数据,中国人工智能市场规模预计2025年有望达184.3亿美元,年复合增长率达到24.4%。
在AI产业链中,算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推断的结论越可靠。根据DimensionaResearch的全球调研报告,72%的受访者认为至少使用超过10万条训练数据进行模型训练,才能保证模型的有效性和可靠性。此外,根据MckinseyGobaInstitute研究,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新,因此,算法模型所使用的训练数据亦需要定期更新。具体而言,约1/3的算法模型每月至少更新一次,约1/4的算法模型每日至少更新一次,算法模型持续更新的特点将进一步拓展各领域训练数据的需求空间。
此外,数据在人工智能三要素中的重要性也将更加凸显。过去十年人工智能产业是以算法为核心,通过深度学习算法的不断创新,推动人工智能产业的快速发展。但未来,当算法发展趋于开源,想要更快更好提升人工智能能力,数据将发挥更重要的作用。2021年,全球人工智能和机器学习领域最权威的学者之一吴恩达教授提出二八定律:AI研究80%的工作应该放在数据准备上,确保数据质量是最重要的工作;业界如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。由此可以看出,数据对于人工智能技术的长期发展的重要价值和核心作用,AI产业的数据需求和多样性将会快速增加。根据研究机构Cogniytica预计,到2027年,全球数据标注市场规模将超过190亿美元。
同时,中国作为全球人工智能产业增速最快的国家之一,相关数据需求也在快速增长。根据IDC发布的《2021年中国人工智能基础数据服务市场研究报告》,中国AI基础数据服务市场规模预期2025年将突破120亿元人民币,复合年增长率预期达到47%,达到中国人工智能市场支出总额的约10%。
随着深度学习技术的不断突破,人工智能发展已经进入2.0时代,相关训练需求正逐渐从通用基础能力建设,向更为专业的垂向场景/行业拓展。一方面,以大模型为代表的AI基础技术不断取得重大突破,AI模拟人类认知的能力飞速提升,因此从技术能力维度看,AI已具备与垂直产业融合并规模化应用的前提条件;另一方面,受国家数字经济发展战略推动,产业数字化和智能化将进一步席卷各行各业,智能化技术与传统产业的融合将成为数字经济时代的新发展趋势,并创造出巨大的蓝海空间。
当前AI技术正在加速与各类产业融合,在汽车、金融、医疗、工业等传统行业的渗透率和应用场景不断提升,展现出可观的商业价值和巨大的发展潜力,而数据作为打通算法技术与行业需求的核心桥梁,作用更加凸显,可以说数据能力一定程度上决定了算法模型在对应产业的适用性以及实用性,成为加速AI产业化落地的关键要素。
在各类垂向场景中,智能驾驶受益于其产业本身的高速发展,以及以智能化为核心驱动的底层逻辑,相关数据需求呈现出快速增长趋势,因此成为数据服务行业首个产生规模化需求的垂向领域。未来,随着智能驾驶级别的不断提升、以及渗透率的不断提高,产业对智能驾驶的算法的精度要求会更高,一方面在硬件配置上,传感器的种类和数量会不断变化,另一方面,算法需要持续不断地学习更多场景的数据来提高罕见场景的识别能力,因此,未来智能驾驶的数据需求将向覆盖更多数据类型、更广泛应用场景以及更高质量的方向发展,数据需求也将从原来单一的2D需求(主要集中在L2级别)向3D、以及2D-3D融合需求拓展(L3及以上级别)。
2013年,共建“一带一路”的倡议正式面世,十年来,随着国家“一带一路”战略的深入推进,国内一批具有较强创新能力和过硬技术实力的企业,纷纷踏出国门,积极拓展海外市场,通过不断扩大企业出海战略版图,获得高速发展机会。另一方面,境外头部企业也继续践行“全球化”战略,搭乘全球出海的快车。
随着境内、外企业的全球化扩张成为确定性趋势,多语种能力作为支撑企业顺利出海的核心要素之一,重要意义更加凸显。未来,多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器人、多语种OCR等各领域产品/应用的全球化推广起到积极作用。因此,随着各类客户群体扩张步伐加速,多语种需求也将快速增长,具有强大语言研究能力的数据服务企业将获得更多商业机会。
随着AI虚拟主播、虚拟学生、虚拟员工轮番上岗,虚拟数字人这个新兴概念逐渐走入大众视野,成为元宇宙与人工智能两大领域的热门技术赛道之一。想要让虚拟数字人实现与人类的自然交互,不仅需要发音标准自然、身体动作流畅,其表情、口型与声音也要实现细节的精准匹配,而多模态技术就是打破传统人工智能单一感官局限、让各类AI能力协同使用的重要技术。通过对高质量多模态训练数据集的持续学习,AI可实现图像、视频、音频、语义文本等多维度能力的融合,使得虚拟人在行为上更接近人类。
此外,随着AIGC技术的发展,AI将在更多维度上辅助人类创作,例如人类输入一段文字指令,AI通过理解输入的文字内容,按照人类描述生成一幅画或一段语音,以此帮助人类完成内容生产。想要实现上述功能,即需要通过对多模态数据进行学习,使文字与图画或语音形成一一映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作。
因此,随着以虚拟人、AIGC为代表的AI技术的不断发展和应用,数据服务领域多模态需求将呈现加速增长趋势。
随着ChatGPT成为全球范围内的现象级应用,人工智能迎来了新的发展机遇,其背后的大模型技术也将进一步引导人工智能产业变革并带来相关数据需求的变化和增长。具体来说,为更好完成预训练阶段的通用模型训练,大量数据的质量要求将更高,高质量数据清洗的规则建立以及工程化能力将成为重点。此外,强化学习阶段的高阶数据需求将不断增加,基于人类认知的高质量的数据输入将更大程度决定模型效果。
可以预见,未来,大模型将成为AI时代的重要基础平台和新型基础设施,并会驱动、产生大量基于大模型的行业应用开发,AI向各个产业的渗透将不断提升。以金融行业为例,近期工商银行发布了其自身的金融行业人工智能通用大模型,该模型与以往传统模型相比,具有更丰富的通用知识、更强的学习与推理能力,以及海量的金融专业知识,并在客户服务领域、风险防控领域、以及运营管理领域带来远超传统模型的服务效率提升。这个典型案例只是大模型应用的一个开端,未来大模型技术将通过其出色的表现,快速推广并影响更多的产业和领域,而连接行业需求和大模型技术的核心桥梁便是高质量、高精度的行业数据。因此,为加速实现AI产业化落地,行业将衍生出更多垂向场景的数据需求,大模型将通过不断学习各个垂直领域的行业高质量数据实现更广阔的垂向拓展。
近年来,数字经济规模的快速扩张,数据作为数字经济时代最核心、最具价值的生产要素,重要性更加凸显,但数据不同于传统生产要素,其承载涵盖了大量涉及个人隐私以及国家安全的重要信息,因此,为更好保障数字经济长期稳定的可持续发展,建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年,国家陆续出台包括《数据安全法》、《个人信息保护法》、《汽车数据安全管理若干规定(试行)》、《数据出境安全评估办法》、《自然资源部关于促进智能网联汽车发展维护测绘地理信息安全的通知》等主流法律法规,为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。
未来,随着AI技术不断革新,应用场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,对于以数据生产为主营业务的数据服务企业,数据安全及合规能力将成为数据供应商新的能力评价维度,成熟的安全合规管理体系将成为重要评价标准,能持续跟踪法律环境变化,积极响应监管政策,牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。
当前,我国开始进入由工业经济迈向数字经济的“新时代”,国家高度重视数字经济发展,而数据要素作为数字经济深化发展的核心引擎重要性更加凸显。习在中央政治局就实施国家大数据战略进行第二次集体学习时曾指出:数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力,要构建以数据为关键要素的数字经济。2022年1月12日,国务院印发《“十四五”数字经济发展规划》明确提出:数据要素是数字经济深化发展的核心引擎,坚持以数字化发展为导向,充分释放要素价值,激活数据要素潜能。2022年12月20日,中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”),指出“数据作为新型生产要素,是数字化、网络化、智能化的基础,数据基础制度建设事关国家发展和安全大局。要加快构建数据基础制度,充分发挥我国海量数据规模和丰富应用场景优势,激活数据要素潜能,做强做优做大数字经济,增强经济发展新动能,构筑国家竞争新优势”。
未来,随着数据要素作为国家级战略资源地位不断凸显,一系列国家引领与行业鼓励政策不断推进,数据作为当前最具时代特征的生产要素,已成为国家重点支持领域,为数据产业带来了巨大的发展机遇。具体来说,未来围绕数据采集、处理、流通、交易、应用等数据要素全生命周期,将会产生更多的数据服务形式和商业机遇。未来,数据服务商可基于过往服务经验和对数据要素市场的前瞻性判断布局,进一步拓展延伸自身数据服务空间,探索更多能力维度,迎战更广阔的数据要素市场。
随着AI技术不断演进、产业应用不断丰富,训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势,数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力,这使得行业的技术门槛持续提升,具体体现为:
随着AI技术应用落地的规模化效应凸显,客户对于数据规模和处理效率的要求不断提升,数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式,进而实现降本增效的目标。一般而言,在训练数据研发、生产全流程中融入算法技术,可用于训练数据集的设计及训练数据生产的各个环节,例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖(既有人员数量的降低、也有对人员标注能力要求的降低),并构建训练数据设计、加工相关的核心技术;也可用于检查训练数据集对算法模型的训练效果,进而保障训练数据集质量。
当前,客户侧的数据采集、标注需求范围在逐渐拓宽,数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂,这就对数据服务商的平台工具能力提出了更高要求,平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何,并最终决定了数据处理的质量、效率、成本。
伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透,同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑,客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升,这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。
因此,市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛,成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
1、Appen、数据堂、标贝科技数据:截至2022年12月,前述公司官网及公开披露信息;国家知识产权局中国及多国专利审查信息查询平台()、中国版权保护中心CPCC微平台等公开信息查询渠道及第三方机构查询信息。
海天瑞声是我国最早从事训练数据研发销售的企业之一,深耕行业近20年,积累了大量的技术产品以及客户服务经验,数据服务能力覆盖个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧金融、智慧交通、智慧城市、机器翻译、智能问答、信息提取、情感分析、OCR识别等19个领域,并获得市场认可,根据2021年国际数据公司(IDC)《2021年中国人工智能基础数据服务市场研究报告》,公司的市场占有率为12.9%。此外,在多年为全球客户提供产品、服务的过程中,公司不断受到知名科技企业的认可,截至报告期末,累计服务客户数量为810家,微软、Meta、百度、腾讯、阿里巴巴、字节跳动等已成为公司头部客户。
海天瑞声是国内目前唯一一家A股上市的人工智能训练数据服务企业,公司的综合技术实力及综合业务能力也获得了包括资本市场在内的各方认可。
(1)平台能力:海天瑞声自主研发的一体化数据处理平台,可实现智能语音、计算机视觉及自然语言等AI领域全覆盖,其中服务智能驾驶的第四代VDS平台目前可覆盖全部舱外场景、主流传感器以及多类前沿的数据处理需求。
(2)算法能力:公司凭借近20年数据服务经验以及丰富的数据积累,在智能语音、计算机视觉、自然语言等方面储备了大量的优质算法模型,截至报告期末,公司算法模型数量已增至200余个。算法能力的引入极大提升了公司人机协作效率,也是行业内各企业拉开成本差距的核心驱动因素之一。
(3)语种/方言覆盖能力:多语种能力是人工智能企业全球化发展的底层核心支撑之一,为更好配合国内外企业的全球化扩张,公司在基础语音语言学研究方面进行了持续投入,截至报告期末,公司已积累近200个的语种/方言,覆盖语种数量全球市场领先,在服务行业多语种语音以及多语种OCR和手写体业务方面具备优势。
(4)产品能力:公司凭借多年的研发积累、对行业发展趋势的深刻洞见、以及较为充足的资金实力,已累计完成超过1,300个自有知识产权的训练数据标准化产品的建设,在全球企业中稳居前列,标准化数据集产品的积累意味着公司在服务响应速度、价格以及毛利水平等方面都将具有更大优势。
在专利储备方面,通过公开信息渠道可获悉的Appen、数据堂、标贝科技的专利储备数量较少,公司在专利技术储备方面具备优势。在计算机软件著作权方面,数据堂及其子公司共拥有计算机软件著作权149项,标贝科技及其子公司共拥有计算机软件著作权30项;海天瑞声及其子公司共拥有计算机软件著作权163项,高于公开信息可查询的数据堂、标贝科技的计算机软件著作权数量,具备一定优势。
随着《数据安全法》、《个人信息保护法》等法律法规快速落地实施,法律环境正在快速趋严,在此背景下,数据安全、个人信息保护已成为行业用户选择数据采标服务时的重要考量因素以及新的行业壁垒。公司是行业内为数不多已获得乙级测绘资质的企业,意味着公司具备合规开展智能驾驶采集、标注等业务能力,可帮助公司更好抢占智能驾驶的数据服务市场先机。此外,2022年公司根据实践经验总结、撰写的《人工智能基础数据业务之个人信息收集活动的合规审计》案例获选中国信通院、中国内审协会“全国首届数字化审计论坛”评选的“个人信息保护合规审计先锋实践案例”,数据安全管理工作获得了行业认可。
公司在发展历程中获得了工信部“新一代人工智能产业创新重点任务揭榜优胜单位”、国家专精特新“小巨人”企业、国家高新技术企业、北京市企业技术中心、工信部2022年大数据产业发展试点示范、2022服务贸易重点企业、2022北京数字经济企业100强、北京国家人工智能创新应用先导区示范等多个国家、北京市重要资质荣誉,行业头部地位及综合技术实力不断获得国家的充分认可。
与Appen相比,公司整体营收规模较小,但公司整体盈利能力(包括毛利率、净利率)均明显优于Appen;与数据堂相比,公司在营收规模、盈利能力等方面均具显现较强优势。
3.报告期内新技术、新产业(300832)、新业态、新模式的发展情况和未来发展趋势
(1)数据需求向海量、高质量、多元化方向演进,智能化水平成为数据服务商核心竞争力
随着AI应用场景日益丰富、以及产品智能化要求的不断提升,客户在数据规模、质量、多元化等方面的提出了更高的要求。以智能语音和计算机视觉领域为例,训练数据需求逐渐拓展至更多语种、更复杂场景、更多AI设备、更多音色、更多维的图像采集等维度,数据服务商除了要具备丰富的数据采、标经验,还需要拥有完善的多元化数据处理平台,同时,通过引入算法提升数据处理的质量和效率,降低成本,驱动行业向训练数据生产智能化的方向演进。
随着国家“一带一路”战略的进一步深入推进,我国本土头部企业纷纷走出国门,主动出海;与此同时,国外主流科技企业也在同步加速全球化布局,并呈现不断扩充、细化区域拓展策略的趋势。
在此背景下,多语种训练数据的需求迎来新一轮增长,除中、英、法、德、意、西、日、韩等常见语种外,客户还将在诸如东南亚、一带一路沿线国家地区的罕见小语种(尤其是亚洲小语种、中东欧小语种等)方向产生新的增量需求,未来或将向更多发展中国家持续拓展。因此,多语言/语种基础研究能力、以及在语言学领域的储备将成为数据服务领域的核心竞争力。
随着AI底层技术的持续发展创新,AI已逐渐成为具备更强理解能力和推理能力的智能技术,极大提升了其与实体产业大规模融合和应用的可能;此外,人工智能作为国家发展数字经济以及产业数字化转型的枢纽,正在获得越来越多的政策和资本支持。在技术发展与政策推动的共同作用下,人工智能技术将向更多产业以及更广泛垂向场景渗透。
细分行业的专业知识、服务经验以及准入资质将成为衡量一家数据服务商是否具备垂直领域数据服务能力的重要考量因素。当前,以智能驾驶为代表的垂直领域已开始释放大规模训练数据需求,行业客户更加需要全栈式、闭环数据解决方案的支持,以满足智能驾驶业务的数据处理量更大、数据处理需求的迭代频次更高、合规要求更高等特点,这就要求数据服务商在专业能力(包括但不限于对于驾驶场景、车辆传感器等要素的综合理解和实施能力)、综合能力(包括但不限于数据处理平台能力、质量管控能力、需求对接能力、项目响应能力、供应链资源管理能力等)、准入资质等方面同时满足并达到较高水准方能持续为该领域客户提供高水平支撑。
近年来,国家通过密集出台《数据安全法》、《个人信息保护法》等法律法规,加速规范数据治理体系,以保障国家数字经济的健康可持续发展。此外,随着全球化与数字经济的发展,数据在国际间的流动愈加频繁,为更好规范数据出境活动,2022年9月,国家颁布实施《数据出境安全评估管理办法》,以促进数据跨境流通的安全。作为数字经济时代里的数据服务企业,公司也深刻感受数据安全正在深刻改变着行业既往规则,数据安全及合规能力已逐渐成为数据服务商的核心竞争力之一。
在此背景下,客户在选择数据服务商时,将更加看重服务企业的数据安全及合规能力,甚至一些大型需求方在遴选数据服务商时已将此因素提升至重要级别。因此,数据服务商在此方面须紧跟国家法律法规要求的演变,相应调整、升级现行业务开展方式、数据安全及合规管理体系,及时获取合规资质(包括但不限于信息安全管理体系认证、隐私信息管理体系认证、网络安全等级保护测评等),积极开展有关数据出境风险自评估、安全评估工作,并已依法向有关部门进行了安全评估申报,切实提升自身数据安全及合规能力,确保业务始终在健康、合规的环境下开展,并将自身在这方面的积累转化为竞争优势、助力业务发展。
百年变局加速演化,未来一个时期,在需求收缩、供给冲击、预期转弱三重压力下,发展数字经济将成为我国经济“换道超车”以及挖掘经济内生增长的重要战略举措。国家在数字经济建设方面坚定决心,通过《中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》、《数字中国建设整体布局规划》等政策文件的密集发布以及组建成立国家数据局等方式,进一步统筹并加速落地数字经济发展战略,而数据要素作为深化数字经济发展的核心引擎,也将迎来新的发展机遇。未来,围绕数据确权、处理、利用和流通等环节将会产生巨大的增量市场空间,也会同期催生出数据服务领域的新业态、以及新的数据服务模式。因此,从行业需求和发展趋势来看,具备数据安全合规能力、数据智能化处理能力、以及行业资源和know-how的企业将能更好抢占数据要素市场竞争制高点。
放眼未来,从十年乃至更长的周期来看,我们认为人工智能大模型将对数据行业产生深远影响,并带来新的数据需求和新的数据服务模式。未来,大模型发展的数据依赖程度将逐渐加深。首先,数据的质量以及数据清洗的工程化能力会极大拉开大模型预训练阶段的效果差距。其次,预期更多模型将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,以使得机器能够以更加接近于人类期望的方式提供答案输出。
为实现上述目标,需首先建立基于提示(Prompt)的训练数据集的设计技术,通过建立不同数据集之间的异向性,尽可能提高有限数据集对于下游任务的覆盖能力。此外,也将更多依赖于数据集在基础模型反馈结果上的打分技术、迭代训练RewardMode(类奖励模型)的技术、以及噪声数据过滤技术,特别是针对专业领域的知识处理,如何组建特定领域中高端标注工程团队也将成为重要课题。因此,未来数据处理将不再局限在传统的有监督学习标注,预期将向数据规模化清洗以及类强化学习等方向演进,未来具有更强的前瞻性研发能力、数据工程化能力以及更多行业资源的公司将获得更多市场青睐。
公司高度重视并坚持科技创新,通过持续的研发投入积累形成了12项核心技术,覆盖基础研究、平台工具、训练数据生产三个层次,应用于训练数据生产的设计、采集、加工、质检全流程之中;按照从底层自下而上的顺序对上述三个层次的核心技术情况介绍如下:
上述核心技术构成了公司生产经营的基础,通过上述核心技术的成果转化,公司形成了基于核心技术的训练数据相关产品和服务。具体如下表所示,其中5项核心技术具备较高技术壁垒(下表中以★标示):
(1)基础研究层面,报告期内,公司持续在智能语音、计算机视觉、自然语言、以及包括智能驾驶为代表的业务方向领域进行技术拓展,并有多项核心技术获得显著进展。例如,在基础研究层面,智能语音领域内的相似说话人筛查技术实现重大技术突破,基于端到端的语音识别技术实现了多类项目的整体标注效率显著提升;在计算机视觉算法领域,连续帧障碍物跟踪算法辅助智能驾驶3D点云标注效率明显提升,完成新一代2D全景分割算法的研发并落地实际项目、显著提升数据质量和标注效率,创新地提出了基于透视图数据的鱼眼镜头下的语义分割技术,攻克了特定硬件训练数据稀缺的难题;训练数据集设计技术领域内,引入算法对语料设计平台的升级起到了关键支撑作用;
(2)平台工具层面,得益于基础研究领域内多种算法、技术的持续支撑,在诸如大规模语音处理平台、支撑智能驾驶数据业务的图像/视频/点云标注平台、以及大规模OCR数据采集及标注平台等方向完成重大升级,并完成包括3D点云语义分割、弹性框辅助标注等技术课题的攻坚与落地,整体上实现了一体化数据处理平台覆盖领域、处理能力的升级;
(3)训练数据生产层面,公司在多语种多模态训练数据设计技术、多模态多通道数据采集技术、数据同步技术、实时采集质控技术等方向形成新突破,与基础研究能力的不断增强、平台工具功能的持续提升等趋势相辅相成、互相促进、形成合力,共同推动公司的训练数据生产不断向智能化方向演进;
以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内,公司新申请发明专利5项并均获受理,获得发明专利授权5项;新申请并获得登记的软件著作权7项,均为原始取得。具体见第三节“管理层讨论与分析”(四)“核心技术与研发进展”之“报告期内获得的知识产权列表”。
报告期内,公司新申请发明专利5项并均获受理,获得发明专利授权5项;新申请并获得登记的软件著作权7项,均为原始取得。截至2022年12月31日,公司共获得专利授权31项,获得登记的软件著作权163项。
报告期内,公司研发投入合计9,427.34万元,较去年同期增长55.77%。主要系报告期内根据公司技术及产品驱动的定位,为快速响应行业发展和变化,提升市场占有率和研发领先实力,2022年公司在基础研发和产品研发领域均加大投入,以加速提升智能驾驶行业数据服务能力以及整体数据生产的智能化水平,同时持续推动数据集产品的扩充建设计划,加大智能语音、计算机视觉、自然语言训练数据集产品储备。以上因素共同导致公司2022年研发投入快速增长。
公司拥有同行业极具竞争力的综合研发实力,截止报告期末,公司研发团队规模达到82人,研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校,组成了公司坚实的研发领导核心力量。同时,多年来,公司积累了较为完备的综合性、一体化数据处理平台及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域,可服务于市面上绝大多数数据处理场景需求,包括但不限于智能驾驶、智能家居、个人助手等。公司还设置了专门的产品研发部门及AI+研发部门,可前瞻性挖掘和布局新兴市场需求,抢占市场先机。此外,基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验,通过算法平台团队与数据业务团队无缝衔接,公司可更好完成预识别算法性能提升,实现少量数据注入->
算法训练->
标注员反馈->
模型生成->
处理大量数据的自闭环体系,助力公司做大规模、提升效率、降低成本。同时,近20年数据行业的从业经验积累,家居设计工作室使得公司具备较强的数据生产工程化能力,可助力公司大幅缩短数据研发及生产周期,为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
通常来说,标准化数据集产品具有可即时获取、价格相对优惠等特点,因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成,需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入,因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限,该方向具备较高竞争壁垒。
对于公司而言,标准化训练数据集产品的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,可显著助力公司毛利水平提升,实现训练数据产品的规模化效应,因此也是公司区别于众多竞争对手的一个优势亮点。
公司基于近20年数据服务经验、以及对客户需求的深刻理解,持续开拓标准化数据集,报告期内,公司新增研发超400个训练数据集产品,自有知识产权的训练数据产品储备超过1,300个,全面覆盖智能语音、计算机视觉、自然语言等多条业务线.语音语言学能力优势
随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势,多语种能力成为数据服务领域的核心竞争力之一,而语音语言学储备则是实现多语种拓展的重要前提。经过多年积累,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。截止报告期末,公司已经拥有近200个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司已积累下超过110个语种/方言的发音词典,覆盖希伯来语、乌尔都语、缅甸语、阿姆哈拉语、家居设计工作室普什图语、阿尔巴尼亚语、格鲁吉亚语等小语种,累计词条数超过1,000万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。
海天瑞声自成立之初即把数据安全、数据合规视为生命线,公司在多年的数据风险识别和管理实践中,已经形成了较为成熟的安全、合规管理体系,2022年,在资格资质、行业参与以及数据跨境合规等方面又积累了更多经验、产出了多项工作成果,进一步强化、提升了自身的数据安全管理能力,向行业输出能力、为业务保驾护航,获得了来自行业和客户的认可。
公司认为,国家在数据要素、数据安全相关法律法规体系方面的完善对训练数据行业的健康发展将产生深远影响,有利于规范行业行为、治理行业乱象,提高行业门槛,客观上将为公司的发展创造更加强有力的竞争条件;报告期内,公司在遵守、实践法律监管要求方面所做的工作、产出的成果也已经起到了提升公司整体竞争力的作用。随着AI技术不断革新,应用场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,公司将持续跟踪法律环境变化,积极响应监管政策,牢牢把握发展与安全并重的原则,不断完善与法律法规体系要求相适应行业数据安全管理实践,确保自身具备持续性引领优势。
(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
2022年度,虽受境外业务复苏、以及智能驾驶业务驱动,公司整体营收出现较高增长,但同期公司为更好建设长期技术优势和独具特色的标准化产品模式壁垒,2022年持续加大研发投入,且在年内完成管理架构及激励体系升级、全球化营销体系建设、新办公楼购置等重要事项,以上因素共同导致公司人工投入及期间费用出现明显增长,使得公司净利润出现一定该比例下滑。如果公司收入增长无法覆盖持续加大的人工投入及期间费用支出,公司业绩存在大幅下滑或亏损的风险。
由于人工智能行业整体发展较为迅速,应用领域和应用场景不断拓展,下游需求随着行业发展不断发生变化,公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入,则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势,进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
随着行业的持续发展,行业内企业之间对于高端人才的竞争日益激烈,如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇,则将存在核心技术人员流失的风险,公司的技术水平、研发能力也将受到不利影响。
公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行,但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行,则可能导致公司核心技术失密的风险。
公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判,自行设计并开发多种训练数据集标准化产品,开发完成后根据客户实际需求进行销售,授权给客户使用。在该种业务类型下,公司开发训练数据集产品,承担开发费用,并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求,则可能存在无法实现授权销售的风险,进而对公司未来的经营业绩产生不利影响。
公司主要从事训练数据的研发设计、生产及销售业务,所提供的产品和服务主要以数据的形式体现。一方面,随着公司业务的快速发展和规模的持续扩张,原料数据采集与数据加工的数量持续增长;另外一方面,包括《数据安全法》、《个人信息保护法》等在内的与数据安全、个人信息保护相关的法律规章体系逐步完善,《数据出境安全评估办法》等法律法规也加强了对数据跨境行为的规制。如果将来公司未能根据法律规章的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要、或客户未能遵守训练数据产品保护相关商业约定,则公司可能面临生产经营不符合法律规章的要求、训练数据产品被泄露、盗版等数据安全相关风险或可能产生诉讼纠纷,进而给公司的经营带来不利影响。
报告期内,公司收入主要来自老客户、占比达到87.35%,新客户收入占比较低。公司正致力于维护老客户、拓展新客户,若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系,则公司的经营情况将受到不利影响;若新客户拓展情况不达预期,则公司的经营情况也将受到不利影响。
随着人工智能行业持续快速地增长,下游客户对高质量、结构化、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化,加深对下业基础技术的理解并开发出更多的业务机会,一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响,另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此,公司新业务的开拓可能不及预期或者遇到其他不利因素,进而对公司未来的经营业绩产生不利影响。
报告期内,公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高,达到83.21%。随着城乡生活成本的持续提升,前述采购价格可能存在持续上升的趋势,若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响,可能会对公司的经营业绩带来一定不利影响。
公司所在的细分领域为AI基础数据服务领域。近年来,参与该行业的公司不断增多,由于整体行业较新,行业标准和法律监管仍处于规范阶段,因此整体行业目前处于高速发展但较为无序的状态,导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划,则将受到竞争者的挑战,从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险,进而影响公司的盈利能力和发展潜力。
公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据,服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降,或因技术更迭使得对训练数据的市场需求发生变动,将对公司业绩产生较大影响。
报告期内,公司享受了增值税即征即退、高新技术企业和研发费用加计扣除等一系列税收优惠,税收优惠影响金额占利润总额的比例为62.23%,经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化,或者公司不再符合税收优惠的条件,则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性,并进而对公司未来经营业绩和现金流水平造成不利影响。
海天瑞声作为一家面向全球的训练数据服务商,拥有数量众多的境外客户,遍布美国、韩国、日本等各地区,报告期内公司境外收入占比为44.03%,该等收入使用外币进行结算,并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响,存在波动风险,进而对公司的经营业绩产生不利影响。
公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内,公司出口美国的营业收入占当期公司营业收入的比重为36.79%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变,近年来中美贸易摩擦不断,如果中美双方出台新的贸易保护主义措施,可能会影响美国市场相关客户将数据提供给公司用于标注,减少与公司进行训练数据方面的业务合作,公司相关业务可能会受到约束,将会对公司的生产经营产生不利影响。
截止报告期末,贺琳直接持有公司866.97万股股份(占总股本的20.26%),并通过控制中瑞安间接控制公司495.41万股股份(占总股本的11.58%),合计控制公司31.84%的股份,为公司实际控制人。
如果实际控制人利用其控制地位,通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响,其他股东的利益可能受到损害。
报告期内,公司实现业务收入2.63亿元,较上年同期增长27.32%;实现归属于母公司所有者净利润2,945.41万元,较上年同期降低6.81%;扣非后归母净利润1,014.91万元,较上年同期降低51.83%。截至报告期末,公司总资产为8.77亿元,归属于母公司的所有者权益为8.30亿元,分别较上年末增加4.31%和2.93%。
报告期内行业格局和趋势情况详见“第三节管理层讨论与分析”之“二、报告期内公司所从事的主要业务、经营模式、行业情况及研发情况说明(三)所处行业情况”。
2023年,公司在保障基础数据业务稳健发展的同时,寻求新的业绩增长点。首先,公司将以全球化战略扩张为核心,通过全球化营销体系搭建、升级,进一步深化全球化发展策略,持续扩大公司的全球卡位优势。同时,公司将继续聚焦智能驾驶赛道,通过平台、算法研发以及数据安全能力的持续建设,不断将之打造成为公司核心竞争力之一,使之成为公司第二增长曲线。此外,公司也将持续探索具备高增长潜质的新兴业务领域(例如,与大模型相关数据服务领域、与国家数字经济密切相关的数据要素领域),基于过往数据服务能力,通过前沿市场跟踪,不断拓展服务边界,探索潜在增量市场空间。
2023年,公司将围绕既定战略,继续发扬二次创业精神,坚守“做智能世界的数据基石”使命,成就“ChanginglifewithAI”的愿景,不断提升核心能力,优化用户体验,促使业务长期健康稳定发展。2023年公司具体经营计划如下:
随着以ChatGPT为代表的大模型技术的崛起,人工智能产业迎来了新一轮重大发展机遇,因此可以合理预期全球人工智能产业将再次进入加速期。为更好抢抓海外市场需求,公司将启动更为全面的全球化发展战略,从技术跟踪、品牌升级、体系搭建、营销推广等多维度助力全球化市场扩张。公司将搭建海外技术研究体系,通过紧密跟踪全球人工智能发展趋势,前瞻性布局适配于海外新兴技术的数据解决方案,持续提升全球市场竞争力。此外,扩大境外直营销售团队,进一步织密客户服务网络,提升客户服务体验;通过持续深度参与海外学术会议、进行综合市场营销方案升级等方式,拓展客户触达渠道;同时,深度挖掘现有头部客户需求,进行重点突破,并进行新客户拓展。未来,公司将全面集结公司研发、交付、销售、市场力量,全方位支持海外战略扩张,力争在海外市场形成新突破。
公司将紧抓智能驾驶行业发展机遇,全方位布局和提升智能驾驶业务核心能力,通过持续跟踪前沿技术发展动态,前瞻性布局、迭代智能驾驶数据处理平台,更好服务于客户新兴需求;不断优化算法中台中枢能力,通过提高人机协作效率,实现数据处理的规模化应用提升;加大数据安全体系建设,全方位保障数据生产流程安全合规。同时,基于已经获取的测绘资质,进一步拓展数据服务环节,开展采标一体化服务,提升业务毛利水平。此外,公司也将尝试探索传统采标业务以外的新兴数据服务模式,以更好适应不同类型客户的差异化数据需求。
数据已成为数字经济时代最重要的生产要素之一,是数字经济深化发展的核心引擎。随着世界各国的数字经济战略实施,数据要素这一战略资源备受重视,也被称为二十一世纪的“新能源”。为更好把握数字中国建设、数字经济发展浪潮的新机遇,公司将基于过往业务能力持续探索数据要素市场培育过程中的新业务、新模式,包括:探索围绕大模型所需数据相关服务,公共数据价值挖掘与提升、预训练大模型、开发者社区等数据服务新模式。通过前沿技术跟踪研究,开展以预训练、强化学习为代表的多元化数据获取、高阶垂向拓展等方向的数据服务能力建设,提升公司在数字中国、数字经济和行业垂向深耕阶段的数据引领能力;此外,还将探索以数据治理、数据交易、数据处理等为核心的数据要素领域,力争将数据要素创新业务打造成为具有潜在高增长价值的新兴业务版块。
2023年,公司将继续秉承技术+产品双轮驱动的核心理念,围绕智能语音、计算机视觉、自然语言等基础业务领域、以及以智能驾驶为代表的新兴垂直业务领域,在算法中台建设、业务线平台升级、新语言研究、以及多语种多模态数据布局等方面取得实质性成果,加强技术能力护城河,助力公司不断向实现训练数据生产智能化、规模化方向迈进,确保公司核心竞争力不断提升。
近年来,随着《数据安全法》、《个人信息保护法》等法律法规快速落地实施,公司所处行业的法律环境正在快速趋严,在此背景下,数据安全、个人信息保护已成为行业客户选择数据服务商时的重要考量因素以及新的行业壁垒。家居设计工作室2023年,公司将继续加大数据安全及合规能力体系建设,通过完善内部制度流程建设、根据业务发展方向提前进行资质布局、广泛参与行业交流、不断提升企业数据安全及合规技术和机制等方式,提升应对更高标准、更严格的数据监管要求的能力,提高整体数据安全保障水平,并将之逐步打造成为核心竞争力之一。
公司将对境内、境外资源群体进行持续扩充,并通过大型数据基地及资源池的精细化建设等方式对供应链体系进行优化,为实现可持续性产能扩张和成本优化奠定基础。同时,公司将持续推进供应链智能化管理及信息化建设,实现从需求申请到使用结算的全流程系统化,并对全流程业务数据进行可视化追踪展示,提高供应链的流转效率和运作速度、降低供应链的成本,更积极地支撑企业管理和决策水平提升。
2023年,为更好支撑全球化发展战略,公司将持续加大全球市场营销体系建设,进一步升级品牌战略工程。公司将继续增加品牌营销投入,在持续拓展社交平台、直播平台、搜索引擎等多渠道营销的同时,积极参与Interspeech、CVPR、ICASSP等海内外重要学术会议,持续提升公司品牌认知度以及客群辐射范围。公司将加大境外本土营销团队建设,通过进一步织密客户服务网络,提升客户服务体验。在国内,海天瑞声将持续打造自媒体矩阵,举办一系列产品发布会,积极参与泛AI行业/自动驾驶行业等行业展会,不断提升公司品牌影响力。
人才是公司发展的核心动能,公司将继续坚持以人为本,打造一支高战斗力的人才队伍。2023年,公司将积极落实人才发展战略,继续通过内部培养与外部引入并重的机制,打通人才供给渠道;此外,公司将进一步完善薪酬体系改革,持续开展人才激励计划,通过将员工利益与公司业务发展及股东利益有机结合,充分调动员工积极性,增强团队稳定性;同时,优化人力资源体系,以更通畅的晋升渠道、更佳的工作环境、以及更积极的企业文化,吸引并留住人才,提高全员创效水平,为公司的可持续发展提供强劲动力。
证券之星估值分析提示科大讯飞盈利能力一般,未来营收成长性一般。综合基本面各维度看,股价偏高。更多
证券之星估值分析提示海康威视盈利能力良好,未来营收成长性一般。综合基本面各维度看,股价合理。更多
证券之星估值分析提示机器人盈利能力一般,未来营收成长性较差。综合基本面各维度看,股价偏高。更多
证券之星估值分析提示新产业盈利能力优秀,未来营收成长性一般。综合基本面各维度看,股价合理。更多
证券之星估值分析提示工商银行盈利能力良好,未来营收成长性较差。综合基本面各维度看,股价偏低。更多
证券之星估值分析提示海量数据盈利能力较差,未来营收成长性较差。综合基本面各维度看,股价偏高。更多
证券之星估值分析提示海天瑞声盈利能力一般,未来营收成长性较差。综合基本面各维度看,股价偏高。更多
以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至,我们将安排核实处理。