到2027年底,全省将建设不少于1000个完整规范、准确实用的高质量数据集。
近日,江苏省数据局联合省委网信办、省发展改革委等七部门重磅印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》(下称《方案》),为江苏数据标注产业与高质量数据集建设勾勒出一幅宏伟蓝图。
打造领先的数据标注产业集群
《方案》明确了清晰且极具挑战性的发展目标。到2027年底,江苏数据标注产业的精细化、专业化、智能化和体系化水平将迎来显著提升。届时,一个全国领先、全球有影响力的数据标注产业集群将在江苏崛起,产业规模在全国的占比预计超过10%,年均复合增长率更是超过20%。
从产业布局来看,江苏将着力打造3个数据标注基地,集中培育10个左右创新引领力强、要素集聚力强、行业影响力强的数据标注重点企业,建设1000个完整规范、准确实用的高质量数据集。
“这一系列举措旨在形成产业集聚效应,通过基地和重点企业的引领作用,带动整个数据标注产业的快速发展。”天使投资人、资深人工智能专家李旸对《国际金融报》记者表示,产业集聚不仅能实现资源的优化配置,降低企业的运营成本,还能促进企业之间的交流与合作,激发创新活力。
“比如,在数据标注基地内,企业可以共享先进的技术设备和专业的标注人才,提高标注效率和质量。重点企业还可以发挥自身的技术和市场优势,引领行业标准的制定,推动产业向更高水平发展。”李旸说。
高质量数据集多领域覆盖
建设1000个高质量数据集,是《方案》的核心任务之一。这些数据集并非泛泛而谈,而是首批建设清单就涉及交通运输、医疗健康、金融服务、文化旅游、教育教学等17个与普通人生活密切相关的场景领域,展现出强大的生活服务潜力。
以当下科技前沿的自动驾驶领域为例,在同期发布的《江苏省高质量数据集重点领域首批建设清单》中,自动驾驶行业高质量数据集成为焦点。该数据集聚焦路端感知、特定场景与任务、4D成像雷达等关键方面。
在自动驾驶模型训练场景中,高质量的路端感知数据能够让自动驾驶系统更准确地识别道路环境、交通标志和其他车辆的行为,从而提高自动驾驶的安全性和可靠性;在智能交通管理场景中,特定场景与任务的数据可以为交通管理部门提供更精准的交通流量信息,实现更高效的交通调度和管控;在交通规划支持场景中,4D成像雷达数据则有助于规划出更科学合理的交通路线,缓解城市交通拥堵问题。
业界认为,自动驾驶行业高质量数据集的建设,将为未来智能交通的发展奠定坚实基础,让人们的出行更加安全、便捷。
再看已成为人们重要出行工具的网约车领域,网约汽车司乘服务数据集聚焦智能调度、出行保障、订单信息、行程录音等关键环节。在司乘服务方面,通过分析订单信息和行程录音,可以更好地了解乘客的需求和司机的服务情况,从而提供更个性化的服务;在客服接单场景中,智能调度数据能够帮助客服人员更快速准确地分配订单,提高接单效率;在路线规划方面,结合实时交通信息和乘客的出行需求,规划出最优的行驶路线,节省乘客的时间;在算法优化方面,通过对大量数据的分析和挖掘,不断优化网约车平台的算法,提高平台的运营效率和用户体验。
典型应用案例可复制推广
除了建设高质量数据集,《方案》还提出遴选100个可复制、可推广的典型应用案例。这些案例将成为江苏数据标注产业发展的“样板间”,为其他地区和企业提供宝贵的经验和借鉴。
李旸认为,可复制、可推广的典型应用案例具有重要的示范意义,“它们可以证明数据标注产业在不同领域的应用可行性和有效性,增强社会各界对数据标注产业的信心”。
他进一步指出,通过总结和推广这些案例的成功经验,可以避免其他地区和企业在发展过程中走弯路,降低发展成本,提高发展效率。
“比如,某个在医疗健康领域成功应用高质量数据集的案例,可以为其他地区的医疗机构提供数据采集、标注和应用的模式和方法,推动医疗健康行业的数据化转型。”李旸说,再者,某个在文化旅游领域取得良好效果的案例,可以为其他旅游景区提供智慧旅游建设的思路和方案,提升旅游服务质量和游客体验。