CIO必须警惕的六大数据风险

对于希望充分利用数据驱动决策的须警险IT领导者而言 ,从误分类数据到缺乏充分质量保证的大数AI应用 ,他们有诸多需要担忧的据风问题 。

CIO们面临着提供预测分析并用智能体改造员工队伍的须警险压力,然而,大数对数据治理、据风数据运营和数据安全的须警险投资——这些一直以来都非常重要的领域——却常常因业务驱动的举措而被忽视 ,导致如今AI的大数成功前景变得不确定 。

为了弥补这一差距 ,源码库据风并确保数据供应链得到足够的须警险高层关注,CIO们已经聘请或与首席数据官(CDO)合作,大数委托他们解决数据债务问题、据风自动化数据管道,须警险并转型为专注于健康指标、大数数据质量和数据模型互操作性的据风主动数据治理模式 。

但是,CIO们在委托过多数据治理责任或仅从旁观者角度观察数据运营改进时必须谨慎,那些重新思考数字化转型战略并希望从AI投资中交付业务价值的CIO们  ,需要更加关注那些可能破坏这些目标的数据风险,一种方法是高防服务器向IT主管询问数据管理实践,以感知哪些领域需要更多的领导关注 。

我之前曾写过关于CIO们应该极度担忧的IT风险和错过的GenAI机会的文章 。以下是CIO们应该审查并确保其团队有补救策略的六个数据风险,这些策略最好能将危险转化为战略机遇 。

误分类数据和缺乏参与的数据所有者

询问任何数据治理领导者关于他们在提高数据质量和遵守法规方面所面临的主要挑战时 ,识别并吸引数据所有者参与制定和遵守数据政策几乎总是名列前茅 。亿华云没有积极参与的数据所有者 ,数据可能未被分类并在AI中被使用  ,从而可能违反数据隐私规则和其他法规。

在AI时代,未分类数据带来了第二个挑战 :数据科学家是否应在没有所需合规性的情况下将这些未分类数据集用于AI模型 ,还是数据治理应阻止任何人使用这些数据?

“企业必须对其内容进行分类,以便安全基础设施的各个组件能够采取适当的行动 ,”Netwoven的首席执行官Niraj Tenany表示 ,“手动分类耗时费力,服务器租用而自动分类则存在显著的误报率 ,因此适当的平衡是成功的关键。”

参与数据治理倡议的CIO们往往更能有效地说服部门负责人指派数据所有者,对于公民数据科学能力和渴望获得AI业务优势的需求如此之大 ,以至于领导者们很难拒绝承担责任  ,此外 ,一旦这些数据所有者参与进来,就有更多机会让他们参与AI治理并合作试点智能体。

暴露给AI的知识产权

许多CIO担心“影子AI” ,免费模板即员工使用未被批准的公共大型语言模型(LLM)和其他GenAI工具进行实验,与AI工具共享误分类数据和暴露知识产权是CIO们应该极度担忧的风险。

一个担忧是员工在AI提示中使用数据、代码、品牌指南、合同和敏感文档的部分内容 ,另一个是数据科学家在未经所需批准和保障措施的情况下 ,将知识产权纳入AI模型 ,包括为LLM设计的模板下载检索增强生成(RAG)和用于智能体的数据。

“数据是公司拥有的最有价值资产之一 ,必须像保护其他资产一样保护它,”Rimini Street的全球CIO Joe Locandro表示,“CIO们应该警惕员工对数据的处理不当 、AI工具的误用以及不良的网络卫生习惯,优先进行员工教育  、在核心系统中实施数据掩码以及定期进行数据安全审计是保护敏感信息的必要步骤。”

The Modern Data Company的首席执行官Srujan Akula补充说:“营销团队未经通知就采用ChatGPT ,数据科学家用他们能找到的任何信息构建模型  ,突然间敏感的客户数据可能就被输入到了公共AI工具中 ,这给CIO们带来了数据泄露和合规问题等风险,这些问题可以通过清晰  、实用的政策和安全的内部替代方案来解决。”

为了降低风险,Akula建议CIO们从经过整理 、可信的数据集中创建数据产品 ,并明确所有权和治理。

CIO们还可以通过赞助数据素养计划和促进开放创新(任何员工都可以提交想法)将这种风险转化为优势,这些计划的结合鼓励了学习和问题解决,同时企业也能从一线员工那里获得更多倡议的可见性。

第三方数据源

美国企业预计在2025年将在营销数据上花费261亿美元 ,这些数据通常用于客户细分、个性化营销活动和改进归因分析  。

尽管确保内部数据实践符合法规要求和数据治理政策已经够难了 ,但跟踪第三方数据源的合规性则更具挑战性 。

“一个最常被忽视的风险是依赖第三方数据管道或丰富服务,而没有验证他们如何获取数据,”SOAX的产品负责人Luis Lacambra表示 ,“如果这些数据是通过不可靠或不符合规定的方法从公共来源抓取或聚合的 ,你的企业可能会面临监管审查或运营盲点 。”

审查第三方数据合规性应成为由CDO管理的 、不可协商的数据治理要求。

CIO们还可以采取另一种方法来应对第三方数据风险 ,公司采购并集成了许多未被充分利用、与其他数据源提供重复信息或提供边际业务价值的来源 ,寻求成本降低机会的CIO们应该对第三方数据源进行成本效益审计 ,审查利用率并量化风险,机会在于通过消除低价值、高风险的来源来降低成本。

数据管道可观测性差

大多数企业会在投资于强大的数据集成和管道之前,先投资于终端用户分析工具 ,如数据分析平台和文档处理工具。随着各部门越来越依赖实时数据进行决策 ,数据管道的可靠性和性能可能成为一个运营噩梦  ,特别是当数据管理员必须定期修复数据问题或数据滞后导致决策失误时。

“CIO们必须敏锐地意识到威胁企业完整性、安全性和决策有效性的数据相关风险 ,”RecordPoint的首席技术官Josh Mason表示,“一个关键领域是对数据管道和使用模式缺乏足够的可观测性 ,其中不足的可观测性可能隐藏潜在问题  ,如延迟 、数据漂移  、管道故障以及敏感数据的位置。”

数据运营(DataOps)中的可观测性包括监控数据管道、自动化响应和跟踪性能 ,DataOps指标包括管道可靠性 、自动化率 、异常率和处理吞吐量。

对于集成许多数据源并使用数据结构来集中访问的CIO们来说 ,减少DataOps事件可以节省成本 ,但更重要的驱动力是,不可靠的数据集成会侵蚀信任 ,而这可能会减缓部门领导者对更多AI和数据驱动实践的投资 。

数据质量差距

CIO们一直在努力通过指派数据管理员、自动化数据清理程序和衡量数据健康状况来提高数据质量,但是,大部分工作都集中在ERP、CRM和数据仓库中的结构化数据源上。AI扩大了这项工作的范围,因为RAG和智能体利用非结构化数据源和文档存储库来训练模型并提供上下文相关的响应 。

“RAG为企业提供了访问企业知识的途径,但并非没有风险,包括数据隐私漏洞、幻觉和集成挑战,”Pryon的首席执行官Chris Mahl表示 ,“实施需要投资于数据质量、建立治理框架和创建评估系统 ,然后再进行扩展 。从RAG中获得真正价值的企业不仅访问信息更快——他们还通过找到创新与保障之间的正确平衡来做出更好的决策。”

为了解决数据质量差距 ,CIO们应考虑将原始数据集中存储在数据湖中,提供数据清理作为共享服务,并通过数据结构和客户数据平台启用访问。由于存在许多数据质量和管理工具,开发一个专注于数据质量的共享服务是解决企业对清洁AI数据源的更大业务需求和扩大非结构化数据源清理范围的有效方法。

过度依赖AI输出而缺乏严格的质量保证

定义AI治理的七个问题包括关于业务价值、工具选择、合规性和数据治理的问题,但最重要也是今天最具挑战性的一个问题是:员工应如何验证和质疑LLM的响应或智能体的建议?

对于希望开发智能体的CIO们来说 ,这个问题更为重要 ,因为测试LLM的质量保证实践仍在发展中,并且往往依赖于手动测试 。

“CIO们必须持续监控AI生成输出的准确性和可靠性,”Pendo的首席产品官Trisha Price表示 ,“因为AI系统不是确定性的,定义质量变得更加复杂  ,工程、质量保证和产品之间的界限变得模糊 ,这种转变要求团队之间更紧密的合作,以确保AI驱动的体验是可信的 、符合用户需求的 ,并能够推动真正的业务成果。”

CIO们历来难以证明对质量保证(QA)的投资是合理的,因为向业务部门推销增加开发人员或提高运营和安全弹性更容易 ,但是,随着更多软件开发者使用AI代码生成器且IT运营变得更加自动化  ,CIO们可能会发现更大的需求和预算机会来投资于QA和AI测试能力。

对于CIO们来说,对风险 、尤其是围绕知识产权和新兴AI能力的风险保持一定程度的担忧是健康且重要的。最优秀的CIO们不仅会制定缓解计划 ,还会寻求将风险转化为战略机遇的选项。

滇ICP备2023006006号-25