第036期文化大数据政策及新闻简报
点击上方蓝字关注我们
安徽省财政厅印发《关于规范和加强行政事业单位数据资产管理的通知》
(《通知》详见附件)
(摘自:安徽省财政厅)
烟台市大数据局、烟台市财政局印发了《烟台市企业数据资产入表2024年工作方案》
(《方案》详见附件)
(摘自:烟台市人民政府)
广州市政务服务和数据管理局发布关于公开征求《广州市公共数据授权运营管理暂行办法(征求公众意见稿)》
(《办法》详见附件)
(摘自:广州市政务服务和数据管理局)
近日,中国移动半年报公布,从财报的数据资源科目中可以发现,中国移动已经悄悄地完成了数据资产入表,其中数据资源入表金额为7000万元。
中国移动是目前A股排名数一数二的上市公司,坐拥超2万亿市值,是至今完成数据资产入表的公司里市值最高的公司,也是公开在财报中披露数据资产入表的首家央企。
中国移动作为2024全球五百强营收第一的电信运营商,对于数据资产入表的看法和行动路径无疑具有巨大的示范作用。
报告显示,2024年上半年,中国移动营收5467亿元,同比增长3.0%,其中,通信服务收入4636亿元,同比增长2.5%。
“第二曲线”数字化转型收入1471亿元,同比增长11%,占通信服务收入比达到31.7%,较上年同期提升2.4个百分点。
在核心三大表之一,合并资产负债表里,可以发现在非流动资产中,赫然标出了两部分涉及数据资源的科目。包括无形资产和开发支出。分别是2900万元和4100万元。
中国移动,作为今年以1428.32亿美元的营收位列全球五百强第55位的移动运营商,数据资产也入表了。
同时从财报披露数据看,“大数据业务领域,依托梧桐大数据平台,沉淀数据资源超2,000PB,数据治理水平达到国内最高等级(DCMM五级),数据年调用量达千亿次,在数据治理、应急管理、智慧文旅等多个行业广泛应用。”
财报数据资源相关细节
中国移动在第一季度报告中并没有披露数据资源的金额,但是在半年报中,数据资源科目一共有7000万元,其中无形资产2900万元,开发支出4100万元。
半年报指出:“无形资产主要包括土地使用权、软件、著作权、数据资源及电信服务频谱等,以成本计量。对于使用寿命有限的无形资产,本集团将无形资产的成本扣除减值准备(如有)后按直线法在预计使用年限或受益期内摊销,除非该无形资产符合持有待售的条件。对使用寿命有限的无形资产的预计使用寿命及摊销方法至少每年进行复核。”
在无形资产科目明细中,数据资源的科目是上半年购置的外部数据资源,金额为3000万元,其中累计摊销100万元,当前的账面余额为2900万元。
在开发支出科目明细中,数据资源的科目本期增加4100万元。
从半年报可以看出,上半年研发支出一共为140.01亿元,其中资本化研发支出为20.3亿元,费用化研发支出为119.71亿元。半年报指出:“2024年6月30日,集团费用化研发支出中包含与数据资源相关的研发支出约人民币1.21亿元。”
中国移动作为掌握了巨大数据量的电信运营商,是典型数据资源型企业,对照整体万亿市值来说,此次数据资产入表7千万虽不算多,但这一举动是移动在数据要素领域一个新的跨步,也对业界有非常强的参考意义,后续连锁反应如何,我们拭目以待。
(摘自:“运营商头条”公众号)
江苏组建省数据集团,注册资本30亿元
据新华日报消息,江苏省政府近日印发《关于成立江苏省数据集团有限公司的通知》,为贯彻落实习近平总书记关于数据发展和安全的重要论述以及对江苏工作重要讲话重要指示精神,推动数据要素市场化配置改革,发挥数据的基础资源作用和创新引擎作用,做强做优做大数据产业,经省委、省政府批准,决定成立江苏省数据集团有限公司(以下简称省数据集团)。
人民网江苏注意到,在今年1月举行的江苏省政协十三届二次会议上,江苏省数据局(江苏省政务服务管理办公室)党组副书记、副局长李秀斌,以江苏省第十三届政协委员的身份,提交了《关于加快组建江苏省大数据集团推动数字经济高质量发展的提案》(第0105号)。6月26日,江苏省国资委对该提案做出答复,详细介绍了自2020年6月以来,江苏省委、省政府围绕省数据集团的组织架构、主责主业、商业模式、运营模式、省数据局与省数据集团的关系等方面的调研会商过程。
江苏省国资委在答复中还透露,江苏省委常委会于4月9日审议通过了省数据集团组建方案。方案明确:
一是省数据集团的核心功能聚焦在六个方面,即:数据要素整合平台、重要行业数据运营可靠第三方、省级数据交易场所建设运营主体、基于数据赋能高水平智库、省级数字产业化创新高地、省属国有资本布局数字产业投资主体。核心主业是数据开发与运营,着重布局公共数据开发应用、行业数据市场化运营、建设运营数据交易场所等八个具体方向。按照省委、省政府部署要求,省数据集团以公共数据资源为基础,归集、治理、应用相关数据,通过市场化方式,在金融、交通、能源、制造、商贸、文化、医疗等领域充分发挥数据要素价值,促进数字技术与实体经济深度融合。积极承担数字政府、智慧城市、数字基础设施建设和运营任务,提供网络信息安全产品与服务。开展基于数据赋能的智库咨询业务和数字产业投资。
二是省数据集团的组建方式为整合省属企业现有相关优质资源。集团成立初期,主要有省联合征信、国信数科等子公司,未来根据发展需要,再设立其他专业化子公司。省数据集团注册资本30亿元。省政府(省财政)出资5亿元,占16.7%;江苏交控等7家省属企业以现金、股权出资25亿元,占83.3%。
三是省数据集团为多元股东国有企业,由省委管理主要领导人员,由省国资委列名监管,由省数据局负责行业管理和业务指导。集团设立党委,党组织关系隶属于省国资委党委。
(摘自:“人民网江苏”公众号)
全国首个数据中心行业产教融合共同体成立
8月8日,由乌兰察布市大数据管理局、中国质量认证中心和中国计量科学研究院主办的2024数据中心高质量发展暨运维质量大会在乌兰察布市举行。
本次大会汇集了全国的大数据行业翘楚、技术专家、重量级企业代表,覆盖政、产、学、研各个圈层,汇聚新思路、新技术、新业态,聚焦数据中心行业技术创新、人才培育、运维质量等热点问题,展开全方位、高层次、有远见的分享和研讨,共同见证和推动数据中心行业及乌兰察布市大数据产业高质量发展,提升数据中心行业基础设施运维管理水平。会上,举行了数据中心运维评价专家委员会专家委员颁证仪式,CQC运维认证证书颁发仪式和乌兰察布数据中心高质量发展评估颁奖仪式。
为更好地解决数据中心行业运维人才的培养问题,促进数据中心行业产业与教育深度融合,会上还举行了数据中心行业产教融合共同体成立仪式。该共同体是由北京中航信柏润科技有限公司和贵阳学院、内蒙古工业大学、贵州电子科技职业学院、乌兰察布职业学院、中国质量认证中心和中国计量科学研究院等单位共同牵头,联合行业组织、院校、科研机构及上下游企业等近30家单位成立的全国首个数据中心行业产教融合共同体,将在教学资源开发、人才培养、教学装备研制及创新创业等方面着重发力。
乌兰察布市是国家东数西算工程的枢纽节点,华为、阿里巴巴、苹果、快手等36个通算、智算中心纷纷落户,总投资1406亿元,签约机架规模超110万架,算力运营规模达4万P,智能算力占比70%,内蒙古政务云大数据灾备中心项目可为各行业机构提供便捷、安全、绿色的冷数据长期存储和容灾备份服务。乌兰察布市还与北京市经信局和海淀区签署了战略合作协议,承接北京外溢与低碳算力需求,积极融入“绿色算力进京”行动和京津冀蒙算力一体化布局。面对新一轮科技革命和产业变革,乌兰察布将变“绿电”为“绿算”、变“高速度”为“高质量”,以绿色算力绘就新质未来。
(摘自:“内蒙古自治区人民政府发布 ”公众号)
吉林省首例国企数据产品登记确权落地
近日,吉林高速集团完成“高速公路车流量统计信息”“高速公路路况信息”“企业车辆高速公路通行信息查询”三项数据产品在郑州数据交易中心完成登记确权工作,这是吉林省国企首例完成数据产品登记确权案例。
吉高集团以党的二十大精神为指引,深入推进国有企业改革提升,持续推动企业数智化转型逐步深化。一是推进数据基础建设。加快新型基础设施建设,包括网络基础设施、算力基础设施和应用基础设施等。
建成吉林省高速公路“数字大脑”,实现海量数据汇聚、智能分析。二是推进数据管理体系建设。建立统一规范、安全可控的数据管理流程,积极开展数据治理工作,促进数据资源的流通和利用。三是提升全要素生产率。以数据驱动决策,提升运营及服务的质量和效率,利用数据和人工智能算法优化业务流程、提升业务计算精准度,提升生产效率。
数据是形成新质生产力的优质生产要素,数据知识产权登记是新兴产业战略布局的重要环节。此次数据产品确权登记是吉林省省属国企首例,同时标志着吉林省高速公路行业数据资产化迈出实质性步伐。
下一步,吉高集团将进一步挖掘数据要素价值,以数据创新驱动企业竞争力提升,为新质生产力培育、企业数智化转型蓄势赋能。
(摘自:“数据要素X工作坊”公众号)
500万元!全国首笔基于数据元件的区县数据资产质押贷款落地
近日,德阳数据交易公司携手大公信(北京)资产评估有限公司、四川善嘉律师事务所等数商生态伙伴,为四川凯城云科技发展有限公司(以下简称:凯城云科技)的“中江甄选电商平台数据”进行了数据资产的评估、认证和上架服务,助力凯城云科技获得中国银行中江支行500万元数据资产质押贷款。这是全国首笔基于数据元件的区县数据资产质押贷款案例,也标志着我省已打通区县数据资产化的“最后一公里”。
“去年以来,凯城云科技与德阳数据交易公司充分论证数据资产化的‘中江模式’,依托德阳数据交易公司全省唯一实体化运营的数据流通交易平台——德阳数据交易中心,构建‘数据治理+数据资产入表+数据资产质押融资’综合服务体系,大公信(北京)资产评估有限公司对中江甄选电商平台数据进行资产评估,四川善嘉律师事务所进行合规审查,德阳大数据中心颁发数据资产登记证书,德阳数据交易公司将该项数据资产加工成数据元件,中国银行中江支行以该数据元件作为质押标的物为凯城云科技提供贷款授信500万元。”四川凯城云科技发展有限公司执行董事、总经理蒲星伟介绍。
“数据资产质押贷款是指企业各项数据要素经过权威机构的分析、评估后确认其价值,在相关数据资产登记部门进行权属登记后,就变成了可以用来质押的资产。‘中江模式’是全国区县数据资产化的先进示范,我们将通过此次实践,逐步构建一套可复制、可推广的区县数据资产质押贷款解决方案,助力更多区县有数企业释放数据要素价值,赋能数字产业高质量发展。”德阳数据交易公司总经理张杰表示。
四川凯城云科技发展有限公司是中江振鑫产业发展集团为落实《中江县国民经济和社会发展第十四个五年规划》和《二〇三五年远景目标纲要》关于全面建设“数字中江”的总要求而全资兴办的数字经济专业子公司。公司以“提高城市治理水平,促进数字经济发展,健全公共服务体系,完善数据要素市场”为使命,通过夯实数字基础设施和数据资源体系两大基础,实现数字技术与经济、政治、文化、社会、生态文明建设“五位一体”深度融合,推动中江数字经济的高质量发展。
(摘自:“德阳数据交易中心”公众号)
“2024年促进实体经济与数字经济深度融合论坛”活动在贵阳举行
8月7日上午,“2024年促进实体经济与数字经济深度融合论坛”活动在贵阳国际生态会议中心举行。本次活动以“数联万物智融未来”为主题,旨在促进经验交流、推广先进模式、探讨实体经济与数字经济深度融合的路径与策略,共谋发展新篇,助力全省经济高质量发展。
据了解,本次论坛由贵州省大数据发展管理局主办,国家工业信息安全发展研究中心具体承办,贵州省数据流通交易服务中心、贵州赛昇工业信息研究院有限公司协办,来自贵州省大数据发展领导小组成员单位、高校专家、权威学者、市州大数据局、区县大数据主管部门、部分实体经济与大数据企业负责同志齐聚一堂,就实体经济与数字经济的深度融合展开深入交流与探讨。
论坛上,工业和信息化部信息技术发展司数字经济推进处处长张建伦在致辞中指出,工业和信息化部深入贯彻落实国家发展战略,以促进实体经济和数字经济深度融合为主线,取得了积极成效。他强调,下一步将加快推进新型工业化,促进实体经济和数字经济深度融合,推动构建现代化产业体系。
国家工业信息安全发展研究中心副主任廖凯在发言中表示,数字经济作为新时代的新动能是成为推动经济增长的重要引擎,实体经济是经济高质量发展的根基,充分发挥数据要素和数字技术对实体经济的作用,是我国实现经济高质量发展的必然选择。他分享了关于数据要素融合、数字技术融合以及企业数字化转型的几点思考,并希望与会嘉宾能够共同推动实体经济与数字经济融合发展,为实现我国经济高质量发展、全面建设社会主义现代化国家贡献力量。
贵州省大数据发展管理局副局长江阳详细介绍了贵州省在数字经济领域的发展成就,并表示贵州将围绕重点行业,大力建设行业数据空间,加快打造行业大模型,提供一批数字化产品、服务和解决方案,打造数字化转型生态。他还发布了《2023年贵州省大数据与实体经济深度融合评估报告》,展示了贵州省在大数据与实体经济深度融合方面的显著成效。
在论坛的主题演讲环节,中国工程院院士沈昌祥和哈尔滨工业大学(深圳)计算机学院副院长何道敬分别就“构建安全可信网络新生态,促进数字经济高质量发展”和“关于人工智能推动产业创新的一些实践”发表了主旨演讲,为与会嘉宾提供了宝贵的思路和建议。
(摘自:“贵阳市大数据局”公众号)
共建跨境数据流通交易生态!上海数据交易所与国际另类数据聚合平台达成战略合作
近日,上海数据交易所与欧洲领先的另类数据聚合平台企业EagleAlpha正式签署战略合作协议。双方将建立海外平台数据双向流动合作机制,通过规则对接、供需对接、信息共享等一系列互联互通的举措,帮助全球企业拓展数据跨境流通业务,提升企业在数据交付等方面的安全性和便捷性,促进全球数据流通交易。
另类数据是在投资研究中使用的非传统来源的新型数据,近年来在金融市场中的应用越来越广泛。EagleAlpha成立于2012年,是全球领先的另类数据聚合平台企业,也是全球另类数据行业的标准制定者之一,合作伙伴包括黑石集团(Blackstone)、施罗德集团(Schroders)等全球知名投资公司。
据介绍,目前EagleAlpha平台上拥有超过1900种另类数据产品,涵盖社交媒体情绪分析、网络流量和电子商务数据、地理位置数据、卫星图像等多类型数据,被全球的资产管理公司、私募股权公司、企业和政府机构广泛使用,帮助他们在投资决策和市场分析中获得独特见解和深刻洞察,数据买家企业超过1000家。
EagleAlpha首席执行官NiallHurley表示:“我们关注到了中国数据交易市场的快速发展,也看到了数据交易所在其中发挥的不可替代的作用。我们希望通过与上海数据交易所的战略合作,帮助更多国际数据企业了解中国市场,参与到中国的数据交易市场中去。我们也看到了上海数据交易所在拓展国际市场上展现出的开放性和决心。我们相信,通过这次战略合作,能够为中国市场提供更多高质量的另类数据支持,助力中国企业在全球竞争中取得优势。”
上海数据交易所总经理汤奇峰表示,上海数据交易所加快建设国际专区,推动与EagleAlpha等国际主流数据供应平台形成数据双向流动合作机制,降低信息搜寻成本等交易成本,使得企业在开展数据跨境流通业务上能够更加便利畅通。
依托上海数据交易所在国际化多元数商生态、数据交易服务功能等方面的优势,以及EagleAlpha在数据供给和覆盖全球的客户关系等方面的资源,下一步双方将共建跨境数据流通交易生态,为全球企业提供更广阔、更多样化的数据服务、技术服务以及综合解决方案。
(摘自:“浦东发布”公众号)
基于AI大模型的数据治理
在大模型时代,数据治理变得尤为重要。随着大数据技术的不断发展,数据规模呈爆炸式增长,数据来源也日趋多样化。如何有效地管理和利用这些数据,成为了企业和社会关注的焦点。本文将探讨在大模型下如何进行数据治理。
— 01—
什么是大模型?
大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果,如自然语言处理,图片生成,工业数字化等。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。大模型的原理是基于深度学习,它利用大量的数据和计算资源来训练具有大量参数的神经网络模型。通过不断地调整模型参数,使得模型能够在各种任务中取得最佳表现。通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高等。很多先进的模型由于拥有很“大”的特点,使得模型参数越来越多,泛化性能越来越好,在各种专门的领域输出结果也越来越准确。一个基本架构,三种形式:当前流行的大模型的网络架构其实并没有很多新的技术,还是一直沿用当前NLP领域最热门最有效的架构——Transformer结构。相比于传统的循环神经网络(RNN)和长短时记忆网络(LSTM),Transformer具有独特的注意力机制(Attention),这相当于给模型加强理解力,对更重要的词能给予更多关注,同时该机制具有更好的并行性和扩展性,能够处理更长的序列,立马成为NLP领域具有奠基性能力的模型,在各类文本相关的序列任务中取得不错的效果。
根据这种网络架构的变形,主流的框架可以分为Encoder-Decoder,Encoder-Only和Decoder-Only,其中:1)Encoder-Only,仅包含编码器部分,主要适用于不需要生成序列的任务,只需要对输入进行编码和处理的单向任务场景,如文本分类、情感分析等,这类代表是BERT相关的模型,例如BERT,RoBERT,ALBERT等2)Encoder-Decoder,既包含编码器也包含解码器,通常用于序列到序列(Seq2Seq)任务,如机器翻译、对话生成等,这类代表是以Google训出来T5为代表相关大模型。3)Decoder-Only,仅包含解码器部分,通常用于序列生成任务,如文本生成、机器翻译等。这类结构的模型适用于需要生成序列的任务,可以从输入的编码中生成相应的序列。同时还有一个重要特点是可以进行无监督预训练。在预训练阶段,模型通过大量的无标注数据学习语言的统计模式和语义信息。这种方法可以使得模型具备广泛的语言知识和理解能力。在预训练之后,模型可以进行有监督微调,用于特定的下游任务(如机器翻译、文本生成等)。这类结构的代表也就是我们平时非常熟悉的GPT模型的结构,所有该家族的网络结构都是基于Decoder-Only的形式来逐步演化。
可以看到,很多NLP任务可能可以通过多种网络结果来解决,这也主要是因为NLP领域的任务和数据的多样性和复杂性,以及现代深度学习模型的灵活性和泛化能力,具体哪种结构有效,一般需要根据具体场景和数据,通过实验效果进行选择。
— 02—
大模型面临的挑战
大模型要发挥价值,需要构建从数据产生、数据整理、模型训练、模型适配到实际部署的完整生态系统。大模型的应用也面临着一些挑战和限制。一方面,大模型的训练和使用需要大量的计算资源和存储资源,成本较高。另一方面,大模型的训练需要大量的标注数据,但标注数据的获取和整理成本也较高。此外,大模型的可解释性和泛化能力也需要进一步研究和改进。如果不对大模型进行数据治理,可能会导致数据质量低下、数据难以利用、资源浪费、成本增加、数据安全和隐私泄露风险增加等一系列问题。因此,为了确保大模型的有效应用和可持续发展,必须进行数据治理。
— 03—
数据治理的框架和核心内容
不同的利益相关者群体对数据治理的关注点不一样,因此各自的视图也不一样。其中管理者视图可以概括为“五域模型”,分别是“管控域”、“过程域”、“治理域”、“技术域”、“价值域”。
管理者视角-数据治理五域模型管控域:在数据治理战略指导下制订企业数据治理组织,明确组织的责、权、利,岗位编制及技能要求。治理域:是数据治理的主体,明确数据治理的对象和目标。技术域:数据治理的支撑手段,指的工具平台。过程域:是数据治理的方法论。价值域:通过对数据资产的管控挖掘数据资产的价值,并通过数据的流动、共享、交易变现数据资产。
数据治理体系,包括数据战略、数据治理管控体系(数据治理组织、制度、流程、管控机制、绩效体系及标准体系)、数据架构、主数据、元数据、指标数据、时序数据、数据质量、数据安全、数据集成与交换、数据开放和共享、数据资产管理能力成熟度评估以及数据价值、数据共享、数据变现等多方面。
从数据战略、数据管控(组织管理、制度体系、流程管理及绩效)、三个核心体系(数据标准体系、数据质量体系、数据安全体系)和工具等分别进行介绍数据治理体系。
— 04—
AI大模型在数据治理中的应用
目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推进带来了更多的困难。AI大模型的引入,可以有效地解决这一难题。相比传统的人工为主的数据治理,基于AI大模型的数据治理具有以下优势:
自动化:AI大模型可以通过学习和分析数据治理各项工作的特征和规则,自动化批量进行大规模数据的数据标准、元数据、数据质量管理、数据安全管理等数据治理任务,减少了人工处理的工作量,提升治理工作效率。
实时性:AI大模型可以实时监控和分析数据的变化,并及时进行预警或直接处理,提升数据治理的响应速度。
扩展性:AI大模型可以通过学习和迭代,持续提升自己的能力,以适应高度变化的业务和技术环境对数据治理的需求。
基于上述考量,在数据治理领域,基于AI大模型的能力,可以从如下主要场景实现从人工治理到智能治理的进化。(一) 数据标准管理无论是以人工为主的数据标准管理,还是基于AI大模型的智能化数据标准管理,首先都需要我们对企业的数据标准现状进行详尽的调研工作。调研的内容包括:企业当前的数据业务含义、数据标准分类、数据标准内容,业务和技术团队对当前数据标准的改进需求(以下简称“改进需求”),相关的国际标准、国家标准、地方标准和行业标准(以下统一简称为“外部标准”)等。在此基础之上,利用AI大模型,可以从以下几个方面提升数据标准管理的智能化程度:
1.标准智能制定
基于企业现有标准、改进需求和外部标准,自动制定适合企业的数据标准。和人工制定的标准一样,自动制定的标准,也需要经过企业的业务和技术专家的审定后,才能正式发布使用。
2.标准智能落标
前向落标:按企业的数据标准实施策略,逐步赋能周边系统,在建表时,自动为字段推荐/匹配合适的数据标准。后向落标:按企业的数据标准实施策略,逐步治理存量数据,批量自动化为其推荐/匹配合适的数据标准。
3.标准智能维护
随着业务需求和环境的变化,数据标准需要不断更新和维护。我们可以通过AI大模型,自动监测和分析业务数据的变化,提供标准的新增、变更、下线建议,帮助企业及时进行数据标准维护。
(二) 元数据管理
Gartner在其“数据编织”的架构中提出了MetadataActivation(国内一般翻译为“主动元数据”或“元数据激活”)的概念,随后又在其“元数据管理成熟度”中(见图3-2)对主动元数据进行了解释,概括来说就是:主动元数据指的是一种数据管理方式,即,发现、获取尽可能多的元数据,并以丰富的元数据为基础,利用各种AI技术手段(ML、NGL、知识图谱等),主动改进数据管理的工具和活动,提升数据管理的效率,降低管理成本。
Gartner在提出数据编织概念时,AI大模型还没出圈,但我们可以想象,如果Gartner更新其对数据编织的阐述,肯定会毫不犹豫地把AI大模型加入其架构中。在元数据管理中,利用AI大模型,可以从以下几个方面提升智能化程度:
1.元数据智能挖掘
企业在做元数据采集时,由于源系统设计和管理的不规范,大多数情况下只能采集到最基础的技术元数据信息(如:数据库、Schema、表名、字段名等),需要花费大量人力和时间完善其他的核心元数据信息(如:表的中文名、业务口径、描述、标签,字段的中文名、描述、取值说明、敏感等级等)。通过AI大模型的推理能力,可以基于最基础的技术元数据信息和业务样例数据,自动填充其他的核心元数据信息。
2.数据血缘智能挖掘
业务和技术的发展,以及随之而来的日益复杂的加工逻辑、多源异构的数据库和多种类型的加工脚本,这些都给数据血缘解析(尤其是字段级血缘解析)带来了极大的挑战。通过AI大模型的代码解读能力,可以提升复杂代码、异构数据库和多类型的加工脚本场景下,血缘解析的成功率和准确率。再进一步,如果能利用AI大治理模型总结并生成表级和字段级的业务口径或者数据处理逻辑,将极大地提升人们理解数据、数据溯源和数据影响分析的效率。
3.数据智能分类
基于数据对象的元数据、业务样例数据,自动推荐数据对象所属的数据分类或挂载的数据目录。
4.数据推荐
基于企业中数据使用者的个人信息(部门、岗位、参与的业务等)、在大数据体系平台(数据开发平台、数据治理平台、BI报表平台等)中的操作行为(搜索、查看、收藏、订阅等)和数据对象的元数据、业务样例数据,向数据使用者推荐他们需要的数据对象。
(三) 数据质量管理
在数据质量管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:
1.质量规则推荐
基于数据对象的元数据和业务样例数据,自动为数据对象推荐/匹配表级和字段级的数据质量规则。
2.质量阈值推荐
通过持续分析历史的质量校验结果数据,向用户提供建议的质量异常阈值,并能持续调整建议的结果。
3.质量异常自动定位
基于数据血缘链路和数据质量校验结果,自动定位数据质量异常的源头。
4.质量异常智能修复
针对部分数据质量异常(如重复数据、缺失数据、不一致数据等),基于数据对象的元数据和质量正常的业务样例数据,自动修复数据中的异常。
(四) 数据安全管理
在数据安全管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:
1.敏感数据智能识别基于数据对象的元数据、业务样例数据和企业的数据分级策略,自动识别数据对象的敏感等级。2.脱敏/加密规则推荐基于数据对象的元数据、业务样例数据、敏感等级和企业的数据安全策略,自动为数据对象推荐/匹配脱敏或加密规则。3.数据风险智能识别。
基于数据对象的元数据、血缘、敏感等级,企业的数据安全策略和已有的数据权限策略,自动识别数据风险并提供异常处理策略,应用场景主要包括:
— 05 —
大模型下数据治理的未来展望
随着大模型的不断发展,数据治理将面临更多的挑战和机遇。未来,数据治理将更加注重智能化技术的应用。利用人工智能和机器学习技术对数据进行自动化的分类、标签化和质量检测等操作,提高数据治理的效率和准确性。同时,随着区块链技术的不断发展,数据安全和隐私保护将更加得到重视。区块链的去中心化特性和加密技术可以为数据提供更加安全可靠的存储和传输方式。此外,随着边缘计算的不断发展,数据的处理和分析将更加接近数据源本身,进一步加速数据处理速度和提高实时性。
总结大模型下的数据治理是一项复杂而重要的任务。通过建立完善的数据质量管理体系、数据安全与隐私保护体系、数据流程管理体系和数据生命周期管理体系等策略,可以有效地实现数据的合规、安全和高效利用。同时,需要不断优化和完善数据治理体系,以适应不断变化的大模型技术和业务需求。只有这样,才能更好地发挥大模型的优势,推动各行业的快速发展和创新进步。
(摘自:“首席数字官”公众号)
免责声明:文章素材来源于网络,如有侵权,请联系删除。