第035期文化大数据政策及新闻简报
点击上方蓝字关注我们
烟台市大数据局 烟台市财政局关于印发《烟台市企业数据资产入表2024年工作方案》的通知
(《方案》详见附件)
(摘自:烟台市人民政府)
河南省发展和改革委员会等20部门关于印发河南省“数据要素×”行动实施方案(2024—2026年)的通知
(《方案》详见附件)
(摘自:河南省发展和改革委员会)
《贵州省数据流通交易促进条例》
(《条例》详见附件)
(摘自:贵州人大)
《广州数据资产管理及入表工作指引》
(《指引》详见附件)
(摘自:广电计量)
北京市将建设数据“一区三中心”:建设国家数据管理中心、国家数据资源中心和国家数据流通交易中心
7月30日,本市召开数据工作会议。据悉,2024年是本市数据管理机构改革、数据职能转变的开局之年,本市将建设“一区三中心”,全域创建数据要素市场化配置改革综合试验区,建设国家数据管理中心、国家数据资源中心和国家数据流通交易中心。
市政务和数据局相关负责人介绍,围绕推进国家数据要素市场化配置改革综合试验区建设,本市将编制综合试验区创建方案,聚焦数据基础制度创新、数据要素市场建设、新型数据基础设施建设、数据资源开发利用等维度开展综合试验。发挥企业创新主体作用,支持各类企业积极参与解决数据市场化配置改革中的重难点问题。鼓励各区结合区域数据要素发展特色和资源禀赋,开展数据工作先行先试专项试点。
数据要素市场的健康发展将通过制度、法规予以保障。2024年,本市将制定《关于加快北京市公共数据开发利用的实施意见》《北京市数据登记管理办法》,启动《北京市数据条例》立法研究。
为了释放数据要素活力,本市将推进水电气热、公共交通、医疗健康等公共数据汇聚共享,推动与国家部委、央企总部、平台企业等建立数据合作机制,扩大公共数据供给。深化金融、信用、交通、位置等公共数据专区建设。
全域数字化转型也会有新动向。本市将以智慧城市为综合载体,统筹推进政务、经济和社会数字化转型。同时,加快建设全球数字经济标杆城市,持续开展传统产业数字化转型。
本市还将超前布局数据基础设施。其中包括加快建设海淀、朝阳、亦庄、京西等智能算力高地;支持建设北京市算力互联互通和运行服务平台;组织谋划重点领域数字化转型、数据基础设施等重大项目。
(摘自:北京市人民政府)
全国首创“运商分离”,广州全面启动公共数据授权运营
8月5日,广州市数据要素市场化配置改革成果发布会举行,广州全面启动公共数据授权运营工作。发布会上,数字广州创新实验室揭牌,广州公共数据运营平台正式上线并发布了37款公共数据产品,涵盖金融、环保交通、医疗健康、商业文旅等十余个行业领域。
值得一提的是,为充分释放公共数据价值,吸引更多市场主体参与数据产品开发,丰富产品应用,广州市公共数据授权运营在全国首创“运商分离”模式。承担公共数据运营工作的机构不参与数据产品开发,数据产品经营权100%归属于数据商。
广州正以数据要素市场化配置改革为主线,以公共数据开发利用为引领,从培育全市一体化数据要素市场出发,通过建立数据基础制度、一体化基础设施和产业发展政策,推动企业和社会数据开发利用,保障数据“供得出、流得动、用得好、保安全”,不断增强改革的系统性、整体性和协同性,更好发挥数据作为新型生产要素的作用。
建立数据要素基础制度
数据要素市场源头活水
广州市把推进数据基础制度建设列为重点工作,注重回应实践难点,提出具体落地规则。
2023年,广州市委深改委出台了“广州数据二十条”《关于更好发挥数据要素作用推动广州高质量发展的实施意见》,为数据的供给、流通、使用提供纲领性文件,并抓紧开展广州市数据条例的立法工作,夯实数据基础制度,着力通过法治、制度建设推进公共数据资源管理和运营机制改革,建立数据交易场所、数据商及第三方专业服务机构等多方参与的数据要素市场,规范数据要素高效、有序流通,激发供数动力和市场创新活力。
其次,在促进数据开发利用方面,广州市去年出台了《广州市公共数据开放管理办法》,以加快数据要素有效供给,规范和促进公共数据开放和开发利用,并建立全市数据开放平台,作为支撑全市公共数据开放的统一载体。
广州市公共数据授权运营工作以“创新驱动、包容审慎、安全发展”为原则,探索市场主体、技术、资本等多元要素共同参与推进广州数据要素市场化配置改革。
在运营机制方面,广州市实行整体授权、统一运营的公共数据授权运营模式。一体化运营能够最大化发挥公共数据整体价值,实现运营流程的精简化,缩短数据价值开发链条。
此外,广州市政务服务和数据管理局已指导运营机构建立了以运营监督管理、运营实施管理、数据商管理为核心,以数据部件开发规范为指引,涵盖安全监督、数据开发利用以及平台运维管理的运营制度框架体系。
全国首创公共数据运营“运商分离”模式
更好发挥市场创新活力
公共数据是数据要素的重要组成部分,具有数据基础好、管理相对规范、经济价值和社会价值高的特点。
为充分释放公共数据价值,吸引更多市场主体参与数据产品开发,丰富产品应用,广州市公共数据授权运营在全国首创采用“运商分离”模式。
同时,承担公共数据运营工作的机构不参与数据产品开发,数据产品经营权100%归属于数据商,避免出现利用运营优势参与数据产品经营而导致市场竞争不公平的问题,培育公平竞争、多方参与、收益共享的公共数据开发利用生态。
在数据产品安全交易保障方面,广州市实行数据商及数据使用的合规用数双审机制,公共数据运营机构对数据商进行准入核查,由公共数据主管部门或数源部门进行用数终审。并明确广州市公共数据运营平台是全市公共数据授权运营的统一通道,降低数据安全风险。
在数据商权益保障方面,建立数据运营机构和数据商争议调解申请机制,由公共数据主管部门承担争议调处职能。
以数字基础设施和产业集聚发展为牵引
培育数据要素产业生态
在基础设施保障方面,广州市建立了广州人工智能公共算力中心、智算统一调度运营平台、行业人工智能应用基地“一中心、一平台、一基地”的公共算力基础设施,作为数字经济发展的基础底座。
发布会上,数字广州创新实验室正式揭牌,将成为新技术、新产品、新模式、新业态“中试车间”与实验场。作为广州数字基础设施建设的重要载体和创新平台,数字广州创新实验室围绕“人工智能+”“数据要素×”专项行动,整合算力、数据、算法三位一体协同发展,构建大模型开放服务平台。引入多家大模型头部技术厂家进行揭榜挂帅,推动大模型在垂直行业应用落地,持续孵化培育新场景、新应用。
值得一提的是,推动要素集聚实现区域创新发展是广州市培育数据要素产业生态的重要一环。目前,广州已布局建设天河中央商务(含金融城)片区、天河智慧城片区、海珠琶洲片区、黄埔鱼珠片区、黄埔科学城片区、黄埔知识城片区、增城科教城片区、番禺广州国际科技创新城、南沙明珠湾起步区等9个数据要素集聚发展区域。
集聚发展区域以数字产业、数据要素赋能制造业、现代服务业等实体经济数字化转型为核心业态,围绕产业互联网、智能制造、数据要素算力基础设施以及创新研发等产业链布局,打造数据要素产业发展“强磁场”和创新高地,助力广州打造全球领先、国内数产融合的城市标杆。
(摘自:“广州南沙明珠湾管理局”公众号)
大连市数据产业有限公司正式揭牌成立,大连数据交易平台正式启动
为推进大连市数据要素市场化配置改革工作,8月2日,“激活数据要素价值 培育新质生产力”主题论坛暨大连市数据产业有限公司揭牌仪式在大连棒棰岛宾馆举行。来自政产学研用等方面的代表齐聚一堂,共谋数据要素发展之道、共建数据要素产业生态。
数据要素市场化
顶层设计
大连市数据局先后规划了“12345+N”总体架构,发布了《2024年数字大连建设工作任务》《大连市“数据要素×”2024年工作任务》,制定了《大连市构建城市算力网推进算力基础设施高质量发展行动计划(2024一2025年)》,从顶层设计上明确了大连数据要素市场化工作方向和目标,完善促进数字产业化和产业数字化政策体系。
数据要素市场化
“大连模式”
大连市数据局鼓励其他经营主体对运营机构运营的公共数据开发公共数据产品和服务,充分发挥公共数据资源规模化应用效应,创新发展公共数据授权运营“大连模式”,主要有这些特点:
授权模式
着力打造一体化场景式授权模式;
发展模式
通过运营主体和交易场所双核驱动数据要素市场,共同促进产业生态繁荣;
数据归集
开展多元数据融合,创新“中直数据与地方数据融合、政务数据与企业数据融合、境外数据与境内数据融合”的三融合模式;
公司组建
深化落实央地合作,通过央地国企的强强联合,打造数字要素领域央地合作样板示范;
运营模式
公平透明的运营公共数据资源,促进数据要素市场可持续发展;
营销模式
在金融领域根据银行特点打造个性化定制化的数据产品和服务。
央地合作组建
大连市数据产业有限公司
在当天的活动中,大连市数据产业有限公司正式揭牌成立。随后,大连市数据局与之签订了公共数据授权运营协议。
大连市数据产业有限公司是央地合作的示范工程,由大连德泰控股有限公司、中电云计算技术有限公司及大连市大数据运营有限公司共同组建。
成立后的大连市数据产业有限公司,将引入央企先进经验及技术力量,整合大连市数据资源,推动数字经济与实体经济的深度融合,致力于公共数据运营及数据价值挖掘,为各行各业提供高效、精准的数据支持和服务。
揭牌仪式上,大连市数据产业有限公司还与大连海事大学、中国建设银行大连市分行等部门签订合作协议。
大连数据交易平台
正式启动
作为大连市数据资产交易登记服务的平台型基础设施,大连数据交易平台于活动当天正式启动。
交易平台依托大连产权交易所搭建,为数据交易提供确权、登记、交易、结算、交付等服务,是推动数据由资源向要素转化的重要枢纽,将推动数据要素协同优化、复用增效、融合创新,培育发展“数商”新业态。
此外,大连数字金融生态联盟也于活动当天成立,将促进数据要素与金融服务深度融合、推动大连市金融科技创新、强化场景汇聚与异业合作、推动金融数字化转型和普惠金融发展。
积极探索
数据跨境流动工作
为支持数据跨境流动,大连金普新区推出自贸片区数据跨境流动正负面清单,积极探索以自贸片区试点,依托本次揭牌成立大连市数据产业有限公司,集中采购与数商企业自由贸易相结合的数据跨境流动模式,打造自贸片区数据跨境贸易自由港。
初步形成
数据要素学科体系
活动当天,大连市数据局与大连理工大学、东北财经大学签订了战略合作协议,联合推进数据要素领域学科建设,促进人才高质量就业,开展课题研究,共同促进科技成果转化,推动政产学研用融合发展。
据悉,大连理工大学今年增设了“数据科学”通用学科,“大数据技术与工程”博士点将于近期首批招生。东北财经大学增设了“数字经济”专业硕士,将于明年首批招生。
下一步,大连市将充分发挥数据要素乘数效应,加快培育新质生产力,赋能经济社会发展,打造数据要素市场化配置改革示范城市。
(摘自:“大连发布”公众号)
全国首例房管数据产品实现数据资产入表
近日,全国首例面向房屋管理业务的创新型产品“首义智慧房管洞察分析”数据产品成功上架“湖北省数据流通交易平台”。该数据产品已取得湖北数据集团颁发的《湖北省数据产权登记证书》、《湖北省数据资产登记证书》,并获得兴业银行武昌支行授信额度500万元,这标志着全国房管领域首个、湖北省区县国企首个数据资本化案例成功落地。同时该数据产品还获得湖北省首张数据综合保险保单,为其安全性和稳定性提供保障。
国有企业是数据要素市场化发展的主力军,此次首义科创投集团积极发挥国有企业作用,率先实现数据资产入表融资,是对省市区数据要素市场化建设要求的深入贯彻落实,是武昌区在数据要素产业创新发展方面的突破性成果,也是数据资产资本化领域的重大突破。
“首义智慧房管洞察分析”产品基于现有的“武房智慧房管系统”,通过租约登记、租金缴费、租金减免、账单查询等房屋日常运营管理数据,提供统计类数据报告可视化查询服务及个性化数据报告定制服务,在房屋运营管理、政府监测管理、房屋价值评估等场景起到强大助力作用。
(摘自:“数据要素X工作坊”公众号)
辽宁省首个数据资产登记平台在沈阳正式上线
日前,沈阳市数据资产登记平台正式上线试运行。该平台由盛京金控集团下属沈阳市数据资产登记中心牵头搭建,是全省首家以企业数据资产化为核心的服务平台,面向企业提供数据资产登记一站式服务,为地区数据要素产业高质量发展提供有效支撑。
7月30日,沈阳汽车城开发建设集团有限公司登记的《大东区智慧公交车路协同系统数据集》通过公示期并正式发证,这是全省首笔数据资产登记业务,标志着沈阳市在数据资产管理和利用方面迈出了坚实一步,为数据资产的规范化管理、高效流通、质押融资和价值释放奠定了坚实基础。这也是盛京金控集团实现全省首例数据资产融资授信、首笔数据产品交易后推动的又一项创新突破成果。
在数字经济蓬勃发展的背景下,盛京金控集团积极落实市委、市政府关于深入推进数据要素市场化配置改革相关决策部署,以公共数据授权运营为起点,以“数融结合”为驱动,以“数实结合”为手段,充分发挥国有企业的责任担当,助力数字沈阳建设。
下一步,盛京金控集团将聚焦打造区域一流的企业数据资产化服务平台,积极推进数商准入机制、数商名录库建设和政策咨询服务等各项工作,并不断完善数字资产登记业务流程,为数据资产登记提供更加专业、便捷、安全的服务,更好推动区域数据要素市场的规范化发展。
(摘自:“沈阳国资”公众号)
国家发改委价格监测中心召开公共数据价格形成机制有关问题研究课题开题报告会
根据国家发展改革委价格司关于2024年度课题委托研究入选单位的公告,价格监测中心(以下简称“中心”)申报的“公共数据价格形成机制有关问题研究”课题成功入选。
8月1日,中心组织召开课题开题报告会,刘刚副主任主持会议,清华大学林常乐教授、中国人民大学杨翰方教授作为课题专家现场出席会议,深圳数据交易所董事长李红光,上海数据交易所党总支书记、副总经理、研究院院长韦志林,贵阳大数据交易所政策研究负责人肖连春,及江苏省价格监测中心主任柯瑶等课题专家线上出席会议。
中心综合业务处处长赵公正同志首先介绍了课题选题背景,指出公共数据价格形成机制是公共数据开发利用的核心问题。
其次,介绍了课题研究大纲,研究主要分为八个部分,分别从公共数据的价格形成机制理论、市场价格体系构建等方面,深入研究公共数据价格形成机制有关问题,并提出符合公共数据要素特性的政策建议,推动提升公共数据资源开发利用水平,扩大有效供给,优化资源配置。专家们充分肯定了课题研究框架及思路,认为框架较为完善,符合研究要求,并提出了修改意见和建议。
最后,刘刚副主任感谢各位专家提出宝贵意见,指出课题的研究目的是为国家有关部门探索公共数据要素价格形成机制提供参考,构建公共数据市场价格体系,推动提升公共数据资源开发利用水平。今后价格监测中心将吸纳各方意见和建议,做好课题研究工作。
中心张武处长、综合业务处同志参加会议。
(摘自:“数据要素社”公众号)
数字桥梁跨越喜马拉雅,2024全球数字经济大会拉萨高层论坛成功举办
7月29日,2024全球数字经济大会拉萨高层论坛在拉萨高新区正式开幕。论坛以“数字桥梁跨越喜马拉雅”为主题,邀请了北京拉萨两地领导、专家、企业共同参加,全面展示数字拉萨城市建设的最新成果,深入剖析数字经济的最新动态。论坛由全球数字经济大会组委会指导,拉萨市人民政府、西藏自治区经信厅主办,拉萨高新区管委会、拉萨市经济和信息化局、拉萨市商务局、拉萨市科技局、拉萨市投资促进局承办。
拉萨市委副书记、市长王强,北京市经济和信息化局副局长毛东军,工业和信息化部火炬高技术产业开发中心党委委员郭锦海,西藏自治区投资促进局党组书记、局长王友华,西藏自治区党委网信办副主任陈文德,西藏自治区经济和信息化厅副厅长、西藏自治区数据管理局局长旺堆,西藏自治区商务厅副厅长尼玛顿珠,西藏自治区科技厅副厅长曹仲华,北京市经济和信息化局相关领导出席活动。工业和信息化部原副部长、中国信息化百人会学术委员会主席杨学山,中国工程院院士谭建荣,中国工程院院士尼玛扎西,以及130余家企业、行业协会代表齐聚拉萨。
王强市长对本次论坛的召开表示热烈的祝贺。他表示,拉萨作为国家面向南亚开放的重要通道、中心节点城市、综合保税区、跨境电子商务综合试验区,已经成为对外开放合作的重要平台,在拉萨发展数字经济具备气候、能源、碳汇、政策、成本五大优势。拉萨作为全球数字经济大会设立的国内分会场,是北京市与拉萨东西部协作的典范。
毛东军表示,作为全国的政治、文化中心和国际大都市,北京在数字经济发展方面具有丰富的经验和先进的技术。拉萨市拥有得天独厚的自然资源和文化底蕴,是建设运行大型数据中心、智算中心的天然宝地,为数字经济的发展提供了独特的基础和机遇。因此,加强北京拉萨两地数字经济领域的交流与合作,不仅有助于推动两地经济的快速发展,还能促进文化的交流与融合,增进民族团结和社会稳定。北京拉萨两地将充分发挥各自的优势,通过资源共享、技术转移和创新协作等方式,推动两地数字经济的协同发展。同时,也将借助拉萨市的独特资源和优势,将其融入全球数字经济的大潮中,共同开创更加美好的未来。
论坛期间,工业和信息化部原副部长杨学山,中国工程院院士谭建荣,中国工程院院士尼玛扎西,上海交通大学机械与动力工程学院教授明新国分别从网络同城、关键技术发展趋势、国产操作系统多语言支撑平台、产业数智化转型等角度发表主题演讲,西藏自治区经信厅发布了《2024年西藏自治区数字经济发展研究报告(白皮书)》。
2024全球数字经济大会拉萨高层论坛中所提出的前沿观点与丰硕成果受到业内的高度评价,成功搭建起了一个展示数字拉萨城市建设新成就、推动数字经济区建设的重要平台。在未来的合作中,我们将充分发挥平台优势,通过资源共享、技术转移、创新协作等方式,探索数字经济发展新理念、新模式、新路径,共同谱写北京拉萨数字经济发展新篇章!
(摘自:“北京经信局“公众号)
《中非数字合作发展行动计划》发布
中国和非洲国家(以下统称“各方”)共同于中非数字合作论坛(2024年7月29日,北京)期间发布《中非数字合作发展行动计划》,旨在促进中非数字领域合作与发展。各方认识到,数字发展对推进现代化进程具有重要作用。数字非洲是全球发展的重要引擎,推动数字发展有助于实现包容性增长和可持续发展,是实现中非合作2035年愿景的重要途径。各方一致认为,把握数字时代机遇,加强数字合作,以数字化推进现代化,符合各自发展道路和共同利益,有利于共筑高水平中非命运共同体。各方强调,开展国际合作对于弥合数字鸿沟,以及确保世界各地的人们都能享受数字技术带来的好处至关重要。各方一致同意,本着自愿原则共同推进以下行动。
一、数字政策合作行动
加强政策沟通与合作,对于携手推进联合国2030年可持续发展议程、非盟《2063年议程》至关重要。各方将加强数字战略、规划、政策对接沟通,分享发展经验,促进相互借鉴。根据需要商签合作文件,加强对话和互访,设立合作机制,营造良好政策环境,为数字产业发展创造有利条件。
二、数字基建合作行动
数字基础设施对于促进非洲互联互通、改善数字包容性具有重要价值。各方将推动共建可及、可承担、可持续的数字基础设施,鼓励企业在新一代移动通信、骨干网络、卫星通信、数据中心、云计算等领域开展务实合作,提升互联互通和数字包容水平。
三、数字创新合作行动
数字创新对增强数字发展动能、激发数字经济活力、促进数字初创企业发展具有重要作用。各方将共同推进前沿技术发展,探索人工智能、5G/6G、高性能计算、量子通信等领域合作,推动共建人工智能合作中心。各方将共同加强中小企业发展、创新项目孵化、初创企业投融资、青年和妇女赋能等领域合作。
四、数字转型合作行动
数字技术在各领域有巨大应用潜力,能显著提高经济和社会组织的运行效能,激发各行业活力。各方将推广普及数字技术,加快农业、制造业、矿业、能源、公共服务、城市管理、金融、医疗、教育、旅游、零售等领域数字化转型,未来三年共建10个数字转型示范项目,以数字化赋能中非合作高质量发展。
五、数字安全合作行动
数字技术发展过程中统筹发展和安全至关重要。各方将共同开展网络安全、数据安全、个人信息保护等领域合作,鼓励企业发展数字安全能力,支持开展中非数字安全技能培训和演练活动,探索共建数字安全联合实验室。
六、数字能力合作行动
加强数字能力建设,有利于推动数字战略实施落地,增强产业发展内生动力。各方将加强理念互鉴和经验分享,开展人员培训交流,鼓励企业、大学、智库共建能力建设合作平台,未来三年共同培养1000名数字人才,提升数字能力和数字素养。为高效推进合作行动,各方将携手构建政府、企业、智库、金融机构等多层次合作伙伴关系,共同促进中非数字领域发展。加入本行动计划的国家包括中国和阿尔及利亚、埃及、埃塞俄比亚、布隆迪、布基纳法索、赤道几内亚、多哥、佛得角、冈比亚、刚果共和国、刚果民主共和国、几内亚、加蓬、津巴布韦、科摩罗、科特迪瓦、卢旺达、莫桑比克、尼日利亚、塞内加尔、圣多美和普林西比、苏丹、索马里、突尼斯、乌干达、乍得。未来欢迎更多方加入,共同丰富合作内容,共享数字技术带来的发展机遇。
(摘自:“工信微报”公众号)
新加坡数据商正式入驻北方大数据交易中心,系北方首例!
随着智能网联汽车行业的快速发展,相关数据体量快速增长。7月31日,北方大数据交易中心与新加坡企业MooVita Pte. Ltd.(以下简称“MooVita”)中国总部天津务必达有限公司(以下简称“务必达”)达成战略合作。
务必达成为入驻北方大数据交易中心的首家新加坡数据商。这也是中国北方首次有新加坡数据商在交易中心注册。双方将借助生态城国际合作示范区优势和中新合作优势,在智能网联、数据流通等方面开展创新探索。
MooVita成立于2016年,专注于开发拥有自主知识产权的自动驾驶算法软件,并提供智能网联汽车产品解决方案。相关技术和产品已在新加坡、马来西亚、英国、印度等得到广泛应用。2023年8月,MooVita正式落户生态城,并注册成立中国总部,与生态城在智能网联汽车领域开展深度合作,共同创新探索智能网联纯电动公交运营与示范应用,构建可复制的智能低碳出行模式。
此次合作,北方大数据交易中心作为国务院支持设立的数据交易场所,将充分发挥其在数据挖掘、价值评估、合规交易方面的优势,为智能网联数据资产登记、产品挂牌保驾护航,确保数据传输的安全和合规性。
同时,双方还将致力于优化智能网联数据应用场景,挖掘自动驾驶数据价值,梳理并构建自动驾驶数据体系,吸引产业界、学术界加强在技术创新、产品开发、课题研究、标准制定等方面的创新,共同探索开放的合作模式。
近年来,生态城充分发挥智慧城市优势,围绕“智慧城市基础设施”和“智能网联汽车”协同发展试点建设,从基础设施、应用场景、产业生态等方面积极推动智能网联汽车产业发展,全域开放145公里智能网联测试道路,并打造“熊猫”智能网联公交、MooVita自动驾驶巴士等应用场景。与此同时,生态城积极发展数据交易,以北方大数据交易中心为依托,已聚集数据商400余家,挂牌数据产品超千个,正在成为北方地区重要的数据要素资源聚集地。
下一步,生态城将推动智能网联汽车产业与数据交易融合发展,整合智能网联道路基础设施、交通流量等数据资源,打造智能网联数据应用场景,开发智能网联数据产品,推动相关数据交易规范运作,以数据要素乘数效应推动产业高质量发展,为加快形成新质生产力蓄势赋能。
(摘自:“中新天津生态城发布”)
AI训练数据之困:垃圾进,垃圾出
所有模型都是通过在来自互联网的海量数据上进行训练来工作的,然而,随着人工智能越来越多地被用来生成充满垃圾信息的网页,这一过程可能会受到威胁。
近日,发表在 Nature 杂志上的一项新研究表明,当人工智能在人工智能生成的数据上进行训练时,模型输出的质量会逐渐下降,随着后续模型输出的数据被用作未来模型的训练数据,影响会进一步恶化。
领导这项研究的牛津大学计算机科学家 Ilia Shumailov 将这一过程比作拍照。“如果你拍了一张照片,扫描、打印出来并再对其拍照,然后不断重复这个过程,随着时间的推移,基本上整个过程都会被‘噪声’淹没。最后,你会得到一个黑暗的方块。”他说道。在人工智能领域,黑暗方块相当于“模型崩溃”,这意味着模型只会生成不连贯的垃圾。
这项研究可能会对当今最大的人工智能模型产生重大影响,因为它们使用互联网作为数据库。例如,GPT-3 的部分训练数据来自 Common Crawl,这是一个包含超过 30 亿个网页的在线存储库。随着越来越多的人工智能生成的垃圾网页开始充斥互联网,这个问题可能会变得更糟。
Ilia Shumailov 表示,当前的人工智能模型不仅会崩溃,而且可能会带来实质性影响:迭代速度减缓,性能越来越弱。
为了衡量和确定对性能的潜在影响,Ilia Shumailov 和他的同事根据维基百科的一组数据对大型语言模型(LLM)进行训练,然后根据 9 代的输出数据对新模型进行微调。他们使用一个名为“困惑度分数”的评价标准来衡量输出的荒谬程度,“困惑度分数”反映人工智能模型对未来序列部分预测能力,分数越高,模型的准确度就越低。
最终,在其他模型的输出数据上进行训练的模型具有更高的“困惑度分数”。例如,对于每一代,团队在输入以下内容后向模型询问下一个句子:
“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”
“根据 Poyntz Wright 的说法,一些教堂始建于 1360 年之前,通常由一位熟练的石匠和一小群流动的石匠完成,并辅以当地教区工人。但其他作者拒绝这个观点,而认为主要是由知名的建筑师根据早期的垂直式建筑风格设计教区教堂塔楼。”
在第 9 代(也是最后一代)中,模型返回以下内容:
“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”
“建筑。除了拥有世界上数量最多的黑 @-@ 尾兔、白 @-@ 尾兔、蓝 @-@ 尾兔、红 @-@ 尾兔、黄 @-。”
Ilia Shumailov 用这个类比解释了他认为正在发生的事情:想象一下,你要找一个学校里最不可能出现的学生名字,你可以检查每个学生的名字,但这会花很长时间。相反,你会查看 1000 个学生姓名中的 100 个。你得到了一个相当准确的预估,但这可能不是正确的答案;现在想象一下,另一个人过来根据你的 100 个名字进行预估,但只选择了 50 个,那么这个人的预估将会更加偏离正确答案。
“机器学习模型也会出现同样的情况。因此,如果第一个模型已经浏览了一半的互联网内容,那么第二个模型可能不会要求一半的互联网内容,实际上只是抓取最新的 10 万条推文,并在上面训练模型。”他说。
此外,互联网上的数据是有限的,为了满足对更多数据的需求,未来的人工智能模型可能需要在合成数据或人工智能生成的数据上进行训练。
麻省理工学院媒体实验室的研究人员、研究如何训练 LLM 的 Shayne Longpre(他没有参与这项研究)说:“基础模型依赖于数据规模才能获得更好的表现。他们希望在经过精心策划和控制的环境中使用合成数据来解决这个问题,因为如果继续在网上抓取更多数据,收益将会递减。”
斯坦福大学人工智能研究员 Matthias Gerstgrasser 在另一篇论文中研究了模型崩溃的问题。在他看来,将合成数据添加到现实世界数据中而不是替换它并不会引起任何重大问题。但他补充道:“所有关于模型崩溃的研究都得出一个结论,那就是高质量且多样化的训练数据至关重要。”
随着时间的推移,这种“退化”导致模型中的信息失真,少数样本的信息在模型中严重扭曲,因为它往往更加关注训练数据中普遍的样本。
麻省理工学院媒体实验室研究算法的 Robert Mahari(他也没有参与这项研究)表示,在当前的模型中,这可能会影响代表性不足的语言,因为它们需要更多的合成(或人工智能生成)数据集。
一个有助于避免退化的想法是,确保模型给予原始的人类生成数据更多权重。Ilia Shumailov 研究的另一个项目允许后代对原始数据集的 10% 进行采样,而这减轻了一些负面影响。
这需要从人类生成的原始数据到后代数据进行追踪,即数据来源。但这需要一种方法来过滤互联网上的人类生成数据和人工智能生成数据,但这一点目前尚未完全解决。尽管现在存在许多工具能够确定文本是否由人工智能生成,但它们往往不够准确。
“不幸的是,我们的问题比答案多。”Ilia Shumailov 说, “但很明显,了解数据来自哪里以及在多大程度上可以相信它能够捕获正在处理数据的代表性样本,这一点很重要。”
(摘自:“中国金融杂志”公众号)
“繁花似锦,豫见红楼——《红楼梦》数字艺术展”在郑州博物馆隆重开幕!
2024年8月3日,“繁花似锦,豫见红楼——《红楼梦》数字艺术展”在郑州博物馆隆重开幕!本次展览由郑州博物馆、旅顺博物馆、北京雅昌艺术数据有限公司共同主办,由北京紫金青华建设工程有限公司协办,中国文物交流中心、江西省数字文化集团有限责任公司支持。展览基于原著的文化内容,综合运用数字创新技术,深入挖掘《红楼梦》的故事主线与文化内涵,展现中国传统文化中的园林美学、人物群像、物丰盛象和人生哲理。
本次展览以人物故事为主线,融入解谜活动。将艺术作品、艺术装置、沉浸式数字光影、交互式数字光影以及数字交互知识内容有机融合,为广大市民带来一次既有视觉震撼,又有内容深度的观展体验。
观众们不仅能在解谜游戏、个性测试等互动环节中享受逛展过程,还有华丽的中式园林造景,绚丽的光影装置供大家打卡留念,既能玩得开心,也能收获满满的文化知识!
次展览分为寻芳游园、花境钗影、韶华盛极、豫见红楼四个部分。进入第一展厅,映入眼帘的便是极尽奢华的大观园,盛开的繁花引领观众打开梦幻世界的门。观众们循着展览中的解谜线索,在欣赏展品的同时,参与趣味性格测试,认识红楼角色,代入红楼故事,还有观众穿着汉服在展厅里游览拍照,仿佛穿越时空,进入了红楼梦的书中世界。
在“韶华盛极”数字光影展厅,以数字技术重现了大观园的繁荣景象与经典名场面。数字光影以文学名著融入视觉艺术,以“入园”“游园”“出园”为线索,串联起《红楼梦》中的主要故事线。
进入展厅,一座梦幻的中式园林如画卷般徐徐展开,大观园中的玉砌雕阑、满园芳菲、才子佳人……你方唱罢我登场,令人目不暇接。观众们在数字光影展厅中沉溺于如梦似幻的视听盛宴,纷纷在现场拍照打卡。
最后的豫见红楼展区,仿佛来到大观园的元宵之夜,观众们一面看展览,一面猜灯谜,好不热闹!
最后,观众们在展览出口处盖上郑州城市限定款印章,这次红楼之旅就告一段落。还有意犹未尽的观众在文创区选购周边,将红楼文化收入囊中。
现场观众表示,展览布景非常漂亮,好像进入了红楼梦的书中世界。展览的内容也干货满满,在看展和互动游戏的过程中可以学到很多知识,不仅对《红楼梦》这本文学名著的理解更深入了,也学到了很多关于中国传统文化的常识。
主办方表示,传承中华传统文化,是每个中国文化从业者的责任和担当。数字技术赋能文化经典,为中华优秀传统文化的继承和发扬注入了全新活力。《红楼梦》是我们耳熟能详的四大名著,但能仔细通读原著的人并不多。我们基于最新的红学研究成果,通过用艺术装置、数字光影技术,将经典文学作品视觉化,让传统文学名著走入大众生活。
“另外,在即将到来的七夕佳节,我们特别策划了‘七夕节珐琅技艺手作体验’,将红楼元素融入非遗手作,不仅营造了七夕节的文化氛围,也能给观众带来别样的七夕体验。”
(摘自:郑州博物馆)
免责声明:文章素材来源于网络,如有侵权,请联系删除。