比特派app官方下载地址|什么叫大数据
大数据(IT行业术语)_百度百科
IT行业术语)_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心大数据是一个多义词,请在下列义项上选择浏览(共10个义项)展开添加义项大数据播报讨论上传视频IT行业术语收藏查看我的收藏0有用+10本词条由TE智库 提供内容,经科普中国·科学百科认证 。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 [17]在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]“大数据”一词列出了商务印书馆推出的《汉语新词语词典(2000—2020)》中国这20年生命活力指数最高的十大“时代新词”。 [18]中文名大数据外文名big data,mega data提出者维克托·迈尔-舍恩伯格及肯尼斯·库克耶提出时间2008年8月中旬适用领域BI,工业4.0,云计算,物联网,互联网+应用学科计算机,信息科学,统计学5V特点大量、高速、多样、价值、真实性目录1定义2特征3结构4数据要素▪概念▪数据产品5国内大数据产业链分布结构▪数据采集与处理▪数据存储与管理▪数据挖掘/分析▪数据可视化/呈现▪数据治理/应用(解决方案)▪数据安全与合规6意义7趋势8IT分析工具9促进发展定义播报编辑大数据与云计算的关系 [1]对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [3]大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [4]从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:1 Byte =8 bit1 KB = 1,024 Bytes = 8192 bit1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB特征播报编辑特征介绍容量(Volume)数据的大小决定所考虑的数据的价值和潜在的信息;种类(Variety)数据类型的多样性;速度(Velocity)指获得数据的速度;可变性(Variability)妨碍了处理和有效地管理数据的过程。真实性(Veracity)数据的质量。复杂性(Complexity)数据量巨大,来源多渠道。价值(value)合理运用大数据,以低成本创造高价值。参考资料 [5]结构播报编辑大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 [6]大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。 [7]其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。 [7]数据要素播报编辑概念数据技术的发展伴随着数据应用需求的演变,影响着数据投入生产的方式和规模,数据在相应技术和产业背景的演变中逐渐成为促进生产的关键要素。因此,“数据要素”一词是面向数字经济,在讨论生产力和生产关系的语境中对“数据”的指代,是对数据促进生产价值的强调。即数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,投入于生产的原始数据集、标准化数据集、各类数据产品及以数据为基础产生的系统、信息和知识均可纳入数据要素讨论的范畴。 [24]数据产品1.数据库商品(1)概念/定义数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。在现实中,数据、DBMS 及关联应用一起被称为数据库系统,通常简称为数据库。 [25](2)数据库分类关系数据库:关系数据库在 20 世纪 80 年代成为了主流。在关系数据库中,项被组织为一组具有列和行的表。这为访问结构化信息提供了一种有效、灵活的方法。面向对象数据库:面向对象数据库中的信息以对象的形式表示,这与面向对象的编程相类似。分布式数据库:分布式数据库由位于不同站点的两个或多个文件组成。数据库可以存储在多台计算机上,位于同一个物理位置,或分散在不同的网络上。数据仓库:数据仓库是数据的中央存储库,是专为快速查询和分析而设计的数据库。NoSQL 数据库:NoSQL 或非关系数据库,支持存储和操作非结构化及半结构化数据(与关系数据库相反,关系数据库定义了应如何组合插入数据库的数据)。随着 Web 应用的日益普及和复杂化,NoSQL 数据库得到了越来越广泛的应用。图形数据库:图形数据库根据实体和实体之间的关系来存储数据。OLTP 数据库:OLTP 数据库是一种高速分析数据库,专为多个用户执行大量事务而设计。云数据库:云数据库指基于私有云、公有云或混合云计算平台的结构化或非结构化数据集合,可分为传统云数据库和数据库即服务 (DBaaS) 两种类型。在 DBaaS 中,管理和维护工作均由服务提供商负责。多模型数据库:多模型数据库指的是将不同类型的数据库模型整合到一个集成的后端中,以此来满足各种不同的数据类型的需求。文档/JSON 数据库:文档数据库专为存储、检索和管理面向文档的信息而设计,它是一种以 JSON 格式(而不是采用行和列)存储数据的现代方法。自治驾驶数据库:基于云的自治驾驶数据库(也称作自治数据库)是一种全新的极具革新性的数据库,它利用机器学习技术自动执行数据库调优、保护、备份、更新,以及传统上由数据库管理员 (DBA) 执行的其他常规管理任务。 [25]向量数据库(Vector Database):向量数据库是专门用来存储和查询向量的数据库。这些向量通常来自于对文本、语音、图像、视频等的向量化。与传统数据库相比,向量数据库可以处理更多非结构化数据。在机器学习和深度学习中,数据通常以向量形式表示,因此向量数据库在这些领域中非常有用。2.核验接口(1)概念/定义核验接口是指通过网络或其他方式,将需要核验的信息传输到指定的接口,进行核验并返回核验结果的一种接口。在实名认证、身份验证、数据安全等方面,核验接口都有着广泛的应用。(2)常见的核验接口身份信息核验接口:用于核验身份证号码和姓名是否一致,可以包括身份证二要素核验(核验姓名、身份证号是否一致)和身份证四要素核验(核验姓名、身份证号、有效期始、有效期止是否一致)。个人实名认证接口:用于进行个人实名认证,验证个人身份信息的真实性和合法性。企业四要素核验接口:用于核验企业的组织机构代码、营业执照号码、纳税人识别号码等信息是否一致。银行卡信息核验接口:用于银行卡类型查询、银行卡真伪核验,校验银行卡四要素(姓名、手机号码、身份证号码和银行卡号)信息是否一致。3.查询接口(1)概念/定义查询接口是指通过网络或其他方式,将查询请求传输到指定的接口,进行查询并返回查询结果的一种接口。在数据库中,查询接口可以用于查询数据表中的数据。(2)常见的查询接口公共信息查询接口:天气查询、国内油价查询、交通违章代码查询和空气质量查询等数据查询接口。常识类信息查询接口:如星座查询、垃圾分类识别查询、节假日信息查询和邮编查询等数据查询接口。企业信息查询接口:包括企业简介信息查询、企业工商信息变更查询、企业LOGO、企业专利信息等数据查询接口。4.数据模型结果(1)概念/定义数据模型结果是指数据建模过程的输出结果,它是对数据对象及其之间关系的结构化表示。在数据产品中,数据模型结果可以包括表格、图表、图形等可视化形式,帮助用户理解数据及其关联关系。(2)常见的数据模型结果应用在金融业中,数据模型结果可以用于分析市场趋势和客户需求,从而实现精准营销和风险管理。在零售业中,数据模型结果可以用于分析商品销售情况、顾客行为和偏好,进行优化库存管理、改善定价策略并提供个性化推荐服务等应用。在电信行业中,数据模型结果可以用于分析网络流量分析从而提升网络质量和网络利用率、用于用户行为和偏好分析管理客户关系以及精准营销等应用。在医疗行业中,数据模型结果可以分析患者病历数据,实现疾病预测,以及发展个性化治疗,考虑个人的遗传变异因素,改善医疗保健效果,减少副作用,降低医疗成本。 国内大数据产业链分布结构播报编辑数据采集与处理(1)概念/定义数据采集与处理是大数据的关键技术之一,它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理,包括数据清洗、填补和规范化等流程,使无序的数据更加有序,便于处理,以达到快速分析处理的目的。(2)常见应用场景金融行业:大数据采集与处理在金融行业中的应用非常广泛。例如,银行可以通过采集和处理大量的交易数据来进行风险评估和欺诈检测。零售业:大数据采集与处理是零售商了解消费者的购买行为和偏好,从而进行精准的市场定位和个性化营销的重要支撑。通过采集和分析大量的销售数据和顾客反馈,零售商可以优化库存管理、供应链和销售策略。医疗行业:大数据采集与处理在健康医疗领域中有着重要的应用。医疗机构可以通过采集和分析患者的医疗记录、生物传感器数据和基因组数据来进行疾病预测、诊断和治疗。此外,大数据还可以用于监测公共卫生事件和流行病爆发。物联网:物联网设备产生的海量数据需要进行采集和处理。大数据采集与处理可以帮助物联网应用实现实时监测、远程控制和智能决策。例如,智能家居可以通过采集和分析家庭设备的数据来实现自动化控制和能源管理。社交媒体:社交媒体平台产生了大量的用户生成内容和社交数据。通过采集和处理这些数据,社交媒体平台可以提供个性化的推荐、广告定向和舆情分析等功能。城市管理:大数据采集与处理可以帮助城市管理者实现智慧城市的建设。通过采集和分析城市交通、环境、能源等方面的数据,城市管理者可以优化交通流量、改善环境质量和提高能源利用效率。数据存储与管理(1)概念/定义数据存储与管理是指将处理前或处理后的数据以特定格式记录在计算机内部或外部存储介质上,并对数据进行管理和调用的过程。此过程有助于减少数据孤岛现象,并确保数据的可靠性、安全性、可用性和可扩展性。(2)常见的应用场景金融行业:金融机构需要存储和管理大量的交易数据、客户数据和市场数据。数据存储和管理可以帮助金融机构进行风险管理、反欺诈分析、客户关系管理等。零售业:零售商需要存储和管理大量的销售数据、库存数据和顾客数据。数据存储和管理可以辅助零售商进行销售分析、库存管理、个性化营销等工作。健康医疗:医疗机构需要存储和管理患者的医疗记录、病历数据和医学影像数据。数据存储和管理可以帮助医疗机构进行疾病诊断、治疗计划制定、医学研究等。物联网:物联网设备产生的数据需要进行存储和管理。例如对采集的农田土壤、气象、水质等数据进行数据存储和管理,为实现智能农业的精准灌溉和农作物生长监测提供支持。社交媒体:社交媒体平台需要存储和管理用户生成的内容、社交关系数据和用户行为数据。数据存储和管理可以帮助社交媒体平台进行用户推荐、内容分发、广告定向等。城市管理:城市管理部门需要存储和管理城市交通数据、环境监测数据和公共服务数据。数据存储和管理可以帮助城市管理部门进行交通优化、环境保护、智慧城市建设等。电信行业:电信运营商需要存储和管理大量的通信数据、用户数据和网络数据。数据存储和管理可以帮助电信运营商进行网络优化、用户分析、故障排查等。数据挖掘/分析(1)概念/定义数据挖掘:数据挖掘是一种计算机辅助技术,用于分析以处理和探索大型数据集。借助数据挖掘工具和方法,组织可以发现其数据中隐藏的模式和关系。数据挖掘将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。 [19]数据分析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。因此,狭义上的数据分析与数据挖掘的本质一样,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策,所以侠义的数据分析与数据挖掘构成广义的数据分析。(2)常见应用场景金融行业:在金融服务中利用数据挖掘应用程序来解决复杂的欺诈、合规、风险管理和客户流失问题,同时,大数据分析可以帮助金融机构进行市场趋势分析、投资组合优化和个性化推荐。医疗行业:医疗机构可以利用大数据分析患者的病历数据、医学影像和基因组数据,以辅助疾病诊断、药物研发和个性化治疗。例如在疾病诊断上,通过对大量的医疗数据进行挖掘和分析,可以发现潜在的疾病模式和风险因素,实现疾病的早期预测。零售业:大数据挖掘和分析可以帮助零售商了解消费者的购买行为和偏好,从而进行精准的市场定位和个性化营销。通过分析大量的销售数据和顾客反馈,零售商可以优化库存管理、供应链和销售策略。物联网:物联网设备产生的海量数据需要进行数据挖掘和分析。大数据分析可以帮助物联网应用实现实时监测、远程控制和智能决策。例如,智能家居可以通过分析家庭设备的数据来实现自动化控制和能源管理。电信行业:例如通过对网络数据进行挖掘和分析,公司可以根据带宽使用模式并提供定制的服务升级或建议,通过对用户通话数据的挖掘分析,可以帮助电信运营商发现异常行为和欺诈行为。数据可视化/呈现(1)概念/定义数据可视化是使用图表、图形或地图等可视元素来表示数据的过程。该过程将难以理解和运用的数据转化为更易于处理的可视化表示。数据可视化工具可自动提高视觉交流过程的准确性并提供详细信息,以便决策者可以确定数据之间的关系并发现隐藏的模式或趋势。 [20](2)常见应用场景商业决策:通过数据可视化,企业可以更直观地了解业务数据和市场趋势,从而做出更准确的商业决策。例如,通过数据可视化展示销售数据和客户反馈,企业可以了解产品的销售情况和客户需求,从而优化产品设计和市场推广。智慧城市:通过数据可视化,城市管理部门可以更直观地了解城市的交通、环境、能源等方面的数据,从而实现智慧城市的建设。例如,通过数据可视化展示交通流量和路况,城市管理部门可以实现交通优化和拥堵缓解。医疗健康:通过数据可视化,医疗机构可以更直观地了解患者的病历数据和医学影像,从而实现疾病的诊断和治疗。例如,通过数据可视化展示医学影像和基因组数据,医生可以更准确地诊断疾病和制定治疗方案。金融服务:通过数据可视化,金融机构可以更直观地了解市场趋势和客户需求,从而实现精准营销和风险管理。例如,通过数据可视化展示市场数据和客户反馈,金融机构可以了解客户需求和市场趋势,从而制定个性化的产品和服务。物联网:通过数据可视化,物联网应用可以更直观地了解设备的运行状态和数据流量,从而实现实时监测和远程控制。例如,通过数据可视化展示设备的运行数据和传感器数据,物联网应用可以实现设备的远程控制和智能决策,如图。车间可视化数据治理/应用(解决方案)1.大数据在金融行业的应用交易欺诈识别:通过大数据分析,可以识别出交易欺诈行为,帮助金融机构减少损失,如中国交通银行信用卡中心电子渠道实时反欺诈监控交易系统。精准营销:通过分析客户的消费行为和偏好,可以实现精准营销,提高营销效果,如京东金融基于大数据的行为分析系统、恒丰银行基于大数据的客户关系管理系统。信贷风险评估:通过分析客户的信用记录、收入和支出等信息,可以评估客户的信贷风险,帮助金融机构做出更好的决策,如恒丰银行全面风险预警系统、人人贷风控体系。智能投顾:通过大数据分析客户的投资偏好和风险承受能力,可以为客户提供个性化的投资建议,如通联浙商大数据智选消费基金,通联支付通过对自有的消费类支付相关数据,可以实时了解行业(尤其是消费行业)销售需求的情况,按行业汇总各商户的刷卡支付情况,获得行业最新的景气边际变化,进而将资金更多的配置在景气向好的行业上,然后利用经典量化模型,精选相应行业内的上市公司,并基于此发行了一支名为“浙商大数据智选消费”的偏股混合型基金。 [21]2.大数据在医疗行业的应用分析电子病历:医生共享电子病历可以收集和分析数据,寻找能够降低医疗成本的方法。医生和医疗服务提供商之间共享患者数据,能够减少重复检查,改善患者体验,如百度智能医疗平台实现电子病历规范化和结构化。健康风险预测:通过分析大量的健康数据,可以预测人群的慢性病风险,帮助医疗机构和个人采取相应的预防和干预措施,提高健康管理的效果,如平安云的智能医疗解决方案具有智能健康风险预测功能。辅助诊断决策:通过学习海量教材、临床指南、药典及三甲医院优质病历,打造遵循循证医学的临床辅助决策系统,用以提升医疗质量,降低医疗风险。如百度智能医疗平台的临床辅助决策系统。互联网医院:互联网医院是指利用互联网技术,为患者提供在线咨询、预约挂号、远程诊疗等医疗服务。互联网医院可以通过大数据分析,为患者提供个性化的医疗建议和服务,如丁香医生。 3.大数据在零售行业的应用个性化推荐:通过分析顾客的购买历史、浏览行为和偏好,利用大数据技术进行个性化推荐,提高销售转化率和顾客满意度。库存管理:通过分析销售数据和供应链数据,预测产品需求和库存水平,帮助零售商优化库存管理,减少过剩和缺货情况。客户细分:通过分析顾客的购买行为和消费习惯,将顾客分为不同的细分群体,为每个群体提供个性化的营销策略和服务。价格优化:通过分析市场竞争和顾客需求,优化定价策略,实现最佳的价格和利润平衡。供应链优化:通过分析供应链数据,优化供应链流程和物流配送,提高供应链的效率和可靠性。数据安全与合规1.概念/定义根据《中华人民共和国数据安全法》,数据是指任何以电子或者其他方式对信息的记录。数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。各地区、各部门对本地区、本部门工作中收集和产生的数据及数据安全负责。 [22]2.数据全生命周期安全(1)数据采集安全:指为确保在组织系统中生成新数据,或者从外部收集数据过程的合法、合规及安全性,而采取的一系列措施。(2)数据传输安全:指为防止传输过程中的数据泄漏,而采取的一系列数据加密保护策略和安全防护措施。(3)存储安全:指为确保存储介质上的数据安全性,而采取的一系列措施,如在数据分类分级的基础上,结合业务场景,明确不同类别和级别数据的加密存储要求。(4)数据备份与恢复:指通过规范数据存储的冗余管理工作机制,保障数据的高可用性,如建立数据备份与恢复平台,按照备份清单定期执行备份,并对备份数据完整性和可用性进行验证。(5)使用安全:指为保障在组织内部对数据进行计算、分析、可视化等操作过程的安全性,而采取的一些列措施,如采取对不同类型不同级别的数据进行脱敏处理,对数据处理活动进行监控等操作。(6)数据处理环境安全:指为确保组织的数据处理系统、终端、平台等环境的安全性,而采取的一系列措施。(7)数据内部共享安全:指为确保组织内部之间的数据交互过程安全而采取的一系列措施。(8)数据外部共享安全:指为确保不同组织之间的数据交互过程安全而采取的一系列措施。(9)数据销毁安全:指通过对数据及其存储介质实施相应的操作手段,使得数据彻底消除且无法通过任何手段恢复。 [23]3.企业数据安全治理实践(1)中国联通集团数据安全治理实践该方案以防止数据泄漏与数据滥用为目标,以零信任安全为理念将自主研发的数据追踪溯源系统、数据安全网关系统等数据安全产品实际应用到具体的数据生产场景中,以解决数据安全问题,保障公司大数据业务的快速发展,保护用户个人隐私,维护社会稳定,保障国家安全。总体框架如图所示,目前,该方案已在浙江省大数据发展管理局、广东省政务服务数据管理局等多个政府部门落地实施,运行效果良好,降低了政务信息共享交换环节数据泄露、数据篡改、数据滥用等问题的风险。 [23]中国联通数据安全体系总体框架(2)蚂蚁集团数据安全治理实践蚂蚁集团在过去几年的数据安全实践中,持续加大对数据、算法、产品的建设力度,不断强化流程规范的制定和实际落地,同时大幅提升数据安全基线、度量、审计、心智等重要环节工作,总结出一套行之有效、覆盖数据处理全生命周期的数据安全复合治理管理模式。蚂蚁数据安全复合治理管理模式如图所示。 [23]蚂蚁数据安全复合治理管理模式(3)百度数据安全治理实践百度基于现有的数据安全策略及相关规范要求集成多维安全检测和防护能力,建立了覆盖数据全生命周期的数据安全与隐私保护解决方案,可实现“事前主动识别,事中灵活控制,事后全维追踪”的目标,百度数据安全治理实践路线如图所示,可为高价值数据、敏感数据和私有化部署数据等数据提供安全评估和保障。 [23]百度数据安全治理实践路线意义播报编辑现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。 [8]阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。 [9]有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。 [10]大数据的价值体现在以下几个方面:(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;(2)做小而美模式的中小微企业可以利用大数据做服务转型;(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:(1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。(2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。(3)分析所有SKU,以利润最大化为目标来定价和清理库存。(4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。(5)从大量客户中快速识别出金牌客户。(6)使用点击流分析和数据挖掘来规避欺诈行为。 [11]趋势播报编辑趋势一:数据的资源化何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。趋势二:与云计算的深度结合大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。趋势三:科学理论的突破随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。趋势四:数据科学和数据联盟的成立未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。趋势五:数据泄露泛滥未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。趋势六:数据管理成为核心竞争力数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。趋势七:数据质量是BI(商业智能)成功的关键采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。趋势八:数据生态系统复合化程度加强大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。 [12]IT分析工具播报编辑大数据概念应用到IT操作工具产生的数据中,大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了“所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作”的绝对记录。大数据分析的产生旨在于IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为,大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。大数据分析的想法,尤其在IT操作方面,大数据对于我们发明并没有什么作用,但是我们一直在其中。Gartner已经关注这个话题很多年了,基本上他们已经强调,如果IT正在引进新鲜灵感,他们将会扔掉大数据老式方法开发一个新的IT操作分析平台。 [13]促进发展播报编辑经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。《纲要》部署三方面主要任务。一要加快政府数据开放共享,推动资源整合,提升治理能力。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。 [14]2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。国家发展改革委有关专家表示,大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。 [15]2016年3月17日,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;具体包括:加快政府数据开放共享、促进大数据产业健康发展。 [16]新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000什么是大数据? - 知乎
什么是大数据? - 知乎切换模式写文章登录/注册什么是大数据?一杯白开水 这是一个变化的世界,我们谁都没想到我们今天可以聚在这里,可以继续畅想未来,我跟大家都认为电脑够快,互联网还要快,很多人还没搞清楚什么是PC互联网,移动互联来了,我们还没搞清楚移动互联的时候,大数据时代又来了 --马云辞职演讲大数据这个词想必大家都耳熟能详,可是大数据是什么?大数据有哪些特点?大数据的应用?我们先来看下一些搜索引擎对大数据的定义: 大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。 数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。 --维基百科 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性) --百度百科 大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。 在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。 大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。数据挖掘(data mining)则是在探讨用以解析大数据的方法。 --MBA智库百科大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization. --研究机构Gartner大数据到底是什么,如果简单来理解大数据就是 4V 的特征: Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),即 数据体量巨大、数据类型繁多、价值密度低、处理速度快。 但是这样理解会显得太浅显,要想更加全面了解大数据概念可以查看 资料《大数据时代》。 了解一个东西,我们要了解它是因何而生,大数据的发展 早在1980年,著名未来学家阿尔文・托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。2012年,大数据概念炙手可热,2013年,大数据走向实践,有的专家称之为“大数据元年”。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年将翻一番,而目前世界上90%以上的数据是最近几年才产生的。 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。 大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万…… 仅根据2013年的统计,互联网搜索巨头百度已拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。大数据特点大数据的4V的特征:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值);第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求,例如在传统的关系型数据库中,所存储的数据都是结构化的,例如:但是在现实生活中,信息往往并没有严格的结构限制。比如一个电商网站需要记录如下用户行为: 用户小申, 于某某时间在商品搜索栏搜索了“PS4”一词,然后进入 XXX 商铺进行浏览,经过与店家沟通,讨价还价,最终以2000元的价格购买了PS4 “炫酷黑”PS4一部。 诸如此类的用户行为数据属于非结构化数据,很难用关系型数据库存储。因此诸多No-SQL数据库(例如 MongoDB)成为了存储大数据的更好选择。第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。第四个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。大数据带来的变革当数据的处理技术发生翻天覆地的变化时,大数据时代,我们的思维也要变革。第一个思维变革:利用所有的数据,而不再仅仅依靠部分数据,即不是随机样本,而是全体数据。第二个思维变革:我们唯有接受不精确性,才有机会打开一扇新的世界之窗,即不是精确性,而是混杂性。 第三个思维变革:不是所有的事情都必须知道现象背后的原因,而是要让数据自己“发声”,即不是因果关系,而是相关关系。大数据的应用洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。 [9] 医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。讲个经典小故事 20世纪90年代,美国沃尔玛超市管理人员分析销售数据时,发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中,且大多出现在年轻的父亲身上。 分析背后原因是,在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲去超市买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。 由此,沃尔玛就在卖场尝试将啤酒与尿布摆放在相同区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而极大提升商品销售收入。 再举个例子, 关于姿势 你们现在坐着的姿势 你坐着的姿势 你坐着的姿势 你坐着的姿势 这些都不一样 这是一个关于腿长 你的背部和背部轮廓的函数 如果我现在放一些传感器 或许100个 在你的椅子里 我可以算出你的独一无二的参数 就像你的指纹 但不是针对你的手指 那我们能用它来干什么呢? 东京的研究者把它 运用在一个汽车防盗设施的雏形上,它的设想是盗贼坐在驾驶座上 企图把车开走 但是汽车识别出 驾驶座上的是个未授权驾驶人 那汽车可能就会熄火 除非你在仪表盘上输入密码 来表明“我已获得授权” 。 如果欧洲的每辆汽车 都装备了这项技术会是怎样的情形? 我们还能做些什么呢? 或许如果我们整合数据 我们可以识别示警信号 对于在下一个五秒钟内 可能发生的意外做出最佳预判 我们也可以进行数据化的是 司机的疲劳度 当汽车侦测到司机的坐姿 倒成某一特定姿势时 这个设备感知到并发出车内警告 可能是震动方向盘或语音提示 “嗨,醒醒 集中精神在路况上” 这就是生活的更多方面数据化后 我们能做的事情。大数据在机器学习的应用,深蓝战胜何洁。 机器学习是许多 网上在线应用的基础 搜索引擎 亚马逊的个性化算法 电脑智能翻译 语音识别系统 研究者最近在研究 关于活组织检查的问题 关于肿瘤活组织检查 他们让电脑 通过 (历史) 数据和存活率 来判断这些细胞 是否是癌症细胞 果不其然 当你把数据交给电脑 电脑通过自主学习 可以寻找出 12个最佳的鉴别特征用来预测 乳腺癌细胞的活检切片 确实是癌症细胞 问题是医学文献 只知道其中的九个鉴别特征 其他三个 人们不会去寻找 但是电脑把它们找了出来 。我们会给机器一堆数据,让它们去发现规律而不是我们去告诉它怎么做。 好像说的有点不太平易近人,支付宝的年底的集五福,大家想必都玩过,我们为什么扫一扫手机就能知道是个福字?原因显而易见。大数据带来的挑战在科技的快速发展推动下,在 IT 领域,企业会面临两个方面的问题。一是如何实现网站的高可用、易伸缩、可扩展、高安全等目标。为了解决这样一系列问题,迫使网站的架构在不断发展。从单一架构迈向高可用架构,这过程中不得不提的就是分布式。二是用户规模越来越大,由此产生的数据也在以指数倍增长,俗称数据大爆炸。海量数据处理的场景也越来越多。大数据黑暗一面 大数据也有黑暗的一面 ,它可以改善我们的生活但也会带来一些我们需要注意的问题。首先就是, 我们可能因为预测的结果而受到惩罚 。警察可能会用大数据来实现目标 ,有点像“少数派报告” 现在有个词叫做预见性监管或者叫算法犯罪学 这个想法是如果我们掌握了大量数据。比如以往犯罪发生的地点,我们可以就知道把警力派到哪里,这很合理 但问题是 数据分析不会仅限于地点数据 。它会进一步深入到个人层面 ,为什么我们不去分析 ,某人的中学成绩单 或者我们可以了解他们的就职情况、信用记录 、他们的上网行为 、他们是否熬夜、 当可以通过健康腕带读取生化数据时。 就可以知道他们是否有激进的想法,我们可以用算法来预测我们将要做什么, 可能有些事情还没做, 我们就要承担责任 ,个人隐私在小数据时代是主要挑战 。在大数据时代 这个挑战将会成为保卫自由意愿 道德选择 、人类意志 人类的能动性 。 还有另一个问题 :大数据会偷走我们的工作, 在21世纪大数据和算法会威胁到白领和需要专业知识的工作 。就像在20世纪工厂自动化和装配生产线的应用,威胁到了蓝领们的工作岗位 。想象一下一个研究室技术员 ,他的工作就是通过一个显微镜,观察一个癌症活检组织 ,来判定它是不是癌症的 。这个人上大学、 买房子、 他/她投票选举 ,他/她是这个社会的一份子。 然后这个人的工作还有其他像他一样的专业人员, 将会发现他们的工作被彻底改变了或者彻底废除了。 我们一直以为在短时或者暂时的就业调整期后, 一段时间内科技会创造就业机会, 这对于我们所处的参考工业革命来说就是这样。因为在工业革命时期事情就是这样的,但是我们忘记了一件事情,有些类型的职业已经彻底消失了并且再也不会回来 。如果你是一匹马,工业革命不是一件好事,所以我们必须非常小心,根据我们的需求和整个人类的需求来利用和适应大数据。我们必须是技术的主人而不是技术的仆人。我们正在步入大数据时代,老实说, 我们并不能很好地处理所有我们现在能够收集到的数据,这不仅仅是国家安全局的问题,许多企业也搜集并不恰当地使用数据,我们需要时间来纠正这个问题。这有点像原始人类面对火时所面临的挑战, 火是一种工具 但是如果使用不当就会引火烧身。 大数据即将改变我们的生活方式,我们的工作方式和思考方式它可以帮助我们管理事业。帮助我们过想要的满足、充满希望、幸福和健康的生活 但是在过去, 对于信息技术(IT) 我们经常只看到了T 就是技术、硬件。因为这是切实可见的东西 现在我们需要把目光放在 I 上 信息。它不是那么切实可见但某种程度上却更加重要。在人类永无止境的探索过程中,我们可以从我们能收集的信息中来了解这个世界 以及人类在这个世界中所处的地位。 互联网的世界,逐步从IT阶段步入DT阶段,如何处理个人隐私是个很严重的问题,李彦宏在中国高层发展论坛上针对用户数据隐私的问题表示,“我想中国人可以更加开放,对隐私问题没有那么敏感,如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的。”虽然对这个看法嗤之以鼻,但是我们的隐私数据确实是在四处泄露。数据时代已经来临,既然抗拒不了它,那便勇敢去接受它,去拥抱它。《大数据时代》链接:https://pan.baidu.com/s/1NpWKTCX3pXyhh-v8fwdNlg 提取码:i74d 发布于 2019-08-20 11:25大数据大数据分析赞同 1143 条评论分享喜欢收藏申请
什么是大数据?它存在的意义和用途是什么? - 知乎
什么是大数据?它存在的意义和用途是什么? - 知乎切换模式写文章登录/注册什么是大数据?它存在的意义和用途是什么?数据控世界属于那些勤于思考的人,更属于那些善于行动的人。大数据这个词现在我们经常会听到,但是具体大数据是什么?为什么要有大数据?以及大数据它用途是什么?估计大部分人都不是很清楚。想了解大数据,那就得先从它的起源开始说起。大数据概述(大数据是什么意思?)专业解释:大数据英文名叫big data,是一种IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。通俗解释:大数据通俗的解释就是海量的数据,顾名思义,大就是多、广的意思,而数据就是信息、技术以及数据资料,合起来就是多而广的信息、技术、以及数据资料。大数据提出时间“大数据”这个词是由维克托·迈尔-舍恩伯格及肯尼斯·库克耶于2008年8月中旬共同提出。大数据的特点Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)-由IBM提出。大数据存在的意义和用途是什么看似大数据是一个很高大上的感觉,和我们普通人的生活相差甚远,但是其实不然!大数据目前已经存在我们生活中的各种角落里了,举个例子,我们现在目前最关心的疫情情况数据,用的就是大数据的技术,可以实时查看确诊人数以及各种疫情数据。大数据存在的意义是什么?从刚才的举例中我们基本可以了解,大数据是很重要的,其存在的意义简单来说也是为了帮助人们更直观更方便的去了解数据。而通过了解这些数据后又可以更深一步的去挖掘其他有价值的数据,例如今日头条/抖音等产品,通过对用户进行整理和分析,然后根据用户的各种数据来判断用户的喜爱,进而推荐用户喜欢看的东西,这样做不仅提升了自身产品的体验度,也为用户提供了他们需要的内容。大数据的用途有哪些?要说大数据的用途,那可就相当广泛了,基本各行各业都可以运用到大数据的知识。如果简单理解的话,可分为以下四类:用途一:业务流程优化大数据更多的是协助业务流程效率的提升。能够根据并运用社交网络数据信息 、网站搜索及其天气预告找出有使用价值的数据信息,这其中大数据的运用普遍的便是供应链管理及其派送线路的提升。在这两个层面,自然地理精准定位和无线通信频率的鉴别跟踪货物和送大货车,运用交通实时路况线路数据信息来选择更好的线路。人力资源管理业务流程也根据大数据的剖析来开展改善,这这其中就包含了职位招聘的调整。用途二:提高医疗和研发大型数据分析应用程序的计算能力允许我们在几分钟内解码整个dna。可以创造新的治疗方法。它还能更好地掌握和预测疾病。如同大家配戴智能手表和别的能够转化成的数据信息一样,互联网大数据还可以协助病人尽快医治疾患。现在大数据技术已经被用于医院监测早产儿和生病婴儿的状况。通过记录和分析婴儿的心跳,医生预测可能的不适症状。这有助于医生更好地帮助宝宝。用途三:改善我们的城市大数据也被用于改进我们在城市的生活起居。比如,依据城市的交通实时路况信息,运用社交媒体季节变化数据信息,增加新的交通线路。现阶段,很多城市已经开展数据分析和示范点新项目。用途四:理解客户、满足客户服务需求互联网大数据的运用在这个行业早已广为人知。重点是如何使用大数据来更好地掌握客户及其兴趣和行为。企业非常喜欢收集社交数据、浏览器日志、分析文本和传感器数据,以更全面地掌握客户。一般来说,建立数据模型是为了预测。如何利用大数据?那我们了解了这么多关于大数据的知识,既然大数据这么好,我们怎么去利用大数据呢?那这个就要说到大数据的工具BI了,BI简单理解就是用来分析大数据的工具,从数据的采集到数据的分析以及挖掘等都需要用到BI,BI兴起于国外,比较知名的BI工具有Tableau、Power BI等;而国内比较典型的厂家就是亿信华辰了。虽然BI兴起于国外,但是这些年随着国内科技的进步以及不断的创新,目前国内BI在技术上也不比国外的差,而且因为国内外的差异化,在BI的使用逻辑上,国内BI更符合国内用户的需求。发布于 2020-10-20 11:42大数据时代大数据运维大数据赞同 49添加评论分享喜欢收藏申请
普及一下什么是大数据技术? - 知乎
普及一下什么是大数据技术? - 知乎首页知乎知学堂发现等你来答切换模式登录/注册大数据大数据运维大数据时代普及一下什么是大数据技术?关注者398被浏览896,581关注问题写回答邀请回答好问题 361 条评论分享139 个回答默认排序溪亭日暮人工智能话题下的优秀答主 关注“大数据 ”这个概念火了很久,但又很不容易说得清楚(不然呢?怎么会是个位数的回答),这时候买本书来看看可能会更香。先说结论——大数据技术,其实就是一套完整的“数据+业务+需求”的解决方案。它其实是一个很宽泛的概念,涉及五个领域:1. 业务分析;2.数据分析;3.数据挖掘;4.机器学习;5.人工智能。从1到5,越来越需要技术背景;从5到1,越来越贴近具体业务。其实,除了像搜索引擎这样依靠数据技术而诞生的产品外,大部分互联网产品在生存期,即一个产品从0到1的阶段,并不是特别需要大数据技术的。而在产品的发展期,也就是从“1”到“无穷”的阶段,“大数据技术”对产品的作用才会逐渐体现。主要原因是初期产品的功能和服务较少,也没有“积累的用户数据”用于模型研发。所以,我们常听说“构建大数据的壁垒”,这里面,“数据技术”是小壁垒,“大数据”本身才是大壁垒。这里就从“大数据”开始说起。什么是大数据?“大数据 ”从字面上看,就是很“大”的“数据”。先别急着打我。有多大呢?早N多年前,百度首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。5千亿张,是不是很暴力了。再来两个不暴力的:“广西人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。”这组有趣的数据,是今日头条根据用户阅读大数据得出的结论。而比这个更精准的数据,是三年前美国明尼苏达州的一则八卦新闻:一位气势汹汹的老爸冲进Target的一家连锁超市,质问超市为什么把婴儿用品的广告发给他正在念高中的女儿。但非常打脸的是,这位父亲跟他女儿沟通后发现女儿真的怀孕了。在大数据的世界里,事情的原理很简单——这位姑娘搜寻商品的关键词,以及她在社交网站所显露的行为轨迹,使超市的营销系统捕捉到了她怀孕的信息。你看,单个的数据并没有价值,但越来越多的数据累加,量变会产生质的飞跃。脑补一下上面这个事件中的“女儿”,她在网络营销系统中的用户画像标准可能包括:用户ID、性别 、性格描述、资产状况、信用状况、喜欢的颜色、钟爱的品牌、大姨妈的日期、上周购物清单等等,有了这些信息,系统就可以针对这个用户,进行精准的广告营销和个性化购物推荐。当然,除了获得大数据的个性化推荐,一不留神也容易被大数据割一波韭菜。亚马逊在一次新碟上市时,根据潜在客户的人口信息、购物历史、上网记录等,给同一张碟片报出了不同的价格。这场“杀熟事件”的结局就是:亚马逊的 CEO 贝索斯不得不亲自出来道歉,解释只是在进行价格测试。大数据 ,说白了,就是巨量数据集合。大数据来源于海量用户的一次次的行为数据,是一个数据集合;但大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。在电影《美国队长2》里,系统能把一个人从出生开始的所有行为特征,如消费行为,生活行为等,作为标签存入数据库中,最后推测出未来这个人是否会对组织产生威胁,然后使用定位系统,把这些预测到有威胁的人杀死。而在《点球成金》里,球队用数据建模的方式,挖掘潜在的明星队员(但其实这个案例并非典型的大数据案例,因为用到的是早已存在的数据思维和方法)。麦肯锡全球研究所曾给出过大数据一个相当规矩的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。上面这四个特征,也就是人们常说的大数据的4V特征(volume,variety,value,velocity),即大量,多样性,价值,及时性。具体来说就是:1. 数据体量巨大(这是大数据最明显的特征),有人认为,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);这里按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(进率2^10)。不过,数据的体量有时可能并没那么重要。比如13亿人口的名字,只占硬盘几百M空间的数据,但已经是这个领域里非常大的数据。2. 数据类型繁多(也就是多维度的表现形式)。比如,网络日志、视频、图片、地理位置信息等等。3. 价值密度低,商业价值高。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。因此,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值(所谓“浪里淘金”吧),是最需要解决的问题。 4. 处理速度快且及时。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。事实上,关于这个“4V”,业界还是有不少争议的。比如阿里技术委员会的王坚博士,就直接把4V“扔”进了垃圾堆。王坚在《在线》这本书里说过:“我分享时说‘大数据’这个名字叫错了,它没有反映出数据最本质的东西。”他认为,今天数据的意义并不在于有多“大”,真正有意思的是数据变得“在线”了,这恰恰是互联网的特点。所有东西都能“在线”这件事(数据随时能调用和计算),远比“大”更能反映本质。什么是大数据技术?对于一个从事大数据行业人来说,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、数据分析与挖掘、数据展现等,我们可以发现很多有用的或有意思的规律和结论。比如,北京公交一卡通每天产生4千万条刷卡记录,分析这些刷卡记录,可以清晰了解北京市民的出行规律,来有效改善城市交通。但这4千万条刷卡数据 ,不是想用就能用的,需要通过“存储”“计算”“智能”来对数据进行加工和支撑,从而实现数据的增值。而在这其中,最关键的问题不在于数据技术本身,而在于是否实现两个标准:第一,这4千万条记录,是否足够多,足够有价值;第二,是否找到适合的数据技术的业务应用。下面就来简单说说上述提到的一些和“大数据“”形影不离的“小伙伴们”——云计算由于大数据的采集、存储和计算的量都非常大,所以大数据需要特殊的技术,以有效地处理大量的数据。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。可以说,大数据相当于海量数据的“数据库”,云计算相当于计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用。整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力, “动一下鼠标就可以在秒级操作PB级别的数据”。Hadoop/HDFS /Mapreduce/Spark除了云计算,分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光。Hadoop是Apache软件基金会旗下的一个分布式计算平台,为用户提供了系统底层细节透明的开源分部式基础架构。它是一款用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,现在Hadoop被公认为行业大数据标准开源软件。而HDFS为海量的数据提供了存储;Mapreduce则为海量的数据提供了并行计算,从而大大提高计算效率。它是一种编程模型,用于大规模数据集(大于1TB)的并行运算,能允许开发者在不具备开发经验的前提下也能够开发出分布式的并行程序,并让其运行在数百台机器上,在短时间完成海量数据的计算。在使用了一段时间的 MapReduce 以后,程序员发现 MapReduce 的程序写起来太麻烦,希望能够封装出一种更简单的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。同时Spark/storm/impala等各种各样的技术也相继进入数据科学的视野。比如Spark是Apache Software Foundation中最活跃的项目,是一个开源集群计算框架,也是一个非常看重速度的大数据处理平台。打个比方,如果我们把上面提到的4千万条记录比喻成“米”,那么,我们可以用“HDFS”储存更多的米,更丰富的食材;如果我们有了“Spark”这些组件(包括深度学习框架Tensorflow),就相当于有了“锅碗瓢盆”,基本上就能做出一顿可口的饭菜了。图源:CSDN其实,大数据火起来的时候,很多做统计出身的人心里曾经是有一万个草泥马的——因为大数据实在太火,以至于很多公司在招人的时候,关注的是这个人对计算工具的使用,而忽略了人对数据价值和行业的理解。但目前统计学专业人士确实面临的一个现实问题是:随着客户企业的数据量逐渐庞大,不用编程的方式很难做数据分析。所以,越来越多的统计学家也拿自己开涮:“统计学要被计算机学替代了,因为现在几乎没有非大数据量的统计应用”。总之,掌握编程的基础,大量的项目实践,是从事大数据技术领域的必要条件。以下是大数据技术的知识体系的一个梳理,需要的朋友,可以存一下:图源:CSDN发布于 2020-07-16 18:19赞同 85315 条评论分享收藏喜欢收起盐选推荐知乎 官方账号 关注在当今这个时代,人们对「大数据」这个词并不陌生。大数据技术指的是超过传统数据库系统处理能力的数据。随着互联网上的各种大数据的产生,数据分析就显得尤为重要。
今天,我们来聊聊大数据。
提起数据,大家可能会觉得比较无聊,看到一大堆数据头都大了。
但数据其实没有那么难理解,从中还可以得出很多有趣的小结论。比如,马云就曾经分享过这么一个结论:在中国,浙江女性的胸最小。这个结论是怎么得出的呢?就是通过阿里巴巴的大数据,发现淘宝销售的胸罩中,卖到浙江去的胸罩平均尺寸最小。有很多用其他方法难以得到的信息,通过分析数据,就变得一目了然。
当然,大数据对于我们的意义,可不仅仅是得到一些信息而已,真正理解了大数据,还可以改变我们的思维方式。
不知道大家小的时候听没听过这样一首儿歌,儿歌里说:「因为所以,科学道理」。这其实是在说,我们习惯性的思维方式是 「因为什么,所以什么」,是用因果性的方式思维,而这种思维,正是大数据思维所不一样的,大数据不是关注因果关系,而是关注相关性,也就是说人与人之间、人与事物、事物与事物之间的相互关系。
我举一个例子哈:
十年前的一个夏天,科学家们在研究游泳溺水事故时,发现了一个有趣的现象:数据表明呢,随着冰淇淋销量的增长,淹死的人数直线上升,两者的变化几乎完全一致。这是为什么呢?大家可以思考一下。
难道是吃冰淇淋会导致人们淹死?
——当然不是了,吃冰淇淋并不是溺水的原因。真正的原因是什么呢?是天热了,吃冰淇淋的人多了,游泳的人也多了,淹死的人自然就多了。
在冰淇淋销量和溺水人数之间没有因果关系,只有相关性。
通过这两个故事啊,大家是不是对数字开始有点感冒了呢?下面啊,我就和大家分享一下,用大数据思维可以教给我们的四个要点:
第一点:传统的因果思维是有问题的。
传统的思维,常常习惯在相关的两件事之间建立因果关系,我们总是喜欢想:因为什么,所以什么。
但这个世界很复杂,而且变得越来越复杂,干扰的因素很多,很多时候我们并不能准确地找到原因。而如果强行找原因,往往会适得其反。
就像我们刚刚举的那个例子,如果按照因果关系的思维,莽撞地限制冰淇淋的销售,那么非但不会降低溺水人数,由于减少了人们避暑的方式,淹死的人反而会变多。
初衷是好的,但盲目建立因果关系是很危险的。
第二点:注重相关性,才是更有效率的思维方式。
沃尔玛是全世界最大的连锁超市,它的数据分析师发现,当把啤酒和婴儿纸尿裤摆放在一起时,会大幅提高两者的销量。
为什么会这样呢?是因为带孩子的爸爸变多了吗?还是因为人们在买啤酒的时候有点愧疚,希望展现一下自己有责任心的一面?没人知道。
但是啊这一点也不重要了。沃尔玛发现了这一相关后,迅速调整货架布局,把这两种货物摆在一起,既提高了销量,又便利了顾客。
很多顾客赞叹:「沃尔玛居然知道我心里在想什么」——其实沃尔玛不知道。但这没关系了。
从始至终,沃尔玛也没有去研究这一现象的原因。但这丝毫也没有妨碍沃尔玛做出正确的决策,而且反应更快了。
注重相关性而非因果,并不会使你损失什么。
第三点:相关需要全样本。
首先,我解释一下样本是什么。样本是我们做观察和调研的时候抽取的一部分数据,它对于做决策具有很重要的作用。在大数据当中,正是样本规模的改变,导致了决策思维的改变。
相关性,是大数据最核心的特征。
但是你有没有考虑过,既然相关性这么好,为什么人们还是长期保留着因果性的传统思维呢?
按照进化的逻辑,像因果性这么低效的思维方式,怎么还没有被淘汰掉呢?
这就是大数据的关键。
因为相关性不追究事物之间的逻辑关系,所以要想得到可靠的结论,所需的数据量要比因果性更大,样本要更全面。
在以前,技术的局限让我们不可能获得足够的数据来支持我们的判断。所以我们不得不采取一种取巧的方式,去探究和论证因果。
但现在,随着互联网和计算机技术的发展,大数据和全样本变得可能了,我们没有理由不去利用这种便利。
人与猴子的区别在于我们会使用工具,而新思维的人和旧思维的人区别在于:我们会使用更新、更高级的工具。
这就引出了大数据的第二个特征:全样本。© 本内容版权为知乎及版权方所有,侵权必究编辑于 2024-03-11 15:51赞同 5612 条评论分享收藏喜欢
什么是大数据?| Oracle 中国
什么是大数据?| Oracle 中国
单击查看我们的辅助功能政策
跳到内容
关于
服务
解决方案
定价
合作伙伴
资源
关闭搜索
搜索 Oracle.com
快速链接
Oracle Cloud Infrastructure
Oracle Fusion Cloud Applications
Oracle Database
下载 Java
Oracle 职业机会
搜索
Country
菜单
菜单
联系我们
登录 Oracle Cloud
甲骨文中国
大数据
Oracle Cloud Free Tier
免费使用自然语言处理技术来构建、测试和部署应用。
立即注册
大数据主题
大数据的定义
大数据的 3V 特性
大数据的价值和真实性
大数据的历史
大数据使用场景
大数据的挑战
大数据的工作原理
大数据优秀实践
大数据介绍
大数据的定义
大数据到底是什么?
大数据指高速 (Velocity) 涌现的大量 (Volume) 多样化 (Variety) 数据,其特性可简单概括为 3V。
简而言之,大数据指非常庞大、复杂的数据集,特别是来自新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。
下载电子书:大数据的发展以及数据湖仓一体的未来 (PDF)
大数据的 3V 特性
大量 (Volume)
大数据的“大”首先体现在数据量上。这意味着您需要处理海量、低密度的非结构化数据。这些数据的价值可能是未知的,例如 Twitter 数据流、网页或移动应用点击流,以及设备传感器所捕获的数据等等。在实际应用中,大数据的数据量通常高达数十 TB,甚至数百 PB。
高速 (Velocity)
大数据的“高速”指高速接收乃至处理数据 — 数据通常直接流入内存而非写入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备“高速”特性才能满足这些要求。
多样化 (Variety)
多样化是指数据类型众多。通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。
大数据的价值和真实性
在过去几年,大数据又新增了两个 V 特性:价值 (value) 和真实性 (veracity)。首先,数据固然蕴含着价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。其次,数据的真实性和可靠性也同样重要。
如今,大数据已成为一种资本,全球各个大型技术公司无不基于大数据工作原理,在各种大数据用例中通过持续分析数据提高运营效率,促进新产品研发,他们所创造的大部分价值无不来自于他们掌握的数据。
目前,众多前沿技术突破令数据存储和计算成本呈指数级下降。相比过去,企业能够以更低的经济投入更轻松地存储更多数据,而凭借经济、易于访问的海量大数据,您可以轻松做出更准确、更精准的业务决策。
然而,从大数据工作原理角度来讲,大数据价值挖掘是一个完整的探索过程而不仅仅是数据分析,它需要富有洞察力的分析师、业务用户和管理人员在大数据用例中有针对性地提出有效问题、识别数据模式、提出合理假设并准确开展行为预测。
那么怎样才能实现这个目标?
大数据的历史
虽然大数据这个概念是最近才提出的,但大型数据集的起源却可追溯至 1960 - 70 年代。当时数据世界正处于萌芽阶段,全球第一批数据中心和首个关系数据库便是在那个时代出现的。
2005 年左右,人们开始意识到用户在使用 Facebook、YouTube 以及其他在线服务时生成了海量数据。同一年,专为存储和分析大型数据集而开发的开源框架 Hadoop 问世,NoSQL 也在同一时期开始慢慢普及开来。
Hadoop 及后来 Spark 等开源框架的问世对于大数据的发展具有重要意义,正是它们降低了数据存储成本,让大数据更易于使用。在随后几年里,大数据数量进一步呈爆炸式增长。时至今日,全世界的“用户”— 不仅有人,还有机器 — 仍在持续生成海量数据。
如今,随着物联网 (IoT) 的兴起,越来越多的设备接入了互联网,收集了大量的客户使用模式和产品性能数据。同时,机器学习的出现也进一步加速了数据规模的增长。
然而,尽管已经出现了很长一段时间,人们对大数据的利用才刚刚开始。今天,云计算进一步释放了大数据的潜力,通过提供真正的弹性 / 可扩展性,它让开发人员能够轻松启动 Ad Hoc 集群来测试数据子集。此外,图形数据库在大数据领域也变得越来越重要,它们能够以独特的形式展示大量数据,帮助用户更快速执行更全面的分析。
下载图形数据库使用场景电子书
大数据的优势:
大数据意味着更多信息,可为您提供更全面的洞察。
更全面的洞察意味着更高的可靠性,有助于您开发全新解决方案。
大数据使用场景
从客户体验到智能分析,大数据可帮助您轻松处理各种业务活动。以下是企业运营中的常见大数据使用场景,
产品开发
Netflix 和 Procter & Gamble 等公司利用大数据来预测客户需求。他们对过去和当前产品或服务的关键属性进行分类,并对那些属性和成功商业产品之间的关系进行建模,从而为新产品和服务构建预测模型。此外,P&G 还根据来自焦点小组、社交媒体、试销市场和前期铺货的数据和分析结果来规划、生产和发布新产品。
预测性维护
各种结构化数据(例如设备年份、品牌、型号等信息)以及非结构化数据(包括数以百万计的日志条目、传感器数据、错误消息和引擎温度)中往往深藏着可供预测机械故障的信息,通过分析这些数据,企业可以在事故发生前识别潜在问题,从而更加经济高效地安排维护活动,充分延长零部件和设备的正常运行时间。
客户体验
当今市场竞争的核心在于赢得客户。相比过去,企业现在更有条件清楚地了解客户体验。对此,大数据让您能够通过社交媒体、网站访问、呼叫记录以及其他来源收集数据,进而改善客户互动,为客户提供个性化产品,降低客户流失率,主动解决问题,最终以出色体验创造更多价值。
欺诈和合规性
在今天,您的系统面临的威胁远不止几个心怀不轨的黑客,还有人员配置完善的专家团队。同时,安全形势与合规要求也在不断变化,带来了重重挑战。借助大数据,您可以通过识别数据模式发现欺诈迹象,汇总海量信息,加速生成监管报告。
机器学习
机器学习是当今的一个热门话题,而数据(特别是大数据)正是这一现象背后的一大重要推动因素。通过利用大数据训练机器学习模型,我们能够“训练”机器使之具备特定能力而无需为其编写程序。正是可供训练机器学习模型的大数据促成了这一转变。
提高运营效率
运营效率领域很少会爆出重磅消息,但大数据在该领域的影响却最为深远。借助大数据,您可以深入分析和评估生产、客户反馈、退货率以及更多其他问题,从而减少缺货现象,预测未来需求,还可以利用大数据根据当前市场需求改善决策。
推动创新
大数据有助于您研究人、组织、实体以及流程之间的相互关系,进而基于深度洞察,以全新方式推动创新。在大数据的帮助下,您可以有效改善财务和企业计划决策,验证趋势和客户需求,更好地为客户提供新产品和新服务,还可以实施动态定价,从而充分实现收益。简而言之,大数据将打开创新世界的大门,为您带来无穷的可能性。
下载大数据使用场景电子书
大数据的挑战
大数据蕴含着无穷潜力,同时也带来了诸多挑战。
首先,大数据体量庞大。虽然人们为数据存储开发了许多新技术,但数据量却在以每两年翻一番的速度增长。目前,各企业都在努力应对数据的快速增长,不断寻找更高效的数据存储方式。
其次,仅存储数据是不够的。数据的价值在于运用,而这又取决于数据管理。目前,我们需要做很多工作才能获得清洁数据,也就是与客户密切相关并以有利于分析的方式整理的数据,例如数据科学家在真正开始使用数据之前,通常要耗费 50% 到 80% 的时间来管理和准备数据。
最后,大数据技术的更新速度非常快。几年前,Apache Hadoop 是广为流行的大数据处理技术。2014 年,Apache Spark 问世。如今,只有结合这两种框架才能打造出理想解决方案。总而言之,紧跟大数据技术的发展脚步是一项持久性挑战。
更多大数据资源:
了解有关 Oracle 大数据的更多信息
大数据的工作原理
大数据可为您提供全新的洞察,带来新的商机和业务模式。那么大数据的工作原理是什么呢?
1. 大数据首先需要将来自不同来源和应用的数据汇集在一起,然而传统的数据集成机制,例如提取、转换和加载 (ETL),通常无法胜任这一工作。换言之,我们需要新的策略和技术来分析 TB 甚至 PB 级的大数据集。
在集成时,您需要导入和处理数据、执行格式化操作,以符合业务分析师要求的形式整理数据。
2. 管理大数据对存储要求较高。存储解决方案可以部署在本地,也可以部署在云端。其次,您可以采用任何形式存储数据,根据需要为数据集设置处理要求,引入必要的处理引擎。目前,许多客户都不得不根据数据当前所在位置来选择存储方案。对此,云解决方案不仅能够满足客户当前的计算需求,同时还支持用户按需、快速地访问所有数据,越来越受到人们的青睐。
3. 只有真正分析数据并基于数据数据洞察采取有效行动,您的大数据投资才会取得回报。您可以:对各种数据集进行可视化分析以获得全新理解;进一步探索数据以获得全新洞察;与他人分享您的洞察;结合机器学习和人工智能构建数据模型;立即行动起来,释放您的数据价值!
大数据优秀实践
为帮助您成功开启大数据之旅,我们基于大数据工作原理,从各种大数据用例中总结了一些重要的优秀实践。这些原则有助于奠定成功的大数据基础。
协调大数据与特定业务目标
更全面的数据集有助于您获得全新洞察。为此,您首先需要进行新的技能、组织和基础设施投资,在一种业务驱动的环境中保证项目持续获得投入和资金。其次,为确保正确实施,请评估您的大数据能否真正支持并促进您的关键业务和 IT 工作,这些任务可能包括:了解如何筛选网络日志以揭示电子商务行为,通过社交媒体和客户支持互动推断客户舆情,以及了解统计相关法及其与客户、产品、制造和工程数据的相关性。
通过标准化和有效治理缓解技能短缺
企业实施大数据的一大重要障碍是技能不足。首先,通过在 IT 治理计划中添加大数据技术、大数据考量和决策,您可以缓解这一风险。其次,标准化有助于更好地管理成本和充分利用资源。第三,为顺利实施大数据战略和解决方案,请及早并定期评估大数据技能需求,主动识别潜在技能缺失。第四,您需要培训 / 交叉培训现有人员、招聘新人员,并在必要时寻求咨询公司的支持。
通过卓越中心优化知识转移
通过设立卓越中心来分享知识、控制监管、管理项目沟通,无论大数据项目是全新投资还是扩展性投资,您都可以在整个企业范围内分摊所有软件和硬件成本,以一种更加结构化和系统化的方法扩展大数据功能,提高整体信息架构的成熟度。
通过协调结构化和非结构化数据充分获得回报
大数据分析可以带来价值,但将低密度的大数据与您目前使用的结构化数据整合到一起,您可以获得更有意义的深度洞察。
在实际应用中,无论是捕获客户、产品、设备还是环境大数据,您的目标都是向核心主数据和分析摘要添加更多相关数据点,从而得出更准确的结论。例如,相比所有客户的舆情,仅优质客户的舆情更加细化,更有针对性。因此,许多人将大数据视为其现有商务智能功能、数据仓储平台以及信息架构的重要扩展。
对此,大数据既可以基于人也可以基于机器来构建分析流程和模型。利用分析模型以及大数据分析功能(包括统计、空间分析、语义、交互式探索以及可视化),您可以将不同类型和来源的数据关联起来,得出有意义的洞察。利用分析模型,您可以将不同类型和来源的数据关联起来,并得出有意义的洞察。
打造高效的探索实验室
探索数据价值绝非一条坦途,有时候我们甚至不知道前进的方向,这些都在我们的意料之中。尽管如此,管理团队和 IT 部门仍然需要为这种“漫无目的”或者“缺乏明确需求”的探索活动提供应有的支持。
与此同时,分析师和数据科学家也需要与业务部门密切合作,在合作过程中确定自身需要哪些关键业务知识及存在哪些知识缺口。最后,为了实施交互式数据探索和统计算法试验,您需要一个高效的工作区,需要为沙盒环境提供支持并进行适当监管。
与云运营模式保持一致
大数据流程和用户需要访问各种资源来进行迭代试验和生产工作。对此,大数据解决方案应覆盖所有数据区域,包括事务、主数据、参考数据以及摘要数据。支持您按需创建分析沙盒。同时,资源管理对于整个数据流(包括预处理和后处理、集成、数据库内汇总和分析建模)的控制至关重要,妥善规划的私有云和公有云供应及安全性策略对于满足这些不断变化的需求也有着非常重要的意义。
了解有关 Oracle 大数据的更多信息
免费参加大数据研讨会
信息图:如何构建高效的数据湖
注:为免疑义,本网页所用以下术语专指以下含义:
Oracle专指Oracle境外公司而非甲骨文中国。
相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。
按角色查看
招贤纳士
开发人员
投资者
合作伙伴
初创企业
学生和教育工作者
为什么选择 Oracle
分析报告
Oracle 多云
OCI | Microsoft Azure
云参考架构
企业责任
多元化与包容性
安全实践
学习
什么是 AI?
什么是云计算?
什么是云存储?
什么是 HPC?
什么是 IaaS?
什么是 PaaS?
最新动态
Oracle CloudWorld
Oracle 云免费套餐
云架构中心
云迁移
甲骨文红牛车队
软件产品登记证书
完整使用程序使用通知申请流程
联系我们
销售: 400-699-8888
您需要什么帮助?
订阅电子邮件
活动
新闻
OCI 博客
国家/地区
© 2024 Oracle
使用条款和隐私政策
京ICP备10049020号-1
广告选择
招贤纳士
甲骨文中国新浪微博
什么是大数据?它的定义是什么? - 知乎
什么是大数据?它的定义是什么? - 知乎切换模式写文章登录/注册什么是大数据?它的定义是什么?薯片企服薯片企服APP,企业服务大平台!维基百科给出了大数据的定义。维基百科认为,大数据是指在承受的时间范围内使用通常的软件工具捕获和管理的数据集合。大数据是一种大规模的数据集合,在过去的存储和管理分析中远远超过传统软件,因此称为大数据。 简单来说,大数据就是规模很大的数据。大数据的核心价值在于存储和分析海量数据;大数据技术的战略意义不在于掌握大量数据信息,而在于专业处理这些有意义的数据。换句话说,如果把大数据比作一个行业,这个行业盈利的关键在于提高数据的加工能力,通过加工实现数据的增值。大数据可以实现的应用可以概括为两个方向,一个是正确的定制,另一个是预测。比如通过搜索引擎搜索同样的内容,每个人的结果都很不一样。比如精准营销,百度推广,淘宝的喜欢推荐,或者你去一个地方自动推荐给你周边的消费设施等等。大数据构造如何实现? 首先,我认为大数据是互联网发展到现阶段的表象和特征,不需要神话,也不需要害怕。在以云计算为代表的技术创新大幕的衬托下,这些原本难以收集和使用的数据开始易于利用,通过各行各业的创新,大数据逐渐为人类创造了更多的价值。 其次,要想系统地认知大数据,就必须全面细致地分解它。我从三个层面入手:第一,理论,理论是认知的必由之路,也是广泛认可和传播的基线。第二,技术技术是大数据价值表现的手段和前进的基础。第三,实践,实践是大数据的最终价值体现。想要了解大数据就要先了解大数据的理论,有了一定认知和基础后在最后的实践中才能发挥出最大的价值。发布于 2021-05-20 18:24大数据大数据处理赞同 512 条评论分享喜欢收藏申请
如何向普通人解释什么是大数据? - 知乎
如何向普通人解释什么是大数据? - 知乎首页知乎知学堂发现等你来答切换模式登录/注册数据挖掘大数据如何通俗易懂地解释一件事如何向普通人解释什么是大数据?关注者152被浏览33,647关注问题写回答邀请回答好问题3 条评论分享16 个回答默认排序亿信华辰已认证账号 关注对于消费者或互联网用户而言,大数据就是尽可能的收集“隐私”信息,进行营销;对于投资人和创业者而言,大数据是个热门的融资标签;对于工程师而言,大数据实际上只有一个意思,就是把一堆乱七八糟的数据进行计算……但其实“大数据”也不是一个非常精确的术语,有些人用它来指代数据本身,通俗的指代大量的数据,而另一些人则用它来指代对数据的分析或从中获得的洞察力更多的关注大数据的功能性作用。那么大数据究竟是什么呢?大数据就是很多数据吗?大数据就是用数据说话吗?大数据就是数据可视化吗?大数据就是数据分析与数据挖掘吗?这些可以说是大数据也可以说不是,因为这些答案并不算全面,也许这些名词还不够通俗易懂,那么小亿今天用更易懂的方式和大家聊聊什么是大数据。 一、大数据的概念尽管要通俗的解释大数据,但还是离不开大数据概念。单纯大数据的概念,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,是存储在各种存储介质中的海量的各种形态数据,具有5V特点,即:Volume (大量)、Velocity (高速)、Variety (多样)、Value (价值密度)、Veracity(真实性)。大数据概念的产生就是因为数据量和数据类型急剧增加,以至于原有的数据存储、传输、处理以及管理技术不能胜任,需要全新的技术工具和手段。大数据,顾名思义,“大”该是应有之义,大数据的定义最初与容量有关系。业界有几种对大数据的定义,其中一个共同点就是数据的容量超出了原有的存储、管理和处理能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。对于“多大容量的数据才算大数据”,大数据的规模并没有具体的标准,仅仅规模大也不能算作大数据。规模大本身也要从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。大数据之“大”,不仅在于其“大容量”,更在于其“大价值”,并已成为除人力、土地、财务、技术之外的另一种重要的资源。似乎这么解释大数据还不够准确,那么我们用一个例子来解释大数据。在网购盛行的时代,“双11”、“618”等促销日总能掀起网购热潮。每个网购消费者都会在淘宝、京东等购物软件上浏览、搜索产品,而这些因为浏览产生的就是数据,所有人的数据集合在一起,数据的量级变得非常大,就变成了大数据;而平台根据这些数据分析每个人的消费偏好,进一步为消费者精准推送感兴趣的产品,从而促进消费者消费。阿里、京东、360等互联网平台接触消费者众多,也因此获得了很多数据。但是正如精准推送一样,不对这些数据进行处理、挖掘就没法产生价值。二、大数据的应用领域数字化时代,大数据无处不在,人人都在谈大数据。大数据和大数据技术也已经被已经被应用到了各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。下面我们从大数据的应用领域和行业继续聊聊大数据的概念。1、制造业制造业通常利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。进一步发挥制造业大数据的优势和作用。2、金融行业大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。利用大数据对金融行业进行分析和预测,能够对金融行业起到重要作用。3、汽车行业利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。无人驾驶汽车技术是基于海量的大数据,植入ai只能,根据植入的大量数据进行规划路线,并利用云计算技术实时关注路况。4、互联网行业互联网行业将借助于大数据技术,分析客户行为,进行商品推荐和针对性广告投放。例如阿里巴巴、百度搜索、网易云音乐等,都是基于大数据分析用户的喜好,从而为用户投放相应的内容,吸引用户留存。5、餐饮行业餐饮行业能够利用大数据实现餐饮O2O模式,将餐饮搬到线上,激活线下餐饮店的活力,彻底改变传统餐饮经营方式。6、电信行业电信行业能够利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。7、能源行业随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。8、物流行业物流行业利用大数据优化物流网络,逐步实现“智慧物流”,帮助物流行业建设大数据和云计算网络系统,充分发挥物流数据的作用,提高物流效率,降低物流成本。9、城市管理可以利用大数据实现智能交通、环保监测、城市规划和智能安防。10、生物医学大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。11、安全领域政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。12、个人生活大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,对于大数据的理解,想必也在这些实际的案例中可见一斑了,大数据未来必将产生重大而深远的影响。三、以实际案例理解大数据说了这么多大数据概念和大数据应用的领域,那么大数据技术在我们的生活中究竟是怎样应用的呢,今天小亿就以亿信华辰开发的数据处理全链路工具亿信ABI为例,为大家举几个例子理解大数据。1、教育行业高校应用陕西中医药大学数据分析平台项目是为学校构建一个可视化、自动化的数据管理平台。可实现统计图、地图应用、多维分析等可视化效果,收获数据价值,辅助校领导决策,驱动学校不断进步。平台以计算机网络为核心技术支撑,以信息资源的充分共享为手段,以校领导便捷办公及决策等为主要目标。同时,数据分析平台项目建设也是学校信息化建设的高级过程,既是对学校数据的全面梳理,更是对学校信息化建设成果的进一步扩展与提升。陕西中医药大学数据分析平台项目,涉及内容包括首页、领导驾驶舱、综合校情、数据简报、信息探索和学生门禁等各项内容。 陕西中医药大学数据分析平台项目建设是将陕西中医药大学数据以各种图表等形式在平台上展示,可直观地掌握学校信息的情况,通过统计不同维度来分析不同的问题。平台为信息资源整合共享奠定基础,为学院教学、科研、管理和服务提供统一、规范、准确、实时的权威数据服务,并为今后的数据挖掘和科学决策提供可靠的依据。2、金融行业银行应用浦银租赁信息中心为更好践行公司“数字赋能、信息融合”的数字化发展规划,结合公司各部门数据类需求规划了数据平台的建设任务,拟依托该平台建设以实现数据应用的统一数据来源、数据质量的集中化管控,以提升公司整体的数据应用水平。基于监管报表生成质量无法得到有效保证、内外部数据的统计分析工作成为日常办公基本需要、各部门对数据服务提出较高要求等问题,浦银租赁大数据服务平台总体设计分为数据分析、监管报送和数据采集三大模块。 浦银租赁大数据服务平台一共建设了183张报表,涵盖日常工作报表、财务报表、监管报送、1104报表、人行报表、总行报表、EAST报表等,满足公司领导、资产部门、财务部等各部门人员多样化的数据分析需求。帮助高管快速掌握公司的运营情况,精细化管理;让业务人员自助拖拽报表,释放实施人员精力,为业务人员提供工作便利,提高工作效率;支持监管报表的填报、审核、上报、汇总等工作,满足监管报表的定时报送要求。3、通信行业企业应用华为在全球的业务高速发展,支撑企业业务发展的IT服务也必须不断提升来提高企业竞争力。IT产品数字化运营,主体自然是IT产品,因产品服务对象不同,运营方向也会不同。企业目前有300+产品,2000+应用,越来越多的产品在寻求数字化运营服务,全产品自动化通用运营服务,显得迫在眉睫。在建设过程中依据已有部分产品个性化运营门户,调研各大产品运营需求,提炼IT产品运营通用指标,拉通产品集成数据,打通三大业务数据源头,建设全产品自动化数据仓库,基于亿信BI建设通用指标主题模型,最终完成通用产品数字化运营服务。 IT产品数字化运营为华为构筑用户全栈数字化运营服务,在推动企业IT数字化转型进程中起着举足轻重的作用。企业IT产品数字化运营,实现数据集成、数据仓库、IT产品数字化运营服务,最终自动化完成IT产品用户、性能体验、质量分析等数字化运营,为300+产品,2000+应用在网运营提供自助、敏捷、开放的运营监控服务,驱动自我管理改进。四、小结大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿,所以理解大数据在当今的时代是非常重要的。关于亿信华辰亿信华辰是中国专业的智能数据产品与服务提供商,一直致力于为政企用户提供从数据采集、存储、治理、分析到智能应用的智能数据全生命周期管理方案,帮助企业实现数据驱动、数据智能,已积累了8000多家用户的服务和客户成功经验,为客户提供数据分析平台、数据治理系统搭建等专业的产品咨询、实施和技术支持服务。欢迎关注公众号:亿信华辰Pro-让数据驱动进步-编辑于 2021-11-30 10:08赞同 1添加评论分享收藏喜欢收起知乎用户很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。先来个彩蛋:本公司目前在招聘一些大数据分析师,我们欢迎所有对数据分析感兴趣的人来试试,符合条件的可以投递简历(可培养!!!)投递方式见下方,更多岗位信息关注本公司公众号,欢迎主动与我们联系。(1、签订正式合同、五险一金;2、须本科及以上学历(优秀者可放宽条件);3、无经验者有项目经理带;4、在京工作一年后要求回当地的工作的,可申请调回当地省会城市的分公司或合作企业工作;5、每日简历投递量非常大,欢迎主动与我们联系!!大数据是什么?多大的数据叫大数据?企业端(B端)据近十万的级别,就可以称为大数据;个人端(C端)的大数据要达到千万级别。收集渠道没有特定要求,PC端、移动端或传统渠道都可以,重点要达到这样数量级的有效数据,形成数据服务即可。很有趣,大家可以看到2B和2C,两类大数据差了两个数量级。有些小公司,数据只有千到万级的规模,但经过收集分析,也能从中有针对性的总结出这一群体的原则,同样能指导企业进行一定程度的用户分析、获取或者是服务工作,但这并不是大数据,而是一般性的数据挖掘。前两天看见别人分享的那个案例,说今年年初有个用50块本金摆地摊卖水果的中年人,他并不懂得大数据,但是他对水果的收成了若指掌:他知道哪个地方下了多少雨,水果的甜度会到多少,哪些地方的消费者会喜欢吃这个甜度的水果。卖到最后卖出了137家门店、4.7亿的年销售额。这确实是一种小的数据挖掘,但并不是数据分析。大数据分析虽然脱胎于此,但大数据面向的是更海量的一个数据,借助了更广义的知识数据库的分析方法。大部分的数据公司的数据来源是海量的,它的收集和分析,并不是局限于个体,而是以一个非常非常广泛的群体为对象展开的。发布于 2023-05-19 15:15赞同添加评论分享收藏喜欢
大数据 - MBA智库百科
大数据 - MBA智库百科
全球专业中文经管百科,由121,994位网友共同编写而成,共计435,721个条目
查看
条目讨论编辑 收藏
简体中文繁体中文
工具箱▼
链入页面
链出更改
上传文件 特殊页面 可打印版
永久链接
大数据
用手机看条目
扫一扫,手机看条目
出自 MBA智库百科(https://wiki.mbalib.com/)
大数据(big data)
目录
1 什么是大数据
2 大数据的特点[1]
3 大数据的作用[2]
4 大数据的分析
5 大数据的技术
6 大数据的处理
7 大数据的常见误解
8 大数据时代存储所面对的问题[3]
9 大数据应用与案例分析
10 相关条目
11 参考文献
[编辑]什么是大数据
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
IBM提出了大数据的特点(5V):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。
在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。
大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。数据挖掘(data mining)则是在探讨用以解析大数据的方法。
[编辑]大数据的特点[1]
具体来说,大数据具有4个基本特征:
一是数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。
二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
[编辑]大数据的作用[2]
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya Krishnan,卡内基·梅隆大学海因兹学院院长)。
第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。
对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。
第四,大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
[编辑]大数据的分析
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
1. 可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
2. 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能足以从数据中主动地提取信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
[编辑]大数据的技术
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
[编辑]大数据的处理
1. 大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
2. 大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3. 大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
4. 大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。
[编辑]大数据的常见误解
一、数据不等于信息
经常有人把数据和信息当作同义词来用。其实不然,数据指的是一个原始的数据点(无论是通过数字,文字,图片还是视频等等),信息则直接与内容挂钩,需要有资讯性(informative)。数据越多,不一定就能代表信息越多,更不能代表信息就会成比例增多。有两个简单的例子:
备份。很多人如今已经会定期的对自己的硬盘进行备份。这个没什么好多解释的,每次备份都会创造出一组新的数据,但信息并没有增多。
多个社交网站上的信息。我们当中的很多人在多个社交网站上活跃,随着我们上的社交网站越多,我们获得的数据就会成比例的增多,我们获得的信息虽然也会增多,但却不会成比例的增多。不单单因为我们会互相转发好友的微博(或者其他社交网站上的内容),更因为很多内容会十分类似,有些微博虽然具体文字不同,但表达的内容十分相似。
二、信息不等于智慧(Insight)
现在我们去除了数据中所有重复的部分,也整合了内容类似的数据,现在我们剩下的全是信息了,这对我们就一定有用吗?不一定,信息要能转化成智慧,至少要满足一下三个标准:
可破译性。这可能是个大数据时代特有的问题,越来越多的企业每天都会生产出大量的数据,却还没想好怎么用,因此,他们就将这些数据暂时非结构化(unstructured)的存储起来。这些非结构化的数据却不一定可破译。比如说,你记录了某客户在你网站上三次翻页的时间间隔:3秒,2秒,17秒,却忘记标注这三个时间到底代表了什么,这些数据是信息(非重复性),却不可破译,因此不可能成为智慧。
关联性。无关的信息,至多只是噪音。
新颖性。这里的新颖性很多时候无法仅仅根据我们手上的数据和信息进行判断。举个例子,某电子商务公司通过一组数据/信息,分析出了客户愿意为当天送货的产品多支付10块钱,然后又通过另一组完全独立的数据/信息得到了同样的内容,这样的情况下,后者就不具备新颖性。不幸的是,很多时候,我们只有在处理了大量的数据和信息以后,才能判断它们的新颖性。
[编辑]大数据时代存储所面对的问题[3]
随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,就这个例子来说,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。
从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。在这里,我们会讨论哪些与大数据存储基础设施相关的属性,看看它们如何迎接大数据的挑战。
容量问题
这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。基于这样的需求,客户现在越来越青睐Scale-out架构的存储。Scale-out集群结构的特点是每个节点除了具有一定的存储容量之外,内部还具备数据处理能力以及互联设备,与传统存储系统的烟囱式架构完全不同,Scale-out架构可以实现无缝平滑的扩展,避免存储孤岛。
“大数据”应用除了数据规模巨大之外,还意味着拥有庞大的文件数量。因此如何管理文件系统层累积的元数据是一个难题,处理不当的话会影响到系统的扩展能力和性能,而传统的NAS系统就存在这一瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在一个系统中管理十亿级别的文件数量,而且还不会像传统存储一样遭遇元数据管理的困扰。基于对象的存储系统还具有广域扩展能力,可以在多个不同的地点部署并组成一个跨区域的大型存储基础架构。
延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。举个例子来说,网络成衣销售行业的在线广告推广服务需要实时的对客户的浏览记录进行分析,并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广告内容给客户。这种场景下,Scale-out架构的存储系统就可以发挥出优势,因为它的每一个节点都具有处理和互联组件,在增加容量的同时处理能力也可以同步增长。而基于对象的存储系统则能够支持并发的数据流,从而进一步提高数据吞吐量。
有很多“大数据”应用环境需要较高的IOPS性能(IOPS (Input/Output Operations Per Second),即每秒进行读写(I/O)操作的次数,多用于数据库等场合,衡量随机访问的性能),比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质的可扩展存储系统等等都在蓬勃发展。
并发访问一旦企业认识到大数据分析应用的潜在价值,他们就会将更多的数据集纳入系统进行比较,同时让更多的人分享并使用这些数据。为了创造更多的商业价值,企业往往会综合分析那些来自不同平台下的多种数据对象。包括全局文件系统在内的存储基础设施就能够帮助用户解决数据访问的问题,全局文件系统允许多个主机上的多个用户并发访问文件数据,而这些数据则可能存储在多个地点的多种不同类型的存储设备上。
安全问题
某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。
成本问题
“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。
很多大数据存储系统都包括归档组件,尤其对那些需要分析历史数据或需要长期保存数据的机构来说,归档设备必不可少。从单位容量存储成本的角度看,磁带仍然是最经济的存储介质,事实上,在许多企业中,使用支持TB级大容量磁带的归档系统仍然是事实上的标准和惯例。
对成本控制影响最大的因素是那些商业化的硬件设备。因此,很多初次进入这一领域的用户以及那些应用规模最大的用户都会定制他们自己的“硬件平台”而不是用现成的商业产品,这一举措可以用来平衡他们在业务扩展过程中的成本控制战略。为了适应这一需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在用户已有的、通用的或者现成的硬件设备上。此外,很多存储软件公司还在销售以软件产品为核心的软硬一体化装置,或者与硬件厂商结盟,推出合作型产品。
数据的积累
许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。
灵活性
大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。
应用感知
最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。
小用户怎么办?
依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。
[编辑]大数据应用与案例分析
1. 大数据应用案例之:医疗行业
[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
[2] 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
[3] 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
2. 大数据应用案例之:能源行业
[1] 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
[2] 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
3. 大数据应用案例之:通信行业
[1] XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
[2] 电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
[3] 中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
[4] NTT docomo(日本最大的移动通信运营商,拥有超过6千万的签约用户)把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。
4. 大数据应用案例之:零售业
[1] "我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从 Twitter 和 Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。"Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。
[2] 零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
[编辑]相关条目
大数据营销
[编辑]参考文献
↑ 周正,陈枫.“大数据时代”来了——专访国防信息学院研究所所长孟宝宏.解放军报.2013.1.17.
↑ 赵继海.大数据时代图书馆面临的挑战机遇与对策.浙江大学宁波理工学院.
↑ 大数据时代存储所面对的问题.
来自"https://wiki.mbalib.com/wiki/%E5%A4%A7%E6%95%B0%E6%8D%AE"
打开MBA智库App, 阅读完整内容
打开App
本条目对我有帮助584
赏
MBA智库APP
扫一扫,下载MBA智库APP
分享到:
温馨提示
复制该内容请前往MBA智库App
立即前往App
如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目或投诉举报。
本条目相关文档
(大数据)利用大数据后 35页 数据架构及数据建模 35页 数据架构及数据建模 35页 限制数据和对数据排序 34页 大数据时代下的数据架构 31页 解析大数据之:从Intel看大数据 18页 大数据下的数据安全 12页 限制数据和对数据排序 34页 大数据时代下的数据架构 31页 (大数据)大数据与车联网 61页 更多相关文档
本条目相关课程
本条目相关资讯
行业模糊化时代,我们需要的三种思维 2018年12月4日2018年中国互联网企业100强完整榜单及互联网行业趋势 2018年7月28日
本条目由以下用户参与贡献
Yunan,连晓雾,Yixi,方小莉,林巧玲,刘森,Mis铭,刘侃,Dan,胡叶挺,寒曦,姚海滨,刘维燎,苏青荇,陶朱公,赵先生,陈cc,上任鹅陈. 页面分类: 信息管理术语
评论(共32条)提示:评论内容为网友针对条目"大数据"展开的讨论,与本站观点立场无关。
210.56.193.* 在 2013年9月10日 16:49 发表
我觉得大系统比大数据有前景。
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
张林 (Talk | 贡献) 在 2014年1月8日 16:14 发表
赞 to "Yunan,连晓雾,Yixi,方小莉"
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
119.124.19.* 在 2014年6月28日 22:45 发表
数据是系统最重要的部分,所以我觉得大数据的发展前景很好,当然,前提是,具备相当的数据处理能力。
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
114.27.154.* 在 2015年1月18日 21:34 发表
請問數據是要跟google這一類的公司買嗎?不是很了解這要怎麼用
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
60.246.179.* 在 2017年11月5日 20:29 发表
轟
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.99.59.* 在 2017年11月30日 15:15 发表
有前途
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.249.* 在 2018年4月23日 16:57 发表
可以可以
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.249.* 在 2018年4月23日 16:57 发表
老师让看的
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
106.91.55.* 在 2018年5月3日 17:32 发表
发展前景不错
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.250.* 在 2018年5月3日 17:36 发表
可以
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.250.* 在 2018年5月3日 17:37 发表
不错
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.249.* 在 2018年5月3日 17:38 发表
表示看不懂
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
106.91.55.* 在 2018年5月3日 17:43 发表
代表着技术的新一轮革新
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
123.147.244.* 在 2018年5月3日 17:45 发表
期待
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.248.* 在 2018年5月3日 17:53 发表
大数据厉害了
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.250.* 在 2018年5月3日 17:58 发表
又长知识了。
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
115.57.135.* 在 2018年5月5日 10:29 发表
感觉大数据 跟以后ai 有很大的交轨
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.249.* 在 2018年5月7日 17:02 发表
,
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
118.249.57.* 在 2018年7月10日 15:01 发表
223.104.249.* 在 2018年4月23日 16:57 发表
老师让看的
表示我也是大学老师让我学习的
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
122.192.255.* 在 2018年7月11日 11:04 发表
666
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.250.* 在 2018年11月7日 17:25 发表
我觉得大系统比大数据更有前途
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
211.75.113.* 在 2018年11月9日 11:52 发表
長姿勢了
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
223.104.250.* 在 2018年11月14日 17:03 发表
好
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
135****1610 (Talk | 贡献) 在 2019年2月18日 10:00 发表
大数据本身是没有任何价值可言的。即便是一个人比另一个人拥有更多的数据,这也不代表什么。任何一个数据集,它们或大或小,本身都没有价值可言。如果不懂得如何去使用收集来的数据,那这些数据不会比地下室里的垃圾更有用。
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
58.32.8.* 在 2019年4月2日 09:01 发表
老师还让我们做一份大数据海报 真好
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
61.179.24.* 在 2019年5月7日 09:28 发表
大数据牛逼就完了
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
117.30.73.* 在 2019年5月9日 19:04 发表
61.179.24.* 在 2019年5月7日 09:28 发表
大数据牛逼就完了
是的 哈哈
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
123.147.246.* 在 2019年5月25日 16:23 发表
210.56.193.* 在 2013年9月10日 16:49 发表
我觉得大系统比大数据有前景。
我觉得你错了
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
27.185.1.* 在 2019年11月11日 16:31 发表
123.147.246.* 在 2019年5月25日 16:23 发表
我觉得你错了
牛逼6666666
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
218.108.2.* 在 2020年11月4日 09:17 发表
210.56.193.* 在 2013年9月10日 16:49 发表
我觉得大系统比大数据有前景。
老师让看的
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
114.219.133.* 在 2021年12月14日 13:12 发表
223.104.249.* 在 2018年4月23日 16:57 发表
老师让看的
我也是
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
M id 0c02392493cf8a18fa25643522b177ef (Talk | 贡献) 在 2023年2月5日 20:44 · 山东 发表
有前景
回复评论
发表评论请文明上网,理性发言并遵守有关规定。
发表评论请文明上网,理性发言并遵守有关规定。
首页
文档
百科
课堂
商学院
资讯
知识点
国际MBA
商城
企业服务
问答
首页
专题
管理
营销
经济
金融
人力资源
咨询
财务
品牌
证券
物流
贸易
商学院
法律
人物
分类索引
百科VIP
百科VIP会员权益
无广告阅读
免验证复制
开通/续费百科VIP
登录
消息
昵称未设置
百科VIP
未开通
收藏夹
账号安全中心
我的页面
我的贡献
我的讨论页
我的设置
退出登录
打开APP
导航
最新资讯
最新评论
最新推荐
热门推荐
编辑实验
使用帮助
创建条目
随便看看
本周推荐
最多推荐
翻异别勘新质生产力第一性原理智能卡费曼学习法价格标签包装印刷运营管理TRIZ理论宗庆后
奶头乐理论蘑菇管理定律猴子管理法则情绪ABC理论垃圾人定律100个最流行的管理词汇破窗效应INFPSWOT分析模型21天效应
以上内容根据网友推荐自动排序生成
下载APP
此页面最后修订:11:49,2024年2月27日.
智库首页 -
百科首页 -
关于百科 -
客户端 -
人才招聘 -
广告合作 -
权利通知 -
联系我们 -
免责声明
- 友情链接
©2024 MBAlib.com, All rights reserved.
闽公网安备 35020302032707号
意见反馈
问题分类
类型
反馈内容
添加图片(选填)0/9
联系方式
取消
提交
提交成功
反馈结果请前往 MBA智库App 查看 (我的 > 帮助与反馈 > 我的反馈)
知道了
通俗易懂:什么叫大数据?一文带你看懂大数据核心概念 | 红帽
通俗易懂:什么叫大数据?一文带你看懂大数据核心概念 | 红帽
Skip to content精选链接服务支持控制台开发人员开始试用
全部内容面向客户客户支持文档支持案例订阅管理红帽生态系统目录查找合作伙伴面向合作伙伴合作伙伴门户合作伙伴支持成为合作伙伴试用购买与出售红帽市场红帽商店联系销售代表开始试用学习资源培训和认证面向开发人员混合云学习中心互动实验室学习社区红帽 TV开源社区Ansible面向系统管理员面向架构师Red Hat产品解决方案培训与服务资源合作伙伴关于红帽了解更多平台产品红帽企业 Linux使用灵活、稳定的操作系统支持混合云创新。
红帽 OpenShift用于大规模构建、现代化和部署应用的容器平台。
红帽 Ansible 自动化平台实施企业级自动化的基础。
试用与购买开始试用通过免费试用评估产品。
在线购买在红帽商店选购产品和服务。
与主要云提供商集成使用提供商的承诺支出购买红帽解决方案,包括:
精选云服务快速构建、部署和扩展应用。剩下的都交给我们。
AWS 上的红帽 OpenShift 服务
红帽 OpenShift AI
微软 Azure 红帽 OpenShift
查看所有云服务
查看所有产品
类别
应用平台
人工智能
边缘计算
IT 自动化
Linux 标准化
机构类型
汽车行业
金融服务
医疗保健
工业部门
媒体娱乐
公共部门
电信行业
客户案例
英国陆军
阿根廷电力公司 Edenor
HCA 医疗保健公司
麦格理银行
塔塔咨询服务有限公司
美国联合包裹服务公司 UPS
查看所有成功案例
了解服务详情
服务
咨询服务
开放创新实验室
技术客户经理服务
培训 & 认证
全部课程
所有认证
验证认证
技能评估
培训订阅服务
培训社区
红帽院校合作
常见问题
联系培训专家
特色产品
红帽系统管理一 (RH124)
红帽 OpenShift 管理一 (DO280)
红帽认证工程师 (RHCE)
了解服务与支持
主题
AI
应用现代化
自动化
云计算
云原生应用
容器
DevOps
边缘计算
Linux
虚拟化
查看所有主题
文章
什么是云服务?
什么是边缘计算?
什么是混合云?
造云大计,为什么选择红帽?
云 VS 边缘,关系与区别是什么?
红帽 OpenShift vs. Kubernetes
Ansible 入门基础教程
什么是 Linux 系统?
了解更多
博客
客户成功案例
活动和网络研讨会
新闻中心
播客和视频系列
资源库
培训和认证
浏览资源
面向客户
我们的合作伙伴
红帽生态系统目录
查找合作伙伴
面向合作伙伴
Partner Connect
成为合作伙伴
培训
服务支持
访问合作伙伴门户
关于红帽
公司介绍
企业文化
社会责任
发展模式
订阅模式
产品支持
开源
开源承诺
我们参与贡献的方式
红帽 GitHub
公司信息
行业分析师关系
博客
全球办事处
新闻中心
社区
Ansible
面向系统管理员
面向架构师
客户倡导计划
进一步了解红帽
联系我们
面向客户客户支持文档支持案例订阅管理红帽生态系统目录查找合作伙伴面向合作伙伴合作伙伴门户合作伙伴支持成为合作伙伴试用购买与出售红帽市场红帽商店联系销售代表开始试用学习资源培训和认证面向开发人员混合云学习中心互动实验室学习社区红帽 TV开源社区Ansible面向系统管理员面向架构师
推荐
New建议当您浏览 redhat.com 时,我们会向您推荐您可能喜欢的资源。 现在,您可以试试以下内容。所有红帽产品技术话题红帽资源红帽全球峰会服务支持控制台开发人员开始试用联系人选择语言简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañol
联系我们
简体中文
选择语言简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañolRed Hat产品解决方案培训与服务资源合作伙伴关于红帽菜单
搜索
推荐
联系我们
简体中文
登录
产品解决方案培训与服务资源合作伙伴关于红帽联系我们选择语言简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañol
Jump to section
Jump to section
主题
了解大数据
了解大数据
Published 2019年 1月 22日 •%t 分钟阅读复制 URL
对当今企业来说,找到数据的真正价值至关重要。但在我们挖掘数据价值、形成业务洞察之前,我们需要先通过各种相关来源,准确、安全、快速地获取这些数据。该怎么做呢?实现大数据的基础是集成多个数据源,并且能够跨本地和云边界转换工作负载。
什么是大数据?大数据是指对于传统的数据处理方法来说过于庞大或复杂的数据。总的来说,大数据的特征可总结为"3V"——体量(volume)、类型(variety)和速度(velocity)。体量是指数据量极大,类型是指非标准格式范围广,而速度则意味着要快速高效地处理。
为什么大数据很重要?数据只有在可以得到保护、可以处理、可以理解以及可以利用时,才算是具有价值。我们之所以要利用大数据,就是为了提供有助于改善业务的实时信息。实时信息处理是尝试要以一致且无缝的方式为客户创造价值的公司的主要目标之一,也是边缘计算的主要功能之一。通过大数据获得的洞察可帮助您降低成本,提高运维效率,并找到新的方法来增加利润和吸引新客户。
大数据分析与 IT 优化大数据分析是指对所有原始数据和暗数据进行整合,从而让您理解、为您所用的过程。暗数据是组织在正常业务活动中收集的数据,为满足合规性要求,我们必须对暗数据进行存储和保护。人们常常会忽视暗数据,但与其他数据一样,它们也能够生成有价值的洞见,帮助您改善业务。大数据洞察可帮助您避免代价高昂的问题,而不是被动地响应问题。分析数据模式有助于您预测(而不只是猜测)客户的行为和需求,它也能帮您增加收入。为了确保效率,分析软件需要运行于灵活、全面且可信的基础之上。因此,IT 优化就非常关键。您需要确保在技术堆栈发生变化时,仍能继续收集、分析和使用数据。
数据湖、数据沼泽与大数据存储数据湖是一个存储库,可将数据的近似精确副本或精确副本存储在同一位置。在需要一个大型整体存储库来管理其数据的企业中,数据湖已经越来越普遍。与数据库相比,它们的价格也更低。数据湖可让您以原生格式保存大量数据,方便您的顶级分析师在传统数据存储(比如数据仓库)以外,独立于任何记录系统(针对给定数据元素的权威数据源名称),来钻研其细化和分析技能。如果您想要让您最优秀的分析师继续磨练他们的技能并探索分析数据的新方法,那么您就需要一个数据湖。数据湖既需要持续维护,也需要针对数据的访问和使用制定一个计划。如果维护不当,您的数据就可能会沦为一堆垃圾,无法访问、难以操作、价格高昂而且毫无用处。用户无法访问的数据湖,就成了"数据沼泽"。大型企业都会设有多个业务部门(BU),每个都有特殊的数据需求。为了分析,每个业务部门都要竞相争取获得数据和基础架构,这就是对资源的争夺。但数据湖无法解决这个问题。您需要的,是具备数据共享环境的多租户工作负载隔离。那又意味着什么呢?简单而言,在这种解决方案中,通过对数据分析工具进行容器化或虚拟化,您的企业可以只用处理少部分可以在各个业务部门之间共享的副本,而不用在每个业务部门需要访问数据时都制定完整数据副本(通过管理编写脚本来复制数据并使其全部工作来完成)。进一步了解数据存储Icon-Red_Hat-Directional-A-Black-RGB
大数据集成中的 IT 挑战大数据是敏捷集成的一大挑战。如何在保持严格服务水平协议的同时,在多个业务部门之间共享数据?如何从您的数据中获得更多价值?挖掘大数据回报很高,但也很复杂。数据科学家负责分析数据,以获取有助于业务发展的洞察和建议。数据工程师需要在数据管道中识别、组装和管理正确的工具,以便为数据科学家提供最好的支持。最后,在基础架构方面,管理员必须深耕基础架构,以提供即将使用的基本服务。这一系列的工作中,无不伴随着集成、存储容量和 IT 预算缩减等挑战。如果您想寻求集成解决方案,请先思考以下问题:您的数据源是否可靠?您的数据是否真实?您的存储容量是否充足?您基于硬件的存储会不会隔离数据,导致难以查找、访问和管理信息?您的架构能否适应不断发展的数据技术?您有没有充分利用云?您的数据有保护吗?针对大数据您制定了哪些安全性方案?通过集成获得更多数据Icon-Red_Hat-Directional-A-Black-RGB
扩展阅读
文章
了解数据服务
数据服务是若干小型、独立且松散耦合的功能的集合,它们可以改变、整理、分享或计算数据存储卷中所收集和保存的信息。
了解详情Icon-Red_Hat-Directional-A-Black-RGB
文章
什么是云存储?
云存储就是整理存放在某处的数据,只要获得相应权限,所有人都能通过互联网访问这些数据。了解其工作原理。
了解详情Icon-Red_Hat-Directional-A-Black-RGB
文章
为什么选择红帽存储?
了解什么是软件定义存储,如何部署红帽软件定义存储解决方案,从而根据您的需求灵活地管理、存储和共享数据。
了解详情Icon-Red_Hat-Directional-A-Black-RGB
详细了解存储
产品
出色的软件定义存储,可以随着容器的增减,跨环境为数据提供永久的存储位置。
了解更多Icon-Red_Hat-Directional-A-Black-RGB
可大规模扩展的开放式软件定义存储系统,可有效管理 PB 级数据。
了解更多Icon-Red_Hat-Directional-A-Black-RGB
相关文章
了解大数据了解数据服务了解数据存储文件存储、块存储还是对象存储?什么是网络附加存储?
什么是软件定义存储?什么是数据湖?什么是云存储?为什么选择红帽存储?什么是数据管理?
相关资源
继续探索
电子书云原生数据库和数据分析的首要考虑因素电子书简化存储管理电子书构建产品级AI丨ML环境的首要考虑因素电子书超越平台的混合云解决方案'
LinkedInYouTubeFacebookTwitter产品红帽企业 Linux红帽 OpenShift红帽 Ansible 自动化平台云服务 查看所有产品工具培训和认证我的帐户开发者资源客户支持红帽价值计算器红帽生态系统目录查找合作伙伴试用购买与出售产品试用中心红帽市场红帽商店在线购买(日本)控制台沟通联系销售人员联系客户服务联系培训部门社交媒体关于红帽我们是世界领先的企业开源解决方案供应商,提供包括 Linux、云、容器和 Kubernetes。我们致力于提供经过安全强化的解决方案,从核心数据中心到网络边缘,让企业能够更轻松地跨平台和环境运营。选择语言简体中文简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañolRed Hat legal and privacy links关于红帽加入红帽活动全球办事处联系红帽红帽博客多元、平等与包容红帽周边产品红帽全球峰会Red Hat legal and privacy links隐私声明使用条款方针政策概览数字可访问性声明
什么是大数据?大数据能干什么? - 知乎
什么是大数据?大数据能干什么? - 知乎首页知乎知学堂发现等你来答切换模式登录/注册数据数据分析大数据什么是大数据?大数据能干什么?你知道什么是大数据吗?大数据能够用来做什么呢?今天让我们一起讨论一下显示全部 关注者20被浏览51,597关注问题写回答邀请回答好问题添加评论分享18 个回答默认排序IT人刘俊明中国科学院大学 研究生导师 关注大数据在面对不同的对象会体现出不同的价值,对于企业来说,大数据意味着一种新的运营方式、创新方式和服务方式,而对于广大的职场人来说,大数据是一种新的工作方式,对于学生来说,大数据会开辟出更多新的学习渠道。简单地说,大数据能够为目前的信息化、网络化社会进行全面的“赋能”。从大数据的技术体系来看,大数据涉及到数据的采集、整理、存储、安全、分析、呈现和应用,这一系列操作的结果就是让数据产生价值,也就是“数据价值化”,随着未来更多的社会资源将进行数据化改造,大数据所能够起到的作用也会越来越明显。所以当前更多的企业对于大数据越来越关注,而掌握大数据技术的职场人也会有更多的发展机会。对于企业来说,利用大数据技术不仅能够全面升级自身的运营方式,也能够促进企业的管理,以及产品的创新。从这个角度来看,大数据的发展前途对于企业的发展前途有重要的影响,在当前产业结构升级的大背景下,大数据的发展前景还是非常广阔的。当然,企业要想充分利用大数据,还需要逐渐完善大数据的应用体系,包括物联网、云计算、传统信息系统等。对于职场人来说,掌握大数据技术会在一定程度上促进自身的岗位升级,而且也会打开更多新的就业渠道。目前大数据岗位比较集中在互联网领域,这与互联网行业自身的特点有关系,随着大数据技术逐渐开始落地到传统行业领域,整个传统企业会释放出大量的大数据岗位,而且这些岗位的附加值往往也比较高。我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。如果有互联网、大数据、人工智能等方面的问题,或者是考研方面的问题,都可以在评论区留言,或者私信我!发布于 2019-09-19 10:38赞同 62 条评论分享收藏喜欢收起青牛北京阳光海牛科技有限公司 CEO 关注你好!大数据技术可以理解为在巨量的数据资源中提取到有价值的数据加以分析和处理,主要的表现特征如下:数据量大(Volume):第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。类型繁多(Variety):第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。价值密度低(Value):第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。速度快时效高(Velocity):第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。大数据的岗位可以分为三大类:大数据系统研发人员、大数据应用开发人才和大数据分析人才;最普遍同时需求也大的是大数据系统研发工程师、大数据应用开发工程师和数据分析师。大数据架构工程师:负责Hadoop集群架构设计开发、搭建、管理、运维、调优;负责数据对接和对外服务设计、开发和维护; 负责大数据框架和大数据应用的程序设计、开发和维护;负责基于大数据技术对海量数据的自动分析处理和挖掘工作;大数据开发工程师:基于hadoop、spark等构建数据分析平台,进行设计、开发分布式计算业务;辅助管理Hadoop集群运行,稳定提供平台服务;基于Spark技术的海量数据的处理、分析、统计和挖掘;基于Spark框架的数据仓库的设计、开发和维护大数据运维工程师:负责大数据基础平台的运维,保障平台的稳定可用;负责应用产品部署、上线及维护;负责大数据平台资源管理、性能优化和故障处理;深入研究大数据业务相关运维技术,持续优化集群服务架构;参与设计大数据自动化运维、监控、故障处理工具。希望以上回答对你有所帮助,想对大数据有更多的了解,你可以关注我的专栏:或加入大数据交流圈:发布于 2021-03-25 14:17赞同 41 条评论分享收藏喜欢