小数据时代随机采样案例分析有哪些? (小数据时代随机采样案例分析)

admin 2024-11-04 64 0

本文目录导航:

小数据时代随机采样案例分析有哪些?

如下:

小数据时代随机采样案例分析有哪些? (小数据时代随机采样案例分析)

第一个经典的例子是预测女孩怀孕“大数据”,2012年2月16日《纽约时报》刊登了一篇题为《这些公司是如何知道您的秘密的》报道。

文中介绍了这样一个故事:一天一位男性顾客怒气冲冲地来到一家折扣连锁店“塔吉特”这是一家仅次于沃尔玛的全美第二大零售商向经理投诉因为该店竟然给他还在读高中的的女儿邮寄婴儿服装和孕妇服装的优惠券。

但随后这位父亲与女儿进一步沟通发现自己女儿真的已经怀孕了。

于是致电塔吉特道歉说他误解商店了女儿的预产期确实是8月份。

这里用到的就是大数据“关联规则+预测推荐”技术。

第二个是经典的“啤酒和尿布”的例子,这个例子比较早,讲的是基于关联规则分析来预测超市里面顾客购买行为规律。

20世纪90年代美国沃尔玛超市中,超市管理人员分析销售数据时发现了一个令人难以理解的现象:

在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲去超市买尿布。

父亲在购买尿布的同时,往往会顺便为自己购买啤酒。

如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而去另一家可以一次同时买到啤酒与尿布的商店。

由此,沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而获得了很好的商品销售收入。

第三个案例是近年来才炒得比较火热的例子“谷歌预测流感”,是谷歌通过搜索引擎里面的关键词检索日志的时间序列数据成功预测了流感爆发的时间和规模。

人们输入的搜索关键词代表了他们的即时需要,反映出用户情况。

为便于建立关联,设计人员编入“一揽子”流感关键词,包括温度计、流感症状、肌肉疼痛、胸闷等。

只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。

为验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾病控制和预防中心的报告做比对,证实两者结论存在很大相关性。

第一个例子背后是基于精准营销,是大数据针对个人级别的应用,第二个例子能够有效预测零售商需求,属于企业级别应用,而第三个例子则是地区级别和国家级别的应用。

由此可看出,当大数据真正走进生活、走进社会,其施展能量的力度越来越大,越来越强。

所以国家、教育部和企业越来越重视大数据和人工智能的开发和应用,让我们跟随趣学人工智能一起学习它吧!更多内容请关注趣学人工智能公众号,微信搜索趣学人工智能里面有更多视频、音频和文字内容。

数据时代为适应不同类型、不同发展阶段企业或者个人的上网要求,提供有包括域名注册、主机、企业邮局、系统集成在内的完整的网络平台服务。

构建有自己的电子商务寄放平台;网络系统均以高速独享带宽连接在骨干网上,服务器托管在电信品质的数据中心内,全面的备份系统、防火墙系统、负载平衡系统,专业人员全天候监控、维护,保证网站快速、可靠、稳定地运行。

数据时代秉承客户至上、服务至上的经营理念,以卓越的网络服务品质、专业的技术服务实力、职业的客户服务团队保障您在21世纪的信息高速路上驰骋。

又以稳固与发展、求实与创新的精神,尊重人才、注重技术,使用户在享受信息科技发展最新成果的同时不断获得最大的收益,为推动中国信息产业的发展、促进知识经济的崛起作出最大的贡献。

小数据时代采用的随机采样方法对样本的什么要求特点高

小数据时代采用的随机采样方法对样本的代表性和可信度要求比较高。

随机抽样方法是为了寻找一组能够准确反映总体分布特征的样本而采用的方法,因此代表性和可信度是评估随机采样数据集是否合理的重要指标。

从代表性角度来看,在进行随机抽样时,选择的样本需要能够代表总体分布中具有典型意义的部分。

如果样本的数据质量、数量等方面与总体存在很大差异,那么模型预测的结果就可能存在误差,分析结论也就变得失去说服力。

换言之,具有代表性的样本,才能更好地推断出整个总体特征。

另一方面,小数据时代采用随机抽样方法时,样本数量相对少,这时候的样本误差会对最终结果产生更大的影响。

因此,可以通过从样本中筛选出与总体情况更相符的数据,以及算法的迭代精细等手段提升最终的可信度。

因此,在小数据时代采用随机采样方法时,需要保证样本的基本要求:具有代表性、随机性和足够的样本量,并在采样之后进行充分的数据分析和统计处理,以获得具有较高参考价值的研究结果。

小数据时代:

小数据时代是指对数据量较小或大规模的数据缺失问题难以避免的情况下的数据分析领域。

在这种情况下,传统机器学习和数据挖掘算法等常用技术需要重新调整,以适应数据量和数据维度相对较小的情况。

小数据时代出现原因主要包括:首先,在某些特定场景下获取大数据极其困难或成本非常昂贵,仅能获取到规模较小的数据集来进行实践研究;其次,当我们的观察所涉及的变量较少时,完整的数据集可能不会包含足够多的变化信息,也即单纯追求数据的数量并不能达到总体真实情况的描述。

由于以上种种限制因素,小数据时代中科研工作者、市场营销人员等各个职业人群的数据普遍较少,这个时候仅靠传统数据挖掘方法会出现过拟合甚至产生偏差等问题,所以从新的角度去考虑小数据的可能性和分析方法就显得尤为重要。

大数据在未来生活中的运用?

哈尔滨理工大学孙名松谈大数据在高校智慧校园中的应用

摘要: 2月15日,哈尔滨理工大学软件学院院长、教授孙名松在CIO时代APP微讲座栏目作了题为《大数据在高校智慧校园中的应用》的主题分享,关键词:CIO时代APP微讲座

2月15日,哈尔滨理工大学软件学院院长、教授孙名松在CIO时代APP微讲座栏目作了题为《大数据在高校智慧校园中的应用》的主题分享,具体从小数据时代与大数据时代、大数据在高校智慧校园中应用的案例两部分展开叙述。

一、小数据时代与大数据时代“数据(data)”在拉丁文里的意思是“已知”,也可以理解为“存在”。

所以“数据”就是“存在”,“大数据”就是“大存在”。

研究大数据,就是研究大存在,亦即研究一切物质、一切行为、一切思想,以及人类自身。

数据充斥并改造着人们的生活、工作。

数据化是指把现象转变为可指标分析的量化形式的过程,其中包含对世界的梳理、理解,并形成可保存的经验。

计算和记录共同促成了数据的产生,是数据化的根基。

而数字化是把模拟数据转换成0、1表示的二进制码,方便人类使用现代技术对数据进行更好的处理。

数据化是一种思想,数字化是一种手段;数据化古而有之,数字化方兴未艾。

小数据时代依靠随机采样,其原则是以最少的数据获得最多的信息。

但如此,则无法了解一些微观细节,不利于对某些特定子类进行分析。

而“参差不齐是世界的本质”,细节缺失将会影响到对整个自然活动、人类活动的探索与研究。

此外,随机采样以研究者的理论前提为设计基础,只能对已遴选的问题进行解答,而难以虑及其他问题。

也就是说小数据时代是以极其有限的信息面对有“偏见”的问题。

大数据时代,意味着将世界数据化,意味着世界的本质就是信息。

世界不仅被看成一串事件的组合,更被看做信息的集合,数据的集合。

这是世界观的深刻变革:人类具备以往认识并处理事件的经验而不盲从于经验,人类采集“数据”但更明确“所见、所思、所得”皆为“数据”,我们生活在数据的海洋之中,我们自身即为数据。

以上,从小数据时代到大数据时代,伴随或产生了以下几种转变与认识:1、意识到“样本”等于总体。

用更大、更全、更综合的态度来观察、理解、关照世界。

2、大数据对于精确性的要求降低。

在小数据时代,因为数据少,所以对数据的精确度要求非常之高,而当大量数据出现时或者要求数据量大时,必然需要接受数据的纷繁复杂。

3、要意识到数据错误并不是大数据的固有特性,而是需要处理的实际问题,该问题可能长期存在。

4、混杂绝不等于错误。

混杂是大数据的常态,且应该是一种基本态和标准态。

5、大数据揭示了传统样本无法揭示的细节信息,大数据是通往“精准”处理的基本途径。

6、大数据时代,不再热衷于追求因果关系,而是试图探寻不同事物之间的关系,在此基础上找到可供观察的关联物,以进行预测。

而预测,是大数据应用的核心所在。

7、相关关系被阐释之后,可进行因果关系的分析。

但是必须注意到,因果关系只是相关关系的特殊形式,因果关系在大数据时代已经不是解释世界的基础;相关关系是一种较为普通的存在,在大数据时代更容易被发掘,可以更高效地指导实践,甚或随着大数据的发展,以往的因果关系可能会被证伪,或被视为相关关系。

其中第1点是大数据对于认识论的改造;第2—5点体现了大数据时代与传统时代对数据要求的迥然不同;第6和7点则是数据间逻辑关系的优先性的颠覆。

从实践的角度而言,第1点可以作为前提,第2—5点可以作为数据搜集与处理的准则,第6和7点或可作为数据解释的指导方向。

二、大数据在高校智慧校园中的应用2015年国家提出并制定了“互联网+”行动计划,将“互联网+”上升到了国家战略。

“互联网+”的提出必将给高校智慧校园建设增加新的内涵、注入新的动力。

借助“互联网+”推动数字校园加速向智慧校园升级,充分利用云计算、物联网、移动互联、大数据等一系列新技术、新理念、新模式,打造全新的大学智慧校园,有力支撑大学未来发展战略,带动人才培养及评价方式的创新、提升校务治理水平,提供多层次的个性化服务和智能化管理决策,大学智慧校园建设的核心内涵可以概括为“全面的环境感知、无缝的网络互通、弹性的云生态圈、海量的数据支撑、开放的学习环境、个性化师生服务、智能化管理决策、高效的校务治理”。

高校在信息化进程中,产生了各类结构化和非结构化的数据,包括教学管理数据、教学资源数据、学生信息数据等,大到高校的治校方针策略,小到学生的日常消费,数据繁多,类型复杂。

利用大数据技术对这些数据进行搜集、分析,转化为高校管理与服务可利用的资源,将对智慧校园建设起到非常重要的作用。

下面举例说明大数据技术在智慧校园中的应用。

1、综合校情展示对学校管理者而言,通过综合校情分析展示,可以对学校的在校生情况(本科生、研究生)、课程情况、科研成果情况、奖助情况、就业情况、教工情况、教师分布、干部情况、家具情况、资产情况、房屋情况、排名情况、消费情况等方面进行直观的了解和横向纵向的对比。

结合历年数据变化规律可以为辅助决策提供依据。

不同系统之间数据的关联性或许能够给管理者决策提供新的思路。

综合校情展示主要包括基础数据分析展示和行为数据分析展示。

基本数据分析:如招生数据分析、学生数据分析、毕业数据分析、教师数据分析、课程数据分析、成绩数据分析、就业数据分析、高校资产数据分析等。

行为数据分析:学校食堂就餐情况分析、一卡通消费行为分析、上网行为分析、图书借阅行为分析、图书馆使用时长、上网时长/流量和成绩之间的相关性分析、重点人群群体的特征刻画分析和预警等等。

举例说明:(a)高校就业信息统计。

从高校学生的毕业去向、就业单位、就业地区、就业行业、就业薪资等多维度进行统计分析,全面呈现高校就业情况,为高校就业办发现学生就业规律、有针对性的进行学生就业指导提供支撑。

(b)教学信息统计分析。

为校领导呈现了高校热门课程排行、各院系开设课程统计和学生成绩统计分析、挂科率分析,全面呈现学生在校期间的学习与成绩分布,为指导高校课程开设、提高学生成绩提供支撑。

(c)一卡通统计分析。

展现了高校学生整体消费能力、消费偏好,为后勤部门了解学生餐饮、购物偏好,有针对性的提升服务水平提供支撑。

(d)各生源地消费能力。

按照生源地统计该地区学生的消费能力,来详细查看在某一段时间学生消费额和消费次数的统计。

(e)学校网络使用状况分析和学生上网行为统计。

通过对学生上网的地址进行统计、分析,结合其基础的个人信息数据,可按不同的维度,比如性别、籍贯、院系等来统计出不同类别的人群,对于某类网站的使用频率。

如果记录的日志足够详细,甚至可以统计出学生在网上消费的喜好或偏向,对于后勤或学工等部门也是一个比较重要的参考。

应用到的相关技术有:数据关联分析、多源数据整合、海量日志数据处理、benchmark、指标体系建立、AgileBI、全文检索引擎。

2、公共资源使用情况分析对于高校而言,食堂就餐、体育场馆、教室、图书馆、校医院等各类公共资源有限,师生没有很好的途径获知这些资源的服务能力情况,导致经常发生排队、拥挤的情况,给师生学习、生活带来了不好的体验。

随着学校信息化的推进,各部门管理信息系统逐步建设并投入使用;随着技术的发展,特别是物联网和智能感知设备的出现,使数字校园智能服务成为了可能。

数据来源于一卡通消费、一卡通门禁、无线网、校园安全视频监控等。

(a)食堂、澡堂人员密度状况及建议各食堂、公共澡堂各时段就餐人员密度情况,各类人员(年级、籍贯、职称等)就餐爱好、习惯等。

(b)教室使用状况、人员密度、各时间段教室使用情况、教室人数等;基于无线网络进行考勤。

(c)会议场馆、体育场馆使用状况及人员密度。

为师生提供会议场馆的可用性查询,体育场馆的使用情况(有课、无课等),以及人员密度发布。

(e)图书馆座位使用状况及人员密度发布,提供图书馆座位空闲情况及图书馆内人数等。

(f)校内人员密度分布。

根据学校无线网数据、安全视频监控信息,识别学校人员热力分布图。

应用到的相关技术有:数据关联分析、数据挖掘(聚类分析)、海量日志数据处理、多源数据整合(日志数据与结构化数据整合)、高速内存数据库、分布式全文检索引擎。

3、个人数据报告面向校园师生用户提供个性化数据服务,展现师生在校园内学习、消费、生活、健康等方面的个人行为习惯以,帮助学生从严谨的数据分析更加了解自己,以及与他人的差异,帮助校园师生感受信息化带来的人文关怀与改变。

数据来源自一卡通消费、图书馆门禁、图书借阅系统、校园网络系统、体育场馆门禁等。

(a)校园卡账单及消费习惯分析报告;(b)图书馆进出频次、时长及借阅习惯分析报告;(c)网络账单及上网习惯分析报告;(d)体育健身锻炼学期报告。

通过高校官方微信号、APP进行手机推送,移动互联网时代方便用户及时阅读、分享、传播。

面向校园师生用户提供个性化数据服务,展现师生在校园内学习、消费、生活、健康等方面的个人行为习惯以,帮助学生从严谨的数据分析更加了解自己,以及与他人的差异,帮助校园师生感受信息化带来的人文关怀与改变。

应用到的相关技术有:数据关联分析、数据挖掘(用户画像)、海量日志数据处理、多源数据整合。

4、图书馆电子期刊资源使用效率分析高校每年花费资金购买著名期刊论文集,为师生用户提供便捷的文献检索和下载服务。

图书馆电子期刊资源的使用情况、不同学科对于不同电子期刊资源使用偏好的差异,是图书馆亟需了解的内容。

通过对高校用户期刊文献检索记录的大数据分析,优化论文期刊购买方案,使图书馆可以采购到师生更加需要的资源(传统纸质+电子资源),提高现有采购效率。

学校通常的做法是向数据商(如万方、CNKI)购买电子期刊资源访问统计数据,而这种方式基于学校整体访问数据做统计分析,无法基于用户做访问详情的分析统计,从而无法获取到基于不同学科门类、不同学院和专业特点、不同教师等级的不同人群期刊访问情况分析,也无法了解到不同资源库的使用情况横向对比分析。

对师生的检索关键词进行挖掘也是非常重要的方向,而传统的做法无法了解学校师生用户检索电子期刊资源的检索偏好、检索热门等具体信息。

出口网络日志数据记录了师生访问电子期刊资源库的行为,通过大数据技术对出口URL日志等数据进行处理及关键信息提取,关联学校内部用户信息数据,将实现图书馆电子资源使用的全面分析以及人群分析,为图书馆采购决策提供辅助。

数据来源自图书馆采购电子期刊资源列表、师生上网URL日志、师生上网身份认证等。

应用到的相关技术有:数据关联分析、海量日志数据处理、多源数据整合(日志数据与结构化数据整合)、分布式全文检索引擎。

5、校园舆情监测在移动互联网大潮之下,无论是正面信息还是负面信息都会以更快的速度传播。

学校声誉对学校招生、就业、评优评先等方面有很大影响,随着移动互联网和社交媒体的普及,高校越来越重视学校的社会评价。

目前部分高校会利用互联网数据监测学校声誉,通过大数据的手段通过实时监测互联网新媒体上与学校相关的新闻、传播话题和用户反馈,了解学校舆情、声誉及影响力。

应用到的相关技术有:文本挖掘、语义分析(正负面判断)、语义相似度计算、弹性爬虫引擎、分布式全文检索引擎。

我所了解的大数据在智慧校园中的应用还包括教学信息统计分析,通过对课程知识结构进行样本分析,结合教育过程,综合学生学习成绩分布来验证课程讲授过程的合理性和工程教育认证中的达成度来综合分析课程开设的合理性。

又如,学校资产管理信息分析,借助于资产管理信息平台实现对校园基础设施、教学实验设备、校园通信网络设备等数据的采集分析,为学校基础建设方向、教学实验设备的维护、校园网通信设备的升级改造提供数据支持。

“智慧网格学生管理平台”,以高校信息技术和数字化校园建设成果为基础支撑,建设以社区网格、管理网格、教育网格三个维度的网格为载体,面向学生发展的综合管理与服务流程优化的总体框架。

对学生培养全生命周期中的生活、学业、思想等发展过程进行主动辅导,形成协同可持续的智慧管理与导引发展新模式,具有学生画像、学生行为预警(在校状况、学业、消费、身心健康)、学生家庭经济状况分析、学生综合数据检索、学生群体分析等功能,能够辅助学工部门、院系管理者和辅导员开展学生安全教育管理、学生心理健康辅导、精准资助等工作,提升工作效率,促进学生管理工作创新与实践。

由于时间关系,今天就交流这么多。

谢谢!

评论(0)