大数据背景下的研究方法

教学大纲

 

INSTRUCTOR INFORMATION
Name: Robert J. Kauffman
COURSE DESCRIPTION
Big data analytics have been adopted rapidly around the world in the past 10 years, but still there are high expectations from industry and government employers that university students need to know more. This 4 half-day course will cover big data research, its methods, and its applications in a series of lectures and related student problem-solving group discussions based on real-world examples. The components of the instruction include: (1) background on the big data analytics revolution; (2) how university researchers blend multiple machine-based methods from Computer Science, and explanatory analysis from Statistics and Econometrics; (3) methods for assessment of patterns in past activities versus data analytics for prediction of future activities; (4) applications in Consumer Marketing, Digital Financial Services, and Environmental Sustainability. This will give us a chance to examine how to recover consumer preferences so companies can know their customers more intimately, identify patterns in banking service demand and delivery, and show how geospatial information can be captured with data visualization. Students will be assigned several academic articles from well-known international faculty, as well as brief motivational readings to help them orient to recent industry perspectives on data analytics. No knowledge of programming is needed.

SCHEDULE

CLASS TOPICS
CONTENTS
Day 1

Strategy making based on machine learning and econometrics
• Introduce background on the big data analytics revolution
• Indicate how university researchers blend multiple machine-based methods from Computer Science, and explanatory analysis from Statistics and Econometrics
• Compare these two methods with other traditional method in IS field.

Day 2

Application of the combination of
computer science and social science
• Based on two research papers,introduce how to have a combination of computer science and social science
• Digital tracking analysis of music trajectory in social network
• Combining the discovery of machine learning based preference patterns with Natural Language Processing on television viewing data and interpretative modeling using econometrics as a basis for understanding the preference of television viewing at home level
Day 3

The influence of content sampling strategy on marketing digital entertainment products.
• What is the impact of free samples on family buying?
• To what extent does the family payment sample affect the series purchase?
• How do TV viewing varieties and preferences diversities affect family buying?
• How to use econometrics methods to solve the research questions.
Day 4

The relationship among stars, TV shows and social media.
• Indicate that combining machine learning, topic modeling and econometric models is more conducive to the expansion of research work.
• Using the methods to solve the questions that can the star effect attract users and increase the audience rating of TV programs?

Reading List:
G Shmueli, O Koppius, PREDICTIVE ANALYTICS IN INFORMATION
SYSTEMS RESEARCH , Social Science Electronic Publishing, 2010, 35 (3) :553-572

Robert J. Kauffman, Kwansoo Kim, Sang-Yong Tom Lee, Ai-Phuong Hoang, Jing Ren, Combining machine-based and econometrics methods for policy analytics insights, Electronic Commerce Research and Applications, in progress

Assignment:
1) What is the role of machine learning techniques in building an explanatory model? What is a realworld example you can describe?
2) What is the role of explanatory empiricism in building a predictive model? Give a real-world Example
3) Can we improve an explanatory model so it willbe an effective predictive model? What are the considerations? Illustrate your ideas.
4) What is the role of machine-based methods in this kind of research? Explain what tools are needed.
5) How can one test a hypothesis in this context?
– H1: Rivalry of 2 players leads to more TV viewing
– H2: Star power causes more social media posts
– H3: Semi-final, final round participation affects a tennis player’s TV broadcast performance household viewing
6) Can we design an experiment on tennis players? Soccer? Olympic sports? Illustrate your ideas.
7) What is computational social science?
8) What is fusion analytics?
9) What methods are necessary to know about to be successful in using these approaches?
10) Supposed you wish to study the problem of household-level recycling of hazardous waste.’ Detergents, chemicals, cleaners, etc.
What research questions would you ask?
What kinds of data would you collect?
What kinds of methods would you use?
What kinds of outcomes do you think you can get?

 

 

课后总结

 

时间:2017.10.11

主题:结合基于机器和计量经济学方法进行策略分析洞察

Rober J. Kauffman教授在本次课程中主要介绍了结合基于机器和计量经济学方法进行策略分析洞察的背景、融合分析框架、策略分析,以及在手机股票交易上的应用。在背景方面主要介绍了数据分析的变革,首先是商业变革,生活中我们每时每刻都可以通过数字追踪获取数据,数据来源可谓是方方面面,我们不再局限于从调查中获取数据,因此执行者开始要求进行大数据分析,而我们面临的困难则是用怎样的方式或者工具对如此大量的数据进行分析,因此我们需要学习计算机科学、数据挖掘、机器学习、聚类分析、Python、R等等方法。其次是分析变革,我们必须在研究设计方面有所创新,考虑如何更好的利用自然实验的方法,如何从商业、政府部门获取数据,使用闭环实验以及获取传感器数据和公共数据资源。在融合分析框架方面主要介绍了基于机器的方法和解释性经验论,首先是基于机器的方法,主要讲解了如何从带有大量背景意义的不同数据集中挑选和提取我们需要的数据、如何转换数据进行模式分析和在商业策略上有更深入的洞察、如何为产生因果结果的研究设计设置数据结构。其次是解释性经验论,主要讲解了完全控制实验、模拟随机实验、用于因果推论的统计和计量经济学模型,以及通过深厚的行业知识进行补充的基于理论的测试。在策略分析方面,主要讲解了如何运用大数据进行策略分析,新的策略分析包括多种方法来改善在大数据计算下的分析性能,新的融合分析涉及基于机器的模式识别以及统计和计量经济学建模的解释,以及不同程度的知识和不同的数据分析模式。在第一个应用,即手机股票交易上,研究主题为交易者如何应对在移动渠道中社交媒体的意见,研究问题集中在社交意见是否影响手机股票交易、交易者的行为是否会在接收到社交媒体信息时发生改变、在购买和出售上是否会产生理性羊群效应,方法主要利用基于机器的方法和统计与计量经济学方法,测试结果显示传统渠道股票交易影响信息流入手机渠道、职业交易者更容易受到社交意见的影响、羊群行为确实存在。

 

 

时间:2017.10.12

主题:计算社会科学分析融合方法的应用

本次课程主要讲述了计算社会科学分析融合作为主要科学方法的应用,涉及基于机器的方法和解释性经验主义。Kauffman教授对两篇文章的讲解,让我们更加清楚地了解该方法的具体应用及有效性。

第一篇是社交网络中音乐流行轨迹的数字跟踪分析。提出了三个研究问题:(1)在社交网络中音乐流行的决定因素是什么;(2)音乐提供商可不可以在音乐发行初期预测它的潜在流行度;(3)音乐歌曲是否有可识别的流行模式供音乐提供商借鉴。Kauffman教授指出音乐不仅仅是娱乐,音乐更是一个持久的信息产品,给听众和作者带来价值。文章重点关注在线音乐社交网络Last.fm,并调查可能影响其流行度的音乐曲目的三个关键因素。三个影响音乐流行的因素分别是:音乐内容、艺术家的声誉和音乐的社会背景。根据这三个重要因素运用机器学习和计量经济学的方法构建模型用来预测分析音乐的流行趋势和模式。结果表明,可以使用这三个因素预测约80%的准确度的音乐的未来流行度。

第二篇研究的是家庭电视的观看偏好。这项研究将基于机器学习的偏好模式的发现与对电视观看数据进行自然语言处理和使用计量经济学的解释性建模相结合,作为了解家庭层面电视观看偏好的基础。采用通过机顶盒技术收集的大约110万个观察值的数据集,跟踪了其家庭消费基于频道订阅包中的内容。数据描述了家庭在电视上观看的细节,包括频道和节目,开始时间和持续时间,以及来自不同数字娱乐类型的内容的整体观看时间。这项研究表明了机器学习和解释性计量经济学方法的有效性,并提出了对数字娱乐服务企业战略有用的消费者行为和内容捆绑的见解。

 

 

时间:1013

主题:家庭取样和视频购买:内容取样策略对营销数字娱乐产品的影响

内容:Kauffman教授指出,这种影响在理论方面有:数字内容的需求和消费、实物商品抽样策略、电视观看行为等。并提出了三个研究问题:免费样品对家庭系列购买的影响是什么?家庭的付费样本在多大程度上影响系列购买?电视观看品种和偏好多样性方面如何影响家庭系列购买?基于这些问题,进行调查研究。在电视的视频点播中,提供1集免费样品,免费后的付费样品,然后系列戏剧购买。机顶盒技术允许捕获观看序列的数字痕迹,抽样支持不确定性的降低。视频点播系列剧和各种基于抽样的行业策略,都是内容市场的创新。研究选取了2011.9.30 – 10.30为期1个月,17岁以上进行记录,包括了14596户家庭、79系列剧集。研究方法有两种:计数数据模型和一般经验模型。Kauffman教授介绍了计数数据模型的应用方法和倾向得分匹配(PSM)。得出以下发现:①家庭电视观看的数字痕迹是高度的信息,特别是与计量经济学的视频点播采样相结合;②视频点播是流媒体数字娱乐革命的一部分:值得研究;③在购买之前,搜索并解决一个家庭特定的视频点播采样级别;④每个家庭的收入都不一样。

 

 

时间:2017.10.14

主题:明星效应,电视节目和社交媒体之间的关系

本次课程的教学主题是“明星效应,电视节目和社交媒体之间的关系”。众所周知,明星自带有高曝光率和娱乐性,那么他们是否能吸引用户增加电视节目的收视率呢?这就是本文的研究问题。该领域先前的研究大多关注的是团体型的体育项目,无法测量出明星运动员的个体影响效果,而且并未考虑到节目用户的异质性。基于此,本文将研究聚焦于网球类运动项目。本文认为,明星运动员的世界排名和高频率的竞争行为都会增加电视节目的收视率。此外,运动员的互补风格也会有利于节目的收视率。本文的数据来源于对网页数据的爬取,首先经过数据清洗和自然语言处理的过程(NLP)清理扰乱项和不合理的数据,然后采用机器学习和主题建模的方法,以运动员性别为基准分别建立用户对男、女网球运动员的关键词词典。而后将运动员的信息分为基本信息,运动员绩效和打球风格三类,并建立相对应的描述型变量。通过计量模型检验,本文得出结论为:运动员的打球风格和事业轨迹与电视节目的收视率呈线性关系;而且运动员的世界排名,高频率的竞争行为以及运动员之间世界排名的差距越小都能增加电视节目的收视率。

通过本文的学习,我们可以认识到,用户的偏好各有所异,不能泛滥而语,它不仅取决于运动的项目类型,也和个体运动员相关。此外,将机器学习,主题建模的方法与计量模型结合在一起用更有利于研究工作的展开,是研究工作的新思路。