信息、投资者行为与资产定价
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 数据来源与变量定义

1.2.1 数据来源

基于上海证券交易所的脱敏账户交易数据,本书得以刻画不同类型投资者的交易行为。这一数据提供了每日机构和个人的交易行为的汇总指标。从而,我们可以在更高的时间频率上来衡量不同类型投资者的净买入或净卖出数据。

分析师的股票评级数据,来自国泰安CSMAR数据库。该子库所披露的信息包括:股票代码、报告公布日、分析师姓名、研究机构代码、标准化评级、评级结论及评级标准等信息。根据数据库给出的标准化评级,本书将分析师评级划分为“强买”“买入”“持有”及“卖出”评级。此外,股票市场交易数据、关联交易数据及企业两权分离数据,均来自CSMAR数据库。

受投资者交易数据限制,本书研究的样本为沪市上市公司,样本期间为2005年至2008年。在实证检验中,本书剔除了金融类企业及存在变量缺失的观测值,为控制变量极端值对本书研究结果的干扰,本书对各变量取值在1%和99%分位数进行了winsorize处理。

1.2.2 变量定义

(1)投资者交易行为。

为刻画投资者交易行为,承袭Kaniel,Saar和Titman(2008)的研究,本书使用订单不平衡来捕捉各类投资者的买卖订单压力。首先,本书汇总个人和机构投资者分别在t日买入和卖出某只股票j的总股数。其次,按照下式计算个人和机构投资者在t日买卖股票j的订单不平衡程度:

其中,BSIkjt表示k类投资者(个人或机构)买卖股票j的订单不平衡程度,Buykjt表示k类投资者在t日买入股票j的总量,Sellkit表示k类投资者在t日卖出股票j的总量,分母是股票j在过去一年的日平均成交量。

参照Malmendier和Shanthikumar(2007)以及Shanthikumar(2005),本书计算个人和机构投资者的超额订单不平衡程度(ABSI)。具体而言,针对每一类投资者,本书使用当年度该类投资者交易股票j的BSI均值和标准差,对BSI进行标准化处理,即可得到:

这样一来,本书可定义每类投资者在某一期间[t1t2]上的累计超额净买入水平(CABSI),具体如下:

在本书中,我们着重考察个人和机构投资者在分析师评级发布日及其后一天的交易行为,并记作。其中,T0表示分析师评级报告的发布日,若分析师报告发布日当天不是交易日,T0则取值为分析师评级发布后最近的一个交易日。T0+1则为T0的后一个交易日。

(2)分析师评级。

本书构造四个虚拟变量,刻画分析师评级水平。其中,当分析师评级为“强烈买入”评级时,StrongBuy变量取1,否则为0。当分析师评级为“买入”评级时,Buy变量取1,否则取0。当分析师评级为“持有”评级时,Hold变量取1,否则取0。当分析师评级为“卖出”评级时,Sell变量取1,否则取0。考虑到在证券市场中,卖方分析师发布卖出评级比例较少,本书将“卖出”及“强烈卖出”评级合并为“卖出”评级。

(3)控制变量。

在实证分析中,本书参照以往文献的做法(Mikhail,Walther and Willis,2007),对公司特征和分析师(或所在券商)特征进行了控制。具体而言,本书控制变量主要包括:Size表示上市公司在上一年度末的流通市值。BrokerSize表示分析师所在券商的规模,本书使用券商所雇用的发布股票评级的分析师人数衡量。FEXP表示分析师在公司层面的评级预测经验,这里,本书使用该分析师跟踪该只股票的年数。GEXP表示分析师在股票评级预测方面的整体经验,本书使用该分析师距离首次发布股票评级预测的年数衡量。Firms表示该分析师在上一年度所覆盖的公司数目,衡量分析师的能力分配情况。Frequency表示该分析师在上一年度对该只股票所发布的评级报告次数。Ana-Perfm衡量该分析师在上一年度的绩效表现,这里,本书使用被推荐股票在上一年度历次股票评级发布后的3个月内相对市场的超额表现平均值。若无法计算分析师在此前年度的绩效表现,则AnaPerfm取值为0。Follower表示上一年度覆盖该股票的分析师数目。为控制数量级干扰,本书对上述控制变量均采用自然对数运算。除此之外,本书还控制了上市公司在股票市场的表现,即Return表示上市公司在上一年度的股票收益水平。回归分析中,控制变量取值滞后一期。