AcademicResearch学术研究
自主创新 ·重点跨越 ·技术发展 ·引领未来
新浪微博数据获取技术研究
黄延炜,刘嘉勇
(四川大学电子信息学院,四川 成都 610064)
【摘 要 】随着微博在人们 日常生活中的广泛使用 ,微博信息的数据获取成为研究微博 的基础和保证 。该文提出
基于新浪微博开放平台与基于网络数据流的微博数据获取方案。前者通过程序调用新浪微博应用编程接 口(API),
针对API提供的数据进行分类别归一化解析储存 。后者采取捕捉网络信道实时数据流方式,可对指定地域微博
用户的网络行为进行实时监控。通过程序调试和实验测试 ,两套方案的有效结合可实现对新浪微博数据的高效
全面获取 。
【关键词 】新浪微博 ;开放平 台;应用编程接 口;实时数据流
【中图分类号 】TP393 [文献标识码 】A 【文章编号 】l009—8054(2013)06一O71一O3
Studyon SinamicroblogDataAcquisitionTechnology
HUANGYan-wei, LIUJia-yong
fSchoolofElectronicInformation,SichuanUniversity,ChengduSichuan610064,China)
A【bstract】Withthewidespreaduseofmicrobloginpeople’Sdailylife,themicroblogdataacquisitionbecomesthe
foundationandguaranteeinmicroblogresearch.Inthispaper,twomicroblogdataacquisitionprograms,respectively
basedonSinamicroblogopen platform andnetwork datastream,areproposed,theformerprovidesamethodfor
callingtheSinamicroblogAPI(applicationProgramminginterface)andnormalizingthestorageofJSONformatdata,
while thelattercapturingreal-timedatastreamsofthenetworkchannel,monitorsnetworkbehaviorin specified
geographicalmicroblogusers.Program debugandexperimentindicatethattheeffectivecombination ofthesetwo
programscouldachieveacomprehensiveandefficientacquisitionofSinamicroblogdata.
[Keywords】Sinamicroblog;openplatform;API(ApplicationProgrammingInterface);real—timedatastream
息 ]。微博平 台媒介用户群体非常复杂 ,年龄跨度较大 ,
0 引言
职业遍布各行各业 ,因此基于微博数据的分析研究成
微博 (Microblog)作为 Web2.0时代新生 网络应用形 为 了十分值得关注的研究方 向。如何实现新浪微博数据
式 ,以其用户数量基数大、状态信息更新频繁、信息传 的全面高效获取,成为研究新浪微博的首要问题。文中
播迅速等特点 …,在近几年 中得到了迅猛 的发展 ,作为 提 出利用新浪微博 API与网络信道实时数据流解析的方
一 种新型传播媒体 ,已成为中国主要的传播媒介之一 。 案 ,以实现对海量微