计算机科学与技术学院 毕业设计(论文) 论文题目 基于RDF三元组的微博数据格式化存储方法 指导教师 职 称 博士讲师 学生姓名 学 号 专 业 网络工程 班 级 系 主 任 院 长 起止时间 2013年10月11日至2014年5月23日 2014年5月23日
目 录
摘要 i
Abstract ii
引言 1
第一章 微博数据获取 2
1.1 新浪微博开放平台 2
1.1.1 简介 2
1.2 微博数据获取 2
1.2.1 微博数据获取流程图 2
1.2.2 应用的创建 3
1.2.3 下载软件开发包(SDK) 4
1.2.4 获取微博数据 5
1.3 本章小结 9
第二章 微博数据转换 10
2.1 微博数据分析 10
2.2 微博数据转换 11
2.2.1 RDF简介 11
2.2.2 微博数据转换的实现 12
2.3 本章小结 20
第三章 微博RDF数据的存储及查询 21
3.1 Openlink Virtuoso数据库 21
3.1.1 Virtuoso数据库简介 21
3.1.2 Virtuoso数据库的安装及使用 21
3.2 微博RDF数据的存储 22
3.3 微博RDF数据的查询 23
3.3.1 SPARQL查询语言简介 23
3.3.2 微博数据查询 23
3.4 本章小结 29
第四章 总结与展望 30
4.1 总结 30
4.2 展望 30
参考文献 31
谢辞 33
附录 34
摘要:语义网为Web上日益增长的大数据提供了有效的智能化处理手段,它使用资源描述框架(Resource Description Framework,RDF)来描述网络数据。本文通过对新浪微博上较为杂乱的微博数据进行分析,根据RDF三元组规则,为其中所需有用信息数据添加语义,并以XML为语法,编写算法将其转换为RDF文件;此外,研究了RDF 数据库Virtuoso的使用方法,并将微博的RDF数据导入Virtuoso,使用SPARQL语言对其进行快速查询和验证。总之,本文为微博数据的语义转换提供了借鉴,对于提高网络资源的检索效率具有重要意义。
RDF-Formatted Data Storage Method for Weibo
Abstract: Semantic Web provides an effective measure of intelligent processing for the growing big data on the Web,which uses the Resource Description Framework(RDF) to description the network data.This article through to make an analysis of the messy Weibo’s data,and to add semantics for the needed and useful data by the rules of RDF triples, then, write algorithms to convert it to RDF file by the grammar of the XML, in addition, studied the use of RDF database Virtuoso and import the RDF file of Weibo’s data into Virtuoso,using SPARQL language for its fast query and validated. All in all, this article provides reference for the Weibo data semantic conversion, and has great significance for improvig the retrieval efficiency of the network resources.
Key words:data, RDF, triples, storage
引 言