Python数据分析入门与实战
上QQ阅读APP看书,第一时间看更新

1.2 数据的类别与变化

数据类别又是一个新的概念,无论是否对数据进行处理分析,分类都是认知数据的基本方法。通过对事物进行分类,能够根据每种特征快速识别每个具体事物,从而得知哪些是有用的,在使用的过程中要注意哪些方面。分类后, 根据类别进行深度研究也是用户日常进行研究时的重要方法。分类是数据分析和挖掘的基本方法之一。

综合近几年数据分析行业的认知发展规律,可以得出如下一些结论。图像识别、分析与挖掘的相关技术虽然在最近一段时间的发展速度很快,普及也非常迅速,但仍然局限于某些领域,如生物识别技术、车牌号码识别技术等,这些其实都是在有非常大的市场需求时才逐渐发展起来的。而大数据的图片信息挖掘技术才刚刚起步,音频识别、视频识别技术也在慢慢发展之中,与数值型数据处理能力相比,还有不小的差距。相信在不久的未来,各种存储格式的数据都能得到更好地利用。而从现在开始存储相关的数据,为以后的数据处理技术做准备,是一份非常有前途的工作,在这里提醒有关企业可以投入这样的工作。

目前大多数数据库存储的都是结构化数据,自从SQL(Structured Query Language)诞生以来,表状的结构化数据已经成为信息技术记录数据的标准,最常用的是开源数据库管理系统MySQL。相对而言,如果行和列的数量不固定,那么这样的数据就不能用二维数据表来进行存储,通常统称为非结构化数据。常见的非结构化数据包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等。部分非结构化的数据可以通过多表关联的方法进行结构化改造。例如,微博数据可以通过一定的形式进行结构化处理,从而能够使用结构化查询语言即SQL来进行处理。

在处理非结构化数据的过程中,最核心的方法就是对数据进行分类,即按照数据的行为(或者属性主体)将数据分为静态数据和动态数据,然后分别进行结构化处理。对于静态数据,要采用单独的表格来记录事物的属性和要素。动态数据也建成单独的表格并与静态数据进行关联,从而构成了动静结合的数据表集。将非结构化数据结构化处理的方法是:通过多表关联,让静态数据也单独成表,动态数据单独成表并能够动态更新数据条目,简称“静动分离,动静结合”。客户的动态数据对企业更有价值,因为静态数据记录了客户的基本信息,而针对该客户的动态数据才能让用户对客户有更加深刻的理解。动态数据是指实时数据,如交易数据用于生成用户画像。“静动分离,动静结合”的数据处理方式在对非结构化数据进行结构化处理方面发挥着巨大的作用,让数据处理更加有效。将数据结构化处理后,计算机进行增加、删除、修改和查询等各种运算时效率都会得到大幅度提升。