Python数据整理
上QQ阅读APP看书,第一时间看更新

活动2:分析多行字符串并生成唯一单词数量

为了确保你已理解了各种基本数据结构及其操作,我们专门设计了一个活动。

在本次活动中,我们将完成以下工作:

·获取多行文本并将其保存在Python变量中;

·使用字符串方法删除其中所有的换行;

·从字符串中获取所有唯一单词及其出现情况;

·重复这个步骤,寻找所有唯一单词及其在不考虑大小写条件下的出现情况。

说明

为简化活动,已对原始文本(来自于https://www.gutenberg.org/files/1342/1342-h/1342-h.htm)进行了一些预处理。

以下是引导你实施这个活动的步骤:

1.通过复制Pride and Prejudice第1章的文本,创建变量multiline_text。

说明

简·奥斯汀的Pride and Prejudice第1章已经在GitHub库发布,网址是https://github.com/TrainingByPackt/Data-Wrangling-withPython/blob/master/Chapter01/Activity02/

2.使用命令type和len查找字符串multiline_text的类型和长度。

3.使用replace函数删除所有换行和符号。

4.使用split函数拆分multiline_text中的所有单词。

5.从这个列表中创建一个只包含唯一单词的列表。

6.使用字典中的键和值计算唯一单词在列表中出现的次数。

7.使用slice函数从唯一单词中找出前25个单词。

你刚刚使用本章学到的所有技巧逐步地创建了一个唯一单词计数器。

说明

此活动的实施步骤可在附录中找到。