上QQ阅读APP看书,第一时间看更新
活动2:分析多行字符串并生成唯一单词数量
为了确保你已理解了各种基本数据结构及其操作,我们专门设计了一个活动。
在本次活动中,我们将完成以下工作:
·获取多行文本并将其保存在Python变量中;
·使用字符串方法删除其中所有的换行;
·从字符串中获取所有唯一单词及其出现情况;
·重复这个步骤,寻找所有唯一单词及其在不考虑大小写条件下的出现情况。
说明
为简化活动,已对原始文本(来自于https://www.gutenberg.org/files/1342/1342-h/1342-h.htm)进行了一些预处理。
以下是引导你实施这个活动的步骤:
1.通过复制Pride and Prejudice第1章的文本,创建变量multiline_text。
说明
简·奥斯汀的Pride and Prejudice第1章已经在GitHub库发布,网址是https://github.com/TrainingByPackt/Data-Wrangling-withPython/blob/master/Chapter01/Activity02/。
2.使用命令type和len查找字符串multiline_text的类型和长度。
3.使用replace函数删除所有换行和符号。
4.使用split函数拆分multiline_text中的所有单词。
5.从这个列表中创建一个只包含唯一单词的列表。
6.使用字典中的键和值计算唯一单词在列表中出现的次数。
7.使用slice函数从唯一单词中找出前25个单词。
你刚刚使用本章学到的所有技巧逐步地创建了一个唯一单词计数器。
说明
此活动的实施步骤可在附录中找到。