CS224n Assignment1 通过svd实现词向量的生成 问题1.1:实现distinct_words编写一个方法计算语料库中出现的不同单词:把语料库中的每个词存入列表中,再把列表转为集合,就去除了重复的词,集合的长度就是不同单词的数量。12corpus_words=[word for sentence in corpus for word in sentence]corpus_words=sorted(set(corpus 2025-12-23 计算机科学 > 自然语言处理 #NLP #CS224n #词向量 #Python
CS224n 学习笔记 (一):词向量 核心思想 分布式假设:同境词义近。 词嵌入:将离散符号转化为高维连续向量,解决One-hot 的稀疏性与维度灾难。 语言是促进人类发展的重要工具,我们希望计算机也能理解人类的语言。同时,每个词的意思是在具体的语境中体现的,一个词语可能也有不同的意思,所以我们希望计算机也能理解这一点。显然不能采用孤立的符号(one-hot编码)来表示单词,因为体现不出相似性且维度较大,所以使用紧凑的词向量(wo 2025-12-22 计算机科学 > 自然语言处理 #NLP #CS224n #词向量 #Python