干货NLP领域中文vs英文有什么异同点中文NLP有什么

  原题目 :干货NLP领域中文vs英文有什么异同点,中文NLP有什么奇特 的处所 ?

  全球人工智能:专注为AI开发者提供全球最新AI技术动态和社群交流。用户来源包孕:北年夜 、清华、中科院、复旦、麻省理工、卡内基梅隆、斯坦福、哈佛、牛津、剑桥等世界名校的AI技术硕士、博士和教授;以及谷歌、腾讯、百度、脸谱、微软、华为、阿里、海康威视、滴滴、英伟达等全球名企的AI开发者和AI科学家。

  从实用文天职 析技术而言,如果只做主题聚类、文天职 类等任务的话,中英文最年夜 差别 就在于,中文需要做自动分词,相关对象 包已经许多 了,包孕题主提到的Jieba,还有哈工年夜 的LTP,北理工的ICTCLAS,还有我们组研制的THULAC。当然,在文天职 类时,到底是选词照样 Ngram作为特征,在SVM+BOW时代曾是个问题。进入到深度学习时代,就直接可以用基于字的神经网络模型了。

  从NLP研究角度而言,中英文在词性标注、句法剖析 等任务上颇有差别 。主要体现在英语有明显的屈折变更 (单复数、时态等)而汉语缺少这些屈折变更 ,亦即有学者总结的“汉语重义合,奇幻城官网,英语重形合”。所以,英语里一个词被标为动词照样 名词,没有太多争议;汉语里一个词应该被标为动词照样 名词,奇幻城娱乐平台,例如“热爱学习”、“劳动光彩 ”中的“学习”、“劳动”如果依照 英文语律例 范应当标注为名词。著名语言学家沈家煊先生就曾提出“汉语动词和名词不分立”的理论。在句法剖析 层面汉语也有一些自己的特点,具体需要请教专业的语言学家解答了。

  从更辽阔 的语言研究角度而言,我觉得中英由于各自承载了两种截然不合 的人类群体的文化信息,所以在更深层的文化内涵会有更明显的分野,例如两种语言的词汇联想网络、隐喻作风 等,可能会有更年夜 的不合 。也许在NLP技术日渐成熟之后,我们可以透过语言加倍 定量地剖析 两种不合 文化的差别 。在这方面我异常 感兴趣,期待更多专家指点交流。

  随同 着估值连续 走高,Uber吸引了越来越多的投资者。Uber在从一家轿车办事 公司成长为庞年夜 的物流公司的同时,与诸多敌手 及监管机构进行着抗争,并旨在未来拿下无人驾驶汽车行业。它随时面对着自出租车行业甚至来自公司自己司机的种种威胁。随同 着估值连续 走高,Uber吸引了越来越多的投资者。Uber在从一家轿车办事 公司成长为庞年夜 的物流公司的同时,与诸多敌手 及监管机构进行着抗争,并旨在未来拿下无人驾驶汽车行业。它随时面对着自出租车行业甚至来自公司自己司机的种种威胁。

  1. 中文是象形文字(logograms)——注:这句不严谨,现在年夜 多半 汉字都是形声字,一部分 component 提供语义,一部分 提供发音;这句话主要是想说提供语义的那些 components 和最初甲骨文许多 是象形。就像英语有一些前缀后缀词根一样,中文也有这样类似的语义相关的语素——偏旁部首。偏旁部首是两个不合 的器械 ,可以粗略地认为,部首(radical)是最主要的偏旁(components)。比如 年夜 家都知道,三点水的字多半 和河道 和水有关系等等。

  2. 所以很自然的一个想法就是像英文那些利用 subunits(前缀后缀词根)的研究工作一样,把中文的偏旁部首加进来提供额外的信息。

  3. 更猖狂 的一个想法是,像甲骨文时代一样,许多 字自己 的寄义 就是由多个偏旁的寄义 “组合”在一起的;而许多 词的寄义 又是由组成的单个字的寄义 拼接在一起的。

  Yanran Li, Wenjie Li, Fei Sun, and Sujian Li. Component-Enhanced Chinese Character Embeddings. Proceedings of EMNLP, 2015. [pdf] [bib]()是一个对照简单的工作,直接将 components 信息和字自己 拼接在一起,作为 Word2Vec 模型的输入。这个工作后来还被改进 到了许多 更庞杂 的模型,获得 了更好的一些结果[1][2]。同时,同期也有来自哈工年夜 的研究团队揭橥 了相似的研究结果 [3]。这里值得一提的一点是,我们做的照样 基于字级其余 建模,并不是基于词的。虽然中文分词几乎被认为是标配,然则 其实字级其余 建模对于许多 罕有 词等等照样 对照有赞助 的,这个在后来和一些公司的交流中发明 他们线上的一些模型也是字词结合的。然则 在做这个工作的进程 中,遇到了一些阻碍或者说可能未来继续的偏向 。一些也许也有意思的研究是:

  4. 英文里,character-level 的一些相关建模和研究,比如 character-level LM[4][5] 都表示 得效果不错。然则 其时 是觉得,英文的26个字母自己 是没有任何寄义 的,所以如果把中文“下降”到偏旁部首这种有语义寄义 的级别,应该效果会很不错。然而效果只是轻微得好。这其中受限于:(1) 偏旁部首在汉字演化中转变 异常 年夜 ,奇幻城,不仅是形态,还有寄义 。尽管我们在做工作进程 中进行了一些映射处置惩罚 ,但只是九牛一毫 吧;(2)中文有时候也有非象形字,比如 象声字,怎么识别和区分或者结合这两种字的建模也是个问题。

  5. 就像适才 说的,我们希望中文多个字结合出来的词,也是有语义的。然则 许多 时候俩字结合出来意思就和零丁 俩字完全不一 样了,这在英语里也对照少见。比如 “美丽”,自己 这俩字都是悦目 的意思,结合起来照样 悦目 的意思。然则 比如 “器械 ”,这俩字明明是俩方位词,结合在一起就酿成 一种笼统的物体了。这种词义结合后的转变,其实应该可以用一些 NLP 的技术识别出来,并做一些有意思的研究。这个是我暂时还没进行下去但对照有兴趣的偏向 。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.jltechan.com/ganhuo/699.html