您的位置:首页 >电信 >

万维网的语言挑战

去年10月,20岁的吉滕德·库马尔(Jitender Kumar)来自德里和哈里亚纳邦边境的卡帕谢拉,他买了一部红米Note 4手机和一个Airtel数据计划,这是他第一次接触互联网。他主要用印地语和拉丁语写作,因为用德瓦纳加里语写作“耗时太长”,而且他经常被不认识的英语单词绊倒。

“Pehli baar meri键盘速度nahin Thi。Ek shabd mein paanch分钟我likh paaya tha(第一次,我的键盘速度很慢。我花了五分钟写了一个字),“他说。

然而,这并没有阻止库马尔。它也没有阻止全国各地的其他人更喜欢他们的主要语言而不是英语进行交流。根据谷歌-毕马威的一份报告,受智能手机和数据价格大幅下降的刺激,印度语用户群超过了英语用户群。报告补充说,未来几年,印度十分之九的新互联网用户将更喜欢印度语,占该国互联网用户群的四分之三。

在互联网领域,他们有一个术语--下一个十亿用户。

在一个互联网用户数量位居世界第二的国家,这些数字意义重大,因为互联网增长面临的最大挑战之一是虚假新闻的传播,对数据安全、隐私和信息操纵的担忧,以及仇恨言论的增长--这些言论有可能扰乱选举结果。马克·扎克伯格(Mark Zuckerberg)最近在美国参议院作证时承认了这些问题,并补充说,Facebook将尽最大努力保护印度选举的完整性。印度是其最大的消费者基地(超过2.4亿用户),选举越来越难以控制,语言也越来越坚韧不拔。

扎克伯格说:“你需要理解什么是诽谤……不仅仅是在英语中,脸书的大多数人都使用世界各地不同的语言。”他强调需要“当地语言支持”。

不到一周后,脸书宣布将与总部位于孟买的事实核查组织BoomLive合作,参加5月12日的卡纳塔克邦选举。BoomLive的创始人Govind Ethiraj说,BoomLive有一名卡纳达语演讲者,并计划再雇佣一名。

***

尽管剑桥分析丑闻迫使脸书承认一个多年来一直在敲门的问题,但印度政党表示,他们一直在关注地区语言的社交媒体。

国会社交媒体负责人迪维亚·斯潘达纳(Divya Spandana)表示,追踪在线错误信息“占用了她的大部分时间”。“(BoomLive)应该有当地语言能力,因为用当地语言传播假新闻很容易,”她补充道。“他们不读印地语,尤其是在南方。他们不怎么读英语。你去的农村越多,他们就越容易相信,因为他们的暴露水平更低。“

卡纳塔克邦国会数字主管Y B Srivatsa说:“许多假新闻都是用当地语言传播的--卡纳达语、泰米尔语、马拉地语等。”

BJp也表达了类似的担忧。“卡纳塔克邦的挑战将是语言,”卡纳塔克邦BJp青年联队的总书记Tesjasvi Surya说,他也在监督该党在即将到来的州选举中的数字通信。

然而,BJp负责信息和技术的阿米特·马尔维娅(Amit Malviya)警告说,假新闻措施可能会导致“秘密审查”。“虽然决定与谁合作是脸书的特权,”他说,“脸书的核心主张是什么?他们是一个表达的平台,一个内容商店还是一个自称的义务警员?…让人们意识到假新闻的想法将是一个更持久的解决方案。“

顺便说一句,不到一个月前,孟加拉警方以传播假新闻的罪名逮捕了一个名为PostCard.News的网站所有者马赫什·黑格德。Hegde与右翼印度教组织关系密切,有一名BJp领导人作为他的律师,据报道,这次有望获得BJp的入场券,并由BJp高级领导人为其辩护。

作为总理候选人,纳伦德拉·莫迪是印度第一批通过利用不会说英语的人口来有效利用社交媒体的政治领导人之一。他的竞选团队采用的创新之一是在推特上用不同的本土语言发送信息。

***

随着政党在互联网世界站稳脚跟,他们将继续面临虚假新闻和仇恨言论的难题。缺乏对印度语言和内容的支持与此有什么关系?

2016年,毕马威和谷歌发现,60%的印度语言互联网用户发现语言支持有限,主要是因为缺乏内容。根据印度互联网和移动协会(IAMAI)的一项研究,截至2016年,非英语印度语言的内容没有进入全球在线使用的前10种语言。事实上,印度语内容仅占0.1%。

IAMAI的研究结果还表明,如果内容以当地语言提供,农村市场近43%的非计算机用户和城市市场13.5%的非计算机用户可能会开始访问互联网。在另一项指标中,该公司表示,2015年印地语在线内容增长了近95%,而英语内容增长了19%。

伦敦国王学院(King's College of London)研究美国和印度背景下的在线内容消费和传播的研究员尼山思·萨斯特(Nishanth Sastry)指出,印度语言内容的缺乏使错误信息问题复杂化,因为用户往往更倾向于视频和多媒体分发,这更难监控。

FICCI印度语言互联网联盟(ILIA)的多纳·西希也注意到视听本地化的急剧增长。

然而,随着互联网生态系统将目光转向当地语言,内容可能会增长得更多更快。

“直到几年前,企业还认为非英语用户不是他们的目标受众,”Reverie Technologies的里什·库代尔(Rishi Kudale)表示。自2009年以来,Reverie Technologies一直在技术解决方案方面帮助企业和印度政府,并参与了BHIM等项目。但就在两年前,这个神话被打破了,他说。“企业现在知道他们根本不能忽视这一点。”

该公司的一份尚未发布的研究报告显示,印度20%多一点的非英语用户拥有一部售价超过11000卢比的智能手机,打破了关于这些语言缺乏市场的神话之一。KMPG-谷歌2017年的一份报告称,主要驱动力是印地语、马拉地语和孟加拉语,泰米尔语和卡纳达语显示出较高的互联网采用速度。他们的研究还发现,农村地区的人在数字新闻消费上花的时间比城市地区的人多。

即将发布的遐想报告进一步发现,超过三分之二的印度语使用者现在生活在人口不足110万的城镇;剩下的人中只有6%生活在超过600万人的地铁里。

库代尔说,在过去的两年里,随着企业意识到这一现实,出发点不是企业为什么必须进入非英语用户市场,而是如何进入非英语用户市场。虽然聊天和数字娱乐仍然占据主导地位,但社交媒体和数字新闻以及数字支付、在线政府服务和数字分类广告正在获得吸引力。

2015年,法里德·阿赫桑(Farid Ahsan)和其他人创建了一家名为ShareChat的印度本地语言社交网络公司,帮助新的互联网采用者发现内容和人。阿赫桑说,他们以算法和人类的适度来处理错误信息和仇恨言论。“我们更有能力应对这些挑战,因为我们从第一天起就专注于语言社区,”他说,并补充说,他们的适度首先是基于内容对社区的价值,然后是对公司的价值。

***

Sihi指出,内容生成还取决于自然语言处理的进步等因素。

谷歌翻译负责人巴拉克·图罗夫斯基(Barak Turovsky)表示,谷歌2000年代末的入门翻译技术人为地将句子分解为不超过五个单词,并分别翻译每个片段,导致了不自然的结果。到2016年,谷歌对此进行了改进,现在使用神经网络自动翻译。广义地说,这个过程包括算法识别翻译文件中的模式并应用这些发现。Turovsky说,去年印度人对谷歌翻译的使用增长了10倍。

标准化组织和政府实体也发挥了作用。印度信息交换标准代码编码的印度语言起源于婆罗门文字在20世纪80年代末。文字键盘的国家标准是1991年设计的。2016年,互联网名称与数字地址分配公司为印度语言开发了一个域名系统,去年,政府宣布在印度销售的智能手机将必须支持所有22种官方语言。

政府对印度语言技术的推动也来自于印度语言技术发展(TDIL),寻求语言标准化。该国也属于Unicode,这是一个为数字文本标准化语言字符的国际机构。

此外,一年前,FICCI的ILIA开始与利益相关者合作,使法规和技术标准化,并将印度语内容的增长货币化。

然而,随着用户数量的激增,一些简单的任务仍然不是用户友好的。例如,Kudale说,电子邮件地址仍然以英语为主。

但几乎所有的研究人员都同意仍然存在的主要障碍:数据,数据,数据。虽然像英语和德语这样的语言可以依靠几十年的数据收集,但大多数印度语言缺乏越来越依赖数据的语言技术所需的数据。“这是印度语言面临的最大挑战之一,”谷歌的Turovsky说。

谷歌印度公司的Gaurav Bhasker指出,虽然他公司的键盘GBoard可以使用300种语言,但他们面临着挑战,这些语言“我们内部的语言学家甚至都不熟悉”。

在印度建立当地语言技术的Santhosh Thottingal说,为印度脚本建立尤其困难。“它们有连字--由一个以上的字母融合而成的形状。有时元音符号与辅音相连。辅音会叠加、融合等等。“

脸书旗下的WhatsApp是印度主要的社交媒体来源,每月活跃用户约2亿,但它提出了另一系列问题。萨斯特里说,该平台对用户进行了加密,因此研究人员和事实核查人员更难跟踪错误信息的来源。

“人类的适度不会达到我们在社交媒体上看到的内容量,所以你确实需要人工智能的方法,”他说。“但任何人工智能都将是一些模式的粗略近似。人类是有创造力和创造力的。他们会想办法逃避的。“

***

随着科技玩家寻找解决方案,一些人表达了一种担忧,这种担忧在剑桥分析公司(Cambridge Analytica)之后变得越来越突出。印度信息技术研究所孟买研究员拉吉·阿杰瓦尼-拉姆钱达尼说,非英语用户潜在的数字素养缺乏加剧了数据隐私和安全问题。“这些人可能甚至没有反击的资源,”她说。“我们不知道我们的数据要去哪里,我们称自己为受过教育的英语用户。这些人怎么办?“

萨斯特里说,新阶段的互联网用户不仅缺乏浏览网络的数字素养,而且在成熟的网络中面临更陡峭的学习曲线。

Ajwani-Ramachandani还对仍然买不起产品的人口对产品的需求增加表示担忧,这可能会增加农民自杀等问题。她说,“片面”和“肤浅”的研究是由那些没有与他们正在研究的人呆过任何时间的人进行的,他们专注于不断增长的需求,“但不要认为这些人是否有能力支付费用。”

“我不是说他们不应该有选择和机会,”她说。“但从事IT工作的人的标准与坐在村子里的人非常不同。”

其他人提出了更基本的担忧,即负面情绪将如何在社交媒体上用地区语言进行抑制,研究表明,当表达同样的情绪时,人们往往会倾向于母语。微软的研究人员发现,印地语-英语双语者更喜欢印地语在推特上表达负面意见和脏话。“这很有趣,因为在这种情况下,如果你想到假新闻……那很可能是印地语的,”参与这项研究的莫诺伊特·乔杜里说。

大约五个月前,BoomLive报道了一段贩毒集团成员在一名男子活着的时候撕掉他内脏的视频,该视频在WhatsApp和脸书上流传。卡纳达语的标题是:“以爱圣战的名义,RSS的人撕裂了穆斯林兄弟的心。”Boom的反向图像搜索发现,这段视频甚至不是来自印度。

来自孟加拉鲁的萨斯特里说,他所在的州有许多方言,他自己也听不懂。他指出,仅仅让一些卡纳达语扬声器跟踪内容并不能涵盖所有方言和变体。

印度事实核查组织AltNews的编辑普拉蒂克·辛哈(pratik Sinha)承认,如果脸书在卡纳塔克邦选举中与他的组织而不是BoomLive联系在一起,他们就没有能力处理卡纳达的假新闻。“这个问题很严重,”他说。“AltNews和BoomLive无法应对所有的假新闻,尤其是涉及不同语言的新闻。”

相关推荐

猜你喜欢

特别关注