ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

开源搜索引擎国产化替代,Transwarp Scope助力企业打造自主可控搜索平台

时间:2022-12-13 11:20:46来源:互联网编辑:茹茹

开源搜索引擎国产化替代势在必行

科技自立自强是时代发展的迫切需要和必然选择。二十大报告强调,“集聚力量进行原创性引领科技攻关,坚决打赢关键核心技术攻坚战”。从中兴等一系列高新技企业被制裁,到今年俄乌冲突发生后,多家科技公司宣布暂停在俄罗斯的所有业务,包括芯片、软件、云服务等断供事件,都在警示我们要摆脱被科技制裁风险的唯一出路就是要自主研发,实现真正的自主可控。

1、开源协议变更带来商业风险

Elasticsearch是一款开源搜索引擎,凭借着先发优势和早期的积累,被用于多种检索类业务场景,并占据了一定的市场。2021年初, Elastic公司决定将这款开源软件的 Apache License 2.0 变更为双授权许可,即Server Side Public License (SSPL) 和 Elastic License。其核心条款是“如果将程序的功能或修改后的版本作为服务提供给第三方,那么必须免费公开提供服务源代码”。这意味着不法分子可以获得其源代码并研究其漏洞,给企业用户带来巨大的安全风险。

2、开源软件存在“被制裁”风险

Apache 软件基金会和GitHub官网都有公开说明,产品和技术受到美国的出口法律和法规限制。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。受美国出口管制的俄罗斯在近期俄乌事件中将这方面风险彻底暴露。

3、安全工具出口和漏洞分享禁令政策陆续出台

2021年美国商务部和安全局发布最新控制措施,禁止美国公司向中国和俄罗斯等“有问题”的国家出口和转售网络安全产品。

今年6月份,美国商务部和安全局又发布了一项针对网络安全领域的出口管制规定,未经审批禁止向中国分享安全漏洞。简单的说,就是美国实体与中国政府相关的组织和个人合作时,如果发现潜在安全漏洞和信息,不能直接公布,要先经过美国商务部审核。这意味着如果继续使用国外软件,那安全问题将掌握在别人手里。

Elasticsearch数据泄露事件频发,安全能力不足

1、Elasticsearch数据泄露事件频发

在过去几年内,Elasticsearch 数据泄露事件频发,甚至一个月被曝6次数据泄露。

去年,受美国出口管制的巴林,暴露的Elasticsearch集群中近200万条信息被泄露,包含有关人员的敏感信息。

而作为美国出口管制重点对象的俄罗斯,近几年发生多起Elasticsearch数据泄露事件。

* 2019年,2000万条个人信息和税务记录在网上曝光,任何拥有网络浏览器的人都可以访问;

* 2021年底,Elasticsearch服务器再次发生数据泄露,超过8.7亿条记录或147GB个人信息数据在网上曝光;

* 2022年6月,俄罗斯金融领域也发生了一起骇人的数据泄露事件,130GB的数据集包含俄罗斯人的付款,发票和其他财务敏感信息,甚至包括政府方面的日志数据;

在国内,今年某漫画阅读平台也遭遇数据泄露,黑客从不安全的Elasticsearch数据库中窃取了2300万用户帐户敏感信息。

此外,根据Group-IB报告显示,2021年网络上暴露的 Elasticsearch 实例超过10万个,约占2021年暴露数据库总数的30%。

2、数据保护能力不足

Elasticsearch 开源版本是不具备数据保护功能的,看似免费,但不安全。用户必须付费获得Gold+许可才能获得相关的安全保护功能,且不同的安全功能对应不同的收费标准。

3、数据有丢失风险

为了满足数据入库性能要求,Elasticsearch在数据层采用了简单的主从最终一致性模型。当主副本出现故障时,从副本和主副本不能保证数据的强一致性,从副本的数据有可能不是最新的。以此为基础恢复数据,很有可能导致部分数据丢失。

星环科技自主研发的国产搜索引擎Transwarp Scope

Transwarp Scope是星环科技自主研发的企业级分布式搜索引擎,提供PB级海量数据的交互式多维检索分析服务,支持百万级高并发和毫秒级低延时检索业务,覆盖模糊匹配,精确查询,多维检索等各类检索类场景,满足数据检索多样化需求。

* 海量日志存储与检索 Scope在数据存储做了多层优化,轻松满足海量检索数据的存储,支持大规模数据的入库,而且架构稳定,数据提供一致性和多副本容灾。此外,底层的搜索模块通过分区,索引排序等各类优化手段,满足大体量数据的快速精确检索,实现毫秒级检索和读写互不影响,非常适合电信、安全、能源等领域的检索需求。

* 一站式检索平台Scope支持结构化/半结构化/非结构化小对象数据的分级存储与毫秒级检索响应,提供完备的分区优化机制和高并发检索能力。一站化服务使得业务无需通过不同数据库产品的组合来实现复杂检索场景,一套产品满足多类需求。高并发非结构化数据灵活检索等业务均可通过Scope满足。

1、国产自研搜索引擎,自主可控

Transwarp Scope通过了工信部源代码扫描测试,并于2019年上榜由信息技术应用创新工作委员会编制的国产软硬件技术图谱。

2、国产软硬件适配

Scope已完成与主流信创生态厂商的适配互认工作,支持适配长城飞腾、华为泰山、龙芯等服务器架构,同时满足麒麟,UOS等操作系统,满足信创要求和国产化替换需求。

3、兼容Elasticsearch接口,多生态兼容,实现低成本平滑迁移

Transwarp Scope兼容常用Elasticsearch的接口,可实现Elasticsearch业务的平滑迁移。星环科技提供多种数据迁移方案,用户可根据实际情况灵活选择。经过大量项目的实践和经验,星环科技建立了成熟标准的Elasticsearch平滑迁移方法论,通过调研评估、方案测试和上线保障“三步”策略,全程保障数据与业务的平滑迁移。

除了兼容以上Elasticsearch接口,Scope还兼容PostgreSQL协议以及Spark等大数据产品的接入。同时,Scope还提供完备的SQL语法支持,满足传统数据库迁移到Scope的需求,通过星环科技SQL编译器QUARK实现大数据基础平台TDH内部的完整数据流转方案。

ROI、扩展性、稳定性、安全性、数据读写/恢复/一致性等全面超越开源搜索引擎

1、硬件和运维成本

Elasticsearch单节点支持的数据量最多到20TB左右,在项目实践中客户通常在每台服务器上部署多个Elasticsearch实例,而如此多的实例将会带来不稳定问题,触发节点失联,运维成本高。反之,如果每台服务器配置较少容量的磁盘,那么用户将付出非常高的硬件成本。而当节点数超过100时,同样会有稳定性问题。

这两类方案,运维成本和硬件成本变成了鱼和熊掌不可兼得,让用户陷入两难的境地。

星环科技Transwarp Scope对内存进行创新优化,提高单集群单节点容量上限,单实例可突破至百TB的数据存储,是Elasticsearch的5倍以上,大大降低用户硬件成本。

在提高单实例存储容量,降低集群规模的同时,Scope通过多进程架构,充分利用集群cpu/内存资源,读写压力分流,满足更高的并发需求,提高集群稳定性的同时降低运维成本。

2、集群扩展性

Elasticsearch在集群扩展上存在瓶颈,其采用的P2P架构和排队模型处理一些状态同步和元数据改变等操作时,效率比较低。在项目实践中,当节点(或实例)规模超过100个时,会遇到稳定性问题,特别是多种任务并发的情景下,集群压力大,容易触发节点接连失联的问题。

星环科技Transwarp Scope采用多进程架构,充分利用集群cpu/内存资源,读写压力分流,满足更高的并发需求以及提升稳定性,单集群在200以上节点规模下稳定运行,同时保障性能无衰减。

3、全方位数据安全保障

Transwarp Scope内置配套的安全授权、用户权限控制等相关安全功能,可以有效保障系统数据和访问上的安全。

在用户权限认证上,基于SASL提供plain与gssapi两种认证方式,对应传统的用户名密码认证方式和基于Kerberos的登录验证方式。其中kerberos可依赖于TDH平台的安全服务Guardian,同时提供用户组概念,便于通过平台实现统一管理与操作。

在数据权限上,基于角色的访问控制(RBAC) 机制,使用户能够通过将权限分配给角色并将角色分配给用户或组来授权用户,支持Index level Security &Database level Security。

在数据加密上,Scope支持基于SSL/TLS两类协议进行数据加密,确保数据传输过程的安全。

4、数据读写性能

Elasticsearch在数据读写性能方面存在不足,如压缩率不足,数据膨胀率高,读写策略优化不足等都大大降低了数据读写的效率。数据读写性能受限,直接影响查询操作的并发度和数据入仓的效率。

星环科技Transwarp Scope对读写线程资源的管理更严格、更精细,使读写性能更优,数据批量写入速度相对Elasticsearch提升40%,读写分离的特性大幅提升查询的稳定性。

5、数据恢复性能

Elasticsearch缺乏“增量数据”的概念,当单点发生故障进行数据恢复时,采用全量数据拷贝方式恢复数据,工作量大,往往需要小时级的时间才能恢复服务,严重影响服务的正常进行。星环科技Transwarp Scope具有很强的容灾和数据恢复能力。Scope基于Raft协议保证数据的一致性,同时提供多副本支持,重启恢复时间在TB级数据量下控制在分钟级,不到Elasticsearch的1/10,大幅降低了服务不可用时间。

此外,Scope支持跨数据中心的多活部署,使得重要业务在多数据中心交互和流转,还支持主备集群的实时数据同步,满足主备集群的failover和switchover。

6、数据一致性

Elasticsearch主本和副本之间同步采用P2P架构和排队模型实现主从最终一致性。当主副本出现故障时,从副本和主副本不能保证数据的强一致性,很有可能导致部分数据丢失。

Transwarp Scope基于自主研发的分布式数据库管理系统TDDMS,采用shared-nothing架构,通过多副本机制实现数据服务高可用,使用raft协议保证副本之间的数据一致性,保障数据不丢失。此外,TDDMS支持弹性扩缩容、自动故障恢复、权限控制、多租户与冷热数据分层存储等功能。

7、售后服务

Elasticsearch是开源产品,用户需自己探索和解决问题,无法获取有效的服务保障。用户需要购买企业版才能获得相应的服务,且在国内没有原厂技术研发人员,很难保障SLA。Transwarp Scope的产品提供方星环科技是国内厂商,具有非常强大的研发、技术支持与服务能力,提供强大的原厂服务保障能力,保障用户售后无忧。

星环科技Transwarp Scope助力某政府单位平滑替换Elasticsearch

1、客户挑战

某政府单位原先使用开源Elasticsearch,随着内部系统数据量的高速增长,总数据量超几十PB,单张表达百亿条级别,在不断扩容下节点数达Elasticsearch上限,稳定性经常出现问题,同时当集群出现问题时,Elasticsearch重启需要小时级别,集群恢复速度慢。在性能问题方面,读写资源无法隔离,拖累查询性能,系统设计为读写两套集群。

2、解决方案

基于星环科技大数据基础平台TDH构建大规模数据综合搜索平台,Slipstream做实时数据引擎,清洗分析并入库到Hyperbase与Scope的综合搜索库中,提供基于几十PB数据量的快速查询和搜索能力,集群规模达200个节点。

3、项目成果

融合人、地、物、事、组织与视频/图片等因素,通过星环TDH构建一站式搜索平台,实现了PB级数据统一存储、检索满足海量数据毫秒级响应,高并发、快速统计、字段精确与模糊查询等复杂组合场景,指定条件查询1s内返回并支持上千并发,并通过单节点存储容量比开源高5倍的优势,降低了客户硬件投资成本。

更多热门内容
贝壳董事会主席拟捐赠股票投入居住领域并长期运营
4月17日,贝壳最新公告显示,贝壳董事会主席、首席执行官及控股股东彭永东拟捐赠9,000,000股A类贝壳普通股。在承担相应的纳税义务后,此次捐赠股票将50%税后资金用于居住行业服务者及其家庭成员的医疗健康福利、50%税后资金用于应届毕业生等租客群体的租房帮扶。据悉,

2025-04-17

心所想AI所向,2025凯度品牌日暨春季新品发布会盛大举行
面对厨电行业智能化、品质化升级趋势。4月16日,凯度成功举办了以“心所想·AI所向”为主题的2025凯度品牌日暨春季新品发布会。凯度CEO柯漫、董事长傅平及明星生活家王真儿依次登场,通过理念分享、技术解读、场景演绎,全面诠释“高端新厨电”;重磅推出首个AI数字生命体“

2025-04-17

FF为股民而战:五大举措启动“非法做空阻击战”,打赢梦想实现战
4月17日,Faraday Future(简称“FF”)今日宣布,为捍卫股东价值与信心,公司正式启动五大核心举措,标志着“梦想实现战之潜在非法做空反击战”的正式打响。在公司昨日提交Form D文件后,市场上迅速传播出一系列谣言——包括错误声称Form D表明高管正在出售股份;股价跌破

2025-04-17

Mureka火爆海外,今日正式开放国内登陆入口和API
2024年4月,昆仑万维发布了第一代音乐生成模型Mureka V1(SkyMusic)。2024年8月14日,昆仑万维推出AI音乐商用创作平台Mureka。2025年3月26日,正式发布Mureka O1模型与Mureka V6模型。自Mureka上线以来,在海内外获得了非常好的市场反响,成为全球AI音乐界现象级产品。

2025-04-16

问界M8正式发布:车载小艺一路聊,随时随地问问小艺
4月16日,家庭智慧旗舰SUV鸿蒙智行问界M8正式发布上市,据悉其搭载的鸿蒙座舱重塑家庭出行交互新范式,车载智慧助手小艺能力再升级,展现出卓越的语音交互能力,有问题随时随地都可以问问小艺。全新的小艺搜歌功能,仅需告诉小艺歌词与背景信息,即可“搜”听到想听的歌

2025-04-16

掘金AI千亿赛道 金山云获战略股东持续增持
2025年4月16日,金山云(NASDAQ:KC,HKEX:3896)宣布,将公开发行18,500,000股美国存托股(ADS),每ADS代表该公司15股普通股。同时,金山云还授予ADS承销商购买额外美国存托股的30天选择权。并且,为了方便港美股两地投资者认购,投资者可以选择在此次发行中以普通股代替AD

2025-04-16

昂瑞微客户到底是谁,招股说明书闪烁其词
2025年3月28日,北京昂瑞微电子技术股份有限公司(下称“昂瑞微”)科创板IPO申请获受理,成为今年首家未盈利企业申报案例。作为射频前端芯片领域的“国产替代先锋”之一,昂瑞微凭借20.67亿元募资计划、50.88%的营收复合增长率引发市场关注。然而,对于其招股书中客户信

2025-04-16

昂瑞微靠低端产品增收,5G增长乏力,上市之路能走多远?
3月28日,北京昂瑞微电子技术股份有限公司(以下简称“昂瑞微”)向上交所递交IPO申请。作为主营射频前端芯片、射频SoC芯片的集成电路设计企业,其招股书披露的财务数据看似亮眼:2022-2024年累计营收47.19亿元,复合增长率达50.88%。但穿透数据表象可见,公司增长动能过

2025-04-16

小刀电动车怎么样?以科技、美学重构时尚标杆,三登“Ray时尚”TOP榜
凭借卓越的综合实力与对市场需求的精准洞察,近日,小刀电动车产品再次登上“Ray时尚”电动自行车TOP榜,以及“Ray时尚”可持续时尚企业。这是小刀电动车连续三年(2023-2025年)斩获殊荣。这一成就不仅体现了其产品在设计、性能、品质上的持续突破,更印证了品牌“科技

2025-04-15

京东新品成长“百千亿”计划:2025年将打造600款销售亿级新品
4月15日,2025京东新品年度盛典在北京举行,正式推出京东新品成长“百千亿”计划,即在2025年加码百亿流量和百亿资金,并围绕营销能力与数字能力全面升级,实现60000款新品年销售破百万、6000款新品年销售破千万、600款新品年销售破亿。在此次盛典活动上,京东宣布“京

2025-04-15