|
见习战士

|
1#
中
小 发表于 2008-7-24 09:16 只看该作者
完美解决Discuz 论坛大数据量的全文检索问题
使用Discuz的朋友一定有这样的经历, 那就是在数据量达到一定规模时(100W以上),检索速度往往力不从心;mysqld-nt.exe这个进程占用CPU资源很大 ,经常在50以上;多人同时请求,会导致系统的瓶颈,甚至宕机。使用本身PHP LIKE MYSQL的效率实在不敢恭维;然而Discuz本身就加入了QIHOO搜索来解决这些问题,大多数用户对搜索的结果也不是很满意,靠QIHOO收录大约也得需要2-6小时,关键是自己辛苦建站流量却成QIHOO的。很多朋友希望有一个完美的解决方案,但是事实的真相是残酷的,这个完美的方案可能让你绞尽脑汁还是两手空空。
今天我给大家带来的引擎构建于J2EE平台,继承了它跨平台和安全的特性,内置的中文语言处理引擎支持从抓取的数据中自动提取关键字与自动生成摘要、采用增量采集方式,对于已经采集过的数据不会重复抓取,通过后台的配置,可以自动对于已经变动过的数据内容进行再次抓取,这并不需要太多的人工干预。然后建立系统独立的索引供用户检索;下面是我们单台服务器检索性能
服务器配置:
主要参数 | 最低配置 | 推荐配置 | CPU
| P4 2.0
| P4 2.8(双核)
| 内存 | 512M
| 1G
| 硬盘 | 80G
| 146G(SCSI)
| 性能:
主要参数 | 详细要求 | 支持最大数据量
| 支持量≥500万
| 平均查询响应时间 | ≤0.5秒
| 每天抓取数据能力 | ≥50万
| 数据更新间隔时间 | 5分钟(可以在后台配置对网站提高更新频率)
| 可负载访问搜索量 | ≥100万PV/日
| 并发数量 | ≥100
| 页面平均加载时间 | ≤2秒
|
以下是我配置的网上流传的18G电子书 Discuz论坛 相关截图:

数据库连接信息

更新频率及启动爬虫

前台展示结果
说明:本系统支持任何百万级数据以上的系统,支持常规的mysql mssql oracle db2 postgresql sybase 等常规数据库。
并提供 .net php jsp等开发接口。
技术交流QQ:[url=tencent://message/?uin=493643530&Site=全文检索&Menu=yes]493643530[/url] 电话:010-82896088转8891 http://www.xd-tech.com.cn
|