在安装时不指定安装目录前提下 mysql 的数据库文件、配置文件和命令文件分别在不同的目录,了解这些目录非常重要,尤其对于Linux的初学者,因为 Linux本身的目录结构就比较复杂,如果搞不清楚MySQL的安装目录那就无从谈起深入学习。    下面就介绍一下这几个目录。    1、数据库目录    /var/lib/mysql/    2、配置文件    /usr/share/mysql(mysql.server命令及配置文件)    3、相关命令    /usr/bin(mysqladmin mysqldump等命令)    4、启动脚本    /etc/rc.d/init.d/(启动脚本 ...
2008-03-26

JTidy 协助抽取网页内容

关键字: jtidy
使用 JTidy 协助抽取网页内容Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内容抽取出来。使用 JTidy 抽取网页内容的代码如下:package com.tsinghua;import java.io.File;import java.io.Fi ...
Web 文本挖掘(TextMining)技术[日期:2007-01-04]来源:  作者:[字体:大 中 小] 文本挖掘的起源  文本数据库(web文档数据)  半结构化数据(semistructure data)  信息检索技术(information retrieval)  Web文本挖掘的过程   Web文本挖掘的一般处理过程     特征的建立   特征集的缩减   学习与知识模式的提取   知识模式   模式质量的评价   文档集  文本特征的建立   定义:文本特征指的是关于文本的元数据。  分类:    描述性特征:文本的名称、日期、大小、类型等。    语义性特征:文 ...
2008-03-21

CVS进行项目开发管理

关键字: cvs
使用CVS进行项目开发管理来源:本文出自:http://www.swm.com.cn 作者:张云帆 (2001-11-06 07:00:00)在多人共同开发一个大型项目时,源代码的维护和版本维护是一件令人头疼的事情,由于多人开发, 每个开发人员都拥有此项目的副本,所以如果要手动维护同一个文件多人的修改是十分困难的事情。 另外,可能你需要的项目的版本不是当前开发的最新的版本, 如果为了这个目的而为每一个版本 保留一个备份几乎是不可能的。Linux平台上提供了一个功能软件:CVS。众所周知,Linux的发展 得益于互联网的发展,大部分的软件都是众多开发者在互联网上共同开发的,这些软件的维 ...
2008-03-20

jar打包详解

关键字: java jar
先打开命令提示符(win2000或在运行框里执行cmd命令,win98为DOS提示符),输入jar Chelp,然后回车(如果你盘上已经有了jdk1.1或以上版本),看到什么:      用法:jar {ctxu}[vfm0Mi] [jar-文件] [manifest-文件] [-C 目录] 文件名 ...      选项:      -c 创建新的存档   -t 列出存档内容的列表   -x 展开存档中的命名的(或所有的〕文件   -u 更新已存在的存档   -v 生成详细输出到标准输出上   -f 指定存档文件名   -m 包含来自标明文件的标明信息   -0 只存储方式;未用zip压缩格 ...
2008-03-19

spring中配置二级缓存

关键字: spring hibernate ehcache
1.首先,在spring的hibernate配置里(我的是applicationContext-hibernate.xml) 加上如下属性:<bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean">            <property name="dataSource"> ...
2008-03-18

给Tomcat,Apache配置gzip压缩

关键字: 性能
[网站提速] - 给Tomcat,Apache配置gzip压缩(HTTP压缩)功能 背景:HTTP 压缩可以大大提高浏览网站的速度,它的原理是,在客户端请求网页后,从服务器端将网页文件压缩,再下载到客户端,由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ,它可以节省40%左右的流量。更为重要的是,它可以对动态生成的,包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩,压缩效率惊人一,对于Tomcat5.0以后的版本是支持对输出内容进行压缩的. 使用的是gzip压缩格 ...
2008-03-18

令我窒息的上海生活

关键字: 上海生活
令我窒息的上海生活 --晨星雨泪 早上还在梦中,被一阵阵闹铃吵醒,一看手机,早上七点二十五,一般我都是这时间很准时起床的,也许是感冒还没好的原因吧,翻个身居然又睡着了,还好我没关闹钟,十分钟后又闹了起来了,一看,不好七点三十五了, 被子一掀,赶紧穿好衣服,然后开始洗漱,不知道别人的习惯如何,反正我是有一习惯就是天天早上都要洗头,这习惯是从高中开始的,原因不说了,太丢人了,呵 呵。好了,得出门了,还好小区的北大门对面就有每天都要乘做的公交车。走出北大门有时我到左边买个饼吃,北方的,味道 不错,比起上海别的,那简直就是上等食品。边吃边等,由于好吃,一两分钟就可以解决早餐了。接下就是进地狱的开始 ...
2008-03-17

hibernate二级缓存攻略

关键字: hibernate
[高手教程]hibernate二级缓存攻略  发布时间:2006.04.27 01:18     来源:javajia    作者:很多人对二级缓存都不太了解,或者是有错误的认识,我一直想写一篇文章介绍一下hibernate的二级缓存的,今天终于忍不住了。 我的经验主要来自hibernate2.1版本,基本原理和3.0、3.1是一样的,请原谅我的顽固不化。 hibernate的session提供了一级缓存,每个session,对同一个id进行两次load,不会发送两条sql给数据库,但 ...
2008-03-12

反相代理的Web缓存

关键字: 缓存
基于反相代理的Web缓存加速——可缓存的CMS系统设计作者:车东 发表于:2003-06-06 17:06 最后更新于:2007-04-12 11:04版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。http://www.chedong.com/tech/cache.html 内容摘要:对于一个日访问量达到百万级的网站来说,速度很快就成为一个瓶颈。除了优化内容发布系统的应用本身外,如果能把不需要实时更新的动态页面的输出结果转化成静态网页来发布,速度上的提升效果将是显著的,因为一个动态页面的速度往往会比静态页面慢2-10倍,而静态网页的 ...
2008-03-12

JSP显示内容缓存技巧

关键字: 缓存
前段时间做自己社区的论坛,在jive的基础上做一个页面显示所有论坛的帖子,可以称之为总版,模仿Forum类的接口做个SuperForum并且实现Cachable,不过因为这个页面刷新量比较大,虽然被Cache了,我还是想办法进行页面的缓存,感觉用jsp产生的html静态内容当缓存,页面访问速度应该有所提高。   首先想到的一种办法,是采用java.net的URLConnection把服务器上的jsp抓过来做缓存,不过我觉得这样做太见外了,自己服务器上的东西,为何要用HTTP去访问.于是想另外一个办法,把jsp的out对象的输出控制到自己希望的地方.比如输出到静态文件,又或者保存成全局的字符串变 ...
在Web应用中,内容缓存是最普通的优化技术之一,并且能够很容易地实现。例如,可以使用一个自定义地JSP标签——我们将之命名为<jc: cache>——由<jc:cache>和</jc:cache>将每一个需要被缓存的页面片段封装起来。任何自定义标签 可以控制它所包含部分 (也即预先封装的页面片段)在何时执行,并且动态输出结果可以被捕获。<jc:cache>标签使得JSP容器(例如Tomcat)只生成内 容一次,作为应用程序范围内的JSP变量,来存储每一个缓存片段。每次JSP页面被执行时,自定义标签将 ...
2008-03-12

Web缓存加速

关键字: web缓存
基于反相代理的Web缓存加速——可缓存的CMS系统设计作者:车东 发表于:2003-06-06 17:06 最后更新于:2007-04-12 11:04版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。http://www.chedong.com/tech/cache.html 内容摘要:对于一个日访问量达到百万级的网站来说,速度很快就成为一个瓶颈。除了优化内容发布系统的应用本身外,如果能把不需要实时更新的动态页面的输出结果转化成静态网页来发布,速度上的提升效果将是显著的,因为一个动态页面的速度往往会比静态页面慢2-10倍,而静态网页的 ...
2008-03-12

HOWTO CVS Server

关键字: cvs
Contents[hide]1 Introduction 2 Installation 2.1 Create a CVS Jailroot 2.2 Add Users 2.3 Apply Correct Permissions 3 Quick local test 3.1 Common method 3.2 Import/Checkout something 4 Tips and Tricks 5 Finally 6 Potential Errors 7 SSH Mode 7.1 Access on a local server 7.2 Access through a gateway 8 C ...
2008-03-12

vi命令一览表

关键字: linux vi
文本编辑器是所有计算机系统中最常用的一种工具。UNIX下的编辑器有ex,sed和vi等,其中,使用最为广泛的是vi,而vi命令繁多,论坛里好像这方面的总结不多,以下稍做总结,以资共享!渴望更正和补充!  进入vi的命令 vi filename :打开或新建文件,并将光标置于第一行首 vi +n filename :打开文件,并将光标置于第n行首 vi + filename :打开文件,并将光标置于最后一行首 vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处 vi -r filename :在上次正用vi编辑时发生系统崩溃,恢复file ...
系统QUOTE:# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# lsusb -tv # 列出所有USB设备# lsmod # 列出加载的内核模块# env # 查看环境变量资源QUOTE:# free -m # 查看内存使用量和交换区使用量# df -h # 查看各分区使用情况# du -sh <目录名> # 查看指定目录的大小# grep MemTotal /pr ...
昨天部署一个 web 应用,出现一个奇异问题. 启动Tomcat 发现 web 应用也正常启动了,不过紧跟着就 close 了,真是郁闷.其Tomcat 日志如下(只列出一部分): 引用引用信息: CGLIB2 available: proxyTargetClass feature enabled 2008-3-11 10:51:42 org.springframework.web.context.ContextLoader initWebApplicationContext 信息: Using context class [org.springframework.web.context ...
数学之美 系列十 有限状态机和地址识别2006年7月5日 上午 09:09:00发表者:吴军,Google 研究员 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如,在上图中,当前的状态是“省”,如果遇到一个词组和(区)县名有关,我们就进入状态“区县&r ...
数学之美 系列九 -- 如何确定网页和查询的相关性2006年6月27日 上午 09:53:00发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网 ...
数学之美 系列八-- 贾里尼克的故事和现代语言处理2006年6月8日 上午 09:15:00发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的犹太家庭。他的父母原本打算送他去英国的公学(私立学校)读书。为了教他德语,还专门请的一位德国的家庭女教师,但是第二次世 ...
数学之美 系列七 -- 信息论在信息处理中的应用2006年5月25日 上午 07:56:00发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型的人来讲,既不直接、又不方便,而且很难从错误率反过 ...
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)2006年5月15日 上午 07:15:00发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来搜索一下“离散数学”这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣的城市。]我们上回谈到了如何建立搜 ...
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引2006年5月10日 上午 09:10:00发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出布尔运算的框框。布尔 ...
数学之美系列 4 -- 怎样度量信息?2006年4月26日 上午 08:11:00发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是 ...
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统:其中 ...
数学之美 系列二 -- 谈谈中文分词 2006年4月10日 上午 08:10:00 发表者: 吴军, Google 研究员 谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。 最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。 用 “查字典 ...
数学之美 系列一 -- 统计语言模型 2006年4月3日 上午 08:15:00 从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。 发表者: 吴军, Google 研究员 前言 也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。 系列一: 统计语言模型 ...
晨星★~雨泪
搜索本博客
最近加入圈子
存档
最新评论