信息提取技术
这几天在研究信息提取技术,包括链接分析,链接标题提取,网页主体内容识别,网页主体图片提取,内容相似度分析等算法。
有成果了逐一发上来。
波涛汹涌的江面,逆流而上的小船。
这几天在研究信息提取技术,包括链接分析,链接标题提取,网页主体内容识别,网页主体图片提取,内容相似度分析等算法。
有成果了逐一发上来。
想想现在的各种商务网站的支付流程,选择好商品, 点击支付,会跳转到一个支付页面,里面有各种银行, 还有支付宝等第三方支付, 如果选择银行,比如招行,会跳转到招行的页面, 在招行页面可以选择大众版/专业版, 我选择了专业版。会启动电脑上装好的招行专业版软件(启动比较慢), 然后我要去找到我的u盘(招行U盾),有时候要找半天。插入U盘, 输入专业版的密码。认证通过后(也比较慢),进入到支付窗口。 在支付窗口中输入身份证号和支付密码,(这里如果选择招行信用卡则是查询密码). 提交后,支付成功,返回到商务网站的页面.并收到招行支付短信提醒.
如果为了获得支付宝积分,选择第三方支付,那么还要登陆支付宝,也需要输入两次密码 登录密码和支付密码。如果没钱了,则需要再回到上面的银行流程给支付宝充值。 (为了安全我的支付宝密码比较复杂,没记住,使用keepass管理密码, 我需要打开keepass软件,登录进去,找到支付宝密码,支付宝密码不能拷贝粘贴,还需要逐个字母输进去)
如果中间突然发现使用的是firefox浏览器,悲剧了,还得切回ie浏览器重新执行操作。 整个过程经常在10分钟以上, 有时候没带招行U盾,或者在别人的机器上还要更长时间,或者根本没法支付. 大额支付为了安全也就忍了,小额的话浪费的时间就有点多了。
我设想的小额支付方式,应该用手机短信直接支付。 选购商品之后,价值如果不超过100元(用户可以选择其他额度),商家给手机发一条短信,用户回复同意,支付就成功了。
那么如何保证安全呢, 其实跟信用卡类似? 用户需要在开始的时候对手机号进行实名身份认证,当然不想认证也可以,不享受这个便利就行了. 每个月给用户发送对帐单,标明每次支付的时间和商品名称。 用户可以选择不承认某笔消费,这个时候运营商需要将这笔费用返还给用户。 用户如果没有提供合理证据,则这个号码和这个人增加不良信用记录,不良记录达到一定程度,这个号码不可进行支付。 不良记录更多的时候这个人都不可以进行这种支付。 信用记录还可以用来透支,信用越好,透支额度越大。
flipboard 是ipad上的一款阅读应用, 推出不到两个月,被誉为”ipad上的第一款杀手级的应用”, “传统媒体的未来等”.
他采用杂志的方式来展现twitter,facebook以及各种RSS内容,并通过一定的算法对信息进行重要性和相关性进行重新计算,
给用户提取更有价值的内容和更好的用户体验。flipboard的源码我们看不到,不过我们可以先看看一款类似的Web产品。
上周腾讯邮箱团队也推出了一款模仿的产品 QQReader ( http://reader.qq.com )。体验了一下,虽然还不是很成熟,
不过相信经过进一步的改进,体验会好很多。分析了一下QQReader的实现方式。
页面呈现逻辑完全在客户端实现, 事先根据文章的数量定义了N套模板.
var YS=
{
1:['tmp1_1'],
2:['tmp2_1'],
3:['tmp3_1'],
4:['tmp4_1','tmp4_2','tmp4_3'],
5:['tmp5_1','tmp5_2','tmp5_3','tmp5_4','tmp5_5','tmp5_6'],
6:['tmp6_1'],
7:['tmp7_1']
};
例如5篇文章时,根据文章的id取模,假如取模为3,最终的模板就是tmp5_3
对于每种模板定义了具体的模板源码(还跟文章类型有点关系)和css
aVJ=ar.TE([
'
',
'
',
'$@$for($articles$)$@$',
'
',
'
',
'
',
'$title$',
'
',
'
',
'$@$if($feed.title$)$@$ 来自:$feed.title$$@$endif$@$',
'$@$if($comments.total$>0)$@$ | $comments.total$条评论$@$endif$@$ ',
'
',
'$@$if($images.idx$>-1)$@$',
'
',
'
',
'
',
'$@$endif$@$',
'
',
'$digest$',
'
',
'
',
'
',
'$@$endfor$@$',
'
',
'
'
]),
.tmp6_1 .box2 {
border-right:1px solid #D9D9D9;
height:199px;
left:0;
overflow:hidden;
position:absolute;
top:241px;
width:300px;
}
他们的订阅的内容基本分成4中类型 RSS/博客/微博/新闻, 各自在呈现方式上会略有不同。
页面呈现九宫格,分别可以订阅一个源,可能是上面四种中的一种。
点击进入一格之后,通过Ajax获取30篇条目(文章),
数据中包含文章的标题、摘要,包含的图片(数量地址尺寸等), 视频,音乐,评论分享等。
对30条目进行分页,根据第一篇文章的id取模Hash计算,每页随机得到2~7篇文章。
再根据每页最后一篇文章id简单的取模Hash获取到具体使用的模板。
使用js将数据套上模板即可。
用户翻了几页之后,数据获取完,则再获取30条内容,重新获模板显示。
可见展现上还是比较单薄的,一是模板偏少,而且并没有更具文章内容的长短,是否包含图片
及图片尺寸来选择更合适的模板。
从数据源上看,文章的id大多是连续的,目前并没有在内容的过滤和排序上做什么工作,
这个才是flipboard的核心,帮助用户过滤掉无用信息,更快发现有价值内容.
对内容怎么做排序呢?
文章的关键字,分类,文章的长度,是否包含图片及图尺寸,是否包含其他多媒体内容
文章的阅读数,评论数,转发数,分享数,相关性
编辑手工推荐,热点内容等
用户行为分析,标签,爱好(常阅读,收藏,分享),
用户关系分析,好友亲密度,好友发表推荐的。
觉得wordpress的编辑器不好用,还是Vim写东西方便。于是找到了插件vimpress在这里还有更新的版本
支持列表,发布,编辑,删除等功能,还支持目录和标签。赞一个
如何不输入密码ssh登陆另一台主机,比如从机器A上登录到机器B上,两台机器都为linux?
当A, B两台主机的用户名相同的时候,如都为userA,可以使用密钥的方法
ssh-keygen 在A机器上为userA生成公私钥
ssh-copy-id 将A上userA的公钥拷贝到B主机
然后userA即可以无需密码从A主机登陆到B主机了
如果两台主机的用户名不同,分别为userA和userB,怎么办?
这时候可以expect命令来帮忙完成。在主机A上写一个很简单的脚本,
loginB.sh,赋予可执行权限。
这个时候 只需要执行./loginB.sh 即可登陆B主机了,不过这样容易密码不太安全,
在不太担心密码安全的情况下,可以用这种方式。最好去掉所在用户组和其他用户的读、写以及执行权限。
对于这个如果有更好的方案,欢迎留言之争,谢谢。
还可以为常用的访问做一些alias,使得访问更方便, 比如第一种方式定义
alias s11=”ssh 192.168.2.11″
alias s32=”ssh 192.168.2.32″
第二种方式
alias s11=/home/userA/bin/login192.168.2.12.sh
alias s32=/home/userA/bin/login192.168.2.32.sh
等等。
Copyright © 2012 苇叶舟 All rights reserved. Theme by Laptop Geek.