维基百科:机器人/申请/Cewbot/8

维基百科,自由的百科全书

Cewbot 8

  • 狀態 已批准

測試運作記錄/範例:User:cewbot/log/20151002,歡迎提供各種特殊情況以作測試,並請協助檢查錯誤。 --Kanashimi留言2015年10月2日 (五) 16:57 (UTC)[回复]

Checkwiki范围太大了,请具体列出意图修复的错误类型。--Jimmy Xu 2016年2月1日 (一) 08:01 (UTC)[回复]
謝謝回應。本次作業預計先從能安全辨識並修正的Priority:high開始,再往middle移動。當前準備先處理的,有 #2,5,8,10,13,29,80,102等。--Kanashimi留言2016年2月1日 (一) 08:31 (UTC)[回复]
各给点样例吧。而且刚随便看了看,比如80的16個夏天,这个外部链接就是故意写成这样的,能处理么?--Jimmy Xu 2016年2月1日 (一) 08:39 (UTC)[回复]
樣例請參考 User:Cewbot/log/20151002,這邊會再添加些。像是16個夏天,會因為找不到合適的 "]]",最後跳過,顯示成"尚留有需要人工判別之..."之類。--Kanashimi留言2016年2月1日 (一) 09:12 (UTC)[回复]
看log感觉还是跑一跑就能碰到问题及需要回退。之前这种bot跟改错别字的一样社群都不太喜欢来着,感觉能接受的就是所有编辑都人工检查一遍再提交。要么你调整满意了再跑一百次编辑看看吧。--[[User:::::::|Jimmy Xu]] 2016年2月1日 (一) 23:15 (UTC)[回复]
OK. 待完成再回報。--Kanashimi留言2016年2月2日 (二) 00:10 (UTC)[回复]
Done. 基本上這邊僅處理確認屬於本次任務之 pattern。對於無法解析或有問題者,跳過不處理之。採取的是寧可漏判 (false negative) 也不誤判 (false positive)。因此較不需要擔心。想順便請教一下現在最大延遲參數怎麼設的,雖然這邊設定5秒,但還是會遇上 lost token?--Kanashimi留言2016年2月2日 (二) 02:02 (UTC)[回复]
再快一點的話就會lost token,建議可以放慢速度。--Engle躍丙申年快到了,釋放幸福吧! 2016年2月2日 (二) 02:05 (UTC)
這邊的困惑是因為網路延遲,實際呼叫一定大於 5 s,所以照理應該總是符合最大延遲參數。假如不是最大延遲參數的問題,恐怕就是其他地方得做調整了。之前只在連續幾天跑User:cewbot/log/20150109時遇過這樣的問題,但那時是量大。這次只跑到100頁就出問題了。--Kanashimi留言2016年2月2日 (二) 02:21 (UTC)[回复]
不影响解析的不要专门去修,如果这页有换行的顺便改改就好,没有的直接跳过吧。还有这一拨为什么只有80,你还想搞啥都跑10个看看吧。API的问题来IRC,有点不知道你在说什么……--Jimmy Xu 2016年2月2日 (二) 03:35 (UTC)[回复]
@Kanashimilost的是csrf token还是user token?--Antigng留言2016年2月2日 (二) 08:21 (UTC)[回复]
@Jimmy Xu: 不影響解析的不要專門去修,如果這頁有換行的順便改改就好: OK. @Antigng: csrf吧。
log: 連續4次都是:
wiki_API.edit: Error to edit ....: [badtoken] Invalid token
wiki_API.prototype.next: It seems we lost the token.
wiki_API.prototype.next: No password to get token again. About.
不確定與Tech News: 2016-05有無關係。
之後改成 5010 ms,準備看看結果。 --Kanashimi留言2016年2月2日 (二) 08:36 (UTC)[回复]
@Kanashimi,发现csrf token过期时你有没有检查过user token/session是否过期呢?--Antigng留言2016年2月2日 (二) 08:40 (UTC)[回复]
沒debug,就沒注意了。但login兩三分鐘內,應該不至於過期。--Kanashimi留言2016年2月2日 (二) 08:46 (UTC)[回复]
edittoken每次edit之前都新拿一个,不要像之前那样拿一次编辑几十条。--Jimmy Xu 2016年2月2日 (二) 08:52 (UTC)[回复]
您的意思是重跑一次 action=query&meta=tokens 嗎?--Kanashimi留言2016年2月2日 (二) 09:04 (UTC)[回复]
是。--Jimmy Xu 2016年2月2日 (二) 09:08 (UTC)[回复]
機械軟件總覺得好像被強迫更新了。重抓token吧!--Engle躍丙申年快到了,釋放幸福吧! 2016年2月2日 (二) 09:10 (UTC)
OK. I'll try. @Jimmy Xu: 您在編輯時是否有經過重整程式呢,例如{{反縮排}}會轉成{{od}}。--Kanashimi留言2016年2月2日 (二) 09:12 (UTC)[回复]
我的第一个任务(User:Antigng-bot/checkredirect)是取一个edittoken做一次编辑。后来为了提高编辑速度做了多线程的支持,用一个单独的线程获取csrf token,如果某一个线程提交编辑以后发现invalid token就把该线程唤醒,重新跑一次action=query&meta=tokens。之前csrf token过期的速度不是确定的,做User:Antigng-bot/fix的时候一小时都没过期,有的时候十几分钟就过期了。但如果现在由于种种原因编辑不足100次就一定会过期,那我什么事情都做不了了。--Antigng留言2016年2月2日 (二) 09:18 (UTC)[回复]
本来就不是给你这么用的。--Jimmy Xu 2016年2月2日 (二) 09:19 (UTC)[回复]
怎么用?--Antigng留言2016年2月2日 (二) 09:27 (UTC)[回复]
合同里从来没说过会什么时候过期啊,所以依赖这个过期时间的行为肯定不靠谱啊。--Jimmy Xu 2016年2月2日 (二) 09:32 (UTC)[回复]
我说的“事情都做不了”指效率比现在低,不是程序会死。--Antigng留言2016年2月2日 (二) 09:36 (UTC)[回复]
本来bot的编辑频率也不要那么高。--Jimmy Xu 2016年2月2日 (二) 09:39 (UTC)[回复]
@小躍"機械軟體總覺得好像被強迫更新了" 您的意思是因為這次MediaWiki 系統更新嗎?--Kanashimi留言2016年2月2日 (二) 09:20 (UTC)[回复]
對,所以吉米請你重抓。--Engle躍丙申年快到了,釋放幸福吧! 2016年2月2日 (二) 09:22 (UTC)
phab:T124440会不时地让用户登出,不知道和阁下观察到的现象有没有关系。--Antigng留言2016年2月2日 (二) 09:24 (UTC)[回复]
今天我看到有裸露IP的跡象。自己翻翻看Special:最近更改,我不再多言述。--Engle躍丙申年快到了,釋放幸福吧! 2016年2月2日 (二) 09:32 (UTC)
@Jimmy Xu: 已做了些測試,麻煩再看一下。--Kanashimi留言2016年2月2日 (二) 12:00 (UTC)[回复]
2: 包含不正確的<br />
5: HTML注釋未首尾對應
8: 章節標題未以「=」結尾
10: 連結方括號未對應
13: 數學 tag 未首尾對應
15: 代碼 tag 未首尾對應
14: 源代碼 tag 未首尾對應
23: nowiki tag 未首尾對應
24: pre tag 未首尾對應
29: 圖片集 tag 未首尾對應
80: 外部連結中起新行或含有不必要的空格
102: PMID語法錯誤
若全無變更,則預設僅從 console 提示,不寫入 log 頁面。因此無變更者將不顯示。
關於登出的問題,看來恐需要連 HTTP handler 都重換一個,重起 cookie。--Kanashimi留言2016年2月3日 (三) 00:17 (UTC)[回复]
2写<​/br>的不影响渲染,不要专门去修。双哈恩多项式这是在干啥,而且多几个空格也不是问题。这个可以更灵活点。本来就太乱的不要垃圾进垃圾出。--Jimmy Xu 2016年2月3日 (三) 00:57 (UTC)[回复]
感謝幫忙糾錯。除了<​/br>外已修改。關於<​/br>,由於留著的話還是會被列在list,我想還是改改好了。--Kanashimi留言2016年2月3日 (三) 06:01 (UTC)[回复]
列在那儿不是制造无意义编辑的理由,别看就是了……看到测试编辑的这些应该问题不大,其他的想放开跑的话拿diff来吧。--Jimmy Xu 2016年2月3日 (三) 07:06 (UTC)[回复]
10、80、102已批准。--Jimmy Xu 2016年2月3日 (三) 07:06 (UTC)[回复]
謝謝--Kanashimi留言2016年2月3日 (三) 07:10 (UTC)[回复]