題:
為什麼博客垃圾郵件總是寫得如此糟糕?
Lucas
2013-06-13 22:33:53 UTC
view on stackexchange narkive permalink

一些來自我的Wordpress過濾器的垃圾郵件:

如果您不完全理解某些內容,那麼提出問題實際上是一件令人愉快的事情,除非本文對此有所了解。 / blockquote>

感謝其他信息豐富的博客。我還能從哪裡獲得以理想方式書寫的這類信息?我有一個我正在從事的項目,並且一直在尋找此類信息。

基本上所有博客垃圾郵件都來自非英語語言國家,還是就該語言做出了某種戰術決策?我問是因為,當我第一次看到它時,我以為它們是真實的但不言而喻。

Google翻譯成俄語嗎?
相關:為什麼這麼多大型網站(Salon,Wired等)都有如此糟糕的反垃圾郵件評論過濾器。過濾掉“我的妻子/女朋友/剛剛賺了XX美元)將消除大量垃圾郵件。)
@LarsH:絕對是安全問題。根據定義,安全性是保護寶貴資源免遭敵對攻擊者利用。我的博客評論是寶貴的資源,我向您保證,它經常受到敵對方的攻擊。
@AJHenderson不能說相同的說法,例如台式機,那裡的計算機可以進行計算,與Internet連接,提供數據訪問等。闖入的人只是在使用它。問題是,我們只是不希望他們這樣做,所以我們有安全系統來阻止他們。阻止人們去做您不希望做的事情,或者對您的財產不做的事情,對我而言,這似乎是對安全性的定義。垃圾郵件過濾器適合這種情況,阻止人們發布他們想要的任何東西,因為該網站的所有者不想要它。
再說一遍,可以說我搶了一家銀行,這是一個安全問題。另一方面,如果我使用銀行來存儲我的非法資金,那不是銀行想要的業務(希望如此),但是我並沒有破壞他們的安全。我濫用了他們的服務,但我使用的是它的設計意圖,完全不是出於預期的原因。
@Lucas-這實際上只是語義上的事情,無論是哪種關聯(因為在兩種情況下它們仍然緊密關聯)或與我觀點有所不同,社區中的足夠多似乎都可以接受。我要指出的是,許多供應商本身都有反垃圾郵件和安全產品,他們將其視為兩個截然不同的地方。否則,它只是優質安全產品的功能,而該類別中沒有特別提及反垃圾郵件。但是我確實承認兩種觀點都有餘地,而且差異很小。
問題標題應該是“為什麼博客垃圾郵件總是寫得如此糟糕?”
兩個詞:模糊邏輯。即使不是不可能有效地進行預測,模糊邏輯也很難。
十 答案:
Eric Lippert
2013-06-14 01:31:36 UTC
view on stackexchange narkive permalink

垃圾郵件發送者通過獲取現有評論並通過同義詞庫程序運行它們來自動生成新評論,該同義詞庫程序將單詞替換為同義詞或相關詞性。結果是一個有道理的句子,但有一個單詞選擇,這是母語人士無法做到的:

我還能從哪裡得到...

她還能從其他地方得到...

,並且可以通過只需將代詞和同義詞替換為垃圾郵件文本即可。

我一直很懷疑是這種情況,但是最近我得到了證明。我現在偶爾會收到包含整個替換腳本的垃圾評論;就像這樣:

我無法[相信/理解/理解] [出色/卓越/驚人] [內容/信息/數據] ...

由於垃圾郵件發送者最初可能不是講英語的人,所以他們沒有註意到他們發送的是腳本而不是輸出。

如果您檢查了足夠大的語料庫垃圾郵件,您可以輕鬆找出他們使用的算法。編寫一個可以推論出語料庫所用算法的程序,在逆向工程中將是一個有趣的挑戰。 。

他們騙了你一次。

評論員TildalWave指出:

OP發布的示例垃圾郵件中沒有一個實際上支持任何產品,或以其他任何方式促成

好,讓我舉個例子:這是幾分鐘前在我的博客上發布的評論:

 用戶名:cuisinart緊湊型烤麵包機評論
用戶網址:toasterovenpicks.com用戶電子郵件:jeffryshuler@2-mail.com用戶IP:37.59.34.218評論內容:新娘和新郎擁有自己絕對全新的所有線索,實際上是一個姓氏被燒毀了,具有某種模式,幾乎感激的女孩認識到了他們醒目的姓氏,因此以獨特的方式印刷出來。內容只是嘗試通過垃圾郵件過濾器。 (我懷疑在這種情況下,文本不是現有文本的突變,而是由馬爾可夫過程在有關婚禮計劃的文檔集上生成的。) 

顯然,反垃圾郵件的力量正在此也是,這就是為什麼這是在我的垃圾郵件過濾器中的原因。我的垃圾郵件過濾器(akismet)平均每提交705個郵件就會通過一個垃圾郵件。同樣,這就是垃圾郵件發送者的目標。他們知道99.9%的工作將永遠不會被任何人看到。他們試圖在垃圾郵件過濾器中隨機探索誤報的空間,而這個空間確實變得很小。

好吧,他們沒有一次愚弄我,但是我當然考慮得太多了。
@TildalWave:當局部替換違反上下文相關規則時,句子變得不合語法。用“ is”代替“ am”,“ are”,“ were”,“ was”,“ been”或“ being”幾乎總是使句子不合語法或聽起來很奇怪。而對於英語語調和協議甚至是“正常”的規則是很奇怪的和容易出錯。
-1
@TidalWave,是一個古老的故事:鏈接垃圾郵件。有效負載位於嵌入垃圾郵件發送者用戶名的URL中,或類似的名稱。
-1
@TidalWave(和Eric)我肯定*確實*得到了鏈接到產品的類型。儘管它們並不是我真正感興趣的。在那些寫得不好的書中,有有效載荷的書佔了絕大多數。通常,它是一個無法解析的主機名和一些隨機生成的電子郵件地址。總而言之,大多數垃圾郵件屬於促進鏈接的種類,包括我張貼的兩個。但是許多根本沒有鏈接。
好答案。感謝您博客的見解。進行了有趣的閱讀。很高興,我不必擔心我的網站受到如此嚴重的打擊。
無法解析的主機名是一次啟動並提供一些未經請求的內容的主機名,但是現在已經關閉了(其中一些主機名先上升後又很快下降)。對於沒有鏈接的郵件,從郵件中刪除鏈接是很簡單的,有些人不阻止垃圾評論,而只是從中刪除鏈接,這導致出現很多看起來不真實的評論,沒有明顯的原因成為垃圾郵件,儘管如此。
我突然有最奇怪的衝動去買烤麵包機。
@TildalWave,甚至鏈接到其產品的遠程垃圾郵件也可能不包含文本。有些人只是試圖在受歡迎的網站與其鏈接農場之間建立關聯。他們了解這種關聯可以幫助提高其Google頁面排名。沒有一個完整的“人工網”,這些站點不為任何實際的人服務,但是搜索引擎蜘蛛無法分辨兩者之間的區別。從本質上講,他們正在竊取其垃圾博客的聲譽。
您提到有時會收到包含整個替換腳本的評論垃圾郵件。這是[此類腳本的完整示例](https://gist.github.com/shanselman/5422230)。
接收整個替換腳本太有趣了。 +1!
AbsoluteƵERØ
2013-06-14 05:24:15 UTC
view on stackexchange narkive permalink

該語言可能與TidalWave所談論的信號無關

一些無害的 spamdexing。

我已經在博客中獲得了第一個示例。儘管看上去無害,但他們實際上是在通過嘗試將其用戶帳戶(以及擴展名的網站鏈接)與以下用戶關聯來進行 spamdexing(有點“ black hat seo”)博客中的關鍵字(例如Xander所說的是營銷)。當您單擊鏈接時,它將被視為來自博客的正麵點擊。如果博客對於關鍵字搜索具有足夠的正面肯定,則其鏈接在關鍵字的相對性方面將獲得+1的提升。多數搜索引擎都已註意到這一點,並嘗試通過公式中的相關性匹配來防止出現這種情況。

不利的一面是,如果用戶因此垃圾郵件而離開您的網站而引起了一些話題,跳動),搜索引擎將對您的總體排名(由於缺乏實質性內容)以及您對包含主題外頁面的排名進行處罰。儘管垃圾郵件散佈與IT安全性無關(除非他們使用受感染的網站作為自己的URL),但如果有足夠的垃圾郵件發送者這樣做並在您的網站中將其擊倒,則確實會對網站的[社交]性能產生負面影響。

關於第二個示例,它包含兩個垃圾郵件操作的鉤子(在論壇中常見)。第一個發布者將創建一個帳戶,並發布一個看起來像是合理的問題的問題。

...我還能從哪裡獲得以這種理想方式編寫的此類信息? ...

稍後(20分鐘左右,甚至幾天)之內,另一個發布者(通常來自同一國家/地區,如果IP地址範圍不同)會創建一個新帳戶並發布答案,其中包含與原始海報問題相關的鏈接。由於大多數董事會主持人不會刪除真正的討論內容,因此他們的垃圾郵件再次騙了某人……儘管它仍在垃圾郵件中。一個更精心設計的營銷風格示例可能是:

我在[ http://www.example.com/]。您應該看一下,因為它們有很多與[更多關鍵字]相關的信息。

他們會做的其他一些技巧是使用簽名圖像,該圖像是透明的GIF,只有1像素乘1像素,並包裹在 <a>中標記。這將創建指向其他網站的鏈接,該網站位於張貼者鍵入其胡言亂語內容的任何位置。只是因為您看不到它,並不意味著它不存在。

不是那麼無害的垃圾郵件威脅會影響服務器安全性

一些最糟糕的情況垃圾郵件示例實際上將包含指向受感染網站的鏈接,或者將安裝 javascript鍵盤記錄器。 (我已經看到簽名行中使用了 SVG hack來注入惡意腳本。)鍵盤記錄器是您需要注意的一種,因為它們可以捕獲博客的用戶名和密碼。 / site admin或另一位特權較高的用戶,當他們嘗試登錄(或創建帳戶的任何用戶)在同一頁面上刪除垃圾郵件時。最好的情況是,如果用戶有足夠的權限來查看其他用戶,則攻擊者將從用戶下載電子郵件地址列表,並將垃圾郵件發送到針對市場的列表。 >

無辜的新用戶可能會竊取其憑據,並且由於大多數人在任何地方都使用相同的密碼和相同的電子郵件地址,因此現在他們在其他地方的帳戶可能遭到破壞。 (Facebook,LinkedIn等)

最糟糕的情況是,由於大多數CMS系統的Web開發人員都不希望具有“ skillz”的人通過以下一種方法(受信任)進入後端,因此並沒有做類似檢查所有XSS或MySQL注入管理表單的操作(我已經吸引了一些開發人員在此方法中偷工減料)。從XSS到SQL注入,它取決於安裝盒的安全性,用戶帳戶的限制(不要以root用戶身份運行Apache)以及讀/寫訪問權限。由於它們將位於CMS中,因此您可以假定用戶可能會在他們想要的框中寫任何東西。刪除數據庫,用後門感染網站...這是一個IT安全問題。

Dan Gayle
2013-06-14 08:57:09 UTC
view on stackexchange narkive permalink

我曾經工作過的公司曾經做過“旋轉”,作為上面提到的答案之一,它是以編程方式進行同義詞庫搜索並替換文本。但是,我們會在多個複雜的層中進行此操作。

  1. 我們實際上聘用了真實的美國作家來編寫原始副本。
  2. 這些原始作者會標記自己的使用我們創建的特殊語法對文檔進行標記,標記單詞,單詞分組,短語和整個句子,包括它們認為適合每種情況的同義詞。這意味著可以在不更改含義的情況下交換整個短語的同義詞。他們將在我們創建的文本編輯軟件中執行此操作,該軟件將為他們提供自動完成建議。
  3. 每次作家標記他們的文檔時,我們會將其所有同義詞和短語存儲在字典中
  4. 在機器上按一下GO,然後派出成百上千種變體。
  5. 向我們的菲律賓SEO團隊介紹各種變化,他們的唯一工作是發現過於笨拙的高級PR博客,論壇和其他網站。
  6. ol>

    有趣的是,我們從未使實際的投遞部件自動化,因為那是機器發現最容易的事情。

    啊,這是毀壞所有人的互聯網的美好時光。

涼。好吧,完全不酷。但是感謝您的分享。
你們為什麼這樣做?去賺錢 ?您如何通過垃圾郵件賺錢?中國付錢給大家破壞互聯網嗎?
@RitwikG:賺錢的方式是:CrappyToasterOvens.com的所有者打電話給您,說:**當有人搜索“烤麵包機結婚禮物”時,我們希望成為Google的第一名。實現它。**這就是您的工作。你打算怎麼做? Google會尋找*熱門網頁,這些網頁會使用關鍵字鏈接到其他網站*,因此您認為可以,我將在100萬個博客上添加100萬條評論,並用“烤麵包機結婚禮物”字樣和指向該網站的鏈接,以及*其中一些*將是受歡迎的博客。
在我看來,如果您對足夠多的文檔進行了此操作,則可以開始進行一些預測性處理,以確定可能的語法候選者。從本質上講,知識庫不僅會維護各種同義元素的集合,而且還會維護某些元素的通常排列方式(換句話說,是通過機器學習構建某種預測性分析樹)。將其用於生成可能不會給出最佳結果,但是我認為它對於建議書面文檔的標記可能很有用。
@EricLippert +1供烤箱參考;)
Alberto Santini
2013-06-14 04:00:21 UTC
view on stackexchange narkive permalink

我不知道您報告的文字是否是完整的評論(作為真正的評論還是垃圾郵件/詐騙,其目的是什麼?)。

並非如此-當垃圾郵件需要作為未來互動的前奏時-用可憐的英語寫它可能是故意的,作為對愚蠢的受害者的“檢查”可以立即識別該騙局,因此值得花時間。

來源: 為什麼尼日利亞騙子說他們來自尼日利亞?微軟研究部Herley。

+1提及Herley論文。上面的所有解釋都假設垃圾郵件發送者的數量很多,而這往往並非一成不變。
ahmed
2013-06-14 07:00:44 UTC
view on stackexchange narkive permalink

也許這不會回答OP的問題,但是這些垃圾郵件並不是要讓任何人購買任何東西。

重點是創建最大數量的評論,其中包含指向垃圾郵件發送者想要改善其PageRank的特定頁面或網站的鏈接。這些站點是誘使潛在購買者(或入侵潛在受害者的計算機,或兩者都有)的真實工作。

這就是為什麼幾乎每個垃圾郵件都至少具有一個鏈接的原因。如果沒有通過,則通常是特製的評論(“精彩的文章”,“感謝您分享此信息” ...),其目的是獲得評論的批准,並授予漫遊器直接訪問權限而無需通過審核隊列。因為在某些CMS和論壇中,當用戶達到最低數量的已批准郵件時,它將被“標記”為受信任的郵件,並且不需要每次都獲得批准。

因此,垃圾郵件並非針對人類,而是對於機器(搜索引擎)和垃圾郵件製造者來說,他們需要盡其所能來影響搜索引擎。因此,他們不會浪費時間在內容上,因為沒有人會讀它,而是專注於使大量消息變得更快,更簡單的機制。

總而言之,您不是目標,您只是附帶損害。

AJ Henderson
2013-06-13 23:09:06 UTC
view on stackexchange narkive permalink

這可能是兩者的結合。如果他們使用的語法不正確,那麼人們更有可能將其誤解為帖子的實際反饋,因為他們會嘗試以有意義的方式填補空白。最終,大多數此類垃圾郵件都試圖在網絡上散佈鏈接,以嘗試影響搜索排名。輕鬆地從真正的評論中退出。他們做出一般性的聽起來可能“可能”有效的回應,以期希望它們保持活動狀態。

在其他情況下,這是嘗試在評論中插入關鍵字以增加評論的結果鏈接與這些關鍵字的關聯。

AllInOne
2013-06-14 02:37:20 UTC
view on stackexchange narkive permalink

除了上面列出的出色答案之外,您的問題還存在很大的偏見。

您只會將製作精良的垃圾郵件博客帖子識別為博客垃圾郵件。您永遠不會把精心製作的博客垃圾視為博客垃圾。因此,似乎所有博客垃圾郵件的製作方式都不盡人意。

是嗎?

如果我花時間在博客上寫有思想,語法上正確,相關,有用的等內容,而這些恰好是出於別有用心的目的而添加鏈接-那是博客垃圾郵件嗎?
@emory不,這是市場營銷。 :-)
@Xander則是一個定義問題,而不是採樣偏差。如果我的自助博客文章製作不當,那麼它們就是博客垃圾郵件;如果他們做工精良,那麼他們就是營銷。博客垃圾郵件的定義很差。
其實不行如果我有一個非常成功的博客,那麼也許你可以這麼說,但是,從非垃圾郵件中分辨出垃圾郵件非常容易(我知道嗎,不,這很可能是垃圾郵件)。
您的回答讓我想起了這個(褻瀆)xkcd漫畫:http://xkcd.com/810/
@emory是的,我同意。
iHaveacomputer
2013-06-14 05:18:44 UTC
view on stackexchange narkive permalink

博客垃圾郵件發送者經常使用內容微調器。他們用同義詞替換單詞,這在理論上應該起作用,但實際上,它使註釋看起來像是4歲的孩子寫的;或沒有以英語為第一語言的人。

大多數內容微調器使用相同的語法(例如Eric Lippert的答案中的示例):

 我無法[相信/理解/理解] [出色/卓越/驚人] ] [內容/信息/數據] ...  

這意味著內容微調器將從每個括號中選擇一個隨機詞來構建句子。這樣,您可以獲得各種各樣的相似評論,而無需精確重複,如果反垃圾郵件插件使用md5這樣的校驗和將評論與以前的垃圾郵件進行比較,則使反垃圾郵件插件很難識別相似的內容。

servarevitas3
2013-06-14 20:37:20 UTC
view on stackexchange narkive permalink

他們可能正在使用這樣的模板: https://gist.github.com/shanselman/5422230,該模板最近意外發佈到了斯科特·漢塞爾曼(Scott Hanselman)的網站: http://正如其他人所提到的,需要做的就是編寫一個腳本,從括號中的列表中隨機抽取一個單詞。

MarmiK
2013-06-14 08:52:54 UTC
view on stackexchange narkive permalink

可以簡單地說,您必須了解SEO(搜索引擎優化)IT主要有2種類型的技術:1)黑帽和2)白帽

白帽確實做到了或真正的作品。

但是當您遇到麻煩時,他們開始創建用戶名,密碼或打開的博客列表的數目……他們一直在繼續發佈內容

第一個答案說,他們使用的智能軟件可以部分理解語言,並根據給定的關鍵字創建一個段落。

所以,這很有道理,但根本沒有道理...:)

我希望這對您的問題來說是有意義的。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...