關於如何使用深度學習優化自動化標題標籤的建議



在您的SEO排名中領先的快速方法是在其標題標籤中包含排名最高的關鍵字。如果您仔細考慮一下,您將意識到它確實是一個明智的解決方案。如果您的頁面已經在某個關鍵字上排名,而標題中沒有該關鍵字,請想像一下在標題中包含關鍵字的重要性。自然,您會為該關鍵字建立索引的頻率更高;因此,您排名更高。

現在,如果我們採用了該關鍵字並將其添加到您的“元描述”中,它們將在搜索結果中突出顯示,這意味著更多的搜索引擎用戶可能會點擊。當然,這將使網站受益。

想像塞馬爾特正在一個擁有數百,數千或數百萬個頁面的網站上工作。如果我們必須手動執行此操作,則將很耗時,並且很快就會變得非常昂貴。那麼我們怎樣才能分析它的頁面並優化每個標題和元描述呢?解決方案是使用機器。通過教機器在每個頁面上找到排名最高的關鍵字,我們可以節省時間和成本。使用機器最終可以比數據輸入團隊更快更好地執行。

讓我們重新介紹Uber的路德維希和Google的T5

通過結合Uber的Ludwig和Google的T5,您將擁有一個功能強大的系統。

總而言之,Ludwig是一個開源自動ML工具,它允許用戶訓練高級模型而無需編寫任何代碼。

另一方面,Google T5是SERT樣式模型的高級版本。 T5可以匯總,翻譯,回答問題和對搜索查詢進行分類以及許多其他功能。簡而言之,它是一個非常強大的模型。

但是,沒有跡象表明T5已經針對標題標籤優化進行了培訓。但是也許我們可以做到,這就是方法:
  • 我們得到一個訓練有素的數據集,其中包含以下示例:
    • 沒有我們的目標關鍵字的原始標題標籤
    • 我們的目標關鍵字
    • 使用目標關鍵字優化標題標籤
  • T5調優代碼和要使用的教程
  • 擁有一組尚未優化的標題,以便我們可以測試模型
我們將從一個已經創建的數據集開始,並且將提供有關如何創建該數據集的指南。

T5的作者很慷慨,可以為我們提供詳細的Google Colab筆記本,我們可以用它來微調T5。花時間研究它之後,我們能夠回答任意瑣事問題。 Colab筆記本還提供了有關如何微調T5進行新任務的指南。但是,當您查看代碼更改和所需的數據準備時,會發現它涉及很多工作,並且我們的想法可能很完美。

但是,如果更簡單呢?感謝幾個月前發布的Uber Ludwig版本3,我們結合了一些非常有用的功能。路德維希3.0版隨附:
  • 一種超參數優化機制,可從模型中獲得額外的性能。
  • 與Hugging Face的Transformers存儲庫的無代碼集成。這使用戶可以訪問更新的模型,例如GPT-2,T5,DistilBERT和Electra,以執行自然語言處理任務。其中一些任務包括分類情感分析,命名實體識別,問題解答等等。
  • 它是更新,更快,模塊化的,並且具有更多依賴TensorFlow 2的可擴展後端。
  • 它提供對許多新數據格式的支持,例如Apache Parquet,TSV和JSON。
  • 它具有開箱即用的K折交叉驗證功能。
  • 與權重和偏差集成後,它可以用於管理和監視多個模型訓練過程。
  • 它具有支持噪音標籤的新矢量數據類型。如果我們要處理薄弱的監督,那將派上用場。
有幾個新功能,但我們發現與Hugging Face的變形金剛的集成是最有用的功能之一。擁抱面部管道可用於顯著改善標題和元描述生成的SEO工作。

使用管道非常適合在已經訓練好並且已經在模型塊中使用的模型上運行預測。但是,目前尚無模型可以完成我們需要的工作,因此我們將Ludwig和Pipeline結合起來,為網站上的每個頁面創建了強大的自動標題和元描述。

我們如何使用路德維希微調T5?

這是一個重要的問題,因為我們試圖向客戶確切說明其網站背景中發生了什麼。在這附近有一個陳詞濫調,“使用路德維希訓練T5很簡單,我們應該考慮將其定為非法。”事實是,如果我們不得不僱用一位AI工程師來做類似的事情,我們本來會向客戶收取更高的費用。

在這裡,您將了解我們如何微調T5。
  • 第1步:打開一個新的Google Colab筆記本。之後,我們將運行時更改為使用GPU。
  • 我們下載已經放在一起的Hootsuite數據集。
  • 然後,我們安裝路德維希。
  • 安裝後,我們將訓練數據集加載到pandas數據框中,並對其進行檢查以查看其外觀。
  • 然後,我們面臨最大的障礙,即創建正確的配置文件。
要構建完美的系統,需要T5的文檔以及不斷的反複試驗,直到我們正確為止。 (如果您可以在此處找到要生成的Python代碼,這將大有幫助。)

確保檢查輸入和輸出功能詞典,並確保正確接收了設置。如果操作正確,Ludwig將開始使用“ t5-small”作為運行模型。對於較大的T5模型,更容易在模型中心中進行更改,並有可能提高其生成能力。

在訓練了幾個小時的模型之後,我們開始獲得令人印象深刻的驗證準確性。

請務必注意,路德維希會自動選擇其他重要的文本生成度量,主要是困惑度和編輯距離。這兩個數字都很適合我們。

我們如何使用訓練有素的模型來優化標題

對我們的模型進行測試是真正有趣的部分。

首先,我們下載具有未優化的Hootsuite標題的測試數據集,而該模型在訓練中仍未被模型看到。您將可以使用以下命令預覽數據集:

!頭

Hootsuite_titles_to_optimize.csv

非常令人印象深刻的是,路德維希(Ludwig)和T5在任何小型訓練集下都可以做很多事情,而且它們不需要高級超參數調整。正確的測試取決於它如何與我們的目標關鍵字互動。它融合得如何?

使用Streamlight構建標題標籤優化應用

內容作者發現此應用程序最有用。擁有不需要太多技術知識的簡單易用的應用程序,這會不會令人驚奇?嗯,這就是Streamlight的用途。

它的安裝和使用非常簡單。您可以使用以下方法安裝它:

!pip安裝精簡

我們創建了一個利用此模型的應用程序。在需要時,我們可以從訓練模型的同一位置運行它,也可以將已經訓練好的模型下載到計劃運行腳本的位置。我們還準備了一個CSV文件,其中包含我們希望優化的標題和關鍵字。

現在,我們啟動該應用程序。為了運行模型,我們需要提供CSV文件的路徑,該文件包含我們希望優化的標題和關鍵字。訓練Ludwig時,CSV列名稱必須與名稱匹配。如果模型不能優化所有標題,那麼您就不必驚慌。獲得體面的數字也是向前邁出的一大步。

作為Python的專家,我們對此感到非常興奮,因為它通常會抽血。

如何生成自定義數據集進行訓練

使用Hootsuite標題,我們可以訓練對我們的客戶而言效果很好但對他們的競爭對手而言可能默認的模型。這就是為什麼我們確保生成自己的數據集的原因,這就是我們的處理方式。
  • 我們利用Google Search Console或Bing網站管理員工具中的數據。
  • 另外,我們也可以從SEMrush,Moz,Ahrefs等提取客戶的競爭數據。
  • 然後,我們為標題標籤編寫腳本,然後拆分具有和不具有目標關鍵字的標題。
  • 我們採用已使用關鍵字優化的標題,並用同義詞替換關鍵字,或者我們使用其他方法來使標題“未優化”。

結論

塞馬爾特 在這裡可以幫助您自動優化標題標籤以及元描述。這樣,您可以在SERP上保持領先地位。分析網站絕非易事。這就是為什麼訓練一台機器來幫助我們做到這一點的原因,不僅可以節省成本,而且可以節省時間。

在Semalt,有專業人士將建立您的數據集,Ludwig和T5,以便您始終保持勝利。

給我們打電話吧。

mass gmail