• Hotline: 093.784.1299
  • HCM: 243 Huỳnh Văn Bánh, 12, Phú Nhuận
  • Hà Nội: VINACONEX 7, Cầu Diễn, Từ Liêm

Thử nghiệm dự đoán xếp hạng của Google với Machine Learning

Vào cuối năm 2015, các chuyên gia hàng đầu trong lĩnh vực SEO đã thực hiện một thử nghiệm với mong muốn dự đoán xếp hạng Google với một trang web cho sẵn có sử dụng Machine Learning. Dưới đây, DỊCH VỤ SEO NẮNG XANH tóm lược những kết quả tìm kiếm của họ, những điều họ muốn chia sẻ với cộng đồng SEO.

Thử nghiệm dự đoán xếp hạng của Google với Machine Learning

Machine Learning hiện nay nhanh chóng trở thàn một công cụ không thể thiếu với  nhiều công ty lớn. Có lẽ đa số mọi người đều từng nghe về thuật toán của Google từng chiến thắng trong cuộc thi World Champion in Go, cũng như là với các công nghệ như là RankBrain. Nhưng Machine Learning không phải là một chủ đề thần bí chỉ liên quan đến các nghiên cứu về toán học. Có rất nhiều nguồn tư liệu và công nghệ có thể tiếp cận được mà cho thấy sự hứa hẹn một vai trò rất hữu ích của Machine Learning trong bất kỳ lĩnh vực nào.

Machine Learning còn có khả năng biến SEO và website marketing truyền thống trở nên cải tiến hơn. Vào cuối năm ngoái, những chuyên gia SEO hàng đầu đã bắt đầu một cuộc thử nghiệm bỏ qua một số thuật toán Machine Learning phổ biến nhằm dự đoán thứ hạng trong Google. Họ đã kết thúc với việc đạt được con số 41% thực sự tích cực và 41% thực sự tiêu cực trong nguồn dữ liệu.

Trong phần dưới đây, DỊCH VỤ SEO NẮNG XANH muốn trình bày những điều các chuyên gia SEO đã thực hiện, và bàn luận về một số dữ liệu  cần thiết và công nghệ có quan trọng với SEOer.

Cuộc thử nghiệm

Vào cuối năm 2015, chúng ta bắt đầu được nghe nhiều hơn về Machine Learning và sự hứa hẹn của nó trong việc tạo hiệu quả cho phần lớn dữ liệu. Chúng ta càng đào sâu, thì càng phát hiện những chi tiết kỹ thuật, và nó nhanh chóng trở nên rõ ràng là nó sẽ hữu ích trong việc giúp cúng ta định hướng lĩnh vực này.

Vào khoảng thời gian này, họ đã tìm hiểu về nguồn dữ liệu khoa học phong phú từ Alejandro Simkievich. Điều thú vị mà họ được biết là Simkievich đã làm việc trong lĩnh vực những điều có liên quan đến tìm kiếm và tối ưu hóa tỉ lệ chuyển đổi, và cuộc thi Kaggle. Kaggle là một website tổ chức các cuộc thi về Machine Learning cho nhóm các nhà khoa học và người đam mê Machine Learning.

Simkievich là chủ sở hữu của Statec, một công ty tư vấn khoa học dữ liệu và Machine Learning, với những khách hàng lớn trong lĩnh vực hàng tiêu dùng, tự động, marketing, internet. Có rất nhiều việc Statec là tập trung vào mảng đánh giá sự liên quan của công cụ tìm kiếm thương mại điện tử. Và việc họ hợp tác với nhau là sự phối hợp tự nhiên, kể từ khi họ sử dụng dữ liệu để giúp khách hàng ra quyết định trong SEO.

Họ muốn thiết lập mục tiêu lớn, vì vậy họ quyết định xem liệu có thể sử dụng dữ liệu có sẵn từ scraping, rank tracker, công cụ link và một số công cụ khác để xem liệu họ có thể tạo nên các tính năng sẽ cho phép họ dự đoán xếp hạng của một trang web.

Dữ liệu

Về cơ bản, Machine Learning sử dụng các chương trình máy tính để lấy dữ liệu và chuyển đổi nó theo cách mà mang lại thông tin có giá trị. Chuyển đổi là một từ có ứng dụng rất lỏng lẻo, trong đó nó không hoàn toàn công bằng với tất cả những thứ có liên quam. Nhưng nó thực sự được lựa chọn để làm mẫu cho dễ hiểu. Vấn đề ở đây là tất cả Machine Learning đều bắt đầu với một số dữ liệu đầu vào.

Điểm mấu chốt là ho phải tìm các dữ liệu mà có thể sử dụng để hướng dẫn cho mô hình Machine Learning. Về điểm này, họ không biết chính xác là điều gì sẽ hữu ích, cho nên họ sử dụng một phương pháp tiếp cận nắm lấy nhiều thông tin mà họ có thể nghĩ đến. GetStart và Majestic từng là vô giá trong việc cung cấp rất nhiều dữ liệu cơ bản. Và họ đã xây dựng một trình thu nhập để nắm bắt tất cả mọi thứ.

Dữ liệu

Mục tiêu của họ là hoàn tất với dữ liệu để hướng dẫn một model thành công, điều này cũng có nghĩa là có nhiều dữ liệu. Đối với model đầu tiên, họ đã có khoảng 200.000 lượt quan sát ( theo hàng), và 54 thuộc tính (cột). Một chút cơ bản

Như Thiết kế web chuẩn SEO từng đề cập, là sẽ không đi quá chi tiết về Machine Learning. Nhưng cũng khá quan trọng để nắm bắt một số điểm chính để hiểu được phần tiếp theo. Tổng quan, đa số các Machine Learning làm việc lý tưởng với các  thuật toán hồi quy, phân loại và phân nhóm.

Dữ liệu

Thuật toán hồi quy thường hữu ích để dự đoán một số duy nhất. Nếu bạn cần tạo ra một thuật toán dự đoán giá cổ phiếu dựa trên các tính năng của cổ phiếu, bạn sẽ chọn loại mô hình này. Chúng được gọi là các biến liên tục. Phân loại các thuật toán được sử dụng để dự đoán một thành viên của một loạt các câu trả lời có thể. Đây có thể là phân loại đơn giản "có hoặc không", hoặc "màu đỏ, xanh lá cây hoặc màu xanh." Nếu bạn cần dự đoán liệu một người chưa biết là nam hay nữ từ tính năng, bạn sẽ chọn loại mô hình. Chúng được gọi là các biến rời rạc.

Machine Learning là một không gian  thiên về kỹ thuật, và nhiều công việc tiên tiến đòi hỏi sự quen thuộc với đại số tuyến tính, giải tích, ký hiệu toán học và ngôn ngữ lập trình như Python. Một trong những item đó đã giúp họ hiểu được dòng chảy tổng thể ở mức độ tiếp cận, mặc dù, là suy nghĩ của các mô hình Machine Learning như áp dụng trọng vào các tính năng trong các dữ liệu bạn cung cấp cho nó.  Các tính năng càng quan trọng, thì trọng lượng càng mạnh mẽ hơn.

Khi bạn đọc về "mô hình đào tạo", nó là hữu ích để hình dung một chuỗi kết nối thông qua các mô hình cho mỗi trọng lượng, và là mô hình làm  dự đoán, một hàm chi phí được sử dụng để cho bạn biết  phán đoán đó đúng hay sai; nhẹ nhàng hoặc nghiêm khắc, kéo chuỗi theo hướng câu trả lời đúng, điều chỉnh tất cả các trọng số.

Kết quả

Các số liệu mà họ nghĩ rằng sẽ mang tính đại diện để đo lường hiệu quả của mô hình này lại là một ma trận metrix. Một ma trận metrix là một bảng thường dùng để mô tả hiệu suất của một mô hình phân loại trên một tập hợp các dữ liệu thí nghiệm mà các giá trị thực sự được biết đến.

Với 100 kết quả cho mỗi từ khóa, một sự phán đoán ngẫu nhiên sẽ dự đoán chính xác “ không phải top 1” chiếm 90% thời gian. Các ma trận metrix đảm bảo tính chính xác của cả các trả lời tích cực và tiêu cực. Họ thu được khoảng 41% câu trả lời thực sự tích cực và ngược lại trong cùng mô hình tốt nhất.

Kết quả

Một cách khác để hình dung hiệu quả của mô hình này là bằng cách sử dụng đường cong ROC. Đường cong ROC là "một đồ họa minh họa hiệu suất của một hệ thống phân loại nhị phân là ngưỡng phân biệt đối xử của nó là đa dạng. Các đường cong được tạo ra bằng cách vẽ các tỷ lệ dương tính thật (TPR) so với tỷ lệ dương tính giả (FPR) ở thiết lập ngưỡng khác nhau. Mô hình tuyến tính là logistic hồi quy.

Kết quả

Làm thế nào để bắt đầu với Machine Learning

Chúng ta là những nhà tiếp thị tìm kiếm, sống trong một thế giới của dữ liệu. Nên điều quan trọng là chúng ta hiểu công nghệ mới cho phép chúng ta đưa ra quyết định tốt hơn trong công việc. Machine Learning có thể giúp chúng ta hiểu, từ biết ý định của người sử dụng của chúng ta tốt hơn  cho đến trang web nào mà hành động nào của website  mang lại hành động.

Đối với những người quan tâm đến Machine Learning nhưng choáng ngợp với sự phức tạp của nó, DỊCH VỤ SEO NẮNG XANH muốn giới thiệu Data Science Dojo. Có hướng dẫn đơn giản sử dụng Machine Learning Studio của Microsoft mà rất gần gũi với người mới. Điều này cũng có nghĩa là bạn không phải học mã trước khi xây dựng mô hình đầu tiên của bạn.

4.75 sao của 1666 phiếu bầu
Thử nghiệm dự đoán xếp hạng của Google với Machine Learning
Thử nghiệm dự đoán xếp hạng của Google với Machine Learning
Thuật toán Google Liên hệ Liên hệ Liên hệ
Xem thêm
Bạn muốn===>Tìm hiểu thêm

BÀI VIẾT LIÊN QUAN

Cập nhật thuật toán Google có ảnh hưởng gì tới SEO của bạn
Cập nhật thuật toán Google có ảnh hưởng gì tới SEO của bạn
Tất cả những chủ website đang nghiêm túc đầu tư vào tài sản và sự hiện diện online của họ nên nhận thức được những yếu tố xếp hạng mà Google dùng cho SEO.
Thuật toán mới nhất của google thảo luận thuật toán Google trong seo
Thuật toán mới nhất của google thảo luận thuật toán Google trong seo
SEO đã thay đổi rất nhiều trong thập kỷ qua. Ngày nay, nếu bạn muốn đứng vị trí đầu của công cụ tìm kiếm và tăng khả năng hiển thị thương hiệu của mình, bạn cần phải hiểu rõ hơn về người dùng của mình. Chúng tôi đồng ý...
Google áp dụng thuật toán ưu tiên các kết quả mới nhất?
Google áp dụng thuật toán ưu tiên các kết quả mới nhất?
Kết quả cho các sự kiện diễn ra thường xuyên cũng sẽ được thay đổi. Google sẽ cung cấp cho người dùng những thông tin cập nhật mới nhất. Đây là một sự thay đổi lớn đối với những fan thể thao, những người có thể không được...
Thuật toán Google và các lần cập nhật P1
Thuật toán Google và các lần cập nhật P1
Trải qua hơn 10 năm hoạt động,Google với biết bao nhiêu lần update để cải thiện bộ máy tìm kiếm được tốt hơn. Hôm nay tôi sẽ thống kê lại các lần thay đổi thuật toán chính của Google.
Google Caffeine hệ thống đánh chỉ mục mới của Google
Google Caffeine hệ thống đánh chỉ mục mới của Google
Với hình bên tay phải, bạn sẽ thấy sự khác biệt rõ ràng. Hệ thống caffeine sẽ cập nhận và phân tích website trên những phần nhỏ (website sẽ được chia nhỏ ra) và cập nhật các chỉ mục tìm kiếm liên tục và trên một diện rộng. Như...
Google Penguin có trừng phạt các link xấu hay không?
Google Penguin có trừng phạt các link xấu hay không?
Về mặt kỹ thuật, bạn không cần thiết phải sử dụng các file từ chối để giúp khắc phục các vấn đề Google Penguin của bạn. Trong bài viết này, DỊCH VỤ SEO NẮNG XANH sẽ cho biết lí do tại sao.
Thuật toán Panda Penguin ảnh hưởng đến link building
Thuật toán Panda Penguin ảnh hưởng đến link building
Nếu câu trả lời của bạn là có và tới bây giờ bạn vẫn bình an vô sự, thì bạn vẫn có thể là mục tiêu của thuật toán panda và Penguin. Sự sống sót may mắn của bạn làm bạn ngủ quên trên chiến thắng? Nhưng xin nhắc với bạn rằng...
Cách khắc phục khi bị thuật toán Penguin làm rớt hạng? seo web bị mất
Cách khắc phục khi bị thuật toán Penguin làm rớt hạng? seo web bị mất
Những ngày này, thế giới SEO lại chao đảo vì một cập nhật mới, và đi kèm với biến đổi đột ngột này là các đồn đoán về cập nhật thuật toán Penguin này, hay thuật toán khác. Thay vì mải lo lắng về các cập nhật thuật toán (...
Thuật toán Penguin là gì? Penguin ảnh hưởng đến SEO website như nào
Thuật toán Penguin là gì? Penguin ảnh hưởng đến SEO website như nào
Những ngày qua, song hành với sự chuyển biến mạnh mẽ trong thứ hạng kết quả tìm kiếm trên Google, giới làm SEO toàn cầu lại có những phỏng đoán: “ Liệu có phải sự cập nhật này có liên quan đến thuật toán Penguin hay không?”. Vậy thuật toán Penguin là gì?
093.784.1299
Mục lục